WDF*P*IDF
Die Formel WDF*P*IDF ist ein wichtiger Bestandteil der SEO-Textoptimierung und taucht immer häufiger in Artikeln oder Beiträgen rund um dieses Thema auf.
Donna Harman, Informationswissenschaftlerin, erwähnte den Terminus WDF*P*IDF erstmals im Jahr 1992 in ihrem Werk „Ranking algorithms“. Er dient dazu, die Keyword-Relevanz in einem Text auszudrücken und darzustellen. Dadurch ist es möglich, einen Vergleich zu anderen Texten herzustellen. Der Terminus lässt sich demnach in zwei Teile aufsplitten: WDF und IDF, wobei WDF die Keyword-Relevanz innerhalb eines Textes ausdrückt, IDF hingegen ein Verhältnis zwischen dem eigenen Text und allen anderen, im Internet vorhandenen Texten, in Bezug auf ein bestimmtes Keyword herstellt.
WDF*P*IDF dient vor allem einem Zweck: Die Informationssuche im Internet auf Basis eines Keywords soll verbessert werden, da die eigene Website mithilfe des Algorithmus hervorragend an das Suchmaschinen-Ranking von Internetsuchmaschinen wie beispielsweise Google oder Yahoo angepasst werden kann.
Was genau ist WDF?
WDF, oder „Within Document Frequency“, gibt die Wiederholungsrate einzelner Wörter innerhalb eines Textes an. Im Vergleich zur Keyword-Dichte, oder Keyword-Density, welche die prozentuale Verwendung eines Wortes in einem Text im Verhältnis zur Gesamtzahl der Wörter angibt, kann mithilfe der WDF-Methode der gesamte Text und alle darin enthaltenen Wörter analysiert werden. Dadurch ist es möglich, ungewollte Wort-Wiederholungen bewusst zu vermeiden. Außerdem lässt sich genau erkennen, welches das zweithäufigste-, dritthäufigste Wort, etc. eines Textes ist. Im übertragenen Sinne könnte man sagen, man erhält den Bauplan des Textes, gewissermaßen eine Art DNA.
Dennoch erfahren auch bei der WDF-Methode einzelne Wörter eine besondere Gewichtung, denn neben der gezielten Vermeidung einer Übergewichtung eines einzelnen Wortes, soll primär die Verwendungshäufigkeit eines oder mehrere Keywords dargestellt werden. Aufgrund dessen werden in dem Algorithmus, ähnlich wie bei der Keyword-Density, nicht nur die Keywords, sondern auch die Gesamtlänge des Textes berücksichtigt. Das Ergebnis drückt aus, wie hoch die Relevanz eines einzelnen Wortes für den Inhalt des Textes ist.
Das nachfolgende Beispiel veranschaulicht den Sachverhalt: Gesucht wird ein informativer Text über Buchmacher im Internet und die dort angebotenen Wett-Boni. Wichtig ist daher das Wort „Wettbonus“. Betrachtet werden zwei Texte mit unterschiedlicher Gesamtlänge. Ein Text besteht aus 1000 Wörtern, der andere nur aus 100 Wörtern. Im längeren Text wird das Wort „Wettbonus“ zwölf Mal verwendet, im kurzen Text hingegen nur zehn Mal.
Bei objektiver Betrachtung des oben genannten Beispiels kommt man zu dem Schluss, das die Relevanz des Wortes „Wettbonus“ im kurzen Text deutlich höher ist als im längeren Text, obwohl die Anzahl der Wiederholungen geringer ist. Der Logarithmus WDF soll also sicherstellen, dass ein objektiver Vergleich zwischen einzelnen Texten möglich ist und Manipulationen weitestgehend ausgeschlossen werden können. Internetsuchmaschinen können so effektiver Arbeiten und dem Nutzer deutlich verbesserte Suchergebnisse zur Verfügung stellen.
Das oben genannte Beispiel soll nun aufgrund der WDF-Methode berechnet werden:
i = Keyword
j = Dokument
L = Anzahl der Wörter
Beispiel: Der Text mit einer Gesamtlänge von 1000 Wörtern beinhaltet das Keyword zwölf Mal.
Freq (i,j) = 12
L = 1000
Jedes Ergebnis über einem Wert von 0,1 deutet auf eine hohe Relevanz eines bestimmten Wortes in einem Text hin. Um jedoch ein aussagekräftiges Ergebnis in Bezug auf alle vorhandenen Texte im Internet zu erhalten, muss dieser Wert im Anschluss mit dem IDF und dem Korrekturfaktor „P“, auf den im Text nicht weiter eingegangen wird, da es sich lediglich um eine mathematische Korrektur handelt, multipliziert werden.
Was genau ist IDF?
Der IDF-Logarithmus, oder „Inverse Document Frequency“, untersucht andere Dokumente im Internet nach der Verwendungshäufigkeit eines bestimmten Keywords. Er untersucht zuzusagen die DNA anderer Texte und gibt an, wieviel das besagte Wort zur Entstehung des gesamten Textes beigetragen hat.
Als Schlussfolgerung daraus lässt sich ziehen, dass Wörter, die in Text auf vielen anderen Seiten ebenfalls vorkommen, als Vergleichsfaktor ungeeignet sind. Sinnvoller ist es also, Seiten im Internet zu betrachten, die auf die Verwendung des bestimmten Keywords gänzlich verzichten.
Die Formel zur Berechnung des IDF wirkt zunächst komplex, stellt bei genauer Betrachtung jedoch einen gewöhnlichen Bruch dar:
Nd = Anzahl aller Dokumente
ft = Anzahl aller Dokumente, die das Wort enthalten
Da die Anzahl aller Dokumente, die im Internet enthalten sind, durch die Anzahl aller Dokumente, die das Wort tatsächlich enthalten, dividiert wird, bedeutet ein großer Ergebniswert ein dementsprechend gutes Resultat.
Für Verwirrung sorgt häufig der Wert „Nd“, denn die Anzahl aller Dokumente, gemeint sind Internetseiten im World Wide Web, ist schließlich nicht bekannt. Die Anzahl spielt jedoch für die eigentliche Berechnung nur eine untergeordnete Rolle, denn berechnet werden soll kein exaktes Ergebnis, sondern lediglich eine Gewichtung. Dementsprechend sollte der Wert „Nd“ sinnvoll geschätzt werden – häufig wird der Wert 84.000 verwendet.
Wie lautet die Quintessenz der Formel WDF*P*IDF?
Um die Frage verständlich beantworten zu können, müssen zunächst beide Annahmen erörtert werden, die dem WDF*P*IDF Terminus zugrunde liegen:
- Je häufiger ein Wort, ein Keyword, in einem Text vorkommt, desto größer ist dessen Bedeutung für den gesamten Text. Anhand dieses Keywords lässt sich also der Inhalt des Textes beschreiben.
- Keywords, die in vielen anderen Dokumenten auch vorkommen, haben keine so große Relevanz wie Keywords, die nur in sehr wenigen anderen Texten vorkommen – diese haben demnach eine spezifische und hohe Bedeutung für bestimmte Themen.
Die Verwendung der Formel WDF*P*IDF macht also vor allem bei Internetseiten mit vielen Textbausteinen Sinn. Da immer mehr Seiten im Internet SEO optimiert sind, kann mithilfe dieses Terminus ein sehr guter Vergleich zu Mitbewerbern gezogen werden. Dadurch kann die eigene Website verbessert werden, um im Suchmaschinen-Ranking die berühmte „Nasenlänge“ Vorsprung zur Konkurrenz zu haben.
Um die eigene Seite jedoch abschließend zu optimieren, sollten selbstverständlich weitere Gesichtspunkte miteinbezogen werden, denn Internetsuchmaschinen verwenden nicht nur die WDF*P*IDF Methode, sondern analysieren auch Seitentitel, Meta-Tags, Zwischenüberschriften und viele weitere Faktoren.
Fragen? Rufen Sie uns an!
Wir bieten Ihnen eine kostenlose Erstberatung. Fordern Sie gleich weitere Informationen an.