Enthüllung der Google Suchalgorithmus-Dokumente sorgt für Diskussionen in der SEO-Gemeinschaft
May 30, 2024
Die Enthüllung eines umfangreichen Lecks von Googles Suchalgorithmus-Dokumentation sorgt in der SEO-Gemeinschaft für Aufsehen. Ein Mann namens Erfan Azimi hat diesen Datensatz an Rand Fishkin von SparkToro weitergeleitet, der wiederum Michael King von iPullRank zur Verbreitung hinzuzog. Die Daten stammen aus einem Google-API-Dokument, das unter dem Namen „yoshi-code-bot/elixer-google-api“ eingecheckt wurde, was bedeutet, dass es sich nicht um einen Hack oder eine Whistleblower-Aktion handelte.
Die SEO-Community ist traditionell in drei Lager gespalten: Die einen glauben allem, was Google sagt, die anderen misstrauen Google vollständig, und die dritten glauben, dass Google manchmal die Wahrheit sagt, aber alles getestet werden muss. Dieses Leck könnte viele dazu bringen, ihre Ansichten zu überdenken.
Die durchgesickerten Dokumente decken über 14.000 mögliche Ranking-Signale auf und bieten einen bisher nicht dagewesenen Einblick in das streng gehütete System der Suchrankings von Google. Zu den Schlüsselpunkten des Lecks gehören unter anderem sieben verschiedene Arten von PageRank, darunter der bekannte ToolBarPageRank, sowie spezifische Methoden zur Identifizierung verschiedener Geschäftsmodelle wie Nachrichtenseiten, YMYL-Seiten, persönliche Blogs, E-Commerce und Videosites.
Die wichtigsten Komponenten von Googles Algorithmus scheinen navBoost, NSR und chardScores zu sein. Darüber hinaus verwendet Google eine standortweite Autoritätsmetrik und einige standortweite Autoritätssignale, einschließlich des Traffics von Chrome-Browsern. Google misst außerdem schlechte Klicks, gute Klicks, Klicks, die letzten am längsten dauernden Klicks und standortweite Impressionen.
Ein besonderer Fokus liegt auf der Qualität der Seite (pageQuality, PQ), bei der Google anscheinend ein LLM verwendet, um den „Aufwand“ für Artikel zu schätzen. Diese Werte könnten Google dabei helfen festzustellen, ob eine Seite leicht repliziert werden kann oder nicht. Werkzeuge, Bilder, Videos, einzigartige Informationen und die Tiefe der Informationen scheinen wichtige Faktoren für die Berechnung des „Aufwands“ zu sein.
Es wird auch die Existenz von thematischen Grenzen und thematischer Autorität angedeutet, basierend auf Googles Patentforschung. Im Dokument werden siteFocusScore, siteRadius, siteEmbeddings und pageEmbeddings als Ranking-Faktoren genannt. Diese beziehen sich darauf, wie sehr eine Seite auf ein spezifisches Thema ausgerichtet ist, wie weit Seiteninhalte von der thematischen Identität einer Seite abweichen und wie Google die thematische Identität einer Webseite sowie jeder einzelnen Seite erstellt.
Das Leck deutet darauf hin, dass Google nicht nur nach der Qualität von Inhalten urteilt, sondern auch die Nähe zum Thema (NS) und die Qualität der Seite (PQ) im Zusammenhang mit der thematischen Autorität sieht. Darüber hinaus wird angenommen, dass Google mit OnsiteProminence arbeitet, um zu identifizieren, wie eng bestimmte Seiten mit hoch frequentierten Seiten in Verbindung stehen.
Die Bildqualität wird anscheinend anhand von Klicksignalen gemessen, die Nützlichkeit, Präsentation, Attraktivität und Einbindung umfassen. Es ist noch nicht bekannt, ob diese Aspekte als Wörter gelten, aber sie sind interessant für die Bewertung des Suchrankings.
Ein weiterer wichtiger Aspekt ist der Host NSR, der für den standortweiten Rang berechnet wird und nsr, site_pr und new_nsr codiert. Es scheint, dass Google Teile einer Domain in Bereiche unterteilt und diesen Bereichen einen Rang zuweist, was darauf hinweist, dass Google dies auf einer Seite-für-Seite-, Absatz- und thematischen Basis tut.
NavBoost ist ein weiteres häufig erwähntes Ranking-Element, das auf Klickprotokollen des Benutzerverhaltens basiert. In jüngster Zeit zwang ein Gerichtsverfahren Google dazu, zuzugeben, dass es sich sehr stark auf Klickdaten verlässt. Chrome-Daten werden hierbei explizit verwendet, was sich möglicherweise auch auf Android-Geräte erstreckt.
Die Alterung des Hosts (HostAge) wird im Zusammenhang mit einer Sandbox für frischen Spam während der Auslieferungszeit erwähnt, was darauf hindeutet, dass das Alter einer Website keine Rolle bei der Bewertung spielt.
Die Dokumente legen auch nahe, dass Google jede Version einer Webseite aufzeichnet und dass nur die letzten 20 Versionen eines Dokuments verwendet werden. Wenn eine Seite aktualisiert wird und der Vorgang 20 Mal wiederholt wird, könnten bestimmte Versionen der Seite effektiv verdrängt werden.
Abschließend muss man beachten, dass nicht bekannt ist, in welchem Umfang Google diese Bewertungsfaktoren verwendet. Der Großteil des Algorithmus ist ein Geheimnis. Die hier wiedergegebenen Gedanken basieren auf dem, was in diesem Leck zu sehen ist, und dem, was durch das Studium von drei Jahren Google-Patenten gelernt wurde.
Diese Enthüllungen werfen viele Fragen auf, einschließlich warum Google speziell nach persönlichen Blogs sucht, obwohl sie öffentlich behauptet haben, keine Domain- oder Standortautoritätsmessung zu haben, und warum sie über die Verwendung von Klickdaten gelogen haben könnten. Obwohl es keine konkreten Antworten gibt, handelt es sich um Geheimnisse, die die SEO-Gemeinschaft gerne verstehen würde.