Googles neue Crawler für Bild und Video revolutionieren die Suche im Internet

May 17, 2024

Die Welt des Internets ist ein ständig in Bewegung befindliches Ökosystem, in dem Suchmaschinen wie Google eine Schlüsselrolle spielen. Sie sind nicht nur für Nutzer das Tor zum weltweiten Netz, sondern auch für Webseitenbetreiber essenziell, um gefunden zu werden und ihre Inhalte zu verbreiten. Ein aktueller Schritt in dieser dynamischen Umgebung ist die Einführung von zwei neuen Web-Crawlern durch Google, die speziell für das Durchsuchen von Bild- und Videomaterial konzipiert wurden. Google, das Unternehmen, das hinter der größten Suchmaschine der Welt steht, hat im April 2023 zwei neue Varianten seines "GoogleOther" Crawlers vorgestellt: "GoogleOther-Image" und "GoogleOther-Video". Diese beiden Crawler haben das spezielle Ziel, binäre Daten – also Daten, die nicht in Textform vorliegen – zu erfassen. Im Gegensatz zu HTML-Daten, die üblicherweise als Textdateien, ASCII oder Unicode-Dateien bezeichnet werden, fallen unter binäre Dateien solche Formate, die nicht in einem Textbetrachtungsprogramm geöffnet werden können. Hierzu gehören Bilder, Audio- und Videodateien. Der ursprüngliche GoogleOther-Crawler wurde bereits für die Verwendung durch Google-Produktteams für Forschungs- und Entwicklungsarbeiten in sogenannten "Einmal-Durchläufen" eingesetzt. Das bedeutet, dass dieses Tool nicht regelmäßig, sondern gezielt für bestimmte Projekte zum Einsatz kommt. Die offizielle Beschreibung des ursprünglichen GoogleOther-Crawlers lautet: "GoogleOther ist ein generischer Crawler, der von verschiedenen Produktteams zum Abrufen öffentlich zugänglicher Inhalte von Websites verwendet werden kann. Zum Beispiel kann er für einmalige Crawls für interne Forschungs- und Entwicklungsarbeiten eingesetzt werden." Die beiden neuen GoogleOther-Varianten sind: 1. GoogleOther-Image Benutzer-Agent-Token: GoogleOther-Image GoogleOther Vollständige Benutzer-Agent-Zeichenkette: GoogleOther-Image/1.0 2. GoogleOther-Video Benutzer-Agent-Token: GoogleOther-Video GoogleOther Vollständige Benutzer-Agent-Zeichenkette: GoogleOther-Video/1.0 Google hat außerdem die Benutzer-Agent-Zeichenketten für den regulären GoogleOther-Crawler aktualisiert. Für das Blockieren der neuen Crawler kann weiterhin das gleiche Benutzer-Agent-Token wie zuvor (GoogleOther) verwendet werden. Die neuen Benutzer-Agent-Zeichenketten sind Daten, die an Server gesendet werden, um die vollständige Beschreibung der Crawler, insbesondere die verwendete Technologie, zu identifizieren. In diesem Fall ist die verwendete Technologie Chrome, deren Versionsnummer regelmäßig aktualisiert wird, um die verwendete Version widerzuspiegeln (W.X.Y.Z ist ein Platzhalter für eine Chrome-Version in dem unten aufgeführten Beispiel). Die vollständige Liste der GoogleOther-Benutzer-Agent-Zeichenketten: Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (kompatibel; GoogleOther) Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; kompatibel; GoogleOther) Chrome/W.X.Y.Z Safari/537.36 Diese neuen Bots können von Zeit zu Zeit in den Serverprotokollen auftauchen, und diese Informationen helfen dabei, sie als echte Google-Crawler zu identifizieren. Sie unterstützen Publisher, die möglicherweise nicht möchten, dass ihre Bilder und Videos für Forschungs- und Entwicklungszwecke gescraped werden. Es ist wichtig zu beachten, dass die durch diese Crawler gesammelten Daten nicht explizit für die AI-Trainingsdaten bestimmt sind; dafür ist der Google-Extended-Crawler zuständig. Obwohl die Dokumentation nichts Derartiges ausdrücklich besagt, wird davon ausgegangen, dass es keine Auswirkungen auf das Ranking hat, sollten Publisher sich entscheiden, die neuen Crawler zu blockieren. Die Einführung dieser spezialisierten Crawler ist ein weiterer Hinweis darauf, wie wichtig multimediale Inhalte für die Suchmaschinen und ihre Nutzer geworden sind. Bilder und Videos sind integraler Bestandteil des modernen Webs und deren effiziente Erfassung und Indexierung ist entscheidend für die Relevanz und Nützlichkeit der Suchmaschinenergebnisse. Für Webseitenbetreiber bedeutet dies, dass sie ihre Inhalte so aufbereiten sollten, dass sie nicht nur für die traditionellen Text-Crawler, sondern auch für spezialisierte Bild- und Videocrawler optimiert sind. Dies schließt Aspekte wie die korrekte Anwendung von Alt-Tags, die Einbettung von Videos mit zugehörigen Beschreibungen und die Sicherstellung, dass multimediale Inhalte für Crawler zugänglich sind, mit ein. Die Aktualisierung und Erweiterung von Googles Crawler-Familie verdeutlicht die stetige Weiterentwicklung und Anpassung der Suchmaschinentechnologie an die sich wandelnden Anforderungen des Internets. Es bleibt für alle, die sich im digitalen Raum bewegen, spannend zu beobachten, welche weiteren Entwicklungen und Innovationen in der Zukunft auf uns zukommen werden.