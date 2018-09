Domains sind die Adressen, unter denen Webseiten zu finden sind, wie beispielsweise netzpolitik.org. Davon gibt es weltweit etwa 340 Millionen Stück, laut Schätzungen des Unternehmens Verisign. Angesichts dieser Unmenge ist gar nicht so leicht zu sagen, welche die beliebtesten Adressen sind. Eine neue Studie zeigt, dass unter den verschiedenen Anbietern sogenannter „Top-Listen“ große Uneinigkeit darüber herrscht, welche Domains die populärsten sind. Wie sie ihre Domain-Rankings erstellen, legen die Unternehmen meist nicht offen. Verschiedene Algorithmen und Daten führen aber offenbar zu völlig voneinander abweichenden Resultaten.



IT-Unternehmen wie Amazon, Cisco oder Quantcast bieten Bestenlisten mit den wichtigsten Domains an, meist gegen einen hohen Preis. Relevant sind diese Top-Listen beispielsweise im Marketing oder für die Erfolgsmessung von Unternehmen. Gleichzeitig basieren auf ihnen große Teile wissenschaftlicher Forschung in den Bereichen Sicherheit und Privatsphäre. Der kürzlich veröffentlichte Forschungsbericht [pdf] zeigt auf, dass sich Top-Listen stark voneinander unterscheiden. Die drei analysierten Listen überschneiden sich um weniger als 30 Prozent.

Laut Oliver Hohlfeld, der die Studie zusammen mit einem internationalen Forschungsteam veröffentlicht hat, können die unbekannten Eigenschaften der Listen Einflüsse auf Ergebnisse haben, die durch Anwendung der Liste generiert werden:

[N]icht nur wissenschaftliche Ergebnisse, sondern auch andere Wirtschaftszweige (z.B. Verkaufspreise von Domains) [basieren] auf Ranks und Vorkommen in solchen Listen (…), deren Erstellung und Datengrundlage unbekannt ist und sich ohne Kenntnis der Nutzer jederzeit ändern kann. Das heißt, Aussagen über die Popularität von Internetdomains werden mit unklaren Mechanismen aus unbekannten Daten gewonnen – trotz des fehlenden Verständnisses finden sie breite Anwendung. Bei diesen Anwendungen können verschiedene Listen (und selbst Listen des gleichen Anbieters von unterschiedlichen Tagen) jedoch zu unterschiedlichen Ergebnissen führen, was beachtet werden muss.

Untersucht wurden Archive mit Daten dreier Listen über mehrere Jahre. Darunter: „Alexa Global Top 1M“, die womöglich bekannteste und meistverwendete Liste mit einer Million Internet-Domains, die von Alexa Internet, einer Tochterfirma von Amazon, zu erwerben ist. Eine weitere vielgenutzte kommerzielle Liste, die die Forscher berücksichtigten, ist die „Cisco Umbrella-Liste“ mit ebenfalls einer Million Ranking-Plätzen. Die Studie nahm zudem die „Majestic Million“ auf, eine weniger verbreitete Creative-Commons-Liste, die über den Majestic Web Crawler täglich generiert wird. Jede dieser Listen behauptet von sich, die populärsten Domains abzubilden.

Wenig Konsens über Top-Domains

Die nähere Untersuchung von Alexa, Umbrella und Majestic zeigt allerdings, dass diese sich in wesentlichen Punkten unterscheiden und ihre Schnittmenge gering ist: Nur knapp hunderttausend Domains tauchen in allen drei Listen auf. Berücksichtigt man nur die ersten tausend Ränge, sind die Überschneidungen sogar noch geringer.

Darüber hinaus decken die Top-Listen nicht alle der etwa 1.500 existierenden Top-Level-Domains (.com, .de, .uk, .org, etc) ab. Einige der Listen sind „breiter“ und bilden viele verschiedene Top-Level-Domains ab (Alexa, Majestic), andere „tiefer“, weil sie viele Subdomains enthalten (Umbrella). Bemerkenswert ist zudem, dass auch alle drei Listen zusammen nur etwa die Hälfte aller Top-Level-Domains abdecken. Top-Listen repräsentieren demnach die bestehende Vielfalt an Top-Level-Domains nicht, und damit auch nicht das Gesamtnetzwerk.

Wesentliche Unterschiede gibt es auch hinsichtlich der Anzahl der ungültigen Top-Level-Domains, die in den Listen enthalten sind. Cisco Umbrella ist dahingehend besonders fehlerhaft. Da die Forscher auch Veränderungen über eine längere Zeit untersuchten, konnten sie außerdem abrupte Änderungen der Inhalte und Verschiebungen von bis zu 50 Prozent feststellen. Welche Domains auftauchen und auf welchen Plätzen, ist tagesabhängig: Listen an Wochentagen unterscheiden sich von Listen am Wochenende. Die Listenerstellung von Alexa wurde offenbar Anfang dieses Jahres geändert (siehe Abbildung rechts). Diese Änderung wurde der Öffentlichkeit nicht bekanntgegeben und ist undokumentiert. Auch auf Nachfrage der Forschenden äußerte sich das Unternehmen Alexa Internet nicht.

Intransparente Algorithmen

All diese Unterschiede zwischen den Listen sind auf die verwendeten Ranking-Algorithmen und den Ablauf der Datensammlung zurückzuführen. Doch in diesen Punkten sind die herausgebenden Unternehmen nicht sehr transparent. Von den Listen kann jedoch bereits abgeleitet werden, dass Unterschiede darin bestehen, ob mobile Seiten oder unsichtbare Aufrufe von beispielsweise Trackern berücksichtigt werden. Dies ist zum Beispiel bei Umbrella der Fall. Majestic und Alexa liefern ein eher web-spezifisches Bild des Internet-Traffics.

Weiterhin ist nicht transparent, welche Nutzer*innengruppen die Datenbasis bereitstellen. Bei Alexa sei bekannt, dass über die Alexa Browser Toolbar Nutzungsdaten über das Surfverhalten erhoben werden, jedoch nicht von welchen Personen und wie vielen. Auch wie diese Daten weiterverarbeitet werden, sei unbekannt, so Hohlfeld.

Manipulationsgefahr

Fraglich ist, ob einige Top-Listen-Betreiber ihre Ranking-Ergebnisse künstlich beschönigen. Seitens des Forschungsteams erhielten wir hierzu folgende Einschätzung:

Zu den möglichen politischen oder kommerziellen Interessen können wir keine Aussage treffen. (…) Sicher ist aber, dass die Listeneinträge manipulierbar sind. Wir haben in der Studie beispielsweise versucht, eigene Einträge in der Cisco Umbrella Liste durch verschiedene Mengen an Anfragen im Rank zu „pushen“, was problemlos möglich ist. Von Kollegen wissen wir, dass auch Ranks der Alexa Liste „manipulierbar“ sind. Ob dies gemacht wird und welche Interessen dahinter stehen können, war nicht Gegenstand unserer Forschung. Es gibt jedoch kommerzielle Anbieter, die solche Rankmanipulationen gegen Zahlung anbieten – ob diese funktionieren, wer die Kunden sind, etc. haben wir nicht untersucht.

Je nach Art und Ziel der Anwendung kann eine Top-Liste weniger geeignet sein, als eine andere. Das Forschungsteam empfiehlt daher in ihrem Forschungsartikel [pdf], genau abzuwägen. Für die wissenschaftliche Reproduzierbarkeit von Forschungsergebnissen, die auf Top-Listen basieren, sollten Downloadzeit und -datum immer genau angegeben werden. Außerdem schlagen sie Kriterien für gute Ranking-Listen vor: Beständigkeit und Transparenz über den Ranking-Algorithmus, die Datenbasis sowie eventuelle Neigungen („bias“). Für Nutzer*innen solle weiterhin die Möglichkeit bestehen, auszuwählen, ob die Liste die populärsten Domains innerhalb der letzten Woche oder der letzten Jahre abbbildet. Beispielsweise könne es eine „kurzfristige“ und eine „langfristige“ Option geben.