InterviewSearx, eine Suchmaschine mit Datenschutz

Suchmaschinen können auch datenschutzfreundlich, dezentral und nichtkommerziell sein. Das erzählt Adam Tauber, Hauptentwickler der freien Suchmaschine Searx. Im Interview spricht er über freies Wissen, Filterblasen und Server ohne Logs.

Banner Fuck off Google
Protest in Berlin: Fuck off Google! Fuck off Google

Suchmaschinen sind elementarer Bestandteil der Internet-Nutzung, aber viele Menschen nutzen nur eine einzige. Google hat einen Marktanteil von 86 Prozent weltweit und 95 Prozent in Deutschland. Dabei gibt es Alternativen, die teilweise auch mit Datenschutz werben, aber die meisten sind ebenfalls intransparent und kommerziell. Dass es auch anders geht, zeigt Searx – eine datenschutzfreundliche, dezentrale und nichtkommerzielle Suchmaschine. Ein Interview mit Adam Tauber, Entwickler freier Software aus Ungarn.

Dieses Interview ist auch auf englisch verfügbar.

netzpolitik.org: Was ist Searx?

Adam Tauber: Searx ist eine freie Meta-Suchmaschine, die viel Wert auf Privatsphäre und Datenschutz legt. Meta bedeutet, Nutzer*innen stellen Suchanfragen an Searx und Searx leitet die Anfragen an über 80 andere Suchmaschinen weiter, sammelt die Ergebnisse und bereitet sie auf.

Datenschutzfreundlich bedeutet, dass Searx Suchanfragen und Eingaben nicht speichert und private Daten nicht an Dritte weitergibt oder gar verkauft. Nur absolut notwendige Informationen werden an andere Suchmaschinen weitergeleitet, etwa Suchanfrage und Sprache.

Probiert es aus auf Searx.me.

netzpolitik.org: Was unterscheidet Searx von anderen datenschutzorientierten (Meta-)Suchmaschinen wie DuckDuckGo oder Startpage?

Tauber: Es gibt zwei Hauptunterschiede: Searx ist freie Software und dezentral.

Freie Software bedeutet, dass der gesamte Quellcode öffentlich ist. Jede*r kann überprüfen, ob Searx etwas Komisches tut oder nicht. Jede*r kann Searx für jeden Zweck nutzen und Änderungen vornehmen.

DuckDuckGo und Startpage sind proprietäre Software. Nutzer*innen haben keine Möglichkeit zu verifizieren, ob sie wirklich nicht tracken. Man muss ihnen blind vertrauen.

Darüber hinaus ist Searx dezentralisiert, jede*r kann den Quellcode nehmen und eine eigene Instanz betreiben. Es gibt zahlreiche öffentliche Searx-Instanzen. Wer selbst keinen Server betreiben kann oder will, kann sich eine Searx-Instanz suchen, die einem gefällt oder der man vertraut.

DuckDuckGo und Startpage sind beide zentralisiert und werden von kommerziellen Unternehmen betrieben.

netzpolitik.org: Und MetaGer, eine weitere Meta-Suchmaschine mit Fokus auf Datenschutz und Privatsphäre, die von einem gemeinnützigen Verein in Deutschland betrieben wird?

Tauber: Im Gegensatz zu den anderen ist MetaGer ebenfalls freie Software und kann selbst gehostet werden, so dass man Dritten nicht vertrauen muss. Vielleicht ist MetaGer für ein deutsches Publikum attraktiver. Es gibt jedoch einige Unterschiede zwischen MetaGer und Searx.

Das Hauptanliegen von Searx ist eine Suchmaschine, die Privatsphäre schützt. MetaGer hat eine Datenbank, die Suchergebnisse speichert, Searx läuft ohne Datenbank. Searx speichert überhaupt nichts über gestellte Anfragen.

Searx ist auch anpassbarer. Nutzer*innen können Design, Sucheinstellungen und Datenschutzeinstellungen ändern und anpassen. Die Bedienoberfläche ist in 30 Sprachen verfügbar, MetaGer unterstützt drei Sprachen.

Ein Alleinstellungsmerkmal von Searx ist die Unterstützung für wissenschaftliche Recherchen. Searx hat Schnittstellen zu mehreren Suchmaschinen mit wissenschaftlichen Publikationen wie BASE, Google Scholar oder PubMed. Um den freien Fluss von Informationen und Wissen zu fördern, hat Searx ein Plugin, um Open-Access-Versionen wissenschaftlicher Arbeiten zu finden.

netzpolitik.org: Sind die Suchergebnisse von Searx so gut wie die von Google?

Tauber: Searx ist nur so gut, wie es konfiguriert ist. Wir bieten vernünftige und sichere Standardeinstellungen. Aber um die Ergebnisse zu erhalten, die man will, kann man bestimmte Suchmaschinen aktivieren oder deaktivieren und vielleicht Zeitüberschreitungen feinabstimmen. Richtig eingesetzt, können die Suchergebnisse genauso gut oder sogar besser sein.

In Bezug auf Privatsphäre und Filterblasen ist Searx gegenüber Google überlegen. Wenn man in Searx nur die Google-Suchmaschine aktiviert, kann man Google nutzen, ohne unnötig private Daten preiszugeben. Searx liefert nicht-individualisierte und unvoreingenommene Suchergebnisse, da es gar nicht mehr als nötig über Nutzer*innen weiß.

netzpolitik.org: Was ist das Problem mit Google?

Tauber: Google ist ein riesiges internationales Unternehmen, das Geld verdienen will, wo immer es kann, auch mit ihren privaten Daten. Es gibt viele Artikel, die erklären, was mit Google falsch läuft.

netzpolitik.org: Wie viele Leute nutzen Searx?

Tauber: Das weiß ich nicht, es gibt viele Searx-Instanzen, die ich nicht kontrolliere.

Ich kann nur die Anzahl von Suchanfragen auf der von mir betriebenen Instanz schätzen: Searx.me. Dieser Webserver wird nach jeder Million Anfragen neu gestartet, das ist die einzige Information, die wir protokollieren. Daraus können wir schätzen, dass Searx.me etwa fünf bis zehn Millionen Suchanfragen pro Monat hat, das sind zwei bis vier pro Sekunde.

netzpolitik.org: Wer entwickelt und betreibt Searx?

Tauber: Das Kernteam besteht aus drei Hauptentwicklern. Aber wir haben viele andere Entwickler, die erhebliche Arbeit leisten. Johannes Schauer verwaltet ein Paket für Debian-basierte Betriebssysteme.

Öffentliche Searx-Instanzen werden von Einzelpersonen und Organisationen betrieben, denen Datenschutz wichtig ist. Es gibt eine Liste öffentlicher Instanzen in unserem Wiki.

netzpolitik.org: Wie kann man Searx unterstützen?

Tauber: Jede*r kann auf Github beitragen – Tickets öffnen, neue Ideen ausdenken oder Quellcode beisteuern.

Darüber hinaus kann jede*r öffentliche Instanzen betreiben. Dadurch wird Searx für Menschen zugänglich, die keine Server betreiben wollen.

Wenn jemand die Entwicklung mit Geld unterstützen will, gibt es einige Möglichkeiten zum Spenden.

38 Ergänzungen

      1. Ist das nicht irgendwie ein gutes Zeichen, dass diese Frauen in ihrer Nackheit bekannter sind als Sie in Ihrer Filterbubble?

    1. Tipp: Mal die Sprache auf deutsch ändern und nochmal probieren. Bisher suchen viele Searx-Instanzen standardmäßig auf englisch. Bald kann man auch zwei Sprachen gleichzeitig suchen.

  1. Cool. Zwei Dinge: 80 Suchmaschinen weltweit mit der Suche nach einem Kuchenrezept zu behelligen dürfte ziemlich viel Strom fressen, entprechend sparsam sollte man wohl seine Einstellungen setzen. Und könnte es sein, dass Google diese Metasuchmaschinen aussperrt, sobald sie mengenmäßig relevant werden? Viellicht wäre es auf Dauer noch cooler, einen eigenen Open-Source-Suchalgorithmus zu entwickeln, sobald man eine gewisse „Marktmacht“ erreicht hat. Gibt es dazu Ansätze?

  2. mittels umatrix kann man nachverfolgen, welche skripte geladen werden. Bei Searx sind Google Skripte dabei.
    Bei DuckDuckgo bspw. nicht.
    Es gibt viele die Privatspähre versprechen und diese nicht einhalten (Pseudo)

    1. „Bei Searx sind Google Skripte dabei.“

      Wüsste ich jetzt nicht. Wenn ich bei Searx nach „google is evil“ suche und den uMatrix-Logger in der Sidebar öffne, dann wird nichts von Google geladen, außer ich habe noch einen anderen Tab auf und der uMatrix-Logger ist nicht spezifisch aus meinen Suchtab (sondern „Alle“) eingestellt. Eventuell hattest du in einem anderen Tab einen Google-Dienst auf?

      Das kann man auch mit Wireshark nachvollziehen.

    2. Ich denke auch das es Pseudo …

      Ohne irgendwelche technischen Sachen ins Spiel zubringen.

      Die verwendete Symbolik spricht für sich und gegen SearX:

      1. Das verwendete Ikon eine Lupe mit zwei Hörnern = Satan
      2. Die Lupe mit Punkt in der Mitte = allesehende Auge
      3. Das große X – es ist das Zeichen von BAAL.

      Meine Wahrnehmung zu dieser Firma.

  3. Erster Eindruck: Prima!
    + Suchergebnisse sind schnell da & relevant
    + gute Ergebnisse auch bei der Suche nach Fachartikeln
    + Es gibt einen Proxy-Service und hidden services

    Anmerkungen:
    – Bildersuche liefert auch bei harmlosen Suchbegriffen (beer, fun, …) unerwartet zahlreiche NSFW-Resultate. Das könnte in bestimmten Umgebungen ein Problem sein. Prinzipiell finde ich es gut, wenn allgemein nicht gefiltert wird, aber der User sollte sich dessen bewusst sein. Vielleicht kann man einen Hinweis anbringen?
    – Zum testen habe ich uBlock-Origin und Privacy Badger deaktiviert, trotzdem kommen noch technische Fehlermeldungen, zB
    „Engines cannot retrieve results: microsoft academic (unexpected crash: ‚results‘)“, oder bei der Bildersuche: „Engines cannot retrieve results: 500px (unexpected crash: ‚photos‘) “
    Ich kann damit nichts anfangen, da wären (zusätzlich) allgemein verständliche Hinweise besser.
    – eine Frage zur Proxy-Nutzung und Datenschutz: Die Suchbegriffe werden in die URL integriert (ähnlich auch bei Startpage). Kann (m)ein Service Provider trotz https diese lesen bzw loggen?

    Alles in allem: Danke an die Macher, weiter so, und mehr davon :)

    (PS: diesen Text habe ich vor 1,5 Std, um 10:50, schon mal posten wollen und auch abgeschickt, kam aber offenbar nicht durch. Wenn das nun eine Doppelpost wird, dann bitte löschen)

    1. Zur Frage „Die Suchbegriffe werden in die URL integriert (ähnlich auch bei Startpage). Kann (m)ein Service Provider trotz https diese lesen bzw loggen?“:
      Nein. Solange du HTTPS verwendest, werden diese Daten verschlüsselt übertragen (in der ersten Zeile der HTTP-Anfrage). Die einzigen Daten, die nicht (ausschließlich) verschlüsselt übertragen werden sollten grob folgende sein:
      – TCP/IP-Daten: IP-Adressen und Paketgrößen. Somit auch die grobe Anzahl an Zeichen, die übertragen werden.
      – TLS-Daten: Verwendete Zertifikate und eingesetzte Algorithmen (z.B. Zertifikat von searx.me, ECC, AES256, SHA256, ECDH, Forward-Secrecy), Host-Name (z.B. searx.me)
      – Daten der Side-Channel: Anfragezeitpunkt, Bearbeitungszeit des Servers, …

      Daraus kann ein Angreifer (z.B. dein ISP) also möglicherweise schlussfolgern wie lang die angefragte URL (uns somit der Such-Text) ungefähr ist, nicht aber welcher es genau ist. Ungefähr, weil er nur die Anzahl an Crypto-Blöcken von TLS sehen kann (Die Blöcke ist glaube ich meist 256 Bit = 32 Zeichen). Und er kann ggf. sehen, wie viele Suchergebnisse du bekommst, falls das aus der Größe der Antwort-Pakete ableitbar ist sowie der Zeit, die der Server zur Beantwortung benötigt. Und er kann ggf. sehen, wie schnell du tippst (Anfragen für Auto-Completion) und wie lange es dauert bis du auf einen der Suchvorschläge klickst (erste Anfrage an andere IP-Adresse).

      Am Verbergen des Host-Name wird so weit ich weiß gerade gearbeitet. Das ist allerdings Sache von TLS und nicht des HTTP-Servers selbst.

      Das Mitlesen dieser Informationen ist nicht spezifisch für searx.me, sondern ist bei jeder HTTP(S)-Anfrage möglich. Ein paar dieser Informationen kann man theoretisch in begrenztem Maße verschleiern. Das ist jedoch sehr aufwändig und verringert häufig die User-Experience. Das Abschalten der Auto-Completion oder das Senden fester Antwort-Längen wären z.B. möglich.

  4. @searx Gibt es einen Search-Parameter? Ich kann zum Beispiel bei Gajim nicht nach Begriffen im Internet (mit searx.me) suchen, da es kein %s gibt. Soweit ich das überblicke, geht das nur mit der individuellen Such-URL, die für mich aber keine Option ist!

  5. Als Verbesserung würde ich vorschlagen, dass der Admin von searx.me HSTS aktiviert! Content Security Police währe sicherlich auch eine Überlegung wert, aber die Umsetzung…

    Ansonsten nutze ich in letzter Zeit vermehrt searx in Kombination mit Qwant.

  6. Aus Juchs mal nach „fefe blog“ gegooglet^W gesearxet:
    1. Fefes Blog
    2. Obskurer Blogpost des Wildschweinfreunds
    3. Seine Heimseite
    4. Abermals ein semi-zufälliger Blogpost
    5. „Fefe Porn Videos“ auf Pornhub
    6. Wieder ein Blogpost
    7. „Fefe Brazil Porn Videos“

    Da lässt sich ja nur lel sagen.

    1. Ich erinnere mich, daß bei damaligen Meta-Suchmaschinen viel mit Anführungszeichen gesucht werden mußte und unter regem Gebrauch des Minus-Zeichens:
      +“Der Reichtum der Gesellschaften, in welchen kapitalistische Produktionsweise herrscht, erscheint als eine ungeheure Warensammlung, die einzelne Ware als seine Elementarform.“ -PORN -CAT -BABY -AMAZON

  7. Searx bindet Content wie z.B. Bilder direkt von der Suchmaschiene ein auf der sie gefunden werden – da muss ich mich schon fragen was das mit Datenschutz und Privatsphäre zu tun haben soll ?

    Anstatt meine Suchanfragen ( und damit meine Daten ) nur einer Krake in den Rachen zu werfen wird jede Anfrage direkt an sämtliche großen Anbieter verteilt .

    Nur mal als Beispiel – ne einfache Bildersuche nach “ Netzpolitik “ und ~ 25 Anbieter bekommen meine IP & CO. Frei Haus geliefert …………..

    1. Ja, aber die Gewinner dabei sind nicht die Amerikaner und ihre Partner, sondern die Isralies und ihre Partner. Der Unterschied: Mehr vom eh billigen Kuchen für andere, weniger für die Amerikanischen Konzerne =D

  8. Suchmaschinen sind elementarer Bestandteil der Internet-Nutzung, aber viele Menschen nutzen nur eine einzige

    Nein, fast niemand nutzt nur eine einzige Suchmaschine. Wo suchen Nutzer Waren, Musik, Gebrauchtwaren, Konzertkarten, Immobilien, Freunde, Geschäftspartner usw.? Nicht bei Google.

    Wahrscheinlich meint der Autor Suchmaschinen für Webseiten, da hat Google in der Tat eine starke Stellung.

    1. In der Tat nutze ich den Begriff „Suchmaschine“ hier in der Definition, Webseiten zu finden. Was du beschreibst, würde ich eher „Suchfunktion“ auf einzelnen Webseiten nennen.

  9. Diese Suchmaschine wurde noch nicht mal bei den dafür herausliquitierten Mitarbeitern bezahlt. Da bleib ich lieber bei Google. Der Hintergrund dazu wäre News, aber was wollen wir in PR Zeiten machen, nicht wahr? Zur Mahnung wird der dafür verantwortliche Journalist ihn Norwegen ja vermisst und seine Habseligkeiten gefunden

  10. Das finden wir prima, dass netzpolitik.org ebenfalls das Thema „Datenschutz und Suchmaschinen“ aufgreift und auch auf unsere Suchmaschine metager.de eingeht! Vor längerer Zeit bereits fiel uns das Projekt Searx in diesem Zusammenhang angenehm auf: Open-Source und transparent wie unsere eigenen Projekte.

    Wir haben dieses Interview vom 29.09.2018 zum Anlass genommen, unsere Handhabung der Suchabfragen nochmal genau unter die Lupe zu nehmen: im Interview sagte Adam Tauber u.a. völlig richtig, dass MetaGer (bisher jedenfalls) die Wörter der Suchabfragen speichert. Wir haben das zum Anlass genommen, nochmal darüber nachzudenken, wofür wir diese Daten eigentlich brauchen. Bisher war das akademische Interesse daran ausschlaggebend: zu sehen, was momentan jeweils Nutzer bewegt und wonach gefragt wird; wie sich der Zeitgeist in den Abfragen spiegelt. Und darauf evtl. mit angezeigten Themen und Links reagieren zu können.

    Aber bei genauerem Hinsehen fiel uns auf: Wir brauchen und benutzen diese Abfragen gar nicht! Lediglich interne, unveröffentlichte, akademische Arbeiten sind daraus in seltenen Fällen entstanden. Aber für unsere Suchmaschine und für unsere Nutzer ist das alles völlig irrelevant.

    Also haben wir beschlossen, diese Speicherung der Suchabfragen aus MetaGer herauszunehmen. Datensparsamkeit muss immer an oberster Stelle stehen! Ab dem 04.10.2018 – 15.15 Uhr speichert metager.de daher keine abgefragten Suchwörter mehr.

    Weiterhin sagt Adam Tauber etwas, was den meisten Nutzern nicht klar ist: denjenigen Suchmaschinen, die mit ihrem Datenschutz werben, aber nicht quell-offen sind, kann man nur glauben. Sowas ist sinnig in der Kirche, aber nicht in der IT-Welt! Den meisten Nutzern ist das nicht klar.

    Darum auch hierfür nochmal unseren besonderen Dank an Adam Tauber und an Sie als Interviewer!!

    Searx und MetaGer können eine gute Koexistenz pflegen: Searx als verteilte Open-Source Software, die sich jede/r selber installieren kann – MetaGer als fertiges Produkt, mit dessen Quelloffenheit jeder nachvollziehen kann, was geschieht. Ohne, dass sie oder er tiefer in die Technik einsteigen müssen.

    1. Hallo, MetaGer hier!
      Eine Bildersuche hatten wir mal. Die mussten wir allerdings aufgeben, da unser damaliger Zulieferer zugemacht hat und wir uns einen eigenen Bilder-Index nicht leisten können. Von Bing könnte man noch Bildersuchen beziehen, was aber mit etwas über 3€ pro tausend Suchen nicht gerade billig ist.
      Und fremde Dienste wollen wir auch nicht ohne Erlaubnis scrapen; das gehört sich nicht.
      Ich hoffe, die Gründe hinter der fehlenden Bildersuche sind jetzt verständlicher.
      PS: Wir sind von 1996.

  11. Ich habe in meinem Browser searx.me, DuckDuckGo, Qwant, StartPage & Metager sowie das Arch Wiki als Suchmaschinen installiert. Im Tor Browser sieht das nochmal etwas anders aus. Wenn jemand noch weitere Suchmaschinen empfehlen kann, dann immer her damit!

  12. Die Suchergebnisse von Searx sind leider sehr schlecht (geworden?). Man sollte meinen, die gleichen oder ähnliche Ergebnisse wie bei Google zu bekommen, wenn nur Google als Dienst aktiviert und Deutsch als Sprache eingestellt ist, aber das Gegenteil ist oft der Fall.
    Wenn ich nach bestimmten .gif-Dateien suche, führt jedes dritte Ergebnis zu Pornhub o.ä. und die gesuchte Datei ist auf keiner der gefundenen Seiten zu finden. Zudem werden oft nur sehr wenige Ergebnisse angezeigt.

  13. > … Zudem werden oft nur sehr wenige Ergebnisse angezeigt …

    Das hängt davon ab, wie gut die Searx Instanz eingestellt ist .. und ja, so eine instanz braucht auch extrem viel Wartung, da sich die Ergebnisslisten der Suchmaschinen immer mal wieder ändern.

    Leider installieren sich vile die searx Instanz, tragen sich bei den Public servern ein und lassen die Instanz verkommen … bis die Ergebnisse dann so schlecht sind, wie sie es leider erfahren mussten.

    BTW braucht eine pubic Searx Instanz auch einen gewissen Schutz: https://asciimoo.github.io/searx/admin/filtron.html

    Macht man das nicht, fluten ein die Bots mit Anfragen und die reicht searx alle weiter an die Suchmaschinen wie google .. die machen dann nach ein paar Tagen (oder Stunden) den Kanal Dicht und liefern keine Ergebnisse mehr .. wir haben dazu gefühlt hunderte von Posts. Ich empfehle jedem, der eine searx Instanz public nutzen will diesen Kommentar: https://github.com/asciimoo/searx/issues/1792#issuecomment-570203111

Dieser Artikel ist älter als ein Jahr, daher sind die Ergänzungen geschlossen.