Was ist überhaupt ein Selektor? Das weiß nicht mal so genau der BND

Kai Biermann versucht sich bei Zeit-Online an einer Definition, was überhaupt ein Selektor ist, wovon gerade alle im Rahmen der BND-Affäre reden. Eine Definition ist gar nicht so einfach, weil es offensichtlich verschiedene Interpretationen und Ansichten gibt: Selbst der BND weiß nicht, was NSA-Selektoren suchen.

Rechnerisch sind 25.000 von insgesamt 8,2 Millionen bösen Selektoren gerade einmal 0,3 Prozent. Nicht viele also. Allerdings hat der BND gar nicht in allen Selektoren nach Problemen gesucht – er konnte es nicht. Lediglich in den Selektoren, die eindeutig als E-Mail-Adressen erkennbar waren, hätten die Beamten nach Länderkennungen wie .de, Firmennamen wie Eurocopter oder Organisationen wie diplo für diplomatisches Corps gesucht, sagte Renner. Es gebe jedoch mehr als zwanzig verschiedene Typen von Selektoren, sagte Renner. Bei 40 Prozent der Selektoren habe der BND nicht einmal zuordnen können, zu welchem Land sie stammten. Was nichts anderes bedeutet, als dass der BND bei immerhin 3,28 Millionen aktiven Selektoren nicht wusste, ob sie Deutschland überhaupt betrafen – und das wäre noch die einfachste Selektion gewesen.[…]

Das Ganze wird noch undurchsichtiger. Denn beim BND scheint es keine feste Definition darüber zu geben, was ein sogenannter Selektor überhaupt ist. Der Begriff wird unterschiedlich gebraucht. Dazu kommt, dass der BND in seinen Akten auch das Wort Steuerungsmerkmal synonym verwendet.

Deine Spende für digitale Freiheitsrechte

Wir berichten über aktuelle netzpolitische Entwicklungen, decken Skandale auf und stoßen Debatten an. Dabei sind wir vollkommen unabhängig. Denn unser Kampf für digitale Freiheitsrechte finanziert sich zu fast 100 Prozent aus den Spenden unserer Leser:innen.

5 Ergänzungen

  1. So einfach ist die Einordnung anscheinend auch nicht. Es gibt zwar ein paar vordefinierte Kategorien aber prinzipiell scheint man ja nach vergleichsweise beliebigen Strings suchen zu können. Die Definition von Kategorien dient dann nur der Vorselektierung, man muss den Datenstrom ja auch ein wenig eindämmen damit er technisch durchsuchbar bleibt. Bei der Eff gibts eine kurze Übersicht was man so alles verwenden kann. Dabei sind Hardware und Softwaredaten (Wer wo was wann mit wem über welches Gerät kommuniziert). Man hat sich Mühe gegeben, Einzelmassnahmen sind da eher sinnlos wenn man mal im Focus steht, da kann man Hardware und Sofeareaccounts wechseln wie man möchte und wird dann identifiziert über Kontakte die einem Emails schicken, einfach weil das Muster gleich bleibt. Da brauch ich den Inhalt wahrscheinlich gar nicht zu kennen.

    Dementsprechend bringt es wohl auch nicht allzuviel allein die länderspezifischen Selektoren rauszufiltern…denn das bedeutet lediglich das dem System ein Bruchteil Information entzogen wird. Alles was sich nicht länderklassifizieren lässt bleibt drin, wie soll man auch erkennen das es einen deutschen Bezug gibt. Das Puzzle lässt sich höchstens bei einer erfolgten Auswertung in Kombination mit länderspezifischen Infos zusammensetzen..wir geben aber keine Erkenntnisse weiter sondern Rohdaten, da ist der einzige Ausweg nichts mehr zu liefern. Alternativlos!

    https://www.eff.org/document/20140312-intercept-nsa-selector-types

    Interessant wäre zu wissen auf welchen Strategien die Mustererkennung aufgebaut ist. Das lässt sich nicht mehr ausschliesslich mit Keywords darstellen sondern erfordert sicherlich komplexere Modelle in die auch soziale Verhaltensmuster einfliessen. Da war die Rasterfahrung nach den RAF Mitgliedern echt ein Witz (es gab da ein paar Kernfaktoren). Man muss ja auch etliche Scheinkorrelationen ausschliessen. Es ist sicherlich einfacher die Daten zu sammeln als sie vernünftig auszuwerten. Das Fehlerrisiko muss enorm sein, gerade da sich einige der Hardwaredaten ja auch manipulieren lassen. Das Fehlerrisiko sinkt aber natürlich mit der Masse an Daten zu einer konkreten Ressource.

    Durch die entstanden Daten lassen sich natuerlich auch persönliche Schwachstellen bei entsprechendem Fokus leicht ermitteln (bspw. Eine Weiterleitung von geschaeftlichen verschluesselten Emails auf private Accounts so das man sie unterwegs lesen kann). Beifang nennt man das in der Fischerei, viel Schrott dabei aber auch ein paar leckere und teure Krustentiere. Nur das der Beifang hier natürlich einfacher stattfinden kann weil viel mehr Eingangsdaten bekannt sind. Ich würde sagen, Wirtschaftsspionage ist deutlich einfacher und effektiver zu realisieren als der Kampf gegen den Terror.

    Nachdem man mir heute vorgestellt hat das man Firmendokumente ab sofort in die Microsoft Cloud hochlädt um die Zusammenarbeit zu verbessern habe ich allerdings ohnehin ein wenig den Glauben an die Menschheit verloren. Man hat wohl nicht begriffen wie der Flyer gemeint war und mit wem man da zusammenarbeitet.

    Über weiteren Input zu dem Thema wäre ich dankbar, ich suche gerade nach Dissertationen die sich mit den zugrunde liegenden Denkmustern beschäftigen. Das System ist nur ein Werkzeug, hilft nix wenn man die Handwerkstechnik nicht kennt.

    1. „Interessant wäre zu wissen auf welchen Strategien die Mustererkennung aufgebaut ist. Das lässt sich nicht mehr ausschliesslich mit Keywords darstellen sondern erfordert sicherlich komplexere Modelle in die auch soziale Verhaltensmuster einfliessen.“
      Ja, das würde mich auch interessieren. Ist in die Richtung schonmal was geleakt worden?
      Kann nur spekulieren, aber normalerweise funktioniert die Auswertung von solchen Daten zweistufig, d.h. erstmal werden alle Variablen die man so bekommen hat dekorreliert (da der Datensatz riesig ist, kann man so eine decorrelation auch mit einer kleinen Auswahl lernen) – die Variablen können da auch von unterschiedlichem Typ sein, oder unterschiedlicher Wichtigkeit, oder aus einem bestimmten Zeitraum etc. Dann im zweiten Schritt nimmt man die transformierten Variablen, und errechnet einen Score für jeden Datensatz – meistens aufsummieren mit Gewichten, wobei die dann eben genau davon abhängen, wonach man sucht. Und streng geheim sind. Oder man versucht so eine Art Voting, wo man einen Datensatz als „verdächtig“ raussucht, der eine bestimmte Anzahl von Bedingungen erfüllt. Bei letzterer Methode könnte man noch erraten worauf das Augenmerk ist mit Hilfe der Selektoren, aber bei der ersten kann man eben überhaupt nicht mehr so intuitiv sagen welche Variablen eine Rolle spielen, weil sie ja eben transformiert wurden, also zu neuen Variablen kombiniert (übrigens kann man damit auch die fehleranfälligen, also manipulierbaren, Variablen runtergewichten, sprich die Fehleranfälligkeit senken). Das ist dann schon sehr schwer zu interpretieren, also ich glaub ja nicht das man das überhaupt hinbekommen kann die Rolle eines bestimmten Selektors zu bewerten.

      1. Ich befürchte auch das die Liste, wenn sie denn nun bald veröffentlicht wird eher einem internationalen und eher kryptischen Wörterbuch gleicht und das eine bloße Fokussierung auf einzelne Begriffe nichts bringt. Die einsehbaren Studien zu Terrororganisationen und deren Struktur (eine doch recht zahlreiche Auswahl) ergeben ein paar Ansatzpunkte hinsichtlich evolutionärer Struktur von Gruppen & Kommunikationspunkten allerdings kein einheitliches Bild.

        Es wär jetzt aber vielleicht Zeit sich damit zu beschäftigen bevor man doch die Liste veröffentlicht und die Erklärungsversuche hierzu dann noch halbseidener und spekulativer ausfallen als die Rechtfertigungsversuche der Bundesregierung zu der Spionageaffäre an sich.

  2. „Firmendokumente ab sofort in die Microsoft Cloud“ – das finde ich wirklich grausam.
    Auf Heise las ich irgendwo jüngst, dass Microsoft just in den Tagen als sie bei NSA-Prism unterschrieben ALLEN ein Zwangsupdate verordnete, also auch denen, die Windows so eingestellt hatten, dass die Updates nicht automatisch installiert werden. Ausrede von Microsoft soll gewesen sein, man hätte das „Update“ aber für wichtig gehalten.

Dieser Artikel ist älter als ein Jahr, daher sind die Ergänzungen geschlossen.