„Data Mining“ bei deutschen Polizeibehörden – Übersicht über Definitionen, Firmen und Produkte

Analysts-Notebook-200Laut mehrerer Antworten auf parlamentarische Anfragen herrscht beim Bundesministerium des Innern (BMI) große Konfusion, wie der Begriff „Data Mining“ eigentlich auszulegen sei. 2012 hieß es, der Begriff sei „weder im Recht der Europäischen Union noch im deutschen Recht definiert“. Es existierten bislang keine gesetzliche Regelungen über die Zulässigkeit von „Data Mining“. Man schloss sich aber einer Definition der „Privatwirtschaft“ an, wonach der Begriff Methoden bezeichne, „mit deren Hilfe bereits vorhandene große Datenbestände, zumeist auf statistisch-mathematischen Verfahren basierend, selbständig auf Zusammenhänge analysiert werden, um auf diesem Wege ’neues Wissen‘ zu generieren“.

Angeblich würde dies bei Polizeien des Bundes aber noch nicht durchgeführt. Entsprechende Tests wurden bislang verneint, obwohl einige Kriminale aus Wiesbaden bekanntlich zu einer Präsentation von IBM nach Freiburg gereist waren. Erst auf präzise Nachfrage hatte das BMI mitgeteilt, inwiefern sich das Bundeskriminalamt (BKA) durchaus für Software zum „Data Mining“ interessiert. Nun ist die Rede von einer „Marktbeobachtung zu Data Mining Software“. MitarbeiterInnen des BKA hätten hierfür an Präsentationen teilgenommen und Testberichte erhalten. Erst nach neuerlicher Nachfrage hatte der Staatssekretär Günter Krings Hersteller benannt, die für das BKA von Interesse sind. Demnach habe die Behörde letztes Jahr an Vorführungen folgender Firmen partizipiert:

  • IBM
  • Netapp Deutschland GmbH
  • Fun Communications GmbH
  • CID Consulting GmbH
  • IABG mbH
  • Moresophy GmbH
  • Osher Ltd.

Auch „für die Bürokommunikation genutzte Programme“ leisten „Data Mining“

Testberichte seien lediglich von IBM und Oracle bestellt worden. Konkret habe es sich dabei um die Anwendungen „Content Analytics“ und „Entity Extraction“ gehandelt. Welche weiteren Produkte von Interesse waren, hatte Krings zunächst nicht beantworten wollen, auf Drängen des MdB Andrej Hunko jetzt aber nachgeliefert. Demnach sei von der Firma CID Consulting GmbH über seine Software „Corpus“ und „Topic Analyst“ informiert worden. Die Firmen IABG mbH und Moresophy Ltd. würden keine fertigen Produkte entwickeln, sondern entsprechende „Dienstleistungen oder Produktentwicklungen zum Data Mining“ anbieten.

Zu welchen Anwendungen die Firmen „lnformationsmaterial“ übersandten, bleibt aber unklar (die IABG ist bislang eher als Dienstleister für das Verteidigungsministerium bekannt). Angeblich habe das BKA aber kein weiteres Interesse an der Software von IABG , Moresophy und Osher. Es bleiben also IBM, Netapp, Fun Communications und CID Consulting.

Allerdings ist die Defintion des BMI zu „Data Mining“ durchaus strittig: Denn auch andere Anwendungen sind geeignet um „neues Wissen“ zu generieren. Dies hatte sogar das BMI in der jüngsten Antwort eingeräumt:

So lässt sich die Bestimmung der statistischen Verteilung von Daten bereits unter den Begriff des Data Minings fassen. Zum Data Mining können somit auch viele für die Bürokommunikation genutzte Programme eingesetzt werden.

Staistiken? Fehlanzeige.

Hierzu gehört etwa die IBM-Software „Analyst’s Notebook“ oder „Infozoom“ von der Firma humanIT in Bonn. Mit „Infozoom“ werden unter anderem Massendaten aus der Telekommunikationsüberwachung nach Übereinstimmungen durchforstet. „Analyst’s Notebook“ wird im BKA „im Zusammenhang mit der Visualisierung von Datenbeständen“ fleißig genutzt. Die Software könne laut dem Innenministerium „komplexe Organisationsstrukturen oder personenbezogene Zusammenhänge“ im Rahmen von Ermittlungen „übersichtlich darstellen“.

Wie häufig „Analyst’s Notebook“ oder „Infozoom“ genutzt werden und ob die Häufigkeit ihres Einsatzes zunimmt, kann leider nicht überprüft werden: Beim BKA werden keine entsprechenden Statistiken geführt.

Deine Spende für digitale Freiheitsrechte

Wir berichten über aktuelle netzpolitische Entwicklungen, decken Skandale auf und stoßen Debatten an. Dabei sind wir vollkommen unabhängig. Denn unser Kampf für digitale Freiheitsrechte finanziert sich zu fast 100 Prozent aus den Spenden unserer Leser:innen.

3 Ergänzungen

  1. A system detects global trends in social networks two months in advance

    A new method of monitoring identifies what information will be relevant on social networks up to two months in advance. This may help predict social movements, … according to a study in the Universidad Carlos III of Madrid (UC3M) is participating. …
    To do this, the scientists made use of one of the properties of the social networks that can also be observed in Twitter; it is known as „the friendship paradox“: your friends have, on average, more friends than you. In the case of Twitter, after analyzing a sample of data from 40 million users and 15 billion followers in 2009, the researchers were able to show that each user had an average of 25 followers, who in turn had an average of 422 followers, that is, almost twenty times as many. „This means that a person’s followers have a role in a social network that makes them very relevant when it comes to spreading or receiving information,“ …
    In general, this new method turns out to be very simple and effective for monitoring social networks, according to its creators. Data from just 50,000 Twitter is enough to achieve these levels of prediction and to know what will „go viral“ across the entire Internet. It can be used in real time, about different topics, in different languages and geographical areas, thus allowing for different contexts to be covered: discovering new opinions in a political debate, predicting social movements,

  2. Bei all den verschiedenen Definition, die ein Begriff wie Data Mining mit sich bringt, sollte allerdings erwähnt werden, dass der in der Privatwirtschaft vorherrschende Begriff meist doch etwas enger interpretiert wird, nämlich im Sinne von Predictive Analytics, also der Einsatz von Prognosemodellen zur Vorhersage von monetären Größen oder der Wahrscheinlichkeit für das Eintreffen bestimmter – meist kundenbezogener – Ereignisse wie Kündigung, Kauf oder Sortimentsaffinität. Letztendlich hat sich über die letzten 10 bis 20 Jahre gezeigt, dass der Nutzen dieser Teildisziplin noch am besten nachweisbar ist, da im Rahmen des Modelltrainings unmittelbar Feedback über die Güte des Modells gegeben werden kann (sogenanntes überwachtes Lernen). Parallel hat sich in der Praxis auch der Begriff Scoring-Modelle oder Scorekarten eingebürgert, der ursprünglich aus der Sportwelt kommend über den Weg Kreditwürdigkeitsprüfung (Credit Scoring) mittlerweile auch in anderen Einsatzgebieten verwendet wird. Wie dem auch sei, mit der Bewältigung dieser Aufgaben wären normale „für die Bürokommunikation genutzte Programme“ – ohne fremde Hilfe in Form ergänzender Module – sicher überfordert.

Dieser Artikel ist älter als ein Jahr, daher sind die Ergänzungen geschlossen.