Martina Frei für die Onlinezeitung Infosperber

Vermeintliche Erfolgsmeldungen in Medien entpuppen sich oft als viel weniger beeindruckend. Ein paar einfache Überlegungen genügen.

Künstliche Intelligenz hilft, Steuersünder zu finden, «künstliche Intelligenz hält Einzug in die Opernwelt«, «künstliche Intelligenz entwirft neuartigen Tennisschläger«, künstliche Intelligenz hilft beim Energiesparen, künstliche Intelligenz revolutioniert dieses oder jenes … – kein Tag vergeht, an dem es nicht irgendeine Erfolgsmeldung zu künstlicher Intelligenz in die Medien schafft.

Nur selten gibt es in der Flut an Positivnachrichten auch kritische Stimmen wie kürzlich im «NZZ Folio». Die Autorin beschrieb dort unter anderem, wie «künstliche Intelligenz» und ihre menschlichen Helfershelfer in den Niederlanden Tausende von Familien in die Armut trieben und über 1’000 Kinder in Pflegefamilien kamen. Der Grund: Die «künstliche Intelligenz» hatte die Familien als Betrüger «erkannt», und die Steuerbeamten vertrauten ihr mehr als den zu Unrecht Beschuldigten.

Die Fehleinschätzung des Ministers

Wie kritiklos die «künstliche Intelligenz» gefeiert wird, illustriert auch das folgende Beispiel aus dem kürzlich erschienenen Buch «Grüne fahren SUV und Joggen macht unsterblich».

Nachdem im Dezember 2016 ein islamistischer Terrorist mit einem LKW in einen Berliner Weihnachtsmarkt gedonnert war, liess der damalige deutsche Bundesinnenminister untersuchen, ob Gesichtserkennungssysteme etwa 600 als ähnlich gefährlich eingeschätzte Personen finden könnten.

«Im Oktober 2018 meldete das Bundesministerium des Innern, für Bau und Heimat stolz in einer Pressemitteilung: ‹Projekt zur Gesichtserkennung erfolgreich›. Der Präsident des Bundespolizeipräsidiums sagte: ‹Die Technik erlaubt es, Straftäter ohne zusätzliche Polizeikontrollen zu erkennen und festzunehmen. Dies bedeutet einen erheblichen Sicherheitsgewinn.› Der Bundesinnenminister war begeistert und äusserte sich zuversichtlich, dass landesweite Überwachung nun machbar und wünschenswert sei: ‹Die Systeme haben sich in beeindruckender Weise bewährt, sodass eine breite Einführung möglich ist.› In Wahrheit handelt es sich um eine Fehleinschätzung der Möglichkeiten und Grenzen der künstlichen Intelligenz. Um das zu verstehen, benötigt man ein hier leider fehlendes statistisches Denken. Es schützt sowohl gegen Marketing-Hype und ‹religiösen› Techno-Glauben als auch gegen Technik-Skepsis und Weltuntergangsszenarien», schreibt das vierköpfige Buchautorenteam.

Eine einfache Rechnung – aber niemand machte sie

Und dann legt es dar, wie es zu dieser Fehleinschätzung kam: Das beste der getesteten Gesichtserkennungssystem erkannte in den Tests laut Pressemitteilung 80 Prozent der Gefährder. Nur in 0,1 Prozent der Fälle stufte es harmlose Bürger fälschlicherweise als verdächtig ein. Damit war für Politiker und Medien – darunter auch «tagesschau.de» – klar, dass dieses System für mehr Sicherheit sorgen wird.

Doch das tut es nicht. Denn «zunächst einmal hat keines der drei getesteten Systeme eine Trefferquote von 80 Prozent über beide Testphasen (zweimal ein halbes Jahr) hinweg erreicht; die 80 Prozent […] bekam man nur nachträglich, indem man die Treffer aller drei Systeme addierte (das heisst, wenn mindestens eines der Systeme einen Treffer hatte, galt das als Treffer)», klären die vier Buchautoren auf.

Eine einfache Rechnung hätte Politiker und Medien vor ihrem Fehler bewahren können. «Solange jedoch für viele statistisches Denken eine Fremdsprache ist – Politiker und Führungskräfte eingeschlossen –, kann man nicht erwarten, dass die Möglichkeiten und Risiken von digitalen Techniken verstanden werden», urteilt das Quartett.

Über 99 Prozent der Verdachtsfälle wären Fehlalarme

Die Rechnung geht so: Täglich nutzen etwa zwölf Millionen Menschen in Deutschland die Bahn. Angenommen, 100 der 600 mutmasslichen Gefährder würden sich an einem beliebigen Tag auf Bahnhöfen aufhalten und das System würde 80 Prozent erkennen, dann würden so 80 Gefährder gesichtet.

Zugleich würde das Gesichtserkennungssystem aber 0,1 Prozent der zwölf Millionen Reisenden auf den Bahnhöfen als verdächtig einstufen. Das macht 12’000 Personen, die von der Polizei an diesem Tag überprüft werden müssten.

Nur bei 80 von total 12’080 als verdächtig eingestuften Personen hätte das Gesichtserkennungssystem also Recht, das entspricht rund 0,7 Prozent der Alarme. In 99,3 Prozent der Fälle dagegen: Fehlalarm!

«Das Problem liegt nicht bei der Technik […], sondern bei Politikern und einigen Medien, die nicht verstehen, was das Massenscreening durch Gesichtserkennungssysteme kann und was es nicht kann, und an fehlender statistischer Bildung. […] Vielen Politikern, Polizeipräsidenten, Journalisten, aber auch uns Bürgern würde statistisches Denken helfen, die Genauigkeit digitaler Techniken zu verstehen und zu hinterfragen.»

Big Data bedeutet «in erster Linie Big Business»

Weitere Schlappen der «künstlichen Intelligenz» gefällig? Da wäre etwa Amazons Gesichtserkennungssystem: «Es verglich die Fotos von 535 US-Kongressabgeordneten mit einer Datenbank von Straftätern und fand bei 28 Abgeordneten eine Übereinstimmung, alle waren falsch», berichten die Buchautoren. Oder die Grippewellenvorhersage durch «Google Flu Trends», «von den Medien […] als der grosse Erfolg von Big Data gefeiert. Doch stellte sich bald heraus, dass die Vorhersagen systematisch danebenlagen, und auch mehrere Versuche der Google-Ingenieure, [den Algorithmus – Anm. d. Red.] komplexer und damit vermeintlich besser zu machen, scheiterten.»

Ein anderes Beispiel ist das Detektieren von Bauchspeicheldrüsenkrebs mit Hilfe von «Bing», der Microsoft-Suchmaschine. Anhand der Suchbegriffe, die Nutzerinnen und Nutzer dort eingaben, wollte Bing erkennen, wer Symptome dieser gefährlichen Krankheit hatte und schleunigst zum Arzt sollte. «In 5 bis 15 Prozent der Fälle gelang ihnen die Früherkennung. Beeindruckender ist die sehr niedrige Zahl von Fehlalarmen. Von 10’000 Nutzern wurde weniger als einer fälschlicherweise als krebskrank eingestuft», lobte die «Süddeutsche Zeitung».

Doch wieder rechnen die Buchautoren vor: Wenn von 100’000 Nutzern zehn Bauchspeicheldrüsenkrebs hätten, würde einer dieser Kranken richtig erkannt, neun Erkrankte würden von «Bing» verpasst – und zehn der 99’990 Menschen ohne Bauchspeicheldrüsenkrebs würde die Meldung, dass sie wohl einen Tumor im Bauch haben, in Angst und Schrecken versetzen, völlig unnötig.

«Damit ist die Wahrscheinlichkeit, dass ein Krebsalarm richtig ist, 1/11, also etwa 9 Prozent.» Das Fazit der Buchautoren: «Ob Dr. Google oder Dr. Bing: Für kommerzielle Unternehmen bedeutet Big Data in erster Linie Big Business und nicht notwendigerweise eine bessere Medizin.»

Skeptisch bleiben bei Umfrageergebnissen

Ein anderes, beliebtes Thema in den Medien: «Eine Umfrage hat ergeben, dass …». Wie diese Umfrageresultate zustande kamen, erfahren die Zuhörerinnen, Zuschauer und Lesenden kaum je.

Dabei wäre genau das oft entscheidend. Im Jahr 2016 ergab zum Beispiel eine Umfrage, dass 53 Prozent der Deutschen fanden, Deutschland sollte mehr für den Klimaschutz tun. 67 Prozent waren dafür, die Kohlekraftwerke so schnell wie möglich abzuschalten. Die Umfrage war repräsentativ – also auch aussagekräftig? Von wegen.

Denn die Art, wie gefragt wurde, legte die erwünschte Antwort bereits sehr nahe. So lautete die Frage zum Klimaschutz:

«Beim Klimagipfel in Paris wurde 2015 ein internationales Abkommen für den Klimaschutz beschlossen. Anfang des Monats September haben die USA und China dieses Abkommen ratifiziert. Deutschland hat den Prozess noch nicht abgeschlossen und einen schwachen Klimaschutzplan für 2050 vorgelegt. Sollte Deutschland Ihrer Meinung nach mehr tun, um Vorreiter im Klimaschutz zu bleiben?»

Zu den Kohlekraftwerken wurde so gefragt:

«Die Stromproduktion aus Kohle allein ist die grösste Einzelquelle für die deutschen Treibhausgasemissionen. Was sollte Ihrer Meinung nach mit den Kohlekraftwerken passieren?»

Auch dieses Beispiel stammt aus dem aktuellen Buch der vier Autoren – Thomas K. Bauer, Gerd Gigerenzer, Walter Krämer und Katharina Schüller –, die sich bereits mit früheren Büchern oder mit der «Unstatistik des Monats» einen Namen gemacht haben. Sie erklären, wie durch Hoch- oder Herunterrechnen oder Herauspicken von bestimmten Zeitabschnitten Medienmeldungen werden, die es nie und nimmer in die Zeitung, ins Fernsehen oder ins Radio hätten schaffen dürfen –und trotzdem dort verkündet wurden.

Der Originalartikel kann hier besucht werden