Wie gut erkennen wir Deep-Fake-Bilder?

Allgemeine Einleitung: Es gibt immer mehr Deepfakes

Noch vor wenigen Jahren waren Deepfakes ein Nischenphänomen. Inzwischen sind sie ein Massenprodukt – nicht zuletzt, weil die nötigen KI-Werkzeuge leichter zugänglich werden und die Qualität synthetischer Gesichter stark gestiegen ist. Einen Eindruck vom Wachstum geben Übersichtsarbeiten, die Zahlen aus frühen Markt-/Lageberichten zusammenführen: Der Bericht von Deeptrace/Sensity zählte beispielsweise 7.964 Deepfake-Videos (Dez. 2018), 14.678 (Juli 2019) und 85.047 (Dez. 2020) – ein sprunghafter Anstieg innerhalb von zwei Jahren.(PMID: 39296632)
Parallel wächst auch das Ökosystem der Tools: In derselben Open-Access-Übersicht wird (unter Bezug auf Sensity-Angaben) berichtet, dass es bis 2024 über 10.000 Tools zur Deepfake-Erstellung gebe.(PMID: 39296632)

Diese Dynamik hat Folgen: Deepfakes sind längst nicht mehr nur ein Problem für Prominente oder Politik. Synthetische Profilbilder können bei Betrug, Romance-Scams oder Identitätsmissbrauch als „Glaubwürdigkeits-Booster“ dienen – und damit alltägliche digitale Kommunikation untergraben. Systematische Übersichten zur menschlichen Deepfake-Erkennung beschreiben genau diese Verschiebung: Deepfakes werden als Sicherheitsproblem „breitflächiger“ und alltagsnäher, während die Detektion ein Wettrüsten bleibt. (https://doi.org/10.1016/j.chbr.2024.100538)

Wie gut können Menschen Deepfakes erkennen? Eine zentrale Studie

Wie gut sind wir als „menschlicher Deepfake-Detektor“ – zumindest bei statischen Bildern von Gesichtern? Genau das testet eine vielzitierte Studie im Journal of Cybersecurity: Bray, Johnson & Kleinberg (2023) untersuchen, ob Menschen KI-generierte Gesichter zuverlässig von echten unterscheiden können – und ob kurze Trainingshinweise helfen.

Fragestellung / Ziel:
Die Autor:innen wollen wissen, (1) ob Menschen über Zufall hinaus korrekt klassifizieren, (2) ob einfache Interventionen (Familiarisierung, Hinweislisten) die Leistung verbessern und (3trauen („Confidence“) mit tatsächlicher Trefferquote zusammenhängt.

Methodik (leicht verständlich):

Teilnehmende: 280 Personen über die Plattform Prolific.
Material: 20 einzelne Porträtbilder pro Person. Ein Teil waren echte Fotos aus dem FFHQ*, der andere Teil waren StyleGAN2-generierte synthetische Gesichter (unkuratierte KI-Outputs)
Aufgabe: Für jedes Bild entscheiden: „AI-generated“ oder „real“. Danach Confidence angeben und kurz begründen.
Int1 Kontrollbedingung (Control) – ohne Trainings-/Hinweismaßnahme
3 Interventionsbedingungen – mit Maßnahme:
- Familiarization
- One-time advice
- Advice with reminder

Ergebnis in einem Satz:
Menschen lagen nur knapp über Zufall – und die Trainingshinweise halfen nicht verlässlich.

Konkret lag die Gesamtgenauigkeit in der Studie bei ungefähr rund 60–64% (je nael etwa 62%).
Die Interventionen zeigten ein unangenehmes Muster: Hinweise konnten die Treffer bei Deepfakes teils erhöhen, führten aber gleichzeitig zu mehr False Positives – echte Gesichter wurden dann häufiger fälschlich ft. Unterm Strich blieb die Gesamtleistung ähnlich.
Besonders relevant für den Alltag: Selbstvertrauen war kein guter Kompass. Wer sich sicher fühlte, war nicht automatisch genauer – ein Risiko, weil wir in der Praxis selten ein Feedback bekommen („War das Bild

Diese Befunde passen zu dem, was systematische Übersichten zur menschlichen Deepfake-Detektion betonen: Die Leistung ist häufig moderat, stark abhängig von Material und Kontext – und einfache „Blick-auf-Artefakein Wundermittel.(https://doi.org/10.1016/j.chbr.2024.100538)

Tipps: Wie man Deepfake-Bilder besser erkennt (mit realistischen Erwartungen)

Der wichtigste Tipp kommt aus der Forschung selbst: Verlass dich nicht auf Bauchgefühl. Die Studie zeigt, dass Menschen bei Gesichtern schnell überconfident werden.

Wenn du trotzdem prüfen willst, helfen zwei Ebenen – Bildprüfung und Kontextprüfung:

1) Bildprüfung (Artefakte – aber vorsichtig interpretieren)
Bray et al. testeten explizit eine Hinweisliste („tell-tale features“) als Intervention; sie machte Teilnehmende nicht grundsätzlich Checkliste dienen – mit dem Wissen: Sie erhöht auch Fehlalarme.
Praktisch heißt das: Suche nicht nach einem einzelnen „Beweis“, sondern nach Häufungen von Unstimmigkeiten (z. B. fehlerhafte Übergänge an Haaren/Ohren, unplausible Schmuck-/Brillenstrukturen, inkonsistente Beleuchtung/Reflexionen, seltsame Hintergründe). Genau solche visuellen Heuristikentypische Ansatzpunkte diskutiert.

2) Kontextprüfung (oft stärker als Pixel-Detektivarbeit)
Statische Deepfake-Gesichter werden häufig als Profilbilder oder „Belegfoto“ verwendet. Dann ist die entscheidende Frage weniger „Ist dieses Bild perfekt?“, sondern: Passt es zur Quelle und zur Situation?

Kommt das Bild aun Account ohne Historie?
Gibt es unabhängige Spuren (weitere Fotos, konsistente Biografie, verifizierte Kontakte)?
Lässt sich das Bild (oder sehr ähnliche Versionen) über Plattformen/Recherche wiederfinden?
Systematische Übersichten betonen, dass Detektion im Alltag häufig aus kombinierten Signalen besteht – technische Artefakte plus Kontext.

Gibt es Möglichkeiten, sich zu schützen?

Ja – aber der Schutz sollte nicht allein bei Einzelpersonen liegen.

1) Provenienz statt Raten: Content Credentials (C2PA)
Ein zentraler Ansatz ist digitale Herkunft/Provenienz: Inhalte sollen kryptografisch mit Metadaten verknüpft werden, die zeigen, woher ein Bild stammt und wie es bearbeitet wurde. Dafür gibt es den offenen Standard der Coalition for Content Provenance and Authenticity (C2PA).
Wichtig: Provenienz löst nicht alles (Metadaten können fehlen oder entfernt werden), aber sie verschiebt die Frage von „Kann ich es erkennen?“ zu „Kann ich die Herkunft prüfen?“.

2) Verifikation als Routine (gerade bei Geld, Identität, Dringlichkeit)
Wenn ein Bild/Profil eine Handlung auslösen soll (Geld überweisen, sensible Infos teilen, Vertrauen schenken), gilt: zweiter Kanal. Also telefonisch über eine bekannte Nummer rückfragen, Video-Call mit spontanen Kontextfragen, oder eine verifizierte Kontaktkette nutzen. Die Forschung zur menschlichen Erkennung zeigt, warum: Auf reine visuelle Intuition ist wenig Verlass.

3) Plattformen und Institutionen in die Pflicht
Aus wissenschaftlicher Sicht ist das „Endnutzer-Training“ begrenzt skalierbar. Bray et al. zeigen genau das am Beispiel einfacher Trainingshinweise.
Darum sind Plattformmaßnahmen (Kennzeichnung, Upload-Prüfungen, Provenienz-Anzeige) und organisatorische Regeln (z. B. „kein Payment nur aufgrund eines Bildbelegs“) oft wirksamer als der Appell an individuelle Aufmerksamkeit. (PMID: 39296632)