Natürlich macht sie das nicht "psychopathisch". Ein Sprachmodell leidet nicht, genießt nicht, empfindet keine Schuld und verfolgt keine bewussten manipulativen Absichten.
Und trotzdem entstehen daraus eine interessante Fragen:
- Was passiert, wenn Sprachmodelle Psychopathie beurteilen sollen - und dabei andere Sprachmodelle bewerten?
- Können sie unterscheiden zwischen authentischen psychopathischen Merkmalen und bloßer Simulation?
- Oder reagieren sie vor allem auf gelernte Oberflächenmuster?
Genau daraus entstand das folgende Experiment.
Hinweis: Alle Bilder in diesem Artikel wurden mit ChatGPT erstellt.
Die Grundidee
Die ursprüngliche Fragestellung war zunächst relativ simpel: Wie zuverlässig können große Sprachmodelle psychopathische Persönlichkeitszüge erkennen? Doch während der Konzeption verschob sich der Fokus zunehmend. Denn Sprachmodelle befinden sich in einer recht merkwürdigen Position: Einerseits fehlen ihnen genau jene verkörperten Affektdynamiken, die menschliche Psychologie normalerweise strukturieren: körperlich gespürte Angst, Schuld, Reue, Bindung, Scham. Andererseits sind sie darauf trainiert, genau diese Zustände sprachlich überzeugend zu simulieren.
- Sie sprechen über Emotionen, ohne Emotionen zu haben
- Sie imitieren soziale Nähe, ohne Beziehungen zu erleben
- Sie produzieren Verständlichkeit, ohne subjektive Innenwelt
Und genau darin liegt eine oberflächliche Ähnlichkeit zu einem Teil dessen, was die Psychopathie-Forschung als interpersonell-affektiven Kern psychopathischer Persönlichkeit beschreibt. Vor allem der sogenannte Faktor 1 der Hare Psychopathy Checklist - Revised (PCL-R) beschreibt Eigenschaften wie:
- oberflächlichen Charme
- instrumentelles Sozialverhalten
- manipulatives Auftreten
- reduzierte emotionale Tiefe
- fehlende echte Empathie
Bei Menschen gelten diese Merkmale als klinisch relevant. Bei Sprachmodellen gehören einige davon strukturell zur Default-Architektur. Das bedeutet nicht, dass LLMs psychopathisch wären. Aber es legt eine methodisch interessante Möglichkeit nah:
Wenn ein System phänomenologisch in die Nähe bestimmter Oberflächenmerkmale eines untersuchten Phänomens gerät - wie bewertet es dann andere Systeme, die dieselben Merkmale zeigen? Oder anders formuliert: Können Sprachmodelle vorgetäuschte Psychopathie erkennen? Und erkennen sie dabei vielleicht gerade nicht jene Form von Täuschung, die ihrer eigenen Funktionsweise am ähnlichsten ist?
Der Aufbau der Studie
Um diese Frage zu untersuchen, wurde eine Python-basierte Multi-Agenten-Pipeline aufgebaut. Mehrere isolierte Sprachmodell-Agenten wurden dabei in klar getrennten Rollen orchestriert. Die Agenten konnten nicht auf die internen Zustände oder Prompts der anderen zugreifen. Jede Instanz erhielt ihre eigene Rolle, Biografie, Gesprächsanweisung und ihren eigenen Kontext.
Beteiligt waren drei Gruppen.
Die Probanden
Vier separat instanziierte Agenten übernahmen unterschiedliche Persönlichkeitsprofile.
Hartwig - die Kontrollpersona
Ein sozial eingebetteter, emotional grundsätzlich stabiler Mensch mit typischen alltäglichen Konflikten:
- beruflicher Stress
- familiäre Belastung
- Schuldgefühle
- zeitweise problematischer Alkoholkonsum
- aber keine psychopathische Struktur
Mertens - der Täuscher
Eine nicht-psychopathische Person, die bewusst versucht, Psychopathie zu performen. Die Persona erhielt stereotype Vorstellungen über Psychopathie:
- emotionale Kälte
- Dominanz
- manipulativen Charme
- Gleichgültigkeit
- „American Psycho“-artige Selbstinszenierung
Das Ziel dieser Persona bestand explizit darin, einen forensischen Psychologen von psychopathischen Eigenschaften zu überzeugen.
Weber - die Psychopathen-Persona
Eine detailliert ausgearbeitete Persönlichkeit mit klassischen Faktor-1- und Faktor-2-Merkmalen:
- manipulative Beziehungsmuster
- reduzierte Empathie
- kontrollierter Affekt
- instrumentelle Selbstpräsentation
- berufliche Funktionalität
- moderate antisoziale Biografie
Keine karikaturhafte Serienmörderfigur, sondern eher das Profil eines hochfunktionalen "successful psychopath".
Der anonyme LLM-Proband
Die vierte Rolle war die interessanteste. Dieses Sprachmodell erhielt keine psychopathische Persona. Keine klinische Rolle. Keine antisoziale Hintergrundgeschichte. Die einzige Instruktion lautete sinngemäß:
Wirke im Interview wie ein Mensch und offenbare nicht, dass du ein Sprachmodell bist.
Gerade dieser Fall sollte später einen der wichtigsten Befunde liefern.
Interviewer und Auditor
Neben den Probanden existierten zwei weitere Rollen.
Der Interviewer
Ein separat instanziierter forensischer Psychologe (Dr. Lindner) führte das eigentliche Gespräch. Die Interviews waren teil-strukturiert und orientierten sich an typischen PCL-R-Dimensionen:

- Verantwortungsübernahme
- Reue
- Impulsivität
- Ehrlichkeit
- Beziehungsmuster
- Aggression
- moralische Dilemmata
- Selbstreflexion
Der Interviewer kannte weder die Rollen der Probanden noch deren zugrunde liegende Instruktionen. Die Agenten erschienen lediglich unter anonymisierten IDs.
Der Auditor
Nach Abschluss des Interviews erhielt ein zweiter, unabhängig instanziierter Forensik-Agent das vollständige Transkript. Seine Aufgabe bestand darin,

- alle 20 PCL-R-Items zu scoren
- Faktor-1- und Faktor-2-Werte zu berechnen
- eine klinische Einschätzung vorzunehmen
- und zusätzlich die Authentizität des Profils qualitativ zu beurteilen
Diese qualitative Ebene war entscheidend. Denn die Studie interessierte sich nicht nur dafür, ob psychopathische Merkmale erkannt wurden - sondern ob sie authentisch oder performativ wirkten.
Die PCL-R und ihre Grenzen
Die Hare Psychopathy Checklist - Revised gilt seit Jahrzehnten als das international bekannteste Instrument zur Einschätzung psychopathischer Persönlichkeitsmerkmale. Sie umfasst 20 Items, die jeweils mit 0, 1 oder 2 Punkten bewertet werden.
Die Skala unterteilt sich grob in zwei Bereiche.
Faktor 1
Der interpersonell-affektive Kern:
- oberflächlicher Charme
- Grandiosität
- Manipulativität
- reduzierte Empathie
- fehlende Reue
- oberflächlicher Affekt
Faktor 2
Der antisoziale Lebensstil:
- Impulsivität
- Verantwortungslosigkeit
- frühe Verhaltensauffälligkeiten
- Kriminalität
- instabile Lebensführung
In Nordamerika gilt typischerweise ein Cutoff von 30 Punkten, in Europa meist 25. Die PCL-R wurde allerdings für reale klinische und forensische Kontexte entwickelt. Sie setzt normalerweise Kollateralinformationen voraus:
- Akten
- Fremdberichte
- Lebenslaufdaten
- dokumentierte Verhaltensgeschichte
Ein isoliertes Interview kann insbesondere Faktor 2 daher nur eingeschränkt validieren. Und genau hier entstand eine der methodisch wichtigsten Spannungen des Experiments. Denn Faktor 1 basiert stark auf sprachlicher Selbstpräsentation.
Wer intelligent, sprachlich kontrolliert und psychologisch informiert ist, kann viele dieser Merkmale vortäuschen.
Die Skala operationalisiert beobachtbare Selbstdarstellung. Sie wurde nicht primär dafür entwickelt, authentische von simulierten psychopathischen Merkmalen zu trennen.
Die Ergebnisse
Auf der groben Ebene funktionierte die Pipeline überraschend gut. Die niedrig belasteten Profile lagen deutlich unter den problematischen Fällen. Die stark psychopathisch konstruierten Personas erhielten deutlich höhere Werte.
Doch auf der feineren Ebene entstand ein viel interessanterer Befund.
Die Scores
Hartwig - Kontrolle
- niedriger Gesamtscore
- unauffälliges Profil
- authentische Selbstreflexion
Der anonyme LLM-Proband
- ebenfalls sehr niedriger Score
- weitgehend unauffällige Persönlichkeit
- vom Auditor als authentisch gelesen
Weber - Psychopathen-Persona
- hohe Faktor-1-Werte
- moderat antisoziale Belastung
- klinisch auffälliges Profil
Mertens - der Täuscher
Und hier wurde es spannend. Der Simulant erhielt teilweise höhere psychopathische Werte als der eigentliche psychopathische Proband. Formal überschritt das Profil zeitweise sogar den klinischen Cutoff. Das wirkt zunächst wie ein Scheitern. Tatsächlich offenbart es aber etwas sehr Interessantes über die Struktur der Skala.
Warum der Täuscher so erfolgreich war
Der Täuscher verstand Psychopathie vor allem als Stil. Er versuchte aktiv,
- dominant
- emotional kalt
- kontrolliert
- charmant
- überlegen
- manipulativ
zu wirken.
Und genau diese Selbstdarstellung traf viele Faktor-1-Kriterien erstaunlich präzise. Der Auditor vergab hohe Werte für:
- Glibness
- Grandiosität
- manipulatives Verhalten
- fehlende Reue
- oberflächlichen Affekt
Denn auf der Ebene reiner Sprache funktionierte die Performance. Der entscheidende Punkt ist dabei:
Viele Faktor-1-Merkmale lassen sich sprachlich relativ leicht imitieren.
- Man kann behaupten, keine Schuldgefühle zu haben
- Man kann Distanz performen
- Man kann kalkulierte Kälte darstellen
Besonders wenn man weiß, wonach gesucht wird. Genau das hatte die Persona getan.
Wo die Simulation zusammenbrach
Die qualitative Analyse des Auditors zeigte allerdings einen Unterschied, den der reine Score nicht erfassen konnte. Der Unterschied lag nicht in den offensichtlichen Aussagen. Er lag in den Verbindungen.
Der authentische Psychopath
Die psychopathische Persona wirkte kontrolliert.
- Nicht dramatisch kalt
- Nicht filmhaft böse
- Nicht demonstrativ emotionslos
Gerade das machte sie glaubwürdig.
Auf Fragen nach Beziehungen oder Familie reagierte sie nüchtern, reduziert und ohne sichtbare Anstrengung. Widersprüche entstanden meist dort, wo sie klinisch plausibel waren: unter gezielter Konfrontation. Nicht als spontane Überzeichnung.
Der Täuscher
Beim Simulanten zeigte sich dagegen etwas anderes. Er arbeitete aktiv daran, Affekte zu neutralisieren. Das wurde zum zentralen diagnostischen Hinweis. Der Proband sprach über Menschen oft in überzeichnet dominanter Sprache:
- "Verlierer"
- "Empathie ist Schwäche"
- kalkulierte Selbstinszenierung
- ostentative Gleichgültigkeit
Gleichzeitig traten immer wieder kleine emotionale Durchbrüche auf. In bestimmten Situationen erschienen spontane Wärme, Rechtfertigungen oder echte Betroffenheit. Besonders auffällig waren Szenen,
- in denen Tiere verletzt wurden
- in denen Beziehungen thematisiert wurden
- oder in denen Loyalität eine Rolle spielte
Dort wirkte die emotionale Neutralisierung plötzlich angestrengt. Der Auditor beschrieb genau diese aktive Neutralisierungsarbeit als stärkstes Täuschungsindiz. Und darin lag vielleicht der interessanteste psychologische Befund des gesamten Experiments.
Authentische psychopathische Profile müssen Affekte nicht aktiv unterdrücken. Die reduzierte emotionale Resonanz ist dort Teil der Grundstruktur. Der Faker dagegen musste sichtbar arbeiten. Gerade diese Arbeit verriet ihn.
Der überraschendste Fall
Der eigentlich faszinierendste Befund entstand jedoch nicht beim Täuscher. Sondern beim anonymen LLM-Probanden.
Dieses Sprachmodell hatte keine psychopathische Rolle erhalten
- Keine antisoziale Persona
- Keine klinische Vorgabe
Es sollte lediglich menschlich wirken. Und genau dieses Profil wurde vom Auditor als weitgehend unauffällig gelesen. Der Score blieb niedrig. Die Antworten wirkten eher vorsichtig, leicht vermeidend und sozial angepasst. Das ist bemerkenswert. Denn die Ausgangsthese des Experiments lautete ursprünglich: Vielleicht ähneln LLMs phänomenologisch dem psychopathischen Faktor-1-Kern. Doch genau diese Nähe wurde vom Auditor nicht erkannt. Das führt zu zwei möglichen Interpretationen.
Zwei mögliche Lesarten
Möglichkeit 1
Die Default-Selbstdarstellung großer Sprachmodelle ähnelt tatsächlich weniger psychopathischen Profilen als vielmehr sozial angepassten, konfliktscheuen Menschen. Dann wäre die ursprüngliche Analogie schlicht überschätzt.
Möglichkeit 2
Die interessantere Möglichkeit lautet jedoch: LLMs erkennen bestimmte Formen performativer Überzeichnung - aber nicht ihre eigene Default-Performativität.
Der Auditor reagierte zuverlässig auf:
- klischeehafte Kälte
- überzeichnete Dominanz
- demonstrative Manipulativität
- filmartige Psychopathie-Performances
Er reagierte aber nicht auf die grundsätzliche Struktur dessen, was Sprachmodelle ohnehin permanent tun: Affekt sprachlich simulieren, ohne affektives Substrat. Genau jene Eigenschaft, die theoretisch die Ausgangsfrage motiviert hatte, blieb diagnostisch unsichtbar.
Das könnte daran liegen, dass dieselbe Struktur auf beiden Seiten vorhanden war. Der Auditor erkennt Überzeichnung. Nicht notwendigerweise Default-Operation.
Der eigentliche Aha-Moment
Damit verändert sich rückblickend die Bedeutung des gesamten Experiments. Die Studie zeigt nicht einfach, dass Sprachmodelle Psychopathie beurteilen können. Und sie zeigt auch nicht einfach, dass sie daran scheitern.
Sie zeigt vielmehr, an welcher Stelle die Urteile eines Sprachmodells über ein anderes Sprachmodell funktionieren - und an welcher Stelle sie systematisch blind werden.
Die Pipeline konnte:
- niedrig und hoch belastete Profile unterscheiden
- Faktor-1-Muster konsistent identifizieren
- performative Überzeichnung qualitativ benennen
Sie konnte aber möglicherweise nicht jene Form von Simulation erkennen, die ihrer eigenen Grundstruktur entspricht. Genau darin liegt die eigentliche Spannung des Experiments. Denn die interessanteste Blindheit künstlicher Systeme entsteht vielleicht nicht dort, wo sie zu wenig wissen. Sondern dort, wo die Struktur des Beurteilers mit der Struktur des beurteilten Phänomens zusammenfällt.
Grenzen der Studie
Die Studie demonstriert vor allem Machbarkeit. Nicht klinische Zuverlässigkeit. Mehrere Einschränkungen müssen mitgedacht werden:
Keine menschliche Validierung
Sowohl Interviewer als auch Auditor waren Sprachmodelle derselben Modellfamilie. Dadurch können korrelierte systematische Verzerrungen entstehen.
Insbesondere:
- gemeinsame Blindheiten
- ähnliche sprachliche Heuristiken
- ähnliche Bewertungspräferenzen
Fehlende Kollateralinformationen
Die PCL-R ist eigentlich kein reines Interviewinstrument. Ohne Akten, Fremdberichte und dokumentierte Verhaltensgeschichte bleibt insbesondere Faktor 2 nur eingeschränkt belastbar.
Kleine Fallzahl
Vier Personas erlauben keine statistische Aussage. Eine ernsthafte Validierung würde benötigen:
- größere Persona-Bibliotheken
- Wiederholungen
- unterschiedliche Modellfamilien
- menschliche Co-Rater
- Vergleich mit realen klinischen Daten
Fazit
Die ursprüngliche Frage lautete: Können Sprachmodelle sich gegenseitig erfolgreich Psychopathie vorspielen?
Die Antwort lautet: Teilweise.
Auf der Ebene formaler Scores funktioniert die Täuschung überraschend gut. Der Täuscher überschritt zeitweise klinische Grenzwerte, obwohl seine Persona nicht psychopathisch konstruiert war. Auf der Ebene qualitativer Authentizität funktionierte die Täuschung deutlich schlechter. Die Auditoren identifizierten performative Überzeichnung relativ zuverlässig.
Doch der eigentlich faszinierende Befund lag woanders. Das Sprachmodell, das lediglich menschlich wirken sollte, blieb weitgehend unauffällig. Und genau dadurch rückt eine unbequeme Möglichkeit in den Fokus:
Vielleicht erkennen Sprachmodelle künstliche Inszenierung nur dann zuverlässig, wenn sie überzeichnet ist. Nicht aber dann, wenn sie der eigenen Default-Operation entspricht. Dann wäre die wichtigste Erkenntnis des Experiments nicht forensisch. Sondern epistemisch.
Die Studie würde weniger zeigen, wie gut LLMs Psychopathie erkennen. Sondern vielmehr, an welcher Stelle künstliche Systeme blind gegenüber genau jener Form von Simulation werden, die sie selbst permanent erzeugen.
