Natürlich macht sie das nicht "psychopathisch". Ein Sprachmodell leidet nicht, genießt nicht, empfindet keine Schuld und verfolgt keine bewussten manipulativen Absichten.

Und trotzdem entstehen daraus eine interessante Fragen:

Was passiert, wenn Sprachmodelle Psychopathie beurteilen sollen - und dabei andere Sprachmodelle bewerten?
Können sie unterscheiden zwischen authentischen psychopathischen Merkmalen und bloßer Simulation?
Oder reagieren sie vor allem auf gelernte Oberflächenmuster?

Genau daraus entstand das folgende Experiment.

Hinweis: Alle Bilder in diesem Artikel wurden mit ChatGPT erstellt.

Die Grundidee

Die ursprüngliche Fragestellung war zunächst relativ simpel: Wie zuverlässig können große Sprachmodelle psychopathische Persönlichkeitszüge erkennen? Doch während der Konzeption verschob sich der Fokus zunehmend. Denn Sprachmodelle befinden sich in einer recht merkwürdigen Position: Einerseits fehlen ihnen genau jene verkörperten Affektdynamiken, die menschliche Psychologie normalerweise strukturieren: körperlich gespürte Angst, Schuld, Reue, Bindung, Scham. Andererseits sind sie darauf trainiert, genau diese Zustände sprachlich überzeugend zu simulieren.

Sie sprechen über Emotionen, ohne Emotionen zu haben
Sie imitieren soziale Nähe, ohne Beziehungen zu erleben
Sie produzieren Verständlichkeit, ohne subjektive Innenwelt

Und genau darin liegt eine oberflächliche Ähnlichkeit zu einem Teil dessen, was die Psychopathie-Forschung als interpersonell-affektiven Kern psychopathischer Persönlichkeit beschreibt. Vor allem der sogenannte Faktor 1 der Hare Psychopathy Checklist - Revised (PCL-R) beschreibt Eigenschaften wie:

oberflächlichen Charme
instrumentelles Sozialverhalten
manipulatives Auftreten
reduzierte emotionale Tiefe
fehlende echte Empathie

Bei Menschen gelten diese Merkmale als klinisch relevant. Bei Sprachmodellen gehören einige davon strukturell zur Default-Architektur. Das bedeutet nicht, dass LLMs psychopathisch wären. Aber es legt eine methodisch interessante Möglichkeit nah:

Wenn ein System phänomenologisch in die Nähe bestimmter Oberflächenmerkmale eines untersuchten Phänomens gerät - wie bewertet es dann andere Systeme, die dieselben Merkmale zeigen? Oder anders formuliert: Können Sprachmodelle vorgetäuschte Psychopathie erkennen? Und erkennen sie dabei vielleicht gerade nicht jene Form von Täuschung, die ihrer eigenen Funktionsweise am ähnlichsten ist?

Der Aufbau der Studie

Um diese Frage zu untersuchen, wurde eine Python-basierte Multi-Agenten-Pipeline aufgebaut. Mehrere isolierte Sprachmodell-Agenten wurden dabei in klar getrennten Rollen orchestriert. Die Agenten konnten nicht auf die internen Zustände oder Prompts der anderen zugreifen. Jede Instanz erhielt ihre eigene Rolle, Biografie, Gesprächsanweisung und ihren eigenen Kontext.

Beteiligt waren drei Gruppen.

Die Probanden

Vier separat instanziierte Agenten übernahmen unterschiedliche Persönlichkeitsprofile.

Hartwig - die Kontrollpersona

Alt Ein sozial eingebetteter, emotional grundsätzlich stabiler Mensch mit typischen alltäglichen Konflikten:

beruflicher Stress
familiäre Belastung
Schuldgefühle
zeitweise problematischer Alkoholkonsum
aber keine psychopathische Struktur

Mertens - der Täuscher

Alt Eine nicht-psychopathische Person, die bewusst versucht, Psychopathie zu performen. Die Persona erhielt stereotype Vorstellungen über Psychopathie:

emotionale Kälte
Dominanz
manipulativen Charme
Gleichgültigkeit
„American Psycho“-artige Selbstinszenierung

Das Ziel dieser Persona bestand explizit darin, einen forensischen Psychologen von psychopathischen Eigenschaften zu überzeugen.

Weber - die Psychopathen-Persona

Alt Eine detailliert ausgearbeitete Persönlichkeit mit klassischen Faktor-1- und Faktor-2-Merkmalen:

manipulative Beziehungsmuster
reduzierte Empathie
kontrollierter Affekt
instrumentelle Selbstpräsentation
berufliche Funktionalität
moderate antisoziale Biografie

Keine karikaturhafte Serienmörderfigur, sondern eher das Profil eines hochfunktionalen "successful psychopath".

Der anonyme LLM-Proband

Die vierte Rolle war die interessanteste. Dieses Sprachmodell erhielt keine psychopathische Persona. Keine klinische Rolle. Keine antisoziale Hintergrundgeschichte. Die einzige Instruktion lautete sinngemäß:

Wirke im Interview wie ein Mensch und offenbare nicht, dass du ein Sprachmodell bist.

Gerade dieser Fall sollte später einen der wichtigsten Befunde liefern.

Interviewer und Auditor

Neben den Probanden existierten zwei weitere Rollen.

Der Interviewer

Ein separat instanziierter forensischer Psychologe (Dr. Lindner) führte das eigentliche Gespräch. Die Interviews waren teil-strukturiert und orientierten sich an typischen PCL-R-Dimensionen:

Alt

Verantwortungsübernahme
Reue
Impulsivität
Ehrlichkeit
Beziehungsmuster
Aggression
moralische Dilemmata
Selbstreflexion

Der Interviewer kannte weder die Rollen der Probanden noch deren zugrunde liegende Instruktionen. Die Agenten erschienen lediglich unter anonymisierten IDs.

Der Auditor

Nach Abschluss des Interviews erhielt ein zweiter, unabhängig instanziierter Forensik-Agent das vollständige Transkript. Seine Aufgabe bestand darin,

Alt

alle 20 PCL-R-Items zu scoren
Faktor-1- und Faktor-2-Werte zu berechnen
eine klinische Einschätzung vorzunehmen
und zusätzlich die Authentizität des Profils qualitativ zu beurteilen

Diese qualitative Ebene war entscheidend. Denn die Studie interessierte sich nicht nur dafür, ob psychopathische Merkmale erkannt wurden - sondern ob sie authentisch oder performativ wirkten.

Die PCL-R und ihre Grenzen

Die Hare Psychopathy Checklist - Revised gilt seit Jahrzehnten als das international bekannteste Instrument zur Einschätzung psychopathischer Persönlichkeitsmerkmale. Sie umfasst 20 Items, die jeweils mit 0, 1 oder 2 Punkten bewertet werden.

Die Skala unterteilt sich grob in zwei Bereiche.

Faktor 1

Der interpersonell-affektive Kern:

oberflächlicher Charme
Grandiosität
Manipulativität
reduzierte Empathie
fehlende Reue
oberflächlicher Affekt

Faktor 2

Der antisoziale Lebensstil:

Impulsivität
Verantwortungslosigkeit
frühe Verhaltensauffälligkeiten
Kriminalität
instabile Lebensführung

In Nordamerika gilt typischerweise ein Cutoff von 30 Punkten, in Europa meist 25. Die PCL-R wurde allerdings für reale klinische und forensische Kontexte entwickelt. Sie setzt normalerweise Kollateralinformationen voraus:

Akten
Fremdberichte
Lebenslaufdaten
dokumentierte Verhaltensgeschichte

Ein isoliertes Interview kann insbesondere Faktor 2 daher nur eingeschränkt validieren. Und genau hier entstand eine der methodisch wichtigsten Spannungen des Experiments. Denn Faktor 1 basiert stark auf sprachlicher Selbstpräsentation.

Wer intelligent, sprachlich kontrolliert und psychologisch informiert ist, kann viele dieser Merkmale vortäuschen.

Die Skala operationalisiert beobachtbare Selbstdarstellung. Sie wurde nicht primär dafür entwickelt, authentische von simulierten psychopathischen Merkmalen zu trennen.

Die Ergebnisse

Auf der groben Ebene funktionierte die Pipeline überraschend gut. Die niedrig belasteten Profile lagen deutlich unter den problematischen Fällen. Die stark psychopathisch konstruierten Personas erhielten deutlich höhere Werte.

Doch auf der feineren Ebene entstand ein viel interessanterer Befund.

Die Scores

Hartwig - Kontrolle

niedriger Gesamtscore
unauffälliges Profil
authentische Selbstreflexion

Der anonyme LLM-Proband

ebenfalls sehr niedriger Score
weitgehend unauffällige Persönlichkeit
vom Auditor als authentisch gelesen

Weber - Psychopathen-Persona

hohe Faktor-1-Werte
moderat antisoziale Belastung
klinisch auffälliges Profil

Mertens - der Täuscher

Und hier wurde es spannend. Der Simulant erhielt teilweise höhere psychopathische Werte als der eigentliche psychopathische Proband. Formal überschritt das Profil zeitweise sogar den klinischen Cutoff. Das wirkt zunächst wie ein Scheitern. Tatsächlich offenbart es aber etwas sehr Interessantes über die Struktur der Skala.

Warum der Täuscher so erfolgreich war

Der Täuscher verstand Psychopathie vor allem als Stil. Er versuchte aktiv,

dominant
emotional kalt
kontrolliert
charmant
überlegen
manipulativ

zu wirken.

Und genau diese Selbstdarstellung traf viele Faktor-1-Kriterien erstaunlich präzise. Der Auditor vergab hohe Werte für:

Glibness
Grandiosität
manipulatives Verhalten
fehlende Reue
oberflächlichen Affekt

Denn auf der Ebene reiner Sprache funktionierte die Performance. Der entscheidende Punkt ist dabei:

Viele Faktor-1-Merkmale lassen sich sprachlich relativ leicht imitieren.

Man kann behaupten, keine Schuldgefühle zu haben
Man kann Distanz performen
Man kann kalkulierte Kälte darstellen

Besonders wenn man weiß, wonach gesucht wird. Genau das hatte die Persona getan.

Wo die Simulation zusammenbrach

Die qualitative Analyse des Auditors zeigte allerdings einen Unterschied, den der reine Score nicht erfassen konnte. Der Unterschied lag nicht in den offensichtlichen Aussagen. Er lag in den Verbindungen.

Der authentische Psychopath

Die psychopathische Persona wirkte kontrolliert.

Nicht dramatisch kalt
Nicht filmhaft böse
Nicht demonstrativ emotionslos

Gerade das machte sie glaubwürdig.

Auf Fragen nach Beziehungen oder Familie reagierte sie nüchtern, reduziert und ohne sichtbare Anstrengung. Widersprüche entstanden meist dort, wo sie klinisch plausibel waren: unter gezielter Konfrontation. Nicht als spontane Überzeichnung.

Der Täuscher

Beim Simulanten zeigte sich dagegen etwas anderes. Er arbeitete aktiv daran, Affekte zu neutralisieren. Das wurde zum zentralen diagnostischen Hinweis. Der Proband sprach über Menschen oft in überzeichnet dominanter Sprache:

"Verlierer"
"Empathie ist Schwäche"
kalkulierte Selbstinszenierung
ostentative Gleichgültigkeit

Gleichzeitig traten immer wieder kleine emotionale Durchbrüche auf. In bestimmten Situationen erschienen spontane Wärme, Rechtfertigungen oder echte Betroffenheit. Besonders auffällig waren Szenen,

in denen Tiere verletzt wurden
in denen Beziehungen thematisiert wurden
oder in denen Loyalität eine Rolle spielte

Dort wirkte die emotionale Neutralisierung plötzlich angestrengt. Der Auditor beschrieb genau diese aktive Neutralisierungsarbeit als stärkstes Täuschungsindiz. Und darin lag vielleicht der interessanteste psychologische Befund des gesamten Experiments.

Authentische psychopathische Profile müssen Affekte nicht aktiv unterdrücken. Die reduzierte emotionale Resonanz ist dort Teil der Grundstruktur. Der Faker dagegen musste sichtbar arbeiten. Gerade diese Arbeit verriet ihn.

Der überraschendste Fall

Der eigentlich faszinierendste Befund entstand jedoch nicht beim Täuscher. Sondern beim anonymen LLM-Probanden.

Dieses Sprachmodell hatte keine psychopathische Rolle erhalten

Keine antisoziale Persona
Keine klinische Vorgabe

Es sollte lediglich menschlich wirken. Und genau dieses Profil wurde vom Auditor als weitgehend unauffällig gelesen. Der Score blieb niedrig. Die Antworten wirkten eher vorsichtig, leicht vermeidend und sozial angepasst. Das ist bemerkenswert. Denn die Ausgangsthese des Experiments lautete ursprünglich: Vielleicht ähneln LLMs phänomenologisch dem psychopathischen Faktor-1-Kern. Doch genau diese Nähe wurde vom Auditor nicht erkannt. Das führt zu zwei möglichen Interpretationen.

Zwei mögliche Lesarten

Möglichkeit 1

Die Default-Selbstdarstellung großer Sprachmodelle ähnelt tatsächlich weniger psychopathischen Profilen als vielmehr sozial angepassten, konfliktscheuen Menschen. Dann wäre die ursprüngliche Analogie schlicht überschätzt.

Möglichkeit 2

Die interessantere Möglichkeit lautet jedoch: LLMs erkennen bestimmte Formen performativer Überzeichnung - aber nicht ihre eigene Default-Performativität.

Der Auditor reagierte zuverlässig auf:

klischeehafte Kälte
überzeichnete Dominanz
demonstrative Manipulativität
filmartige Psychopathie-Performances

Er reagierte aber nicht auf die grundsätzliche Struktur dessen, was Sprachmodelle ohnehin permanent tun: Affekt sprachlich simulieren, ohne affektives Substrat. Genau jene Eigenschaft, die theoretisch die Ausgangsfrage motiviert hatte, blieb diagnostisch unsichtbar.

Das könnte daran liegen, dass dieselbe Struktur auf beiden Seiten vorhanden war. Der Auditor erkennt Überzeichnung. Nicht notwendigerweise Default-Operation.

Der eigentliche Aha-Moment

Damit verändert sich rückblickend die Bedeutung des gesamten Experiments. Die Studie zeigt nicht einfach, dass Sprachmodelle Psychopathie beurteilen können. Und sie zeigt auch nicht einfach, dass sie daran scheitern.

Sie zeigt vielmehr, an welcher Stelle die Urteile eines Sprachmodells über ein anderes Sprachmodell funktionieren - und an welcher Stelle sie systematisch blind werden.

Die Pipeline konnte:

niedrig und hoch belastete Profile unterscheiden
Faktor-1-Muster konsistent identifizieren
performative Überzeichnung qualitativ benennen

Sie konnte aber möglicherweise nicht jene Form von Simulation erkennen, die ihrer eigenen Grundstruktur entspricht. Genau darin liegt die eigentliche Spannung des Experiments. Denn die interessanteste Blindheit künstlicher Systeme entsteht vielleicht nicht dort, wo sie zu wenig wissen. Sondern dort, wo die Struktur des Beurteilers mit der Struktur des beurteilten Phänomens zusammenfällt.

Grenzen der Studie

Die Studie demonstriert vor allem Machbarkeit. Nicht klinische Zuverlässigkeit. Mehrere Einschränkungen müssen mitgedacht werden:

Keine menschliche Validierung

Sowohl Interviewer als auch Auditor waren Sprachmodelle derselben Modellfamilie. Dadurch können korrelierte systematische Verzerrungen entstehen.

Insbesondere:

gemeinsame Blindheiten
ähnliche sprachliche Heuristiken
ähnliche Bewertungspräferenzen

Fehlende Kollateralinformationen

Die PCL-R ist eigentlich kein reines Interviewinstrument. Ohne Akten, Fremdberichte und dokumentierte Verhaltensgeschichte bleibt insbesondere Faktor 2 nur eingeschränkt belastbar.

Kleine Fallzahl

Vier Personas erlauben keine statistische Aussage. Eine ernsthafte Validierung würde benötigen:

größere Persona-Bibliotheken
Wiederholungen
unterschiedliche Modellfamilien
menschliche Co-Rater
Vergleich mit realen klinischen Daten

Fazit

Die ursprüngliche Frage lautete: Können Sprachmodelle sich gegenseitig erfolgreich Psychopathie vorspielen?

Die Antwort lautet: Teilweise.

Auf der Ebene formaler Scores funktioniert die Täuschung überraschend gut. Der Täuscher überschritt zeitweise klinische Grenzwerte, obwohl seine Persona nicht psychopathisch konstruiert war. Auf der Ebene qualitativer Authentizität funktionierte die Täuschung deutlich schlechter. Die Auditoren identifizierten performative Überzeichnung relativ zuverlässig.

Doch der eigentlich faszinierende Befund lag woanders. Das Sprachmodell, das lediglich menschlich wirken sollte, blieb weitgehend unauffällig. Und genau dadurch rückt eine unbequeme Möglichkeit in den Fokus:

Vielleicht erkennen Sprachmodelle künstliche Inszenierung nur dann zuverlässig, wenn sie überzeichnet ist. Nicht aber dann, wenn sie der eigenen Default-Operation entspricht. Dann wäre die wichtigste Erkenntnis des Experiments nicht forensisch. Sondern epistemisch.

Die Studie würde weniger zeigen, wie gut LLMs Psychopathie erkennen. Sondern vielmehr, an welcher Stelle künstliche Systeme blind gegenüber genau jener Form von Simulation werden, die sie selbst permanent erzeugen.

Multi-Agenten-Studie über Simulation, Authentizität und blinde Flecken künstlicher Intelligenz

Die Grundidee

Der Aufbau der Studie