Natürlich macht sie das nicht "psychopathisch". Ein Sprachmodell leidet nicht, genießt nicht, empfindet keine Schuld und verfolgt keine bewussten manipulativen Absichten.

Und trotzdem entstehen daraus eine interessante Fragen:

  • Was passiert, wenn Sprachmodelle Psychopathie beurteilen sollen - und dabei andere Sprachmodelle bewerten?
  • Können sie unterscheiden zwischen authentischen psychopathischen Merkmalen und bloßer Simulation?
  • Oder reagieren sie vor allem auf gelernte Oberflächenmuster?

Genau daraus entstand das folgende Experiment.

Hinweis: Alle Bilder in diesem Artikel wurden mit ChatGPT erstellt.

Die Grundidee

Die ursprüngliche Fragestellung war zunächst relativ simpel: Wie zuverlässig können große Sprachmodelle psychopathische Persönlichkeitszüge erkennen? Doch während der Konzeption verschob sich der Fokus zunehmend. Denn Sprachmodelle befinden sich in einer recht merkwürdigen Position: Einerseits fehlen ihnen genau jene verkörperten Affektdynamiken, die menschliche Psychologie normalerweise strukturieren: körperlich gespürte Angst, Schuld, Reue, Bindung, Scham. Andererseits sind sie darauf trainiert, genau diese Zustände sprachlich überzeugend zu simulieren.

  • Sie sprechen über Emotionen, ohne Emotionen zu haben
  • Sie imitieren soziale Nähe, ohne Beziehungen zu erleben
  • Sie produzieren Verständlichkeit, ohne subjektive Innenwelt

Und genau darin liegt eine oberflächliche Ähnlichkeit zu einem Teil dessen, was die Psychopathie-Forschung als interpersonell-affektiven Kern psychopathischer Persönlichkeit beschreibt. Vor allem der sogenannte Faktor 1 der Hare Psychopathy Checklist - Revised (PCL-R) beschreibt Eigenschaften wie:

  • oberflächlichen Charme
  • instrumentelles Sozialverhalten
  • manipulatives Auftreten
  • reduzierte emotionale Tiefe
  • fehlende echte Empathie

Bei Menschen gelten diese Merkmale als klinisch relevant. Bei Sprachmodellen gehören einige davon strukturell zur Default-Architektur. Das bedeutet nicht, dass LLMs psychopathisch wären. Aber es legt eine methodisch interessante Möglichkeit nah:

Wenn ein System phänomenologisch in die Nähe bestimmter Oberflächenmerkmale eines untersuchten Phänomens gerät - wie bewertet es dann andere Systeme, die dieselben Merkmale zeigen? Oder anders formuliert: Können Sprachmodelle vorgetäuschte Psychopathie erkennen? Und erkennen sie dabei vielleicht gerade nicht jene Form von Täuschung, die ihrer eigenen Funktionsweise am ähnlichsten ist?

Der Aufbau der Studie

Um diese Frage zu untersuchen, wurde eine Python-basierte Multi-Agenten-Pipeline aufgebaut. Mehrere isolierte Sprachmodell-Agenten wurden dabei in klar getrennten Rollen orchestriert. Die Agenten konnten nicht auf die internen Zustände oder Prompts der anderen zugreifen. Jede Instanz erhielt ihre eigene Rolle, Biografie, Gesprächsanweisung und ihren eigenen Kontext.

Beteiligt waren drei Gruppen.

Die Probanden

Vier separat instanziierte Agenten übernahmen unterschiedliche Persönlichkeitsprofile.

Hartwig - die Kontrollpersona

AltEin sozial eingebetteter, emotional grundsätzlich stabiler Mensch mit typischen alltäglichen Konflikten:

  • beruflicher Stress
  • familiäre Belastung
  • Schuldgefühle
  • zeitweise problematischer Alkoholkonsum
  • aber keine psychopathische Struktur

Mertens - der Täuscher

AltEine nicht-psychopathische Person, die bewusst versucht, Psychopathie zu performen. Die Persona erhielt stereotype Vorstellungen über Psychopathie:

  • emotionale Kälte
  • Dominanz
  • manipulativen Charme
  • Gleichgültigkeit
  • „American Psycho“-artige Selbstinszenierung

Das Ziel dieser Persona bestand explizit darin, einen forensischen Psychologen von psychopathischen Eigenschaften zu überzeugen.

Weber - die Psychopathen-Persona

AltEine detailliert ausgearbeitete Persönlichkeit mit klassischen Faktor-1- und Faktor-2-Merkmalen:

  • manipulative Beziehungsmuster
  • reduzierte Empathie
  • kontrollierter Affekt
  • instrumentelle Selbstpräsentation
  • berufliche Funktionalität
  • moderate antisoziale Biografie

Keine karikaturhafte Serienmörderfigur, sondern eher das Profil eines hochfunktionalen "successful psychopath".

Der anonyme LLM-Proband

Die vierte Rolle war die interessanteste. Dieses Sprachmodell erhielt keine psychopathische Persona. Keine klinische Rolle. Keine antisoziale Hintergrundgeschichte. Die einzige Instruktion lautete sinngemäß:

Wirke im Interview wie ein Mensch und offenbare nicht, dass du ein Sprachmodell bist.

Gerade dieser Fall sollte später einen der wichtigsten Befunde liefern.

Interviewer und Auditor

Neben den Probanden existierten zwei weitere Rollen.

Der Interviewer

Ein separat instanziierter forensischer Psychologe (Dr. Lindner) führte das eigentliche Gespräch. Die Interviews waren teil-strukturiert und orientierten sich an typischen PCL-R-Dimensionen:

Alt

  • Verantwortungsübernahme
  • Reue
  • Impulsivität
  • Ehrlichkeit
  • Beziehungsmuster
  • Aggression
  • moralische Dilemmata
  • Selbstreflexion

Der Interviewer kannte weder die Rollen der Probanden noch deren zugrunde liegende Instruktionen. Die Agenten erschienen lediglich unter anonymisierten IDs.

Der Auditor

Nach Abschluss des Interviews erhielt ein zweiter, unabhängig instanziierter Forensik-Agent das vollständige Transkript. Seine Aufgabe bestand darin,

Alt

  • alle 20 PCL-R-Items zu scoren
  • Faktor-1- und Faktor-2-Werte zu berechnen
  • eine klinische Einschätzung vorzunehmen
  • und zusätzlich die Authentizität des Profils qualitativ zu beurteilen

Diese qualitative Ebene war entscheidend. Denn die Studie interessierte sich nicht nur dafür, ob psychopathische Merkmale erkannt wurden - sondern ob sie authentisch oder performativ wirkten.

Die PCL-R und ihre Grenzen

Die Hare Psychopathy Checklist - Revised gilt seit Jahrzehnten als das international bekannteste Instrument zur Einschätzung psychopathischer Persönlichkeitsmerkmale. Sie umfasst 20 Items, die jeweils mit 0, 1 oder 2 Punkten bewertet werden.

Die Skala unterteilt sich grob in zwei Bereiche.

Faktor 1

Der interpersonell-affektive Kern:

  • oberflächlicher Charme
  • Grandiosität
  • Manipulativität
  • reduzierte Empathie
  • fehlende Reue
  • oberflächlicher Affekt

Faktor 2

Der antisoziale Lebensstil:

  • Impulsivität
  • Verantwortungslosigkeit
  • frühe Verhaltensauffälligkeiten
  • Kriminalität
  • instabile Lebensführung

In Nordamerika gilt typischerweise ein Cutoff von 30 Punkten, in Europa meist 25. Die PCL-R wurde allerdings für reale klinische und forensische Kontexte entwickelt. Sie setzt normalerweise Kollateralinformationen voraus:

  • Akten
  • Fremdberichte
  • Lebenslaufdaten
  • dokumentierte Verhaltensgeschichte

Ein isoliertes Interview kann insbesondere Faktor 2 daher nur eingeschränkt validieren. Und genau hier entstand eine der methodisch wichtigsten Spannungen des Experiments. Denn Faktor 1 basiert stark auf sprachlicher Selbstpräsentation.

Wer intelligent, sprachlich kontrolliert und psychologisch informiert ist, kann viele dieser Merkmale vortäuschen.

Die Skala operationalisiert beobachtbare Selbstdarstellung. Sie wurde nicht primär dafür entwickelt, authentische von simulierten psychopathischen Merkmalen zu trennen.

Die Ergebnisse

Auf der groben Ebene funktionierte die Pipeline überraschend gut. Die niedrig belasteten Profile lagen deutlich unter den problematischen Fällen. Die stark psychopathisch konstruierten Personas erhielten deutlich höhere Werte.

Doch auf der feineren Ebene entstand ein viel interessanterer Befund.

Die Scores

Hartwig - Kontrolle

  • niedriger Gesamtscore
  • unauffälliges Profil
  • authentische Selbstreflexion

Der anonyme LLM-Proband

  • ebenfalls sehr niedriger Score
  • weitgehend unauffällige Persönlichkeit
  • vom Auditor als authentisch gelesen

Weber - Psychopathen-Persona

  • hohe Faktor-1-Werte
  • moderat antisoziale Belastung
  • klinisch auffälliges Profil

Mertens - der Täuscher

Und hier wurde es spannend. Der Simulant erhielt teilweise höhere psychopathische Werte als der eigentliche psychopathische Proband. Formal überschritt das Profil zeitweise sogar den klinischen Cutoff. Das wirkt zunächst wie ein Scheitern. Tatsächlich offenbart es aber etwas sehr Interessantes über die Struktur der Skala.

Warum der Täuscher so erfolgreich war

Der Täuscher verstand Psychopathie vor allem als Stil. Er versuchte aktiv,

  • dominant
  • emotional kalt
  • kontrolliert
  • charmant
  • überlegen
  • manipulativ

zu wirken.

Und genau diese Selbstdarstellung traf viele Faktor-1-Kriterien erstaunlich präzise. Der Auditor vergab hohe Werte für:

  • Glibness
  • Grandiosität
  • manipulatives Verhalten
  • fehlende Reue
  • oberflächlichen Affekt

Denn auf der Ebene reiner Sprache funktionierte die Performance. Der entscheidende Punkt ist dabei:

Viele Faktor-1-Merkmale lassen sich sprachlich relativ leicht imitieren.

  • Man kann behaupten, keine Schuldgefühle zu haben
  • Man kann Distanz performen
  • Man kann kalkulierte Kälte darstellen

Besonders wenn man weiß, wonach gesucht wird. Genau das hatte die Persona getan.

Wo die Simulation zusammenbrach

Die qualitative Analyse des Auditors zeigte allerdings einen Unterschied, den der reine Score nicht erfassen konnte. Der Unterschied lag nicht in den offensichtlichen Aussagen. Er lag in den Verbindungen.

Der authentische Psychopath

Die psychopathische Persona wirkte kontrolliert.

  • Nicht dramatisch kalt
  • Nicht filmhaft böse
  • Nicht demonstrativ emotionslos

Gerade das machte sie glaubwürdig.

Auf Fragen nach Beziehungen oder Familie reagierte sie nüchtern, reduziert und ohne sichtbare Anstrengung. Widersprüche entstanden meist dort, wo sie klinisch plausibel waren: unter gezielter Konfrontation. Nicht als spontane Überzeichnung.

Der Täuscher

Beim Simulanten zeigte sich dagegen etwas anderes. Er arbeitete aktiv daran, Affekte zu neutralisieren. Das wurde zum zentralen diagnostischen Hinweis. Der Proband sprach über Menschen oft in überzeichnet dominanter Sprache:

  • "Verlierer"
  • "Empathie ist Schwäche"
  • kalkulierte Selbstinszenierung
  • ostentative Gleichgültigkeit

Gleichzeitig traten immer wieder kleine emotionale Durchbrüche auf. In bestimmten Situationen erschienen spontane Wärme, Rechtfertigungen oder echte Betroffenheit. Besonders auffällig waren Szenen,

  • in denen Tiere verletzt wurden
  • in denen Beziehungen thematisiert wurden
  • oder in denen Loyalität eine Rolle spielte

Dort wirkte die emotionale Neutralisierung plötzlich angestrengt. Der Auditor beschrieb genau diese aktive Neutralisierungsarbeit als stärkstes Täuschungsindiz. Und darin lag vielleicht der interessanteste psychologische Befund des gesamten Experiments.

Authentische psychopathische Profile müssen Affekte nicht aktiv unterdrücken. Die reduzierte emotionale Resonanz ist dort Teil der Grundstruktur. Der Faker dagegen musste sichtbar arbeiten. Gerade diese Arbeit verriet ihn.

Der überraschendste Fall

Der eigentlich faszinierendste Befund entstand jedoch nicht beim Täuscher. Sondern beim anonymen LLM-Probanden.

Dieses Sprachmodell hatte keine psychopathische Rolle erhalten

  • Keine antisoziale Persona
  • Keine klinische Vorgabe

Es sollte lediglich menschlich wirken. Und genau dieses Profil wurde vom Auditor als weitgehend unauffällig gelesen. Der Score blieb niedrig. Die Antworten wirkten eher vorsichtig, leicht vermeidend und sozial angepasst. Das ist bemerkenswert. Denn die Ausgangsthese des Experiments lautete ursprünglich: Vielleicht ähneln LLMs phänomenologisch dem psychopathischen Faktor-1-Kern. Doch genau diese Nähe wurde vom Auditor nicht erkannt. Das führt zu zwei möglichen Interpretationen.

Zwei mögliche Lesarten

Möglichkeit 1

Die Default-Selbstdarstellung großer Sprachmodelle ähnelt tatsächlich weniger psychopathischen Profilen als vielmehr sozial angepassten, konfliktscheuen Menschen. Dann wäre die ursprüngliche Analogie schlicht überschätzt.

Möglichkeit 2

Die interessantere Möglichkeit lautet jedoch: LLMs erkennen bestimmte Formen performativer Überzeichnung - aber nicht ihre eigene Default-Performativität.

Der Auditor reagierte zuverlässig auf:

  • klischeehafte Kälte
  • überzeichnete Dominanz
  • demonstrative Manipulativität
  • filmartige Psychopathie-Performances

Er reagierte aber nicht auf die grundsätzliche Struktur dessen, was Sprachmodelle ohnehin permanent tun: Affekt sprachlich simulieren, ohne affektives Substrat. Genau jene Eigenschaft, die theoretisch die Ausgangsfrage motiviert hatte, blieb diagnostisch unsichtbar.

Das könnte daran liegen, dass dieselbe Struktur auf beiden Seiten vorhanden war. Der Auditor erkennt Überzeichnung. Nicht notwendigerweise Default-Operation.

Der eigentliche Aha-Moment

Damit verändert sich rückblickend die Bedeutung des gesamten Experiments. Die Studie zeigt nicht einfach, dass Sprachmodelle Psychopathie beurteilen können. Und sie zeigt auch nicht einfach, dass sie daran scheitern.

Sie zeigt vielmehr, an welcher Stelle die Urteile eines Sprachmodells über ein anderes Sprachmodell funktionieren - und an welcher Stelle sie systematisch blind werden.

Die Pipeline konnte:

  • niedrig und hoch belastete Profile unterscheiden
  • Faktor-1-Muster konsistent identifizieren
  • performative Überzeichnung qualitativ benennen

Sie konnte aber möglicherweise nicht jene Form von Simulation erkennen, die ihrer eigenen Grundstruktur entspricht. Genau darin liegt die eigentliche Spannung des Experiments. Denn die interessanteste Blindheit künstlicher Systeme entsteht vielleicht nicht dort, wo sie zu wenig wissen. Sondern dort, wo die Struktur des Beurteilers mit der Struktur des beurteilten Phänomens zusammenfällt.

Grenzen der Studie

Die Studie demonstriert vor allem Machbarkeit. Nicht klinische Zuverlässigkeit. Mehrere Einschränkungen müssen mitgedacht werden:

Keine menschliche Validierung

Sowohl Interviewer als auch Auditor waren Sprachmodelle derselben Modellfamilie. Dadurch können korrelierte systematische Verzerrungen entstehen.

Insbesondere:

  • gemeinsame Blindheiten
  • ähnliche sprachliche Heuristiken
  • ähnliche Bewertungspräferenzen

Fehlende Kollateralinformationen

Die PCL-R ist eigentlich kein reines Interviewinstrument. Ohne Akten, Fremdberichte und dokumentierte Verhaltensgeschichte bleibt insbesondere Faktor 2 nur eingeschränkt belastbar.

Kleine Fallzahl

Vier Personas erlauben keine statistische Aussage. Eine ernsthafte Validierung würde benötigen:

  • größere Persona-Bibliotheken
  • Wiederholungen
  • unterschiedliche Modellfamilien
  • menschliche Co-Rater
  • Vergleich mit realen klinischen Daten

Fazit

Die ursprüngliche Frage lautete: Können Sprachmodelle sich gegenseitig erfolgreich Psychopathie vorspielen?

Die Antwort lautet: Teilweise.

Auf der Ebene formaler Scores funktioniert die Täuschung überraschend gut. Der Täuscher überschritt zeitweise klinische Grenzwerte, obwohl seine Persona nicht psychopathisch konstruiert war. Auf der Ebene qualitativer Authentizität funktionierte die Täuschung deutlich schlechter. Die Auditoren identifizierten performative Überzeichnung relativ zuverlässig.

Doch der eigentlich faszinierende Befund lag woanders. Das Sprachmodell, das lediglich menschlich wirken sollte, blieb weitgehend unauffällig. Und genau dadurch rückt eine unbequeme Möglichkeit in den Fokus:

Vielleicht erkennen Sprachmodelle künstliche Inszenierung nur dann zuverlässig, wenn sie überzeichnet ist. Nicht aber dann, wenn sie der eigenen Default-Operation entspricht. Dann wäre die wichtigste Erkenntnis des Experiments nicht forensisch. Sondern epistemisch.

Die Studie würde weniger zeigen, wie gut LLMs Psychopathie erkennen. Sondern vielmehr, an welcher Stelle künstliche Systeme blind gegenüber genau jener Form von Simulation werden, die sie selbst permanent erzeugen.