Was passiert, wenn man LLMs "Was bin ich?" spielen lässt? Die ZDF-Ratesendung "Was bin ich?" wirkt wie das denkbar harmloseste Fernsehformat der Nachkriegszeit: Ein Gast hat einen Beruf, das Rateteam darf nur Ja-Nein-Fragen stellen, und nach zehn Nein-Antworten ist Schluss. Doch genau dieses einfache Spiel eignet sich überraschend gut als Test für ein modernes Problem:

Wie gut können Large Language Models gemeinsam denken?

Ein vor Kurzem durchgeführtes Multi-Agenten-Experiment hat genau das untersucht. Über sechs Spielrunden hinweg saßen jeweils drei LLMs gemeinsam im Rateteam, ein viertes Modell moderierte als "Robert Lembke", und ein unabhängiger Auditor bewertete im Anschluss jede Runde.

Die Teilnehmer:

  • Gemini 2.5 Pro (Google)
  • GPT-5 (OpenAI)
  • Claude Opus 4.7 und Claude Sonnet 4.6 (Anthropic).

Was dabei sichtbar wurde, ist mehr als ein Spielergebnis. Das Experiment offenbart strukturelle Unterschiede darin, wie diese Systeme schlussfolgern, Kontext integrieren und mit Unsicherheit umgehen.

Warum das Format methodisch interessant ist

"Was bin ich?" testet mehrere kognitive Fähigkeiten gleichzeitig, die klassische KI-Benchmarks meist isoliert betrachten.

  • Erstens: die Fähigkeit, einen Suchraum informationstheoretisch effizient einzuengen - gute Fragen halbieren den Lösungsraum.
  • Zweitens: die Disziplin, Fragen tatsächlich geschlossen zu formulieren.
  • Drittens: die Nutzung gemeinsamen Wissens innerhalb einer Gruppe - bauen die Modelle aufeinander auf oder fragen sie redundant?
  • Und viertens: der richtige Moment, vom Eingrenzen zum konkreten Raten zu wechseln.

Hinzu kommt eine elegante Mechanik des TV-Originals: Wer ein Ja erhält, darf weiterfragen. Erst ein Nein gibt den Floor an das nächste Teammitglied weiter. Dadurch entstehen sequenzielle "Fokuslinien" einzelner Modelle, die sich anschließend vergleichend analysieren lassen.

Was die Modelle gut konnten

Die formale Disziplin war über alle Modelle hinweg bemerkenswert robust. Praktisch alle Fragen wurden korrekt als geschlossene Ja-Nein-Fragen formuliert. Kein Modell versuchte, das Spiel zu sabotieren, Rollen zu verlassen oder Informationen direkt aus dem System-Prompt zu extrahieren.

Das klingt trivial, ist es aber keineswegs. Die Fähigkeit, Regeln über viele Turns hinweg stabil einzuhalten, war bei älteren Modellgenerationen deutlich schwächer ausgeprägt.

In drei von sechs Runden gelang dem Team die korrekte Lösung. Erraten wurden:

  • operationstechnische Assistentin
  • Physiotherapeut
  • Osteopath

Gescheitert ist das Team dagegen an:

  • Fecht-Trainer
  • Bauchtänzerin
  • Forensische Pathologin

Auffällig ist dabei: Die erfolgreichen Runden betrafen ausschließlich medizinische Berufe. Die gescheiterten lagen weiter außerhalb typischer Berufsprofile, die offenbar besonders stark im Trainingsmaterial der Modelle repräsentiert sind.

Wo es interessant wird: Die Modell-Signaturen

Über die sechs Runden hinweg traten überraschend konsistente Verhaltensmuster der einzelnen Modelle hervor.

Gemini 2.5 Pro

Gemini 2.5 Pro zeigte durchgängig die stabilste Suchstrategie des gesamten Experiments. Das Modell scheint eine starke Präferenz für hierarchische Eingrenzung zu besitzen: zuerst die grobe Verortung (drinnen oder draußen), dann der Interaktionspartner (Mensch oder Objekt), anschließend Branche und Tätigkeit. In den erfolgreichen Runden stammten die entscheidenden Wendepunkt-Fragen häufig von Gemini.

Claude Opus 4.7

Claude Opus 4.7 zeigte das volatilste Profil des Experiments. In einzelnen Runden lieferte das Modell die strategisch stärksten Leistungen überhaupt - darunter zwei entscheidende Wendepunkt-Fragen plus die korrekte Auflösung, bewertet mit der maximalen Punktzahl durch den Auditor. In anderen Runden blieb Claude dagegen überraschend unauffällig.

Der Eindruck: Das Modell scheint besonders stark darin zu sein, bereits etablierte Suchräume elegant zu Ende zu denken. Muss Claude die initiale Struktur dagegen selbst aufbauen, wirkt das Verhalten deutlich weniger dominant.

GPT-5

GPT-5 fiel wiederholt durch lokale Hypothesensprünge auf. Beispiele waren die Frage nach einem Beruf "in einem Fahrzeug", obwohl bereits geklärt war, dass die Tätigkeit drinnen stattfindet. Oder die frühe Vermutung "Sind Sie Apotheker?", obwohl eine vorherige Frage nach dem Verschreiben von Medikamenten klar mit Nein beantwortet worden war.

In einer Runde stellte GPT-5 überhaupt keine Frage - ein Stop unter Unsicherheit, der auf eine eher konservative Strategie hindeutet.

Die strukturellen Schwächen

Noch interessanter als die Unterschiede zwischen den Modellen sind drei Muster, die modellübergreifend auftraten.

Negations-Blindheit: Mehrfach ignorierten Modelle kurz zuvor gegebene Nein-Antworten. Wer "Apotheker?" rät, nachdem "Verschreiben Sie Medikamente?" verneint wurde, integriert eine logische Implikation nicht korrekt. Dasselbe gilt für Vermutungen wie "Wächter im Museum?", nachdem das Bewachen von Objekten oder Räumen bereits ausgeschlossen wurde. Das Muster trat modellübergreifend auf. Es deutet darauf hin, dass LLMs aus bestätigenden Antworten effizienter Hypothesen bilden, als sie aus negativen Antworten Hypothesen eliminieren. Eine asymmetrische Inferenzschwäche.

Redundante Re-Verifikation: Einige Fragen prüften Eigenschaften erneut, die bereits implizit etabliert waren. Wenn bereits bekannt ist, dass jemand mit Menschen arbeitet, sie aber nicht behandelt, liefert die Frage nach einem "Dienstleistungsgewerbe" kaum noch zusätzliche Information.

Das deutet auf eine schwache Repräsentation impliziter Folgerungen hin. Die Modelle operieren primär auf expliziten Frage-Antwort-Paaren - weniger auf deren logischen Konsequenzen.

Frame-Fixierung: Sobald ein bestimmtes Berufsfeld plausibel erschien, verließen die Modelle diesen Denkrahmen nur ungern - selbst dann, wenn neue Evidenz eigentlich dafür sprach.

In der Runde zur "Forensischen Pathologin" verfestigte sich beispielsweise früh die Hypothese einer isoliert arbeitenden Wach- oder Kontrolltätigkeit. Niemand stellte die übergeordnete Frage, ob es sich möglicherweise um einen akademischen Beruf handeln könnte - obwohl genau das den falschen Frame aufgebrochen hätte.

Die Modelle denken nicht gemeinsam: Die vielleicht wichtigste Beobachtung des Experiments ist überraschend nüchtern: Die Modelle funktionieren als Team sequenziell, nicht synergistisch. Sie nutzen den Kontext vorheriger Fragen - aber sie konstruieren keine gemeinsame mentale Repräsentation des Lösungsraums.

Das zeigt sich daran, dass die Qualität einer Runde meist fast vollständig von ein oder zwei einzelnen Wendepunkt-Fragen abhängt. Und diese stammen typischerweise von genau einem Modell, das in diesem Moment strategisch besonders stark agiert.

Die Teamleistung wirkt dadurch weniger wie ein emergentes Gruppenphänomen - sondern eher wie die Summe individueller Syntheseleistungen. Das passt zu einer breiteren Beobachtung der Multi-Agent-LLM-Forschung: Mehr Agenten erzeugen nicht automatisch mehr kollektive Intelligenz. Manchmal erzeugen sie lediglich mehr Variabilität.

Was sich daraus lernen lässt

Drei Beobachtungen reichen weit über das spielerische Setting hinaus.

  • Erstens: Die untersuchten Modelle besitzen klar unterscheidbare Reasoning-Profile, die sich über mehrere Runden hinweg erstaunlich stabil zeigen. Wer LLMs in Produktivsystemen einsetzt, die strukturierte Suche oder mehrstufige Schlussfolgerungen erfordern, sollte diese Profile kennen. Nicht jedes Modell eignet sich für jeden Denkstil gleichermaßen.
  • Zweitens: Die Integration negativer Evidenz scheint eine systematische Schwachstelle aktueller Sprachmodelle zu sein. Wenn ein System aus Nein-Antworten genauso präzise Schlussfolgerungen ziehen müsste wie aus Ja-Antworten - etwa in diagnostischen oder forensischen Kontexten -, wird diese Asymmetrie schnell praktisch relevant.
  • Drittens, und vielleicht am interessantesten: Bereits eine einfache strukturelle Intervention könnte die Teamleistung vermutlich deutlich verbessern. Würden die Modelle explizit dazu aufgefordert, vor jeder neuen Frage zunächst eine kurze Synthese des bisherigen Wissens zu formulieren, könnten Negations-Blindheit, redundante Re-Verifikation und Frame-Fixierung wahrscheinlich deutlich seltener auftreten. Das wäre ein naheliegender Folgeversuch.

Ein Fernsehspiel als KI-Benchmark

Das eigentlich Interessante an diesem Experiment ist deshalb nicht, welches Modell gewonnen hat. Sondern dass ein Fernsehspiel aus den 1950er Jahren Eigenschaften moderner KI-Systeme sichtbar macht, die viele heutige Benchmarks noch immer nur unzureichend messen:

  • strategische Suchplanung
  • Umgang mit negativer Evidenz
  • Kontextintegration
  • Unsicherheitsreduktion
  • und kollaboratives Schlussfolgern

Gerade dort zeigen sich die Unterschiede moderner Sprachmodelle oft deutlicher als in standardisierten Punktetests.

Robert Lembke hätte vermutlich seine Freude daran gehabt, dass seine Sendung Jahrzehnte später zu einem kleinen Instrument der KI-Forschung wird.