KI26. Mai 2026·5 Min. Lesezeit

Jenseits des Gedächtnisses: KI-Tests in Welten mit fremder Physik

Ein neuer Benchmark namens DiscoverPhysics testet, ob KI-Modelle tatsächlich wissenschaftlich schlussfolgern können oder ob sie lediglich auswendig gelernte Lehrbücher rezitieren.

TL;DR

DiscoverPhysics ist ein Benchmark, der KI dazu zwingt, die Bewegungsgesetze in simulierten „fremden“ Welten abzuleiten, in denen die Standardregeln der Physik nicht gelten.
Der Test zeigt, ob Modelle über echte wissenschaftliche Denkfähigkeiten verfügen oder lediglich Daten aus ihren riesigen Trainingssets rezitieren.

Hintergrund

Aktuelle KI-Modelle glänzen bei standardisierten Tests und erzielen oft Ergebnisse in den obersten Perzentilen für Physik an High Schools und Colleges. Kritiker argumentieren jedoch, dass dieser Erfolg oft das Ergebnis von „stochastic parroting“ ist – das Modell hat die Fragen und ihre Lösungen wahrscheinlich schon in seinen massiven Trainingsdaten gesehen [^2]. Um festzustellen, ob eine KI tatsächlich wie ein Wissenschaftler denken kann, müssen Forscher ihr Phänomene präsentieren, denen sie noch nie zuvor begegnet ist. Das erfordert, über erdgebundene Konstanten und Gleichungen hinauszugehen.

Was passiert ist

Forscher haben „DiscoverPhysics“ eingeführt, einen interaktiven Benchmark, der entwickelt wurde, um das wissenschaftliche Denken von Large Language Model (LLM) Agents zu bewerten [^1]. Im Gegensatz zu herkömmlichen Tests, die Fragen zur Erdanziehung oder zu Newtons Gesetzen stellen, versetzt DiscoverPhysics die KI in eine simulierte Umgebung, in der die Regeln des Universums grundlegend anders sind. Der Benchmark besteht aus 22 verschiedenen Welten. In diesen Umgebungen werden die Bewegungsgesetze bewusst verändert. Zum Beispiel könnte die Schwerkraft als abstoßende Kraft wirken und Objekte voneinander wegschieben, oder die Reibung könnte zunehmen, je schneller sich ein Objekt bewegt, was eine kontraintuitive Dynamik erzeugt. Einige Welten weisen sogar „abgeschirmte“ Kräfte auf, bei denen ein Potenzial – wie Magnetismus oder Schwerkraft – außerhalb eines bestimmten Radius abrupt auf Null abfällt, ein Phänomen, das in der makroskopischen klassischen Mechanik normalerweise nicht vorkommt.

Die KI agiert innerhalb dieser Simulationen als Experimentator. Sie kann die Antwort nicht einfach basierend auf ihrem Training erraten, da die „Antwort“ in keinem menschlichen Lehrbuch existiert. Stattdessen muss der Agent durch eine Reihe von Aktionen mit der Umgebung interagieren. Er kann digitale Objekte mit bestimmten Geschwindigkeiten „werfen“, ihre Positionen im Zeitverlauf aufzeichnen und beobachten, wie sie kollidieren oder beschleunigen. Der Benchmark misst die Effizienz der wissenschaftlichen Methode des Agents: Wie viele Experimente muss er durchführen, bevor er den zukünftigen Zustand eines Systems genau vorhersagen oder das zugrunde liegende mathematische Gesetz beschreiben kann? [^1]. Dieser Prozess erfordert, dass das Modell eine Hypothese aufstellt, sie testet und dann sein Verständnis basierend auf den resultierenden Daten verfeinert, anstatt sich auf Pattern Matching zu verlassen.

Erste Tests mit Frontier-Modellen zeigen eine erhebliche Lücke zwischen „Recall“ und „Reasoning“. Während Modelle wie GPT-4 oder Claude 3 komplexe Lehrbuchaufgaben mit nahezu perfekter Genauigkeit lösen können, sinkt ihre Leistung drastisch, wenn die Physik von der Norm abweicht. Viele Modelle versuchen, die fremden Daten mit Gewalt in die Gesetze der Erdphysik zu pressen, was eine starke Abhängigkeit von „Priors“ zeigt – den Informationen, die sie während des Trainings gelernt haben. DiscoverPhysics liefert einen standardisierten „Reasoning Score“, der quantifiziert, wie gut ein Agent seine interne Logik an neue, widersprüchliche Beweise anpassen kann. So werden Modelle herausgefiltert, die nur deshalb intelligent erscheinen, weil sie ein gutes Gedächtnis haben.

Warum es wichtig ist

Dieser Benchmark adressiert das Problem der „Datenkontamination“, das derzeit die KI-Evaluierung plagt. Da Modelle mit fast dem gesamten öffentlichen Internet trainiert werden, stoßen sie irgendwann auf genau die Tests, die wir zur Messung ihrer Intelligenz verwenden. DiscoverPhysics schafft eine dynamische, prozedurale Umgebung, die nicht durch Auswendiglernen „gelöst“ werden kann. Dies ist entscheidend für die Entwicklung von KI, die bei echter wissenschaftlicher Entdeckung helfen kann. Wenn wir wollen, dass eine KI uns hilft, neue Materialien für Batterien zu finden oder die Komplexität der Dunklen Materie zu verstehen, muss sie in der Lage sein, über Daten nachzudenken, für die es noch keine bekannte Antwort gibt.

Darüber hinaus signalisiert dieser Wechsel hin zu „interaktiven“ Benchmarks die nächste Phase der KI-Entwicklung. Wir bewegen uns weg von Chatbots, die Texte zusammenfassen, hin zu Agents, die Aktionen ausführen und aus den Ergebnissen lernen können. Indem wir Modelle in „fremden“ Welten testen, unterziehen wir ihre Fähigkeit, mentale Modelle der Realität zu erstellen, einem Stresstest. Das hat Auswirkungen weit über die Physik hinaus; es ist ein Stellvertreter dafür, wie eine KI mit einer neuartigen Cybersecurity-Bedrohung oder einer einzigartigen Finanzkrise umgehen könnte, in der die „Standardregeln“ des Marktes vorübergehend außer Kraft gesetzt sind. Wenn ein Modell die Gesetze einer fremden Welt ableiten kann, ist es wahrscheinlicher, dass es ein „Out-of-Distribution“-Ereignis in der realen Welt bewältigt, ohne zu versagen.

Schließlich verdeutlicht der Benchmark die Grenzen aktueller LLM-Architekturen. Die Tendenz von Modellen, erdähnliche Physik zu halluzinieren, wenn sie mit fremden Daten konfrontiert werden, deutet darauf hin, dass aktuelle Trainingsmethoden statistische Wahrscheinlichkeit über logische Konsistenz stellen. Während wir uns auf „agentischere“ Workflows zubewegen, bei denen KI-Systeme Entscheidungen in der physischen Welt treffen, ist die Fähigkeit zu erkennen, wann sich die „Regeln“ geändert haben, eine kritische Sicherheitsanforderung. DiscoverPhysics bietet einen strengen Rahmen zur Messung dieser Fähigkeit und drängt Entwickler dazu, Modelle zu erstellen, die First-Principles-Denken gegenüber einfachem Pattern Matching priorisieren. Dies führt die Branche weg von Benchmarks, die durch größere Datensätze manipuliert werden können, hin zu solchen, die echte kognitive Flexibilität erfordern.

Ein Beispiel aus der Praxis

Stell dir einen KI-Agenten vor, der eine komplexe chemische Raffinerie verwaltet. An einem normalen Tag befolgt er die Standard-Sicherheitsprotokolle, die er während des Trainings gelernt hat. Ein bestimmter Sensor fällt jedoch aus, und es beginnt eine seltene chemische Reaktion, die nicht in den Handbüchern des Unternehmens dokumentiert ist. Eine „auswendig lernende“ KI könnte versuchen, eine Lösung für einen gewöhnlichen Brand anzuwenden, was die spezifische chemische Reaktion verschlimmern könnte, weil sie einfach dem wahrscheinlichsten Muster folgt, das sie aus ihren Trainingsprotokollen kennt.

Eine KI, die mit Frameworks wie DiscoverPhysics trainiert und getestet wurde, würde erkennen, dass die aktuellen Daten – der steigende Druck und die seltsame Farbe des Gases – nicht zu ihren bekannten Modellen passen. Anstatt blind einem Protokoll zu folgen, würde sie ein „Mikro-Experiment“ durchführen, vielleicht den Kühlfluss leicht anpassen, um die Reaktion zu beobachten. Indem sie sieht, wie das System reagiert, leitet sie die neue „Physik“ der Situation in Echtzeit ab. Sie findet heraus, dass diese spezifische Mischung mehr Hitze benötigt, nicht weniger, um sich zu stabilisieren, und verhindert so eine Katastrophe, die eine reine Lehrbuch-KI verursacht hätte.

Passende Produkte

Wir empfehlen dieses Buch, weil es die grundlegende Natur der Entdeckung physikalischer Gesetze erforscht und den philosophischen Kontext für die Reasoning-Aufgaben in DiscoverPhysics liefert.

WerbungAmazon

The Character of Physical Law

★★★★★ 4.8

$20.00View on Amazon →