Google DeepMind stellt Aletheia vor: Der KI-Agent, der von Mathematikwettbewerben zu völlig autonomen professionellen Forschungsentdeckungen übergeht

Das Google DeepMind-Team präsentiert Aletheiaein spezialisierter KI-Agent, der die Lücke zwischen Mathematik auf Wettbewerbsniveau und professioneller Forschung schließen soll. Während die Modelle bei der Internationalen Mathematikolympiade (IMO) 2025 Goldmedaillen-Standards erreichten, erfordert die Forschung die Durchsicht umfangreicher Literatur und die Erstellung langfristiger Beweise. Aletheia löst dieses Problem durch iteratives Generieren, Verifizieren und Überprüfen von Lösungen in natürlicher Sprache.

Die Architektur: Agentenschleife

Aletheia wird von einer erweiterten Version von angetrieben Zwillinge tiefes Denken. Zur Verbesserung der Zuverlässigkeit wird ein dreiteiliger „Agentengurt“ verwendet.:

Generator: Schlägt eine mögliche Lösung für ein Forschungsproblem vor.
Prüfer: Ein informeller natürlichsprachlicher Mechanismus, der auf Fehler oder Halluzinationen prüft.
Bearbeiter: Korrigiert vom Prüfer festgestellte Fehler, bis ein Endergebnis genehmigt wird.

Diese Aufgabentrennung ist unerlässlich; Die Forscher stellten fest, dass die explizite Trennung der Verifizierung dem Modell dabei hilft, Fehler zu erkennen, die es bei der Generierung zunächst übersieht.

Wichtigste technische Schlussfolgerungen

Die Entwicklung von Aletheia brachte mehrere Erkenntnisse darüber, wie KI mit komplexen Überlegungen umgeht:

Inferenzzeitskalierung: Dadurch, dass das Modell zum Zeitpunkt einer Abfrage mehr berechnen kann („länger nachdenken“), wird die Genauigkeit erheblich verbessert. Mit der Veröffentlichung von Deep Think im Januar 2026 wurde der Rechenaufwand für Probleme auf IMO-Ebene um reduziert 100x im Vergleich zur Version 2025.
Leistung: Aletheia machte eine 95,1 % Genauigkeit auf dem IMO-Proof Bench Advanced, ein großer Sprung gegenüber dem vorherigen Rekord von 65,7 %. Es hat auch Spitzenleistungen gezeigt FutureMath Basicein internes Archiv für Übungen auf Doktorandenniveau.
Verwendung des Tools: Um Zitat-Halluzinationen vorzubeugen, verwendet Aletheia Google-Suche und Surfen im Internet. Dies hilft ihm, reale mathematische Literatur zusammenzufassen.

Forschungsmeilensteine

Aletheia hat bereits zu mehreren von Experten begutachteten Meilensteinen beigetragen:

Vollständig autonom (Feng26): Aletheia erstellte eine Forschungsarbeit zur Berechnung von Strukturkonstanten namens Eigengewicht ohne jegliches menschliches Eingreifen.
Kollaborativ (LeeSeo26): Der Agent stellte eine allgemeine Roadmap und eine „Big-Picture“-Strategie zur Verfügung, um die Grenzen aufzuzeigen unabhängige Mengenwas die menschlichen Autoren dann rigoros bewiesen.
Erdős’ Vermutungen: eingesetzt gegen 700 Offene Fragen, fand Aletheia 63 technisch korrekte und gelöste Lösungen 4 Offene Fragen selbstständig.

Eine Taxonomie für KI-Autonomie

DeepMind schlug einen Standard für die Einstufung mathematischer KI-Beiträge vor, ähnlich den Ebenen, die für autonome Fahrzeuge verwendet werden^.

Ebene	Beschreibung der Autonomie	Bedeutung (Beispiel)
Stufe 0	Hauptsächlich menschlich	Vernachlässigbare Neuheit (Olympiaden-Niveau)
Stufe 1	Zusammenarbeit zwischen Mensch und KI	Kleinere Neuerung (Erdős-1051)
Stufe 2	Im Wesentlichen autonom	Veröffentlichbare Forschung (Feng26)

Das Papier Feng26 ist klassifiziert als Niveau A2Das heißt, es ist im Wesentlichen eigenständig und von publizierbarer Qualität^.

Wichtige Erkenntnisse

Einführung eines KI-Agenten auf Forschungsniveau: Aletheia ist ein mathematischer Forschungsagent, der über das Lösen auf Wettbewerbsebene hinausgeht und selbstständig mathematische Beweise in natürlicher Sprache generiert, verifiziert und überarbeitet. Es wird von einer erweiterten Version von angetrieben Zwillinge tiefes Denken und eine Agentenschleife bestehend aus einem Generator, einem Verifizierer und einem Prüfer.
Erhebliche Gewinne durch Skalierung der Inferenzzeit: DeepMind-Forscher haben herausgefunden, dass es zu erheblichen Genauigkeitsgewinnen führt, wenn man dem Modell während der Inferenz mehr „Denkzeit“ gibt. DER Januar 2026 Die Deep Think-Version reduzierte den Rechenaufwand für eine Leistung auf Olympia-Niveau um 100x und einen Rekord aufgestellt 95,1 % Präzision auf der IMO-Proof Bench Advanced.
Unabhängige Forschungsmeilensteine: Das System hat mehrere „Premieren“ erzielt, darunter ein Forschungspapier (Feng26), die völlig ohne menschliches Eingreifen in Bezug auf die arithmetische Geometrie generiert wurden. Er hat es auch geschafft zu lösen 4 offene Fragen von Erdős Vermutungen Datenbank autonom.
Entscheidende Rolle der Werkzeugnutzung und -überprüfung: Um „Halluzinationen“ – wie das Erfinden von Zitaten auf Papier – zu bekämpfen, verlässt sich Aletheia stark darauf Google-Suche und Surfen im Internet. Darüber hinaus erwies sich die Entkopplung des Verifizierungsschritts vom Generierungsschritt als wesentlich für die Identifizierung von Fehlern, die ursprünglich vom Modell übersehen wurden.
Vorschlag für eine neue Taxonomie der Autonomie: Der Artikel schlägt einen standardisierten Rahmen für die Dokumentation KI-gestützter Ergebnisse vor, einschließlich Achsen von Autonomie (Stufe H bis Stufe A) und mathematische Bedeutung (Stufe 0 bis Stufe 4). Ziel ist es, Transparenz zu schaffen und die „Bewertungslücke“ zwischen KI-Ansprüchen und professionellen mathematischen Standards zu schließen.

Entdecken Sie die Papier. Folgen Sie uns auch gerne weiter Twitter und vergessen Sie nicht, bei uns mitzumachen Über 100.000 ML-Subreddit und abonnieren Unser Newsletter. Warten! Bist du im Telegram? Jetzt können Sie uns auch per Telegramm erreichen.

Michal Sutter ist ein Data-Science-Experte mit einem Master of Science in Data Science von der Universität Padua. Mit einer starken Grundlage in statistischer Analyse, maschinellem Lernen und Datentechnik ist Michal hervorragend darin, komplexe Datensätze in umsetzbare Erkenntnisse umzuwandeln.