Untersuchung der Eigenschaften großer Sprachmodelle: Interview mit Maxime Meyer

In dieser Interviewreihe treffen wir einige der Teilnehmer des AAAI/SIGAI-Doktorandenkonsortiums, um mehr über ihre Forschung zu erfahren. Wir haben uns mit Maxime Meyer getroffen, um über seine aktuelle Forschung, seine zukünftigen Projekte und wie er die Erfahrung des Doktorandenkonsortiums entdeckt hat, zu sprechen.
Könnten Sie mit einer Vorstellung über sich selbst beginnen, wo Sie studieren und worum es in Ihrer Forschung geht?
Hallo, mein Name ist Maxime, Doktorand im zweiten Jahr in der Mathematikabteilung der National University of Singapore. Mein Forschungsschwerpunkt liegt auf großen Sprachmodellen.
Welchen Aspekt wichtiger Sprachmodelle betrachten Sie?
Eine Sache, die den Leuten bei großen Sprachmodellen wie ChatGPT auffällt, ist, dass sie oft gut mit Eingabeaufforderungen normaler Länge funktionieren, aber ihre Antworten können schlechter werden, wenn die Eingabe sehr lang wird. Wenn Sie beispielsweise eine 100-seitige PDF-Datei einfügen, fehlen in der Vorlage möglicherweise Details, sind verwirrend oder geben weniger zuverlässige Antworten. Meine Forschung konzentriert sich darauf, diesen Leistungsabfall zu verstehen, wenn die Eingabe länger wird. Ich untersuche, warum dies geschieht, wie es sich mit zunehmendem Text entwickelt und ob wir es vorhersehen oder begrenzen können.
Die Modelle haben sich in den letzten Jahren stark verbessert. Früher konnte sogar eine einzige Seite für sie schwierig sein. Heutzutage reicht meist eine Seite. Sehr große Texte bleiben jedoch ein Problem. Wenn Sie ein ganzes Buch in eine Vorlage – wie die Bibel – einfügen und eine bestimmte Frage stellen wollten, wäre das für heutige Systeme zu viel. Das gleiche Problem tritt bei umfangreichen Unternehmensrichtliniendokumenten oder umfangreichen Regelwerken und Richtlinien auf.
Gibt es einen Aspekt Ihrer Arbeit, der besonders interessant war?
Ein besonders interessantes Ergebnis ist, dass wir kürzlich Formeln zur Vorhersage der Modellleistung entwickelt haben. Anhand einiger grundlegender Merkmale eines Modells können wir die maximale Eingabelänge abschätzen, die es zuverlässig verarbeiten kann. Das bedeutet, dass wir nicht immer große Versuchsreihen durchführen müssen, um seine Grenzen herauszufinden.
Grundsätzlich gilt: Wenn ein Unternehmen über eine Vorlage verfügt und möchte, dass diese längere Eingabeaufforderungen verarbeiten kann, kann es diese Formeln verwenden, um sofort Ratschläge zu erteilen. Durch die Anpassung bestimmter Parameter können sie davon ausgehen, dass das Modell Eingaben zwei- oder sogar dreimal länger verarbeiten kann, ohne alle Möglichkeiten durch Ausprobieren testen zu müssen.
Welche Pläne haben Sie, Ihre Arbeit zu diesem Thema zu erweitern?
Wir erkunden zwei Hauptrichtungen. Zunächst möchten wir unsere Techniken auf andere Fragen zu großen Sprachmodellen anwenden, die über den spezifischen Kontext hinausgehen, den wir untersucht haben. Zweitens arbeiten wir daran, unsere Ergebnisse zu verfeinern, um die Prognosen genauer zu machen.
In einem Ihrer früheren Projekte ging es um das Online-Lernen unbekannter Quantenzustände. Könnten Sie uns etwas darüber erzählen?
Dieses Projekt konzentrierte sich auf ein Quantencomputerproblem. Ein Quantencomputer ähnelt einem normalen Computer, speichert Informationen jedoch nicht als klare Nullen und Einsen, sondern in Quantenzuständen.
In einem normalen Computer lässt sich leicht erkennen, ob ein Bit eine 0 oder eine 1 ist: Sie können ein elektrisches Signal über eine Leitung messen und direkt ablesen. In einem Quantencomputer wird das „Bit“ durch einen Quantenzustand ersetzt, der viel komplexer sein kann. Es ist viel schwieriger, genau zu bestimmen, in welchem Zustand sich das System befindet, und dies ist eine der größten Herausforderungen beim Bau und Einsatz von Quantencomputern.
In unserer Arbeit haben wir untersucht, wie man mithilfe wiederholter Messungen Schritt für Schritt einen unbekannten Quantenzustand lernt. Wir haben uns auf zwei häufig verwendete Familien von Quantenzuständen konzentriert. Einer von ihnen ist symmetrischer, daher erwarteten die Leute, dass er leichter zu erlernen wäre. Wir haben gezeigt, dass dieser Vorteil in manchen Kontexten verschwindet: Beide Familien können gleichermaßen schwer zu erlernen sein.
Mich interessierte, wie Sie das Doktorandenkonsortium und das Konferenzerlebnis im Allgemeinen fanden.
Es war eine tolle Erfahrung. Dies war das erste Mal, dass ich meine Arbeit zu LLMs vorstellte und ich erhielt viele nützliche Rückmeldungen. Das Doktorandenkonsortium ermöglichte uns außerdem zwei Tage lang den engen Austausch mit erfahrenen Forschern. Wir sprachen nicht nur über Forschung, sondern auch über Karrieren, akademische Herausforderungen und worauf wir aufgrund unserer konkreten Ziele achten sollten. Ich habe viele wertvolle Informationen erhalten.
Was ist Ihr Hintergrund und was hat Sie dazu bewogen, KI und insbesondere große Sprachmodelle zu studieren?
Mein Hintergrund liegt in der Mathematik. Ich habe von zwei Vorgesetzten ein Angebot erhalten, das mir sehr gut gefallen hat und das ich angenommen habe, weil ich wusste, wie wichtig es ist, mit Menschen zusammenzuarbeiten, mit denen man sich gut versteht. Wir hatten auch die Möglichkeit, das konkrete Thema später zu definieren. Einer schlug aufgrund ihrer Beliebtheit vor, an großen Sprachmodellen zu arbeiten. Ich bin seinem Rat gefolgt und es gefällt mir bisher wirklich gut!
Ich habe auch das Glück, dass mein Hintergrund so gut mit der KI-Forschung übereinstimmt. Viele Menschen auf diesem Gebiet haben einen Hintergrund in der Informatik, während Forscher mit einem sehr ausgeprägten mathematischen Hintergrund sich oft dafür entscheiden, in der reinen Mathematik zu bleiben. Dennoch werden mathematische Fähigkeiten in der KI-Forschung geschätzt, daher passen meine Fähigkeiten gut dazu.
Ein weiterer Vorteil der Arbeit im Bereich KI besteht darin, dass man in der reinen Mathematik oft jahrelange Studien braucht, bis man den Stand der Technik vollständig verstehen und anfangen kann, einen Beitrag zu leisten. Im Vergleich dazu ist KI eher horizontal als vertikal. Mit einem ausgeprägten mathematischen Hintergrund können Sie sich relativ schnell einarbeiten und an einer Vielzahl von Forschungsproblemen arbeiten.
Haben Sie einen Rat für jemanden, der darüber nachdenkt, auf diesem Gebiet zu promovieren?
Achten Sie vor allem darauf, dass Sie sich in einem guten Umfeld aufhalten, dass Sie Vorgesetzte haben, mit denen Sie sich gut verstehen, und dass Sie sich an einem Ort befinden, an dem Sie leben möchten. Wenn ich mich umschaue, habe ich wirklich das Gefühl, dass das der wichtigste Faktor ist, der darüber entscheidet, ob die Leute Freude an ihrer Promotion haben oder ob sie es ein paar Jahre lang wirklich schwer haben. Wenn Sie in einer neuen Stadt ohne Freunde oder Familie sind, das Wetter nicht mag und Sie jeden Tag mit Menschen arbeiten, die Sie nicht mögen, kann es sehr schnell schwierig werden. Im Gegenteil: Wenn Sie gute Betreuer haben und sich in einem Umfeld befinden, in dem Sie wissen, dass Sie Spaß haben und sich weiterentwickeln können, ist ein Doktortitel eine unglaubliche Erfahrung.
Was machen Sie gerne außerhalb Ihrer Promotion?
Mein größtes Hobby ist Sport und ich boxe viel. Mit Beginn meiner Promotion habe ich aufgehört, an Wettkämpfen teilzunehmen, aber ich trainiere immer noch jeden Tag.
Über Maxime Meuer
|
Mein Name ist Maxime, Doktorand im zweiten Jahr am Fachbereich Mathematik der National University of Singapore, unter der Betreuung von Professor Vincent Tan und Professor Caroline Chaux. Mein Hauptinteresse gilt dem Studium der theoretischen Grundlagen wichtiger Sprachmodelle. Trotz ihres großen Erfolgs sind diese Architekturen – und die Milliarden von Parametern, auf denen sie basieren – noch immer kaum verstanden. Mein Ziel ist es, Licht auf die grundlegenden Gleichungen zu werfen, die ihnen zugrunde liegen. Welche Rolle spielen die einzelnen Parameter? Wie lässt sich die Auswirkung ihrer Änderung auf die Leistung des Modells quantifizieren? Und wie können uns diese Informationen dabei helfen, effektivere und besser interpretierbare KI-Modelle zu entwerfen? |
Schlagworte: AAAI, AAAI Doctoral Consortium, AAAI2026, ACM SIGAI

Lucy Smith ist die leitende Redakteurin von AIhub.
