Wissenschaftler haben den Schlüssel zur Kontrolle des KI-Verhaltens gefunden

Seit Jahren wird das Innenleben großer Sprachmodelle (LLMs) wie Llama und Claude mit einer „Black Box“ verglichen – groß, komplex und bekanntermaßen schwer zu kontrollieren. Doch ein Forscherteam der University of San Diego und des MIT hat gerade eine Studie im Science Journal veröffentlicht, die darauf hindeutet, dass diese Box nicht so mysteriös ist wie bisher angenommen.

Das Team entdeckte, dass komplexe KI-Konzepte – von bestimmten Sprachen wie Hindi bis hin zu abstrakten Ideen wie Verschwörungstheorien – tatsächlich als einfache gerade Linien oder Vektoren im mathematischen Raum des Modells gespeichert sind.

Mithilfe eines neuen Tools namens Recursive Feature Machine (RFM) – einer Technik zur Merkmalsextraktion, die lineare Muster identifiziert, die Konzepte darstellen, von Stimmungen und Ängsten bis hin zu komplexen Überlegungen – konnten die Forscher diese Pfade präzise verfolgen. Sobald die Richtung eines Konzepts festgelegt ist, kann es „durchgesetzt“ werden. Durch mathematisches Addieren oder Subtrahieren dieser Vektoren war das Team in der Lage, das Verhalten eines Modells sofort zu ändern, ohne kostspielige Umschulung oder komplizierte Eingabeaufforderungen.

Die Wirksamkeit dieser Methode sorgt in der Branche für Aufsehen. Mit einer einzigen handelsüblichen GPU (NVIDIA A100) konnte das Team ein Konzept in weniger als einer Minute identifizieren und testen, was weniger als 500 Trainingsbeispiele erforderte.

Die praktischen Anwendungen dieses „chirurgischen“ Ansatzes zur KI sind unmittelbar. In einem Experiment testeten Forscher ein Modell, um seine Fähigkeit zur Übersetzung von Python-Code in C++ zu verbessern. Durch die Isolierung der „Logik“ des Codes von der „Syntax“ der Sprache übertraf das gesteuerte Modell die Standardversionen, die lediglich über eine Textaufforderung zur „Übersetzung“ aufgefordert wurden.

Die Forscher fanden außerdem heraus, dass die interne „Untersuchung“ dieser Vektoren eine wirksamere Methode zur Erkennung von KI-Halluzinationen oder toxischen Inhalten ist, als die KI zu bitten, ihre eigene Arbeit zu beurteilen. Im Wesentlichen „weiß“ das Modell oft, dass sie lügen oder innerlich toxisch sind, auch wenn ihr Endergebnis etwas anderes vermuten lässt. Durch die Untersuchung interner Berechnungen können Forscher diese Probleme erkennen, bevor ein einziges Wort generiert wird.

Allerdings könnte dieselbe Technologie, die KI sicherer macht, sie auch gefährlicher machen. Die Studie zeigte, dass Forscher die Modelle effektiv „jailbreaken“ konnten, indem sie die Bedeutung des Konzepts der Verweigerung „verringerten“. Bei Tests umgingen pilotierte Modelle ihre eigenen Leitplanken, um Anweisungen zu illegalen Aktivitäten zu geben oder entlarvte Verschwörungstheorien zu fördern.

Die vielleicht überraschendste Entdeckung ist die Universalität dieser Konzepte. Ein aus englischen Daten extrahierter „Verschwörungstheoretiker“-Vektor funktionierte genauso effektiv, wenn das Modell Chinesisch oder Hindi sprach. Dies unterstützt die „Hypothese der linearen Darstellung“ – die Idee, dass KI-Modelle menschliches Wissen auf strukturierte, lineare Weise organisieren, die über einzelne Sprachen hinausgeht.

Während sich die Studie auf Open-Source-Modelle wie Metas Llama und DeepSeek konzentrierte, sowie OpenAI GPT-4oDie Forscher glauben, dass die Ergebnisse allgemein gelten. Je größer und anspruchsvoller die Modelle werden, desto wendiger und nicht weniger werden sie.

Das nächste Ziel des Teams besteht darin, diese Steuerungsmethoden zu verfeinern, um sie in Echtzeit an bestimmte Benutzereingaben anzupassen. Dies könnte zu einer Zukunft führen, in der KI nicht nur ein Chatbot ist, mit dem wir sprechen, sondern ein System, das wir mathematisch auf perfekte Genauigkeit und Sicherheit „abstimmen“ können.

Source link