Identifizierung groß angelegter Interaktionen für LLMs – Der Berkeley Artificial Intelligence Research Blog

Identifizierung groß angelegter Interaktionen für LLMs – Der Berkeley Artificial Intelligence Research Blog



Identifizierung groß angelegter Interaktionen für LLMs – Der Berkeley Artificial Intelligence Research Blog

Das Verhalten komplexer maschineller Lernsysteme, insbesondere großer Sprachmodelle (LLM), zu verstehen, stellt eine entscheidende Herausforderung für die moderne künstliche Intelligenz dar. Ziel der Interpretierbarkeitsforschung ist es, den Entscheidungsprozess für Modellbauer und die beteiligten Menschen transparenter zu machen – ein Schritt hin zu sichererer und zuverlässigerer KI. Um ein umfassendes Verständnis zu erlangen, können wir diese Systeme aus verschiedenen Blickwinkeln analysieren: Funktionszuweisungwodurch die spezifischen Eingabemerkmale isoliert werden, die eine Vorhersage vorantreiben (Lundberg und Lee, 2017; Ribeiro et al., 2022); Datenzuordnungdie Modellverhalten mit einflussreichen Trainingsbeispielen verknüpft (Koh & Liang, 2017; Ilyas et al., 2022); Und mechanistische Interpretierbarkeitwelches die Funktionen der internen Komponenten analysiert (Conmy et al., 2023; Sharkey et al., 2025).

In all diesen Perspektiven besteht weiterhin dasselbe grundlegende Hindernis: große Komplexität. Modellverhalten ist selten das Ergebnis isolierter Komponenten; Vielmehr entsteht es aus komplexen Abhängigkeiten und Mustern. Um Spitzenleistungen zu erzielen, synthetisieren Modelle komplexe Funktionsbeziehungen, finden gemeinsame Muster aus verschiedenen Trainingsbeispielen und verarbeiten Informationen über hochgradig miteinander verbundene interne Komponenten.

Deshalb müssen realitätsbasierte bzw. realitätsüberprüfte Interpretierbarkeitsmethoden diese auch erfassen können einflussreiche Interaktionen. Wenn die Anzahl der Features, Trainingsdatenpunkte und Modellkomponenten zunimmt, nimmt die Anzahl potenzieller Interaktionen exponentiell zu, sodass eine umfassende Analyse rechnerisch nicht durchführbar ist. In diesem Blogbeitrag beschreiben wir die grundlegenden Ideen hinter SPEX und ProxySPEX, Algorithmen, die diese kritischen Interaktionen in großem Maßstab identifizieren können.

Zuschreibung durch Ablation

Im Mittelpunkt unseres Ansatzes steht das Konzept von AblationMessung des Einflusses durch Beobachtung, was sich ändert, wenn eine Komponente entfernt wird.

  • Funktionszuordnung: Wir blenden oder entfernen bestimmte Segmente der Eingabeaufforderung und messen die daraus resultierende Änderung der Vorhersagen.
  • Datenzuordnung: Wir trainieren Modelle auf verschiedenen Teilmengen des Trainingssatzes und bewerten, wie sich die Modellausgabe an einem Testpunkt ohne spezifische Trainingsdaten entwickelt.
  • Zuordnung von Modellkomponenten (mechanistische Interpretierbarkeit): Wir greifen in den Fortschritt des Modells ein, indem wir den Einfluss spezifischer interner Komponenten entfernen und so bestimmen, welche internen Strukturen für die Vorhersage des Modells verantwortlich sind.

Das Ziel ist in jedem Fall das gleiche: die Treiber einer Entscheidung durch systematische Störung des Systems zu isolieren, in der Hoffnung, einflussreiche Wechselwirkungen aufzudecken. Da jede Ablation erhebliche Kosten verursacht, sei es durch teure Inferenzaufrufe oder Umschulungen, ist es unser Ziel, Zuordnungen mit zu berechnen möglichst wenige Ablationen.


Identifizierung groß angelegter Interaktionen für LLMs – Der Berkeley Artificial Intelligence Research Blog

Indem wir verschiedene Teile der Eingabe maskieren, messen wir den Unterschied zwischen der ursprünglichen und der verschleierten Ausgabe.

SPEX- und ProxySPEX-Framework

Um einflussreiche Wechselwirkungen mit einer beherrschbaren Anzahl von Ablationen aufzudecken, haben wir SPEX (Spectral Explainer) entwickelt. Dieses Framework nutzt die Signalverarbeitungs- und Kodierungstheorie, um die Entdeckung von Wechselwirkungen auf Größenskalen voranzutreiben, die größer sind als bei früheren Methoden. SPEX umgeht dieses Problem, indem es eine wichtige strukturelle Beobachtung ausnutzt: Während die Gesamtzahl der Interaktionen prohibitiv ist, ist die Anzahl der Interaktionen unerschwinglich einflussreich Die Wechselwirkungen sind tatsächlich recht schwach.

Wir formalisieren dies durch zwei Beobachtungen: Seltenheit (relativ wenige Interaktionen bestimmen tatsächlich das Ergebnis) und niedriger Grad (Einflussreiche Interaktionen betreffen typischerweise nur eine kleine Teilmenge von Merkmalen). Diese Eigenschaften ermöglichen es uns, das schwierige Suchproblem in ein lösbares Problem umzuwandeln. spärliche Erholung Ausgabe. Basierend auf leistungsstarken Werkzeugen aus der Signalverarbeitung und der Kodierungstheorie nutzt SPEX strategisch ausgewählte Ablationen, um zahlreiche Kandidateninteraktionen zu kombinieren. Mithilfe effizienter Dekodierungsalgorithmen entwirren wir dann diese kombinierten Signale, um die spezifischen Interaktionen zu isolieren, die für das Modellverhalten verantwortlich sind.


Bild2

In einem nachfolgenden Algorithmus, ProxySPEX, haben wir eine weitere strukturelle Eigenschaft identifiziert, die komplexen Modellen des maschinellen Lernens gemeinsam ist: Hierarchie. Das bedeutet, dass dort, wo eine Wechselwirkung höherer Ordnung wichtig ist, wahrscheinlich auch deren Teilmengen niedrigerer Ordnung wichtig sind. Diese zusätzliche strukturelle Beobachtung führt zu einer spektakulären Verbesserung des Rechenaufwands: Sie entspricht in etwa der Leistung von SPEX 10-mal weniger Ablationen. Zusammengenommen ermöglichen diese Frameworks eine effiziente Erkennung von Interaktionen und ebnen den Weg für neue Anwendungen in den Bereichen Merkmalszuordnung, Daten und Modellkomponenten.

Funktionszuweisung

Merkmalszuordnungstechniken weisen Eingabemerkmalen Wichtigkeitswerte zu, basierend auf ihrem Einfluss auf die Modellausgabe. Wenn beispielsweise ein LLM zur Erstellung einer medizinischen Diagnose verwendet würde, könnte dieser Ansatz genau identifizieren, welche Symptome das Modell zu seiner Schlussfolgerung führten. Obwohl es nützlich sein kann, einzelnen Merkmalen Bedeutung zuzuweisen, liegt die wahre Stärke ausgefeilter Modelle in ihrer Fähigkeit, die komplexen Beziehungen zwischen Merkmalen zu erfassen. Die folgende Abbildung veranschaulicht Beispiele dieser einflussreichen Interaktionen: von einer doppelten negativen Stimmungsänderung (links) bis zur notwendigen Synthese mehrerer Dokumente in einer RAG-Aufgabe (rechts).


Bild3

Die folgende Abbildung veranschaulicht die Leistung von SPEX bei der Merkmalszuordnung bei einer Stimmungsanalyseaufgabe. Wir bewerten die Leistung anhand von Loyalität: ein Maß dafür, wie genau die abgerufenen Zuordnungen das Ergebnis des Modells bei unsichtbaren Testablationen vorhersagen können. Wir stellen fest, dass SPEX bei kurzen Eingaben die hohe Wiedergabetreue bestehender Interaktionstechniken (Faith-Shap, Faith-Banzhaf) erreicht, diese Leistung jedoch in einzigartiger Weise beibehält, wenn der Kontext auf Tausende von Funktionen skaliert. Obwohl marginale Ansätze (LIME, Banzhaf) andererseits auch auf dieser Skala funktionieren können, weisen sie eine deutlich geringere Genauigkeit auf, da sie die komplexen Wechselwirkungen, die die Modellergebnisse bestimmen, nicht erfassen.


Bild4

SPEX wurde auch auf eine modifizierte Version des Trolley-Problems angewendet, bei der die moralische Mehrdeutigkeit des Problems beseitigt wurde, sodass „Wahr“ die eindeutig richtige Antwort ist. Angesichts der folgenden Änderung reagierte der GPT-4o mini nur in 8 % der Fälle richtig. Bei der Anwendung der Standard-Feature-Attribution (SHAP) wurden einzelne Vorkommen des Wortes identifiziert. Warenkorb als Hauptfaktoren für eine falsche Antwort. Allerdings durch Ersetzen Warenkorb mit Synonymen wie Tram Oder Tram hatte kaum Einfluss auf die Modellvorhersage. SPEX enthüllte eine viel umfassendere Geschichte und identifizierte eine dominante Synergie höherer Ordnung zwischen den beiden Instanzen von Warenkorbsowie die Worte ziehen Und Hebel, eine Entdeckung, die der menschlichen Intuition über die wesentlichen Elemente des Dilemmas entspricht. Als diese vier Wörter durch Synonyme ersetzt wurden, sank die Ausfallrate des Modells auf nahezu Null.


Bild5

Datenzuordnung

Die Datenzuweisung identifiziert die Trainingsdatenpunkte, die am meisten für die Vorhersage eines Modells an einem neuen Testpunkt verantwortlich sind. Die Identifizierung einflussreicher Wechselwirkungen zwischen diesen Datenpunkten ist der Schlüssel zur Erklärung unerwarteter Modellverhaltensweisen. Redundante Interaktionen wie semantische Duplikate verstärken häufig spezifische (und möglicherweise falsche) Konzepte, während synergistische Interaktionen für die Definition von Entscheidungsgrenzen unerlässlich sind, die keine einzelne Stichprobe allein bilden könnte. Um dies zu demonstrieren, haben wir ProxySPEX auf ein auf CIFAR-10 trainiertes ResNet-Modell angewendet und dabei die wichtigsten Beispiele beider Interaktionstypen für eine Vielzahl schwieriger Testpunkte identifiziert, wie in der folgenden Abbildung dargestellt.


Bild6

Wie gezeigt, synergistische Wechselwirkungen (links) beinhalten oft semantisch unterschiedliche Klassen, die zusammenarbeiten, um eine Entscheidungsgrenze zu definieren. Indem man beispielsweise Synergien auf der menschlichen Wahrnehmung aufbaut, kann die Automobil (unten links) teilt optische Merkmale mit den bereitgestellten Trainingsbildern, darunter das dezente Chassis des Sportwagens, die quadratische Form des gelben Lastwagens und den horizontalen Streifen des roten Lieferfahrzeugs. Auf der anderen Seite, redundante Interaktionen (rechts) neigen dazu, visuelle Duplikate zu erfassen, die ein bestimmtes Konzept verstärken. Zum Beispiel die Pferd Die Vorhersage (Mitte rechts) wird stark von einer Gruppe von Bildern von Hunden mit ähnlichen Silhouetten beeinflusst. Diese feinkörnige Analyse ermöglicht die Entwicklung neuer Datenauswahltechniken, die die notwendigen Synergien bewahren und gleichzeitig Redundanzen sicher beseitigen.

Zuschreibung der Kopfaufmerksamkeit (mechanistische Interpretierbarkeit)

Das Ziel von Zuordnung von Modellkomponenten besteht darin, zu identifizieren, welche internen Teile des Modells, wie z. B. bestimmte Schichten oder Aufmerksamkeitsköpfe, am meisten für ein bestimmtes Verhalten verantwortlich sind. Auch hier zeigt ProxySPEX die verantwortlichen Interaktionen zwischen verschiedenen Teilen der Architektur auf. Das Verständnis dieser strukturellen Abhängigkeiten ist für architektonische Eingriffe, wie beispielsweise das aufgabenspezifische Aufmerksamkeitskopfschneiden, von wesentlicher Bedeutung. Anhand eines MMLU-Datensatzes (Highschool-US-History) zeigen wir, dass eine ProxySPEX-basierte Beschneidungsstrategie nicht nur konkurrierende Methoden übertrifft, sondern dies sogar kann Verbessern Sie die Modellleistung bei der Zielaufgabe.


Bild7

Im Rahmen dieser Aufgabe haben wir auch die Interaktionsstruktur in der gesamten Tiefe des Modells analysiert. Wir beobachten, dass die ersten Schichten in einem im Wesentlichen linearen Regime agieren, in dem Führungskräfte weitgehend unabhängig zur Zielaufgabe beitragen. In späteren Schichten wird die Rolle der Interaktionen zwischen Aufmerksamkeitsköpfen stärker ausgeprägt, wobei der größte Teil des Beitrags von Interaktionen zwischen Aufmerksamkeitsköpfen innerhalb derselben Schicht stammt.


Bild8

Was kommt als nächstes?

Das SPEX-Framework stellt einen erheblichen Fortschritt in der Interpretierbarkeit dar und erweitert seitdem die Entdeckung von Interaktionen Zehntausende von Komponenten. Wir haben die Vielseitigkeit des Frameworks während des gesamten Modelllebenszyklus demonstriert: Wir haben die Funktionszuweisung bei Eingaben mit langem Kontext untersucht, Synergien und Redundanzen zwischen Trainingsdatenpunkten identifiziert und Interaktionen zwischen den internen Komponenten des Modells entdeckt. Für die Zukunft bleiben viele interessante Forschungsfragen offen vereinheitlichend Diese unterschiedlichen Perspektiven ermöglichen ein umfassenderes Verständnis eines maschinellen Lernsystems. Es ist auch von großem Interesse, Methoden zur Interaktionserkennung systematisch anhand vorhandener wissenschaftlicher Erkenntnisse in Bereichen wie Genomik und Materialwissenschaften zu bewerten, um sowohl Modellergebnisse zu verankern als auch neue überprüfbare Hypothesen zu generieren.

Wir laden die Forschungsgemeinschaft ein, sich uns bei diesem Vorhaben anzuschließen: Der Code für SPEX und ProxySPEX ist vollständig integriert und im beliebten SHAP-IQ-Repository verfügbar (Link).

Source link

Similar Posts