Verbesserung der Fähigkeit von KI-Modellen, ihre Vorhersagen zu erklären | MIT-Nachrichten

In wichtigen Kontexten wie der medizinischen Diagnose möchten Benutzer oft wissen, was ein Computer-Vision-Modell dazu veranlasst hat, eine bestimmte Vorhersage zu treffen, damit sie entscheiden können, ob sie seinen Ergebnissen vertrauen sollten.
Die konzeptionelle Engpassmodellierung ist eine Methode, die es Systemen der künstlichen Intelligenz ermöglicht, ihren Entscheidungsprozess zu erklären. Diese Methoden zwingen ein Deep-Learning-Modell dazu, eine Reihe von für Menschen verständlichen Konzepten zu verwenden, um eine Vorhersage zu treffen. In einer neuen Forschung haben MIT-Informatiker eine Methode entwickelt, die es dem Modell ermöglicht, eine höhere Genauigkeit und klarere, prägnantere Erklärungen zu erzielen.
Die vom Modell verwendeten Konzepte werden in der Regel vorab von menschlichen Experten definiert. Beispielsweise könnte ein Arzt vorschlagen, Konzepte wie „gehäufte braune Flecken“ und „bunte Pigmentierung“ zu verwenden, um vorherzusagen, dass ein medizinisches Bild ein Melanom zeigt.
Allerdings sind zuvor definierte Konzepte möglicherweise nicht relevant oder es mangelt ihnen an ausreichenden Details für eine bestimmte Aufgabe, was die Genauigkeit des Modells verringert. Die neue Methode extrahiert Konzepte, die das Modell bereits gelernt hat, während es für die Ausführung dieser bestimmten Aufgabe trainiert wurde, und zwingt das Modell, sie zu verwenden, wodurch bessere Erklärungen als bei Standard-Konzeptengpassmodellen erzielt werden.
Der Ansatz nutzt ein Paar spezialisierter Modelle für maschinelles Lernen, die automatisch Wissen aus einem Zielmodell extrahieren und es in einfache Sprachkonzepte übersetzen. Letztendlich kann ihre Technik jedes vorab trainierte Computer-Vision-Modell in ein Modell umwandeln, das Konzepte verwenden kann, um seine Argumentation zu erklären.
„In gewisser Weise möchten wir in der Lage sein, die Gedanken dieser Computer-Vision-Modelle zu lesen. Ein konzeptionelles Engpassmodell ist eine Möglichkeit für Benutzer, zu erfahren, was das Modell denkt und warum es eine bestimmte Vorhersage getroffen hat. Da unsere Methode bessere Konzepte verwendet, kann sie zu größerer Genauigkeit führen und letztendlich die Rechenschaftspflicht von Black-Box-KI-Modellen verbessern“, erklärt Hauptautor Antonio De Santis, ein Doktorand an der Polytechnischen Universität Mailand, der diese Forschung damals durchführte und als Gaststudent am Computer Science and Artificial Intelligence Laboratory des MIT tätig war (CSAIL).
Er wird in einem Artikel über die Arbeit von Schrasing Tong SM ’20, PhD ’26; Marco Brambilla, Professor für Informatik und Ingenieurwesen an der Polytechnischen Universität Mailand; und Hauptautorin Lalana Kagal, leitende Forschungswissenschaftlerin bei CSAIL. Die Forschung wird auf der International Conference on Representations of Learning vorgestellt.
Einen besseren Engpass schaffen
Konzeptionelle Engpassmodelle (CBMs) sind ein beliebter Ansatz zur Verbesserung der Erklärbarkeit von KI. Diese Techniken fügen einen Zwischenschritt hinzu, indem sie ein Computer-Vision-Modell dazu zwingen, die in einem Bild vorhandenen Konzepte vorherzusagen, und diese Konzepte dann verwenden, um eine endgültige Vorhersage zu treffen.
Dieser Zwischenschritt oder „Engpass“ hilft Benutzern, die Argumentation des Modells zu verstehen.
Beispielsweise könnte ein Modell zur Identifizierung von Vogelarten Konzepte wie „gelbe Beine“ und „blaue Flügel“ auswählen, bevor es eine Rauchschwalbe vorhersagt.
Da diese Konzepte jedoch häufig im Voraus von Menschen oder durch große Sprachmodelle (LLMs) generiert werden, passen sie möglicherweise nicht für die spezifische Aufgabe. Darüber hinaus verwendet das Modell trotz einer Reihe vordefinierter Konzepte manchmal unerwünschte erlernte Informationen, ein Problem, das als Informationsleck bekannt ist.
„Diese Modelle sind darauf trainiert, die Leistung zu maximieren, sodass sie heimlich Konzepte verwenden können, von denen wir nicht wissen, dass sie existieren“, sagt De Santis.
Die MIT-Forscher hatten eine andere Idee: Da das Modell anhand einer großen Datenmenge trainiert wurde, hat es möglicherweise die Konzepte gelernt, die erforderlich sind, um genaue Vorhersagen für die jeweilige Aufgabe zu erstellen. Sie versuchten, ein CBM aufzubauen, indem sie dieses vorhandene Wissen extrahierten und in für Menschen verständlichen Text umwandelten.
In der ersten Phase ihrer Methode nimmt ein spezielles Deep-Learning-Modell, ein sogenannter Sparse-Autoencoder, selektiv die relevantesten vom Modell gelernten Merkmale und rekonstruiert sie in eine Handvoll Konzepte. Anschließend beschreibt ein multimodales LLM jedes Konzept in einfacher Sprache.
Dieses multimodale LLM kommentiert auch Bilder im Datensatz, indem es in jedem Bild vorhandene und fehlende Konzepte identifiziert. Forscher verwenden diesen annotierten Datensatz, um ein konzeptionelles Engpassmodul zu trainieren, um Konzepte zu erkennen.
Sie integrieren dieses Modul in das Zielmodell und zwingen es, Vorhersagen zu treffen, die nur auf den von den Forschern extrahierten erlernten Konzepten basieren.
Beherrschen Sie die Konzepte
Sie haben bei der Entwicklung dieser Methode viele Herausforderungen gemeistert, von der Sicherstellung, dass der LLM Konzepte korrekt kommentierte, bis hin zur Feststellung, ob der Sparse-Autoencoder für den Menschen verständliche Konzepte identifiziert hatte.
Um zu verhindern, dass das Modell unbekannte oder unerwünschte Konzepte verwendet, beschränken sie es auf die Verwendung von nur fünf Konzepten für jede Vorhersage. Dies zwingt das Modell auch dazu, die relevantesten Konzepte auszuwählen und macht die Erklärungen verständlicher.
Als sie ihren Ansatz mit modernsten CBMs für Aufgaben wie die Vorhersage von Vogelarten und die Identifizierung von Hautläsionen in medizinischen Bildern verglichen, erzielte ihre Methode die höchste Genauigkeit und lieferte gleichzeitig präzisere Erklärungen.
Ihr Ansatz führte auch zu Konzepten, die besser auf die Bilder im Datensatz anwendbar waren.
„Wir haben gezeigt, dass das Extrahieren von Konzepten aus dem Originalmodell andere CBMs übertreffen kann, aber es gibt immer noch einen Kompromiss zwischen Interpretierbarkeit und Genauigkeit. Black-Box-Modelle, die nicht interpretierbar sind, übertreffen immer unsere“, sagt De Santis.
In Zukunft wollen Forscher mögliche Lösungen für das Problem des Informationslecks untersuchen, möglicherweise durch das Hinzufügen zusätzlicher Engpassmodule, damit unerwünschte Konzepte nicht durchsickern können. Sie planen außerdem, ihre Methode zu erweitern, indem sie ein größeres multimodales LLM verwenden, um einen größeren Trainingsdatensatz zu annotieren, was die Leistung verbessern könnte.
„Ich bin von dieser Arbeit begeistert, weil sie interpretierbare KI in eine sehr vielversprechende Richtung treibt und eine natürliche Brücke zu symbolischer KI und Wissensgraphen schlägt“, sagt Andreas Hotho, Professor und Lehrstuhlinhaber für Datenwissenschaft an der Universität Würzburg, der nicht an dieser Arbeit beteiligt war. „Durch die Ableitung von Konzeptengpässen aus den internen Mechanismen des Modells und nicht nur aus vom Menschen definierten Konzepten ebnet dies den Weg für modellgetreuere Erklärungen und eröffnet viele Möglichkeiten für Folgearbeiten mit strukturiertem Wissen.“
Diese Forschung wurde durch das Progetto Rocca-Doktorandenstipendium, das italienische Ministerium für Universität und Forschung im Rahmen des Nationalen Wiederherstellungs- und Resilienzplans, Thales Alenia Space und die Europäische Union im Rahmen des NextGenerationEU-Projekts unterstützt.
