Entdecken Sie die Qwen3.5-Familie: von klein bis riesig

Das Alibaba-Team veröffentlichte Qwen3.5, die neueste Generation großer offener Sprach- und multimodaler Modelle. Diese Serie verschiebt die Grenzen von Leistung und Effizienz und ermöglicht High-End-Funktionen mit drastisch reduzierten Rechenbudgets. Diese Version steht im Einklang mit einem branchenweiten Wandel hin zu effizienter, einsetzbarer KI: Modelle, die fortschrittliches Denken, Codierung, agentenbasiertes Verhalten und native Multimodalität bieten und gleichzeitig für Consumer-Hardware, Edge-Geräte, Server mit bescheidenen Ressourcen oder sogar lokale/datenschutzorientierte Setups skalierbar sind.

Qwen3.5 deckt eine breite Familie von Größen und Architekturen ab, von ultrakompakten, dichten Modellen mit weniger als einer Milliarde Parametern bis hin zu massiven, spärlichen MoE-Flaggschiffen mit insgesamt mehr als 300 Milliarden Parametern. Dieses abgestufte Portfolio ermöglicht es Entwicklern, Modelle genau an ihre Bedürfnisse hinsichtlich Latenz, Durchsatz, Speicherbedarf, Kosten und Kapazität anzupassen.

Auf der leichten Seite umfasst die Qwen3.5 Small-Serie vier Modelle: 0,8B-, 2B-, 4B- und 9B-Einstellungen. Sie wurden Anfang März 2026 eingeführt (und vervollständigen damit die Mitte Februar begonnene Familienbereitstellung) und sind für die Bereitstellung auf Geräten und am Rande optimiert: Smartphones, IoT-Geräte, eingebettete Systeme und datenschutzbewusste lokale Inferenz.

Sie erreichen eine bemerkenswerte Effizienz durch architektonische Entscheidungen wie hybride Aufmerksamkeit (Gated Delta Networks für lineare zeitliche Skalierung) und Techniken, die die VRAM-Nutzung minimieren. Selbst das 9B-Modell läuft problemlos auf bescheidenen Consumer-GPUs oder mobiler High-End-Hardware. Alle kleinen Modelle erben native Multimodalität und ein 262.144-Token-Popup, wodurch eine lange Dokumentenverarbeitung und umfangreiche Konversationen vor Ort möglich sind.

Variante 9B sticht als die leistungsstärkste der kleinen Modelle hervor und schließt einen Großteil der Lücke zu viel größeren Modellen, wenn es um Argumentation, logische Problemlösung und das Befolgen von Anweisungen geht – teilweise dank tiefgreifendem Verstärkungslernen nach dem Training.

Eine der wichtigsten Weiterentwicklungen von Qwen3.5 ist seine native multimodale Architektur. Im Gegensatz zu vielen früheren Systemen, die Vision-Encoder an vorab trainierte Sprachmodelle anpassen, integriert Qwen3.5 Vision und Sprache aus der Phase vor dem Training (frühe Fusion). Diese einheitliche Formation erzeugt einen konsistenten Darstellungsraum für Texte, Bilder, Diagramme, Grafiken, Screenshots und Dokumente.

Das Ergebnis ist eine überlegene Leistung bei visuellen Verständnisaufgaben: Dokumentlayoutanalyse, Diagramm-/Tabelleninterpretation, Diagrammbegründung, feinkörnige OCR, visuelle Beantwortung von Fragen und multimodales Agentenverhalten (z. B. Verstehen und Handeln auf Bildschirminhalten).

Bei den Flaggschiff- und Mid-MoE-Modellen wird pro Token nur ein kleiner Teil der Einstellungen aktiviert:

Qwen3.5-397B-A17B (Flaggschiff): Insgesamt 397 Milliarden Parameter, davon etwa 17 Milliarden aktiviert.
Qwen3.5-122B-A10B: insgesamt 122 Milliarden, etwa 10 Milliarden aktiviert.
Qwen3.5-35B-A3B: insgesamt 35 Milliarden, etwa 3 Milliarden aktiviert.

Diese Sparsity ermöglicht hochwertiges multimodales Denken und Agentenleistung zu Kosten und Inferenzgeschwindigkeiten, die viel näher an denen viel kleinerer dichter Modelle liegen – oft 60 % günstiger und mit einem 8-mal besseren Durchsatz bei großen Arbeitslasten als die vorherige Generation.

Qwen3.5 nutzt groß angelegtes Verstärkungslernen nach dem Training, einschließlich Simulationsumgebungen mit mehreren Agenten und immer schwierigeren, von der realen Welt inspirierten Aufgaben. Dies verfeinert das Befolgen von Anweisungen, die mehrstufige Planung, die Verwendung von Werkzeugen, die Reduzierung von Halluzinationen, die strukturierte Einhaltung von Ergebnissen und die Anpassungsfähigkeit an Agentenszenarien (Kodierungsagenten, visuelle Agenten, langfristiges Denken).

Die Reihe erweitert die Sprachabdeckung deutlich auf 201 Sprachen und Dialekte, mit besonderem Schwerpunkt auf ressourcenarmen Sprachen – und fördert so eine wirklich integrative und kulturbewusste KI.

Alle Modelle verfügen über ein natives Popup mit 262.144 Token (262 KB), ausreichend für ganze Codebasen, lange Dokumente, Konversationen mit mehreren Runden oder komplexe Argumentationen mit mehreren Dokumenten. Gehostete/API-Varianten (z. B. Qwen3.5-Plus auf Alibaba Cloud Model Studio) erweitern diese Zahl auf 1 Million Token.

Qwen3.5 ist unter freizügigen offenen Lizenzen (hauptsächlich Apache 2.0) auf Hugging Face, ModelScope und GitHub verfügbar und ermöglicht Entwicklern und Unternehmen auf der ganzen Welt die Erstellung effizienterer, effektiverer und zugänglicherer KI-Anwendungen: von mobilen Assistenten und modernsten Analysen bis hin zu leistungsstarken Cloud-Agenten und Forschungsgrenzen.

Source link