
Qwen 3.5 lokal – Architektur, Marktpositionierung und lokale Use-Cases
Die Veröffentlichung der Modellfamilie Qwen 3.5 durch Alibaba Cloud im Februar 2026 markiert einen historischen Wendepunkt in der Entwicklung quelloffener, sogenannter Open-Weights-Künstlicher-Intelligenz. Dieses umfangreiche Dossier bietet eine erschöpfende, auch für den interessierten Laien verständliche Analyse dieser neuen Modellgeneration. Es beleuchtet die technologischen Fundamente, welche die immense Leistungsfähigkeit von Qwen 3.5 ermöglichen, und ordnet diese Leistung in einem detaillierten Vergleich mit führenden proprietären und offenen Mitbewerbern ein. Ein besonderer Schwerpunkt dieses Berichts liegt auf der Demokratisierung der künstlichen Intelligenz: der lokalen Ausführbarkeit komplexer Modelle auf handelsüblichen Computern mit stark begrenztem Grafikspeicher (8 GB VRAM). Durch eine detaillierte Anleitung zur Konfiguration in der Software LM Studio sowie die Ausarbeitung von 15 praxisnahen, im Alltag erprobten Anwendungsfällen – beginnend mit der erfolgreichen Generierung einer vollständigen Landing-Page – schlägt dieses Dokument die Brücke zwischen hochkomplexer theoretischer Informatik und der direkten, produktiven Anwendung auf dem heimischen Schreibtisch.
1. Technologische Fundamente und Modelleigenschaften
Die herausragende Effizienz und Leistungsfähigkeit von Qwen 3.5 basieren auf einer radikalen Abkehr von klassischen, rein monolithischen Modellarchitekturen. Um zu verstehen, warum ein derart mächtiges System überhaupt auf privater Hardware lauffähig gemacht werden kann, müssen die zugrunde liegenden architektonischen Innovationen betrachtet werden. Die Entwickler von Alibaba Cloud haben eine hybride Architektur implementiert, die Skalierbarkeit mit ökonomischer Ressourcennutzung vereint und dabei fundamentale Flaschenhälse bisheriger Sprachmodelle auflöst.1
1.1 Die hybride Architektur: Sparse Mixture-of-Experts (MoE)
Im Zentrum des Flaggschiff-Modells Qwen3.5-397B-A17B sowie des kleineren Qwen3.5-35B-A3B steht die sogenannte “Sparse Mixture-of-Experts” (MoE) Architektur.1 Für den Laien lässt sich die traditionelle, “dichte” (dense) Modellarchitektur mit einem Raum voller Generalisten vergleichen: Bei jeder noch so kleinen Frage rufen alle Anwesenden gleichzeitig ihr gesamtes Wissen ab, diskutieren miteinander und verbrauchen dabei enorm viel Energie und Platz. Dies führt zu exzellenten Ergebnissen, benötigt aber astronomische Rechenleistung.
Die MoE-Architektur hingegen funktioniert wie ein hochspezialisiertes Expertengremium in einem modernen Krankenhaus. Anstatt dass bei jedem Patienten alle Chefärzte gleichzeitig ans Bett treten, existiert ein intelligenter “Verteiler” – der sogenannte Router. Dieser Router analysiert die eingehende Frage (den Prompt) in Bruchteilen einer Sekunde und weckt nur diejenigen “Experten” auf, die für genau dieses spezifische Thema am besten qualifiziert sind. Im Falle des riesigen Qwen 3.5 Flaggschiffs bedeutet dies: Obwohl das Modell über ein gigantisches Weltwissen von 397 Milliarden Parametern verfügt, werden für jedes generierte Wort (Token) nur 17 Milliarden dieser Parameter aktiviert.1 Bei dem kleineren 35-Milliarden-Modell sind es sogar nur 3 Milliarden Parameter, die pro Schritt rechnen.3 Das Resultat ist die Intelligenz und das nuancierte Weltwissen eines gigantischen Modells, gepaart mit dem Strom-, Speicher- und Zeitbedarf eines wesentlich kleineren Systems.4
1.2 Gated Delta Networks und die Lösung des Kontext-Problems
Die zweite architektonische Säule, die Qwen 3.5 von der Konkurrenz abhebt, ist die Fusion der MoE-Struktur mit linearer Aufmerksamkeit durch sogenannte “Gated Delta Networks”.1 Um die Tragweite dieser Innovation zu verstehen, muss man das Hauptproblem herkömmlicher Sprachmodelle kennen: den quadratischen Flaschenhals des Attention-Mechanismus. Wenn ein traditionelles Modell einen Text liest, vergleicht es jedes Wort mit jedem anderen Wort, um den Kontext zu verstehen. Die benötigte Rechenleistung wächst dabei nicht linear, sondern quadratisch, was sich mathematisch als ausdrücken lässt, wobei
die Länge des Textes ist. Ein Text, der doppelt so lang ist, benötigt viermal so viel Speicher; ein zehnmal so langer Text benötigt hundertmal so viel Speicher. Dies führte in der Vergangenheit dazu, dass Modelle bei langen Dokumenten schlichtweg abstürzten, da der Arbeitsspeicher überlief.
Gated Delta Networks ersetzen diesen rechenintensiven Prozess durch eine lineare Herangehensweise, mathematisch darstellbar als .1 Das Modell komprimiert das bisher Gelesene in eine Art fließendes Kurzzeitgedächtnis, anstatt ständig alle Wörter gleichzeitig in der Schwebe zu halten. Für den Endanwender bedeutet diese mathematische Revolution, dass Qwen 3.5 ein gewaltiges Kontextfenster von standardmäßig 256.000 Token und in der Cloud-Version bis zu 1.000.000 Token verarbeiten kann.1 Ein Kontextfenster dieser Größenordnung entspricht etwa der Verarbeitung von drei kompletten englischsprachigen Romanen oder der gesamten Codebasis eines mittelgroßen Softwareprojekts auf einen einzigen Schlag, ohne dass die lokale Hardware unter der Last zusammenbricht.
1.3 Native Multimodalität und globale linguistische Reichweite
Ein weiterer Quantensprung der Qwen 3.5 Architektur ist ihre native Multimodalität. Im Gegensatz zu vielen frühen Modellen, bei denen die Fähigkeit, Bilder zu sehen, erst nachträglich durch separate Module “angeflanscht” wurde, ist Qwen 3.5 von Grund auf als Vision-Language-Modell (VLM) konzipiert.1 Das bedeutet, dass das neuronale Netz während seiner gesamten Ausbildung Pixel, Audio-Streams und Text als gleichwertige, miteinander verwobene Informationsquellen kennengelernt hat.5 Diese tiefe Verschmelzung erlaubt es der KI, nicht nur einfache Bildbeschreibungen zu liefern, sondern komplexe wissenschaftliche Diagramme zu analysieren, Benutzeroberflächen intuitiv zu verstehen und als visueller Agent selbstständig Workflows auf dem Computerbildschirm auszuführen.4 Es “sieht” die Welt nicht durch einen Übersetzer, sondern versteht visuelle und textuelle Konzepte als Einheit.
Zusätzlich wurde die linguistische Basis im Vergleich zu den Vorgängerversionen massiv ausgebaut. Während das ohnehin schon polyglotte Vorgängermodell 119 Sprachen verstand, unterstützt Qwen 3.5 nun 201 Sprachen und Dialekte nativ.1 Diese extreme Sprachvielfalt ist weit mehr als nur ein Werkzeug für Übersetzungen. Ein Modell, das in 201 Sprachen trainiert wurde, absorbiert auch die kulturellen Nuancen, die lokalen Programmierkommentare von Entwicklern weltweit und die spezifischen Marktdynamiken globaler Nischenmärkte. Dies führt zu einer deutlich robusteren Logik, da das Modell Konzepte aus vielerlei kulturellen Blickwinkeln beleuchten kann, was letztlich auch die Qualität der Antworten in Hauptsprachen wie Deutsch oder Englisch signifikant steigert.
1.4 Das Modell-Ökosystem im Detail
Um den höchst unterschiedlichen Hardware-Voraussetzungen vom Smartphone bis zum Supercomputer gerecht zu werden, wurde die Technologie in eine granulare Familie von Modellen unterteilt 2:
Das Flaggschiff bildet das Modell Qwen3.5-397B-A17B, welches primär für den Einsatz im Rechenzentrum und für komplexe Enterprise-Anwendungen konzipiert ist.1 Es vereint die maximale Parameteranzahl und dominiert die Benchmarks. Eine Stufe darunter operiert das Qwen3.5-122B-A10B Modell, ein extrem starkes Mittelklasse-MoE-System, das auf Workstations mit mehreren Grafikkarten (beispielsweise zwei RTX 3090 oder RTX 4090) lokal ausgeführt werden kann und dort Geschwindigkeiten von bis zu 60 Token pro Sekunde erreicht.7
Für den ambitionierten Heimanwender ist das Modell Qwen3.5-35B-A3B von größter Bedeutung.2 Es bietet das komprimierte Wissen von 35 Milliarden Parametern, schont aber die Hardware, da pro Token nur 3 Milliarden Parameter den Stromverbrauch in die Höhe treiben. Eine architektonische Besonderheit stellt das Qwen3.5-27B dar. Im Gegensatz zu seinen Geschwistern ist dies ein “dichtes” (dense) Modell, bei dem alle 27 Milliarden Parameter durchgehend aktiv sind.2 Wie spätere Analysen zeigen werden, besitzt dieses Modell aufgrund seiner dichten Architektur besondere Vorteile bei extrem komplexen, mehrschrittigen Programmieraufgaben, bei denen das laterale Denken aller Parameter gleichzeitig gefordert ist.9
2. Performance-Analyse im globalen Wettbewerb
Um den wahren technologischen Wert und die Marktrelevanz von Qwen 3.5 fundiert bewerten zu können, muss das System den strengsten Metriken der Industrie unterworfen und im direkten Vergleich mit führenden Mitbewerbern betrachtet werden. Für diese tiefgehende Analyse ziehen wir sechs der aktuell stärksten Systeme heran: Das quelloffene DeepSeek R1, das ebenfalls quelloffene DeepSeek V3.2, Llama 4 Maverick von Meta, sowie die geschlossenen, proprietären Giganten GPT-5.2 von OpenAI, Claude 4.5 Opus von Anthropic und Gemini 3 Pro von Google.1
2.1 Empirische Benchmark-Ergebnisse
Die folgende Tabelle illustriert die Leistung über die wichtigsten kognitiven Domänen hinweg. Die Metriken umfassen MMLU-Pro (welches fortgeschrittenes Universitätswissen mit zehn harten, irreführenden Antwortmöglichkeiten prüft), GPQA Diamond (das höchste Niveau an wissenschaftlichem Denken, bei dem selbst menschliche Experten mit Doktortitel oft scheitern), IFEval (die strikte Befolgung hochkomplexer, formaler Instruktionen) und SWE-bench Verified (die autonome Lösung realer, dokumentierter Software-Engineering-Probleme aus GitHub-Repositories).1
| Modell | Parameter | Architektur | MMLU-Pro | GPQA (Diamond) | IFEval | SWE-bench |
| Qwen3.5-397B-A17B | 397B (17B aktiv) | MoE | 87,8 | 88,4 | 92,6 | 76,4 |
| DeepSeek R1 | 671B (37B aktiv) | MoE | 84,0 | 71,5 | 83,3 | 49,2 |
| DeepSeek V3.2 | 685B | MoE | 85,0 | 79,9 | N/A | 67,8 |
| Llama 4 Maverick | 400B | Dense | 80,5 | 69,8 | N/A | N/A |
| Claude 4.5 Opus | Proprietär | Geheim | 89,5 | 87,0 | 90,9 | N/A |
| GPT-5.2 | Proprietär | Geheim | 87,4 | 92,4 | 94,8 | N/A |
| Gemini 3 Pro | Proprietär | Geheim | 89,8 | 91,9 | 93,5 | N/A |
| GPT-oss 120B | 117B | Dense | 90,0 | 80,9 | N/A | 62,4 |
2.2 Analytische Erkenntnisse und Branchentrends (Second-Order Insights)
Eine bloße Betrachtung der Zahlen greift zu kurz. Die Interpretation dieser Daten offenbart vielmehr massive tektonische Verschiebungen in der globalen KI-Industrie, die weitreichende Konsequenzen für Unternehmen und Entwickler haben.
Die erste und wohl einschneidendste Erkenntnis ist der faktische Zusammenbruch des technologischen Monopols proprietärer westlicher Anbieter. Jahrelang galt die Prämisse, dass Open-Source-Modelle den geschlossenen Systemen von OpenAI oder Anthropic stets ein bis zwei Generationen hinterherhinken würden. Qwen 3.5 widerlegt dieses Dogma eindrucksvoll. Das Modell übertrifft das viel beachtete DeepSeek R1 in sämtlichen gemessenen Kategorien signifikant.10 Noch bemerkenswerter ist jedoch der direkte Schlagabtausch mit den teuren Paywall-Modellen. Qwen 3.5 schlägt OpenAI’s GPT-5.2 im extrem anspruchsvollen MMLU-Pro Benchmark (87,8 vs. 87,4) und besiegt Claude 4.5 Opus im Bereich des akademischen Denkens auf Post-Doc-Niveau (GPQA: 88,4 vs. 87,0).1 Zudem deklassiert es Llama 4 Maverick (400B), das bisherige Open-Source-Aushängeschild aus den USA, mit einem Vorsprung von über sieben Prozentpunkten im MMLU-Pro.10 Dies bedeutet, dass der technologische Burggraben im Bereich der reinen Modellintelligenz praktisch nicht mehr existiert. Ein Modell, dessen Gewichte frei herunterladbar sind, agiert auf Augenhöhe mit den teuersten Cloud-Services der Welt.
Die zweite tiefergehende Erkenntnis betrifft die drastische Überlegenheit der Qwen-Architektur im Bereich des Software-Engineerings. Im SWE-bench Benchmark, der die Fähigkeit misst, reale Bugs in großen Software-Projekten völlig autonom zu beheben, deklassiert Qwen 3.5 das DeepSeek R1 Modell mit einem Wert von 76,4 gegenüber 49,2 geradezu.10 Diese Differenz ist historisch, da DeepSeek R1 explizit als Modell für logisches Schließen (Reasoning) konzipiert und vermarktet wurde. Die Ursache für diese Diskrepanz liegt mit hoher Wahrscheinlichkeit in Qwen’s überlegenem langen Kontextfenster und der Fähigkeit der “Gated Delta Networks”, Informationen über viele Tausend Zeilen Code hinweg verlustfrei zu speichern.1 Während DeepSeek R1 in tiefen Code-Hierarchien den logischen Faden verliert, behält Qwen 3.5 die Architektur des gesamten Repositories im “Gedächtnis” und kann präzise operative Eingriffe vornehmen, ohne Seiteneffekte zu generieren.9
Eine dritte, hochinteressante Anomalie offenbart sich beim Vergleich innerhalb der eigenen Qwen-Familie, konkret beim Duell zwischen Mixture-of-Experts und dichten Architekturen. Unabhängige Tests beim autonomen Programmieren (Agentic Coding) zeigen, dass das “dichte” Qwen 3.5 27B-Modell bei sehr komplexen, mehrschrittigen Aufgaben paradoxerweise besser abschneidet als das größere Qwen 3.5 35B-A3B MoE-Modell.9 Dies liegt an der Natur der MoE-Technologie: Obwohl das 35-Milliarden-Modell auf einem breiteren Wissensfundament trainiert wurde, “denken” in jedem Moment nur 3 Milliarden Parameter.3 Bei isolierten Fragen ist dies hochgradig effizient. Bei hochkomplexen Agenten-Aufgaben jedoch, die laterales Denken über viele Domänen hinweg erfordern – etwa wenn ein Modell gleichzeitig Netzwerkprotokolle verstehen, Datenbankstrukturen anpassen und Frontend-Design generieren muss –, stoßen diese isolierten 3 Milliarden aktiven Parameter an ihre kognitiven Grenzen. Das 27B-Modell hingegen wendet in jedem Bruchteil einer Sekunde seine gesamte neuronale “Gehirnkapazität” von 27 Milliarden Parametern auf das Problem an und verliert dadurch bei langen Denkketten seltener den Überblick.3 Dies liefert Hardware-Architekten wertvolle Hinweise darauf, dass Effizienz durch MoE bei holistischen Aufgabenstellungen ihren Preis hat.
3. Lokale Ausführbarkeit und die Physik des VRAMs (Fokus: 8 GB Limit)
Die Vorstellung, eine künstliche Intelligenz, die mit GPT-5.2 konkurriert, lokal auf einem heimischen PC mit einer handelsüblichen Mittelklasse-Grafikkarte (beispielsweise einer Nvidia RTX 4060 mit 8 GB VRAM) völlig offline auszuführen, galt lange Zeit als physikalisch unmögliche Utopie. Mit der Qwen 3.5-Familie und massiven Fortschritten in der Datenkomprimierung ist dies im Jahr 2026 zu einer praktikablen Realität geworden.4 Um zu verstehen, wie dies funktioniert, muss man die grundlegende Physik des Computerspeichers bei der KI-Inferenz durchleuchten.
3.1 Die Speicher-Mathematik und das Quantisierungs-Prinzip
Damit ein Sprachmodell Text in einer für den Menschen angenehmen Geschwindigkeit (Echtzeit) generieren kann, müssen seine neuronalen Gewichte (die Parameter) im VRAM (Video Random Access Memory) der Grafikkarte geladen sein. Der VRAM ist extrem schnell, aber auf handelsüblichen Karten mit 8 GB stark limitiert. Der System-RAM (Arbeitsspeicher des PCs) ist zwar reichlich vorhanden (oft 16 GB bis 64 GB), aber für KI-Berechnungen viel zu langsam, was zu einer quälend langsamen Textausgabe führt.
Ein einzelner Modellparameter wird im Standardformat der Industrie (FP16, also 16-Bit-Fließkommazahlen) gespeichert und benötigt exakt 2 Byte Speicherplatz. Ein Modell mit 8 Milliarden Parametern benötigt unkomprimiert also rund 16 Gigabyte VRAM. Ein 35-Milliarden-Parameter-Modell würde sogar 70 GB VRAM verschlingen – weit außerhalb der Reichweite einer 8 GB Karte.
Die technologische Brücke, die dieses physikalische Hindernis überwindet, nennt sich Quantisierung. Bei diesem Verfahren wird die mathematische Präzision der Parameter künstlich reduziert, beispielsweise von 16 Bit auf 4 Bit oder sogar 2 Bit. Anstatt jede Zahl auf viele Nachkommastellen genau zu speichern, wird sie gerundet. Zwar verliert das Modell dadurch minimale Nuancen in der Sprachmelodie, doch die Dateigröße schrumpft dramatisch auf einen Bruchteil zusammen. Formate wie GGUF, die speziell für die Ausführungsumgebung llama.cpp entwickelt wurden, haben sich hier als Goldstandard etabliert.13 Durch intelligente Algorithmen bleiben die Kernlogik und das Faktenwissen von Qwen dabei fast vollständig erhalten.
3.2 Implementierungsstrategien für 8 GB VRAM Systeme
Ein Nutzer, der vor einem PC mit 8 GB VRAM und beispielsweise 32 GB regulärem System-RAM sitzt, steht vor der Entscheidung, welches Modell er lädt. Hier haben sich in der Praxis drei konkrete Strategien als optimal erwiesen, je nachdem, ob Geschwindigkeit oder absolute Intelligenz im Vordergrund steht:
Strategie A: Der perfekte Fit für maximale Geschwindigkeit (Qwen 3 8B in Q4_K_M) Die populärste Strategie für den flüssigen Alltagsgebrauch ist die Nutzung eines 8-Milliarden-Parameter-Modells in einer 4-Bit-Quantisierung (spezifisch das Format Q4_K_M). Ein realer Praxistest mit einer NVIDIA RTX 4060 (8 GB VRAM) hat gezeigt, dass dieses Setup ideal ist.12 Das Modell schrumpft in dieser Quantisierung auf eine Dateigröße von lediglich 4,68 GB.12 Dies bedeutet, dass das gesamte “Gehirn” der KI vollständig in den schnellen Speicher der Grafikkarte passt. Die verbleibenden rund 3 GB des VRAMs werden genutzt, um den Chatverlauf zu speichern (den sogenannten KV-Cache, auf den wir später noch eingehen). Das Resultat ist eine rasante Inferenzgeschwindigkeit von über 42 Token pro Sekunde.12 Der Text fließt schneller über den Bildschirm, als ein Mensch lesen kann. Diese Strategie ist perfekt für Brainstorming, das Verfassen von E-Mails oder einfache Übersetzungen.
Strategie B: Das Hybrid-Modell für Expertenwissen (Qwen 3.5 35B-A3B in Q4_K_M) Wenn eine Aufgabe das Wissen eines großen Modells erfordert, greift Strategie B. Das Qwen 3.5 35B-A3B Modell kombiniert enormes Weltwissen durch 35 Milliarden Gesamtparameter. In der quantisierten 4-Bit-Version benötigt es jedoch immer noch etwa 18 bis 20 GB an Speicherkapazität.13 Da die Grafikkarte nur 8 GB besitzt, wendet die Software einen Trick an: den “Split-Mode” (GPU Offloading).13 Die Schichten (Layers) des neuronalen Netzes werden physisch aufgeteilt. Ein Teil der Schichten wird in den extrem schnellen VRAM der Grafikkarte geladen, bis dieser fast voll ist. Die restlichen Schichten werden in den viel langsameren System-RAM des Prozessors ausgelagert.13 Während der Generierung müssen die Daten nun ständig zwischen Grafikkarte und Hauptprozessor pendeln. Die Inferenzgeschwindigkeit sinkt dadurch spürbar auf etwa 5 bis 10 Token pro Sekunde.15 Für interaktives Chatten ist dies oft zu träge, aber für autonome Hintergrundaufgaben – etwa das Schreiben eines langen, komplexen Software-Moduls, bei dem man sich ohnehin einen Kaffee holen geht – ist dies ein brillanter Kompromiss, um Elite-Intelligenz auf günstiger Hardware zu nutzen.
Strategie C: Die extreme Komprimierung für logische Schärfe (Qwen 3.5 27B Dense in Q2_K) Wie bereits dargelegt, ist das dichte 27B-Modell bei logischen Aufgaben oft überlegen. Um ein 27-Milliarden-Modell auf einem System mit engem Speicher auszuführen, bedarf es extremer Kompressionsmethoden. Qwen-Modelle erweisen sich als beispiellos widerstandsfähig gegenüber aggressiver Quantisierung.16 Das Modell kann auf ein 2-Bit-Format (Q2_K) gequetscht werden. Zwar sinkt dadurch die poetische Qualität der Sprache minimal, doch die rudimentäre Logik, das Verständnis von Programmierung und die Fähigkeit, Mathematik zu lösen, bleiben bemerkenswert stabil erhalten.16 Dies ermöglicht es Entwicklern mit begrenztem Budget, ein architektonisch dichtes Modell zu betreiben, das in der Agentensteuerung dem MoE-Modell überlegen ist.
4. Optimale Modellkonfiguration für LM Studio
Die Wahl des richtigen Modells ist nur der erste Schritt. Die Benutzeroberfläche LM Studio hat sich als populärster Client etabliert, um lokale GGUF-Modelle plattformübergreifend und benutzerfreundlich auszuführen.17 Um auf einem System mit exakt 8 GB VRAM die perfekte Balance zwischen maximaler Inferenzgeschwindigkeit und absoluter Systemstabilität zu finden, müssen die Einstellungen unter der Haube präzise justiert werden. Falsche Parameter führen unweigerlich zu Systemabstürzen (Out-of-Memory Errors) oder halluzinierten Antworten.
4.1 System- und Hardwareeinstellungen (Hardware Settings)
Die Hardware-Parameter steuern, wie der Computer seine physischen Ressourcen aufteilt.
- GPU Offload (Hardware-Beschleunigung): Dies ist der kritischste Hebel in LM Studio. Für kleine Modelle (wie das 8B in Q4) setzen Sie diesen Wert auf “Max”, damit 100% der Modellschichten auf die Grafikkarte geladen werden.12 Betreiben Sie ein größeres Modell im Split-Mode (wie das 35B), müssen Sie experimentieren. Beginnen Sie damit, 13 bis 19 Schichten manuell in den VRAM auszulagern.15 Beobachten Sie den integrierten Ressourcenmonitor in LM Studio genau: Die VRAM-Auslastung sollte im Leerlauf 7,5 GB auf einer 8-GB-Karte nicht überschreiten. Der verbleibende halbe Gigabyte fungiert als lebenswichtiger Puffer für das Betriebssystem und den Browser; fehlt dieser Puffer, friert der gesamte PC ein.15
- CPU Thread Pool Size: Wenn Modellteile über den System-RAM via Prozessor (CPU) berechnet werden, muss die Arbeitslast auf die Prozessorkerne verteilt werden. Ein weit verbreiteter Irrtum unter Laien ist es, hier blindlings die maximale Anzahl der CPU-Threads einzutragen. Die beste und stabilste Leistung erzielen Sie, wenn Sie den Wert exakt auf die Anzahl Ihrer physischen Leistungskerne (Performance-Cores) abzüglich ein bis zwei Kernen für Hintergrundprozesse setzen (z.B. 12 Threads bei einem modernen 14-Kerner).12
- Flash Attention: Dieser Schalter muss zwingend auf ON (Aktiviert) gesetzt werden. Flash Attention ist eine revolutionäre Technologie, die den Zwischenspeicher während der Textgenerierung massiv optimiert und berüchtigte VRAM-Spitzen (Spikes) eliminiert.7 Ohne Flash Attention stürzt das Modell bei längeren Texten unweigerlich ab.
- KV Cache Quantisierung (Das Kurzzeitgedächtnis): Wenn Sie mit dem Modell chatten, speichert es den bisherigen Gesprächsverlauf im sogenannten Key-Value (KV) Cache. Standardmäßig verbraucht dieses Gedächtnis 16 Bit pro Token, was bei 8 GB VRAM rasant zu einem Überlauf führt. Setzen Sie in den erweiterten Einstellungen (Advanced) die Parameter –cache-type-k und –cache-type-v auf q8_0 (8 Bit) oder sogar q4_0 (4 Bit). Dieser Eingriff halbiert bis viertelt den Speicherbedarf des Gedächtnisses drastisch und erlaubt deutlich tiefere und längere Konversationen, ohne dass das Modell seine Kohärenz verliert.7
- Context Length (Kontextfenster): Vermeiden Sie die Versuchung, astronomische Werte wie 128.000 einzutragen. Für ein 8 GB VRAM Setup, das primär auf der GPU laufen soll, ist ein Kontextfenster von 4096 bis 8192 Token der ideale Sweetspot.12 Wenn Sie System-RAM für das 35B-Modell zuschalten, können Sie den Kontext zwar auf 32.000 Token erweitern, müssen aber mit exponentiell steigenden Ladezeiten bei jedem neuen Prompt rechnen.15
4.2 Inferenz-Parameter (Inference Settings)
Während die Hardware-Settings die Physik steuern, diktieren die Inferenz-Parameter die Psychologie und Logik des Modells. Um die Kreativität und strikte logische Schärfe von Qwen 3.5 optimal auszusteuern, empfiehlt der Hersteller Alibaba hochspezifische Sampling-Parameter, die merklich von den üblichen Standards abweichen, die man für westliche Modelle wie Llama gewohnt ist 13:
- Temperature (Temperatur): 0.7 – Dieser Wert steuert die “Kreativität”. Ein Wert von 0.7 bildet bei Qwen den perfekten Mittelweg zwischen der analytischen, deterministischen Präzision, die für das Schreiben von fehlerfreiem Code nötig ist, und der natürlichen, fließenden Eloquenz, die für das Verfassen von Prosa erwartet wird.13
- Top_P: 0.8 – Dieser Filter schneidet den statistischen “Rausch” ab. Er verwirft bei jedem generierten Wort rigoros die unwahrscheinlichsten 20% aller denkbaren Wortkombinationen. Dies reduziert bei Qwen Modellen das Risiko von Halluzinationen massiv, da das Modell gezwungen wird, sich auf sicheren linguistischen Pfaden zu bewegen.13
- Top_K: 20 – Eine sehr starke, fast schon restriktive Begrenzung. Das Modell darf bei jedem gedanklichen Schritt nur aus den absolut 20 logischsten Folgeworten wählen. Dies verhindert, dass das Modell in kreative, aber unlogische Tangenten abdriftet.13
- Min_P: 0.00 bis 0.01 – Diese dynamische Metrik ist eine moderne Ergänzung. Ein Wert von 0.01 schneidet konsequent alle Wörter ab, deren Wahrscheinlichkeit unter 1% der Wahrscheinlichkeit des absolut logischsten Wortes liegt. Die Aktivierung dieses Werts räumt den generierten Text, insbesondere bei komplexen Erklärungen, merklich auf und macht ihn präziser.13
- Repetition Penalty (Wiederholungsstrafe): 1.05 – Ein lebenswichtiger Wert. Er verhindert, dass das Modell in endlos repetitiven Endlosschleifen verfällt – ein historisch bekanntes Problem bei älteren lokalen Modellen, das bei langen Generierungen auftritt. Er bestraft Wörter leicht, die bereits verwendet wurden.13
- Chat Template: Dies ist der häufigste Fehlergrund für dysfunktionale Modelle. Das Prompt-Format muss zwingend auf ChatML gesetzt werden. Qwen 3.5 verlässt sich auf eine hochgradig strikte Syntax mit <|im_start|> und <|im_end|> Tags, um die Rollenverteilung zwischen dem System (System Prompt), dem Benutzer (User) und der KI (Assistant) zu begreifen. Ein falsches Llama-Template führt unweigerlich zu Endlos-Halluzinationen oder unbrauchbarem Kauderwelsch.13
5. 15 Praktische Use-Cases für die lokale Anwendung
Mit einem korrekt in LM Studio konfigurierten Qwen 3.5 Modell verwandelt sich ein herkömmlicher PC in ein autarkes, datenschutzkonformes und hochintelligentes KI-Labor. Die reine Theorie der Benchmarks manifestiert sich erst in der praktischen Anwendung. Die folgenden 15 Use-Cases illustrieren die immense Bandbreite der Möglichkeiten, kombiniert mit tiefgehenden analytischen Einblicken, warum gerade Qwen 3.5 für diese Aufgaben prädestiniert ist.
5.1 Generierung hochkonvertierender Landing-Pages (Web-Entwicklung)
Wie Praxisbeispiele aus der Marketing-Community eindrucksvoll belegen, eignet sich Qwen 3.5 herausragend für die End-to-End-Entwicklung von Verkaufsseiten (Landing-Pages).4 Ein Nutzer beschrieb kürzlich detailliert die erfolgreiche Erstellung einer kompletten Seite für ein “AI Profit Boardroom” Projekt.4 Die Genialität des Modells liegt darin, dass es nicht nur isolierten Text generiert. Wenn es mit dem richtigen Prompt instruiert wird, schreibt es den persuasiven Werbetext (Copywriting) und bettet diesen simultan in eine saubere semantische HTML5-Struktur ein, veredelt diese mit modernsten CSS-Frameworks wie Tailwind und integriert psychologisch platzierte Call-to-Action (CTA) Elemente.4 Die zugrundeliegende Ursache für diesen Erfolg: Durch das Training auf 201 Sprachen und eine IFEval-Punktzahl von 92,6% befolgt das Modell nicht nur strikt die Design-Anweisungen, sondern adaptiert die Semantik des Werbetextes exakt auf die Nuancen der lokalen Zielgruppe.1
5.2 Autonomer lokaler Code-Debugger (Software Engineering)
Ein massives Problem für Entwickler in der Unternehmenswelt ist die Fehlerbehebung. Bisher mussten proprietäre Quellcodes oder Fehlermeldungen (Stack Traces) oft in Cloud-Dienste wie ChatGPT kopiert werden, was fundamentale Compliance- und Geheimhaltungsrichtlinien (NDAs) verletzt. Qwen 3.5 fungiert hier als extrem leistungsfähiger, rein lokaler Debugger. Mit einer beispiellosen SWE-bench Punktzahl von 76,4% übertrifft es selbst spezialisierte Code-Modelle wie DeepSeek R1 im Verständnis realer Programmierprobleme bei Weitem.10 Der Entwickler kopiert die fehlerhafte Funktion in LM Studio; Qwen analysiert den logischen Datenfluss, erkennt subtile Memory Leaks oder Race Conditions und liefert den korrigierten Code direkt zurück, während das geistige Eigentum den Schreibtischrechner nie verlässt.
5.3 Datenschutzkonforme Analyse von Finanz- und Gesundheitsdokumenten
Da das Modell lokal via LM Studio läuft, greifen keinerlei Datenschutzbedenken oder Einschränkungen durch die DSGVO. Analysten oder Mediziner können streng vertrauliche Bilanzen, interne Firmenstrategien oder anonymisierte Patientenakten in das Modell einspeisen. Durch das gewaltige Kontextfenster, das durch die Gated Delta Networks ermöglicht wird 1, erfasst Qwen problemlos Dokumente von über 50 Seiten auf einen Schlag. Das Modell liest die Dokumente quer, extrahiert die relevanten Kernkennzahlen (KPIs) und fasst versteckte Risiken in einem Executive Summary zusammen, ohne dass auch nur ein einziges Datenpaket an einen Server in den USA oder China gesendet wird.18
5.4 Automatisierung von SEO-Content und Marketing-Systemen
Marketing-Agenturen können Qwen 3.5 als das unsichtbare Rückgrat eines vollautomatisierten SEO-Systems (Search Engine Optimization) nutzen.4 Durch die Kombination aus exzellentem Instruktionsverständnis und breitem Weltwissen (MMLU-Pro Wert von 87,8) lässt sich das Modell via Skript anweisen, Hunderte von Google-Suchintentionen nacheinander zu analysieren. Es bildet logische Keyword-Cluster und verfasst strukturierte, SEO-optimierte Artikel. Da durch die lokale Ausführung keinerlei API-Kosten pro generiertem Token anfallen 18, können Nutzer massive Mengen an Inhalten – wie beispielsweise zehntausende individuelle Produktbeschreibungen für einen E-Commerce-Shop – im Hintergrund generieren lassen (Batch-Processing), was einen unbezahlbaren Wettbewerbsvorteil darstellt.
5.5 Visueller Agent für GUI-Navigation (Multimodaler Workflow)
Aufgrund der bereits erwähnten nativen Vision-Language-Architektur versteht Qwen 3.5 nicht nur Text, sondern begreift visuelle Computeroberflächen in ihrer Gesamtheit.1 Ein Heimanwender, der an einer komplexen, unübersichtlichen Software verzweifelt, kann einen Screenshot der Anwendung hochladen (sofern die genutzte LM Studio Version Multimodalität unterstützt). Mit dem Prompt “Wo genau muss ich in diesem Interface klicken, um den API-Schlüssel als CSV zu exportieren?” analysiert das Modell die visuellen Elemente. Es identifiziert verschachtelte Menüs, deutet kryptische Icons korrekt und liefert eine präzise, leicht verständliche Schritt-für-Schritt-Anleitung. Es fungiert somit als ein interaktives, allwissendes visuelles Handbuch.
5.6 Lokale Datenextraktion aus unstrukturierten PDFs (OCR & Parsing)
In der analogen Geschäftswelt liegen Rechnungen, Quittungen, Frachtbriefe oder alte wissenschaftliche Studien oftmals nur als eingescannte Bilddateien vor. Die visuelle Verarbeitungskomponente von Qwen 3.5 ermöglicht es, diese oft schwer leserlichen Bilder hochpräzise zu analysieren und daraus maschinenlesbare, strukturierte JSON- oder CSV-Dateien zu generieren.5 Das Modell erkennt visuell die Tabellenstrukturen im Bild, trennt die Spalten gedanklich (beispielsweise Lieferdatum, Artikelbezeichnung, Nettopreis) und bereitet diese Datenmassen so auf, dass sie mit einem Klick in Excel-Tabellen oder SQL-Datenbanken importiert werden können. Für die Buchhaltung bedeutet dies das Ende der manuellen Dateneingabe.
5.7 Offline-Sprachübersetzung für exotische und komplexe Dialekte
Klassische, cloudbasierte Übersetzungstools stoßen bei tiefgreifendem Fachjargon, starkem Slang oder sehr seltenen Sprachen oftmals schnell an ihre konzeptionellen Grenzen. Qwen 3.5 wurde nativ auf erstaunliche 201 Sprachen und regionale Dialekte trainiert.1 Ein lokaler Nutzer kann beispielsweise ein komplexes, von technischen Nuancen wimmelndes Konstruktionshandbuch von Mandarin in fehlerfreies, hochtechnisches Deutsch übersetzen lassen. Im Gegensatz zu älteren Übersetzungstools, die auf wörtliche Übersetzungen limitiert waren, nutzt das riesige LLM seinen enormen weltlichen Kontext, um den fachlichen Sinn (die Semantik) der verschachtelten Sätze zu begreifen und diese Bedeutung idiomatisch korrekt zu adaptieren.
5.8 Interaktiver Storyteller und tiefe Roleplay-Engine
Lokale, unzensierte LLMs erfreuen sich in der globalen Kreativ-Community immenser Beliebtheit. Mit einem 8 GB VRAM Setup und einem Modell wie dem quantisierten Qwen 3.5 35B lassen sich extrem tiefgehende, konsistente narrative Welten erschaffen.19 Durch die hohe empfohlene “Repetition Penalty” und das präzise Instruction Following vergisst das Modell auch nach Hunderten von Chat-Nachrichten nicht die feinen Charakterzüge, Geheimnisse oder physischen Eigenschaften der fiktiven Figuren. Es eignet sich hervorragend als dynamischer, reaktionsschneller Dungeon Master für Pen-&-Paper-Rollenspiele oder als unermüdlicher Co-Autor für Romanautoren, die nachts um drei Uhr Inspiration für einen blockierten Handlungsstrang benötigen.
5.9 Complex Research Synthesis (Tiefenrecherche für Akademiker)
Wissenschaftler, Doktoren oder Investigativjournalisten verbringen oft Tage damit, Hunderte von Quellen abzugleichen. Durch die lokale Power kann man Qwen 3.5 mit den Texten von zwanzig verschiedenen Forschungsarbeiten füttern (ausreichend System-RAM für das Kontextfenster vorausgesetzt). Der analytische Prompt lautet dann: “Analysiere diese zwanzig aktuellen Studien zur Feststoffbatterie. Isoliere die methodischen Widersprüche zwischen Studie A und Studie F und synthetisiere den tatsächlichen aktuellen Stand der Technik in einem objektiven Bericht.” Mit einem GPQA-Wert von 88,4% beweist das Modell akademische Präzision auf höchstem Niveau und vermeidet das oft beklagte oberflächliche Zusammenfassen, an dem kleinere Open-Source-Modelle fast immer scheitern.5
5.10 Onboarding und Mentoring in fremden Codebasen
Wenn Junior-Entwickler ein neues, jahrelang gewachsenes Projekt übernehmen, ist das Verstehen des fremden, oft undokumentierten “Spaghetti-Codes” eine enorme mentale Belastung. Entwickler können das lokale Verzeichnis des Quellcodes in das Kontextfenster des Modells laden. Qwen 3.5 schlüpft dann in die Rolle des geduldigen Senior-Entwicklers. Der Nutzer fragt: “Erkläre mir, wie das komplexe Routing-Modul in diesem Projekt mit der Middleware interagiert, und zeichne mir eine mentale Architekturkarte.” Das Modell entwirrt die Code-Strukturen, erkennt veraltete Funktionen und generiert auf Wunsch vollautomatisch fehlende Docstrings für Hunderte von Funktionen in Minuten.9
5.11 Agentic Tool Use (Autonome Befehlsausführung im Terminal)
Qwen 3.5 ist in seiner Trainingsphase intensiv darauf konditioniert worden, externe Werkzeuge (Tools) zu benutzen und autonom Pläne zu schmieden.4 Über spezialisierte Agenten-Skripte (beispielsweise geschrieben in Python, die an die lokale LM Studio Server-API andocken) kann das Modell angewiesen werden, selbstständig zu agieren. Es bekommt den Auftrag, eine Datenanalyse durchzuführen. Es entscheidet völlig autonom: “Um diese komplexe Frage zu beantworten, muss ich zuerst das Tool ‘grep’ aufrufen, das lokale Logfile durchsuchen, die Fehler zählen und dann das Tool ‘Python’ nutzen, um mit Matplotlib einen Graphen zu zeichnen.”.20 Diese Art von Agentik bringt wahre Automatisierung auf den Desktop.
5.12 Erstellung von komplexen API-Endpunkten und Backend-Strukturen
Das Modell versteht nicht nur Frontend-Voodoo, sondern beherrscht auch tiefgreifende, sichere Backend-Logik. Ein mächtiger Use-Case ist das Rapid Prototyping für Start-ups. Der Prompt lautet: “Schreibe mir einen kompletten Node.js/Express API-Endpunkt. Er muss Nutzerdaten entgegennehmen, diese streng validieren (Passwort > 12 Zeichen, gültige E-Mail-Struktur), sie per bcrypt sicher hashen und asynchron in einer MongoDB-Datenbank speichern.” Insbesondere das architektonisch dichte 27B-Modell glänzt hier durch absolut fehlerfreie Syntax, das Abfangen von Randfällen (Edge Cases) und die direkte, unaufgeforderte Implementierung aktueller Cybersecurity-Standards.9
5.13 Lokale Analyse von Server-Logs auf Cybersecurity-Anomalien
Bei einem konkreten Verdacht auf einen Hackerangriff (wie eine DDoS-Attacke oder eine subtile SQL-Injection) fallen Tausende, oft Zehntausende Zeilen kryptischer Server-Logs an. Ein Mensch übersieht hier in Panik leicht die entscheidenden Muster. Da das Hochladen solcher hochsensibler IP-Logs auf fremde Server (wie ChatGPT) ein massives IT-Sicherheitsrisiko und oft einen Kündigungsgrund darstellt, ist Qwen lokal die perfekte Firewall. Gefüttert mit den rohen Apache- oder Nginx-Logs, erkennt die KI sofort abweichende, bösartige Zugriffsmuster, isoliert die Angreifer-IPs und erklärt dem Administrator in klarem Deutsch die vermutliche Angriffsvektor-Strategie des Hackers.18
5.14 Generierung dynamischer, interaktiver Benutzeroberflächen (UI on the fly)
Ähnlich wie bei spezialisierten, hochpreisigen kommerziellen Diensten lässt sich Qwen verwenden, um interaktive UI-Komponenten dynamisch im Chatverlauf zu generieren. Wie bei einem sogenannten “Chat2Cart” Shopping-Assistenten kann das Modell so durch Systemprompts konfiguriert werden, dass es im Hintergrund nicht nur Text, sondern versteckte JSON-Datenstrukturen ausgibt. Eine lokale Front-End-App liest dieses JSON und übersetzt es in Echtzeit in anklickbare Buttons (z.B. “In den Warenkorb legen”, “Versandoption ändern”). Das LLM steuert dabei als unsichtbares, hochintelligentes “Gehirn” den gesamten logischen Fluss eines Kauf- oder Konfigurationsprozesses.20
5.15 Synthese von Regieanweisungen, Audio-Skripten und Video-Strukturen
Für Content-Creator, Podcaster oder YouTuber fungiert Qwen 3.5 als unermüdlicher Regie-Assistent. Basierend auf einem hingeworfenen, kurzen Text-Pitch strukturiert das Modell ein komplettes, hochspannendes Video. Es teilt den Text sauber in visuelle A-Roll (Was sagt der Moderator in die Kamera) und B-Roll (Welche grafischen Aufnahmen werden exakt zu welchem Zeitpunkt darübergelegt) auf. Es berechnet das dramaturgische Pacing für eine hohe Zuschauerbindung und schreibt das Sprecherskript so fließend und natürlich, dass es ideal für Text-to-Speech (TTS) Systeme genutzt werden kann, ohne unnatürlich oder künstlich zu klingen.5
6. Fazit und strategischer Ausblick
Die tiefgehende Evaluation der Qwen 3.5 Modellfamilie verdeutlicht unmissverständlich, dass die historische Disruption durch quelloffene (Open-Weights) KI-Systeme im Frühjahr 2026 einen vorläufigen, aber massiven Höhepunkt erreicht hat. Die technologische Brillanz der hybriden Architektur – konkret die geschickte Fusion aus linearen Gated Delta Networks zur Bewältigung gewaltiger Informationsmengen von bis zu einer Million Token und den ressourcenschonenden Sparse Mixture-of-Experts (MoE) Layern – löst das fundamentale Skalierungsproblem der künstlichen Intelligenz auf elegante Weise.1
Aus der fundierten Analyse der empirischen Benchmarks lassen sich weitreichende strategische Marktveränderungen ableiten: Die beeindruckende Leistungsfähigkeit von Qwen 3.5, welche Modelle wie das quelloffene DeepSeek R1, aber vor allem die milliardenschweren, proprietären Systeme GPT-5.2 und Claude 4.5 Opus in extrem kritischen Disziplinen wie logischem, akademischem Schließen (GPQA 88,4) und komplexer formaler Befehlsausführung (IFEval 92,6) messbar schlägt oder zumindest erreicht, zwingt proprietäre Software-Anbieter in eine massive Rechtfertigungsposition.1 Wenn ein unter der liberalen Apache-2.0-Lizenz veröffentlichtes Modell 4 die absoluten Kernkompetenzen teurer Cloud-Abonnements faktisch kostenfrei zur Verfügung stellt, verschiebt sich der langfristige kommerzielle Wert in der KI-Branche drastisch weg vom reinen Modellzugang hin zur Orchestrierung, Tool-Integration und spezialisierten Benutzeroberflächen.
Besonders faszinierend an dieser Entwicklung ist jedoch die tatsächliche Demokratisierung der Rechenleistung auf der Ebene des Endverbrauchers. Die bewiesene Tatsache, dass sich hochkomplexe Agenten-Workflows, angefangen vom autonomen Code-Debugging 9 bis hin zur Generierung strukturierter, marktreifer Landing-Pages 4, lokal und völlig datenschutzkonform auf Consumer-Grafikkarten mit lediglich 8 GB VRAM realisieren lassen, entkoppelt Innovation radikal von der Notwendigkeit massiver Hardware-Investitionen.12 Durch intelligente Quantisierungsformate (wie GGUF und spezifisch Q4_K_M) sowie hochoptimierte Inferenz-Software wie LM Studio wird die physikalische Latenz zwischen VRAM und System-RAM derart geschickt kaschiert, dass extrem leistungsfähige Modelle wie das Qwen 3 8B oder die stark quantisierten Versionen des 35B-A3B Modells in flüssiger Echtzeit für jedermann nutzbar werden.12
Zusammenfassend lässt sich mit professioneller Sicherheit festhalten, dass Qwen 3.5 nicht lediglich ein iteratives, inkrementelles Update eines bestehenden Modells darstellt. Es manifestiert sich als ein hochgradig flexibles, nativ multimodales Betriebssystem für komplexe Denkprozesse. Für den experimentierfreudigen Heimanwender, den sicherheitsbewussten Software-Entwickler und den strategisch planenden Enterprise-Architekten bietet dieses System eine bisher beispiellose Kombination aus globaler Sprachvielfalt 1, kompromisslos datenschutzkonformer lokaler Ausführbarkeit 18 und einer analytischen Schärfe, die den globalen Goldstandard für das Jahr 2026 unweigerlich neu definiert hat.
Referenzen
- Qwen: Qwen3.5: Towards Native Multimodal Agents, Zugriff am Februar 28, 2026, https://qwen.ai/blog?id=qwen3.5
- Qwen3.5 is the large language model series developed by Qwen team, Alibaba Cloud. – GitHub, Zugriff am Februar 28, 2026, https://github.com/QwenLM/Qwen3.5
- Qwen 3.5 Family Comparison by ArtificialAnalysis.ai : r/LocalLLaMA – Reddit, Zugriff am Februar 28, 2026, https://www.reddit.com/r/LocalLLaMA/comments/1rfej6k/qwen_35_family_comparison_by_artificialanalysisai/
- Build Anything With Qwen 3.5, Here is How… : r/AISEOInsider – Reddit, Zugriff am Februar 28, 2026, https://www.reddit.com/r/AISEOInsider/comments/1rfncyo/build_anything_with_qwen_35_here_is_how/
- [Infographic] One-Page Guide: Qwen Models Ecosystem and Use Cases – Alibaba Cloud, Zugriff am Februar 28, 2026, https://www.alibabacloud.com/blog/infographic-one-page-guide-qwen-models-ecosystem-and-use-cases_602637
- Qwen – Wikipedia, Zugriff am Februar 28, 2026, https://en.wikipedia.org/wiki/Qwen
- Running Qwen 3.5 (122B) with ~72GB of VRAM – Setup and results so far : r/LocalLLaMA, Zugriff am Februar 28, 2026, https://www.reddit.com/r/LocalLLaMA/comments/1rf9dey/running_qwen_35_122b_with_72gb_of_vram_setup_and/
- Qwen3.5 35B A3B Model: Complete Guide to Local Setup – Sonusahani.com, Zugriff am Februar 28, 2026, https://sonusahani.com/blogs/qwen-35b
- Qwen 3.5 craters on hard coding tasks — tested all Qwen3.5 models (And Codex 5.3) on 70 real repos so you don’t have to. – Reddit, Zugriff am Februar 28, 2026, https://www.reddit.com/r/LocalLLaMA/comments/1reds0p/qwen_35_craters_on_hard_coding_tasks_tested_all/
- Best Self-Hosted LLM Leaderboard 2026 | Open-Weight Model …, Zugriff am Februar 28, 2026, https://onyx.app/self-hosted-llm-leaderboard
- Best Open Source LLM Leaderboard 2026 | Open Source Model Rankings and Tier List | Onyx AI, Zugriff am Februar 28, 2026, https://onyx.app/open-llm-leaderboard
- LM Studio VRAM Requirements for Local LLMs | LocalLLM.in, Zugriff am Februar 28, 2026, https://localllm.in/blog/lm-studio-vram-requirements-for-local-llms
- Qwen3-Coder: How to Run Locally | Unsloth Documentation, Zugriff am Februar 28, 2026, https://unsloth.ai/docs/models/tutorials/qwen3-coder-how-to-run-locally
- lmstudio-community/Qwen3-VL-8B-Instruct-GGUF – Hugging Face, Zugriff am Februar 28, 2026, https://huggingface.co/lmstudio-community/Qwen3-VL-8B-Instruct-GGUF
- Qwen 3.5 35B A3B Q4_K_M running at 9.14 tps : r/LocalLLaMA – Reddit, Zugriff am Februar 28, 2026, https://www.reddit.com/r/LocalLLaMA/comments/1rf9nax/qwen_35_35b_a3b_q4_k_m_running_at_914_tps/
- Good “coding” LLM for my 8gb VRAM, 16gb ram setup? : r/LocalLLaMA – Reddit, Zugriff am Februar 28, 2026, https://www.reddit.com/r/LocalLLaMA/comments/1rff9zw/good_coding_llm_for_my_8gb_vram_16gb_ram_setup/
- Get started with LM Studio | LM Studio Docs, Zugriff am Februar 28, 2026, https://lmstudio.ai/docs/app/basics
- Top 5 Best LLM Models to Run Locally in CPU (2025 Edition) – Kolosal AI, Zugriff am Februar 28, 2026, https://www.kolosal.ai/blog-detail/top-5-best-llm-models-to-run-locally-in-cpu-2025-edition
- Qwen 3: Great AI Potential, But Users Hit Unexpected Walls – Latenode Blog, Zugriff am Februar 28, 2026, https://latenode.com/blog/ai-technology-language-models/other-ai-models-qwen-phi-baidu-ernie-etc/qwen-3
- Tool Calling with Local LLMs: A Practical Evaluation – Docker, Zugriff am Februar 28, 2026, https://www.docker.com/blog/local-llm-tool-calling-a-practical-evaluation/
KI-gestützt. Menschlich veredelt.
Martin Käßler ist ein erfahrener Tech-Experte im Bereich AI, Technologie, Energie & Space mit über 15 Jahren Branchenerfahrung. Seine Artikel verbinden fundiertes Fachwissen mit modernster KI-gestützter Recherche- und Produktion. Jeder Beitrag wird von ihm persönlich kuratiert, faktengeprüft und redaktionell verfeinert, um höchste inhaltliche Qualität und maximalen Mehrwert zu garantieren.
Auch bei sorgfältigster Prüfung sehen vier Augen mehr als zwei. Wenn Ihnen ein Patzer aufgefallen ist, der uns entgangen ist, lassen Sie es uns bitte wissen: Unser Postfach ist martinkaessler, gefolgt von einem @ und dem Namen einer bekannten Suchmaschine (also googlemail) mit der Endung .com. Oder besuchen Sie Ihn gerne einfach & direkt auf LinkedIn.




