Vertrauenswürdige KI

Large Language Model as a Service (LLMaaS) - Katalog der verfügbaren Vorlagen

Unser Large Language Model as a Service (LLMaaS)-Angebot ermöglicht Ihnen den Zugriff auf hochmoderne Sprachmodelle, deren Inferenz mit einer qualifizierten SecNumCloud-Infrastruktur durchgeführt wird, die für das Hosting von Gesundheitsdaten HDS-zertifiziert und damit souverän ist und in Frankreich berechnet wird. Profitieren Sie von einer hohen Leistung und optimaler Sicherheit für Ihre KI-Anwendungen. Ihre Daten bleiben streng vertraulich und werden nach der Verarbeitung weder ausgewertet noch gespeichert.

Einfache und transparente Preisgestaltung

1,8 €

pro Million eingegebener Token

8 €

pro Million ausgegebener Token

8 €

pro Million Reasoning-Tokens

4 €

pro Million Reranking-Tokens

0,9 €

pro Million eingehender Batch-Token

4 €

pro Million ausgegebener Batch-Token

0,01 €

pro transkribierter Audiominute *

Berechnet auf einer in Frankreich ansässigen, SecNumcloud-qualifizierten und HDS-zertifizierten Infrastruktur.

Note zum Preis "Argumentation" : Dieser Preis gilt speziell für Modelle, die als "Reasoner" oder "Hybrid" klassifiziert sind (Modelle mit aktivierter Fähigkeit "Reasoning"), wenn "Reasoning" aktiv ist, und nur auf Token, die mit dieser Aktivität verbunden sind.

* jede angefangene Minute wird gezählt

Katze & Vernunft

Unsere großen Modelle bieten Spitzenleistungen für die anspruchsvollsten Aufgaben. Sie eignen sich besonders für Anwendungen, die ein tiefes Sprachverständnis, komplexes Denken oder die Verarbeitung langer Dokumente erfordern.

Signifikante Verbesserungen beim Befolgen von Anweisungen, beim logischen Denken, beim Textverständnis, in Mathematik, beim Kodieren und bei der Verwendung von Werkzeugen. Sein Kontext von 1M Token ermöglicht die Analyse ganzer Dokumente ohne Trunkierung.

Parameter :

27B

Kontext Größe :

1 000 000

Führerschein :

Apache 2.0

Energieeffektivität :

2.78 kWh/Marke

CO₂-Äquivalent :

63.94 CO₂e/Mtoken

Tools (Funktionen) :

Vision (Bilder) :

Agent

Großer Kontext

Mehrsprachig

Vision

Argumentation

Mixture-of-Experts-Modell mit 120 Milliarden Parametern, das konfigurierbare Argumentation und vollständigen Zugriff auf die Gedankenkette bietet. Ideal für Szenarien, die eine permissive Lizenz (Apache 2.0) erfordern.

Parameter :

120B

Kontext Größe :

120 000

Führerschein :

Apache 2.0

Energieeffektivität :

2.37 kWh/Marke

CO₂-Äquivalent :

54.51 CO₂e/Mtoken

Tools (Funktionen) :

Vision (Bilder) :

MoE

Agent

Argumentation

Open-Source

Sehr breit

Unterstützt Englisch, Französisch, Deutsch, Spanisch, Italienisch, Portugiesisch, Hindi und Thai. Sein Fenster mit 132k Tokens ermöglicht die Analyse komplexer Dokumente und langer Gespräche.

Parameter :

70B

Kontext Größe :

132 000

Führerschein :

LLAMA 3.3 Community Licence

Energieeffektivität :

13.33 kWh/Marke

CO₂-Äquivalent :

306.59 CO₂e/Mtoken

Tools (Funktionen) :

Vision (Bilder) :

Agent

Dialog

Mehrsprachig

Ideal für agentische Workflows, Long Context Reasoning, Automatisierung mit hohem Volumen (Support-Tickets, Massenanalysen), Werkzeugnutzung und RAG.

Parameter :

120B

Kontext Größe :

1 000 000

Führerschein :

NVIDIA Community-Lizenz

Energieeffektivität :

1.93 kWh/Marke

CO₂-Äquivalent :

44.39 CO₂e/Mtoken

Tools (Funktionen) :

Vision (Bilder) :

Agent

Argumentation

Großer Kontext

Ultra-separate Mixture-of-Experts-Architektur, die die Stärke eines sehr großen Modells mit der Effizienz eines kleineren Modells kombiniert.

Parameter :

235B

Kontext Größe :

200 000

Führerschein :

Apache 2.0

Energieeffektivität :

3.97 kWh/Marke

CO₂-Äquivalent :

91.31 CO₂e/Mtoken

Tools (Funktionen) :

Vision (Bilder) :

MoE

Agent

Argumentation

Sehr breit

Breite Version der Mistral Small-Familie. Kombiniert Leistung, Geschwindigkeit und Zuverlässigkeit mit einem erweiterten Kontext. Native Sicherheitsfilter.

Parameter :

119B

Kontext Größe :

262 144

Führerschein :

Apache 2.0

Energieeffektivität :

2 kWh/Marke

CO₂-Äquivalent :

46 CO₂e/Mtoken

Tools (Funktionen) :

Vision (Bilder) :

Vision

Agent

Sicherheit

Großer Kontext

Schnell

Version "Thinking" mit erweitertem Denkvermögen. Kombiniert Kompaktheit, Geschwindigkeit und erweitertes Denken.

Parameter :

Kontext Größe :

250 000

Führerschein :

Apache 2.0

Energieeffektivität :

2.42 kWh/Marke

CO₂-Äquivalent :

55.66 CO₂e/Mtoken

Tools (Funktionen) :

Vision (Bilder) :

Agent

Argumentation

Großer Kontext

Kompakt

Schnell

Programmierung & Agenten

Unsere Programmier- und Agentenmodelle sind speziell für das agentische Software-Engineering, die groß angelegte Code-Generierung und die Automatisierung von Entwicklungs-Workflows optimiert.

Umfasst ganze Code-Repositories dank seines 1M-Token-Kontexts. Unterstützt mehrstufiges Denken und Vision (Screenshots, Diagramme). Optimiert für IDEs und CI/CD-Pipelines.

Parameter :

35B

Kontext Größe :

1 000 000

Führerschein :

Apache 2.0

Energieeffektivität :

2.07 kWh/Marke

CO₂-Äquivalent :

47.61 CO₂e/Mtoken

Tools (Funktionen) :

Vision (Bilder) :

Agent

Programmierung

Großer Kontext

MoE

Vision

Argumentation

Herausragend bei der Generierung und Analyse von Code in großem Umfang. Entwickelt für fortgeschrittene Aufgaben der Softwareentwicklung.

Parameter :

80B

Kontext Größe :

250 000

Führerschein :

Apache 2.0

Energieeffektivität :

2.29 kWh/Marke

CO₂-Äquivalent :

52.67 CO₂e/Mtoken

Tools (Funktionen) :

Vision (Bilder) :

Agent

Programmierung

MoE

Großer Kontext

Kontext von 250K Token mit Unterstützung für Function Calling und Guided Decoding.

Parameter :

80B

Kontext Größe :

250 000

Führerschein :

Apache 2.0

Energieeffektivität :

2.09 kWh/Marke

CO₂-Äquivalent :

48.07 CO₂e/Mtoken

Tools (Funktionen) :

Vision (Bilder) :

Agent

Großer Kontext

MoE

Optimiert für das Erforschen von Codebasen, das Bearbeiten mehrerer Dateien und die Verwendung von Werkzeugen. Unterstützt nativ die Bildverarbeitung. Kontext von 200K Token.

Parameter :

24B

Kontext Größe :

200 000

Führerschein :

Apache 2.0

Energieeffektivität :

4.23 kWh/Marke

CO₂-Äquivalent :

97.29 CO₂e/Mtoken

Tools (Funktionen) :

Vision (Bilder) :

Agent

Programmierung

Vision

Open-Source

Großer Kontext

Schnell

Ultrakompakt, optimiert, um Funktionsaufrufe schnell zu identifizieren und zu formatieren.

Parameter :

270 Mio.

Kontext Größe :

32 768

Führerschein :

Google Gemma Nutzungsbedingungen

Energieeffektivität :

0.97 kWh/Marke

CO₂-Äquivalent :

22.31 CO₂e/Mtoken

Tools (Funktionen) :

Vision (Bilder) :

Agent

Kompakt

Effizient

Funktionsaufruf

Vision & Multimodal

Unsere Vision & Multimodal-Modelle ermöglichen die Analyse von Bildern, Videos und visuellen Dokumenten. Sie zeichnen sich durch OCR, Objekterkennung, strukturierte Extraktion und räumlich-zeitliche Argumentation aus.

Hervorragend geeignet für die Analyse komplexer Dokumente, mehrsprachige OCR, räumliches 3D-Schlussfolgern und das Verstehen von Videos.

Parameter :

235B

Kontext Größe :

200 000

Führerschein :

Apache 2.0

Energieeffektivität :

5.56 kWh/Marke

CO₂-Äquivalent :

127.88 CO₂e/Mtoken

Tools (Funktionen) :

Vision (Bilder) :

Agent

Argumentation

Großer Kontext

Vision

Integriert Innovationen in der Bild- und Videoanalyse. Herausragend in komplexer OCR, Grafiken und strukturierter Extraktion (JSON).

Parameter :

30B

Kontext Größe :

250 000

Führerschein :

Apache 2.0

Energieeffektivität :

3.39 kWh/Marke

CO₂-Äquivalent :

77.97 CO₂e/Mtoken

Tools (Funktionen) :

Vision (Bilder) :

Vision

Agent

Großer Kontext

Multimodal

Video

OCR

Ausgezeichneter Kompromiss zwischen Leistung und Fußabdruck. Unterstützt strukturierte Extraktion und visuelles Schlussfolgern.

Parameter :

Kontext Größe :

250 000

Führerschein :

Apache 2.0

Energieeffektivität :

2.34 kWh/Marke

CO₂-Äquivalent :

53.82 CO₂e/Mtoken

Tools (Funktionen) :

Vision (Bilder) :

Vision

Kompakt

Multimodal

Effizient

Video

OCR

Googles leistungsfähigstes Open-Source-Modell. Natives Function Calling, erweitertes visuelles Verständnis (OCR, Grafiken, Dokumente, UI). Mehrsprachig (35+ Sprachen).

Parameter :

31B

Kontext Größe :

250 000

Führerschein :

Apache 2.0

Energieeffektivität :

3.77 kWh/Marke

CO₂-Äquivalent :

86.71 CO₂e/Mtoken

Tools (Funktionen) :

Vision (Bilder) :

Agent

Großer Kontext

Vision

Argumentation

Mehrsprachig

Open-Source

Variante 12B der Gemma-4-Familie, die einen guten Kompromiss zwischen multimodaler Qualität und Speicherbedarf bietet. Fortgeschrittene Schlussfolgerungsfähigkeiten, visuelles Verständnis (OCR, Grafiken, Dokumente, Benutzeroberflächen) und mehrsprachige Unterstützung (über 35 Sprachen).

Parameter :

12B

Kontext Größe :

250 000

Führerschein :

Apache 2.0

Energieeffektivität :

3.31 kWh/Marke

CO₂-Äquivalent :

76.13 CO₂e/Mtoken

Tools (Funktionen) :

Vision (Bilder) :

Vision

Agent

Großer Kontext

Multimodal

Argumentation

Mehrsprachig

Einbetten

Unsere Einbettungsmodelle wandeln Text in Vektordarstellungen für die semantische Suche, das Clustering und RAG-Pipelines (Retrieval-Augmented Generation) um.

Kontext von 8192 Token mit drei sich ergänzenden Suchmethoden.

Parameter :

567M

Kontext Größe :

8 192

Führerschein :

MIT

Energieeffektivität :

0.36 kWh/Marke

CO₂-Äquivalent :

8.28 CO₂e/Mtoken

Tools (Funktionen) :

Vision (Bilder) :

Einbetten

Mehrsprachig

Effizient

Ideal für die Verarbeitung umfangreicher Dokumente in RAG-Pipelines.

Parameter :

Kontext Größe :

40 000

Führerschein :

Apache 2.0

Energieeffektivität :

0.57 kWh/Marke

CO₂-Äquivalent :

13.11 CO₂e/Mtoken

Tools (Funktionen) :

Vision (Bilder) :

Einbetten

Großer Kontext

Effizient

Leistungsstärkste Version der Qwen3-Embedding-Familie. Ideal für Aufgaben, die ein kontextbezogenes Verständnis erfordern.

Parameter :

Kontext Größe :

40 000

Führerschein :

Apache 2.0

Energieeffektivität :

0.57 kWh/Marke

CO₂-Äquivalent :

13.11 CO₂e/Mtoken

Tools (Funktionen) :

Vision (Bilder) :

Einbetten

Großer Kontext

Hohe Leistung

Hervorragender Kompromiss zwischen semantischer Leistung und schneller Ausführung.

Parameter :

0.6B

Kontext Größe :

32 768

Führerschein :

Apache 2.0

Energieeffektivität :

0.57 kWh/Marke

CO₂-Äquivalent :

13.11 CO₂e/Mtoken

Tools (Funktionen) :

Vision (Bilder) :

Einbetten

Kompakt

Effizient

Das schnellste Einbettungsmodell im Katalog. Ideal für Clustering und Hochfrequenzsuche.

Parameter :

278M

Kontext Größe :

512

Führerschein :

Apache 2.0

Energieeffektivität :

0.31 kWh/Marke

CO₂-Äquivalent :

7.13 CO₂e/Mtoken

Tools (Funktionen) :

Vision (Bilder) :

Einbetten

Kompakt

Effizient

Produziert vektorielle Textdarstellungen für Klassifizierung, Clustering und Ähnlichkeitssuche.

Parameter :

300M

Kontext Größe :

2 048

Führerschein :

Google Gemma Nutzungsbedingungen

Energieeffektivität :

0.35 kWh/Marke

CO₂-Äquivalent :

8.05 CO₂e/Mtoken

Tools (Funktionen) :

Vision (Bilder) :

Einbetten

Kompakt

Semantik

Effizient

Mehrsprachig

Reranking

Unsere Reranking-Modelle ordnen die Suchergebnisse nach Relevanz neu an, um die Qualität der RAG-Pipelines zu verfeinern. Kompatibel mit der Cohere API.

Kompatibel mit Cohere SDK v1/v2. Der Relevance_Score ist ein Brutto-Logit (relative Ordnung ist garantiert). Ideal als Ergänzung zum RAG-Stack (embedding + retrieval + rerank).

Parameter :

Kontext Größe :

4 096

Führerschein :

NVIDIA Open Model License

Energieeffektivität :

N.C.

CO₂-Äquivalent :

N.C.

Tools (Funktionen) :

Vision (Bilder) :

Rerank

RAG

Kompakt

Hervorragende Umordnungsqualität dank 4B-Parametern. Ideal für anspruchsvolle RAG-Pipelines.

Parameter :

Kontext Größe :

4 096

Führerschein :

Apache 2.0

Energieeffektivität :

N.C.

CO₂-Äquivalent :

N.C.

Tools (Funktionen) :

Vision (Bilder) :

Reranker

Leistung

Leichtgewichtige Version für Anwendungsfälle, die eine geringe Latenzzeit beim Reranking erfordern.

Parameter :

0.6B

Kontext Größe :

4 096

Führerschein :

Apache 2.0

Energieeffektivität :

N.C.

CO₂-Äquivalent :

N.C.

Tools (Funktionen) :

Vision (Bilder) :

Reranker

Kompakt

Effizient

Ergänzt das BGE-M3-Embedding-Modell für vollständige RAG-Pipelines.

Parameter :

335M

Kontext Größe :

512

Führerschein :

MIT

Energieeffektivität :

N.C.

CO₂-Äquivalent :

N.C.

Tools (Funktionen) :

Vision (Bilder) :

Reranker

Hohe Leistung

Sicherheit

Unsere Sicherheitsmodelle sind auf die Erkennung problematischer Inhalte, die Verhinderung von Jailbreaks und die Einhaltung gesetzlicher Vorschriften (RGPD, HDS) spezialisiert. Sie können als Vorfilter oder Nachfilter in Ihren Workflows verwendet werden.

Version 4.1 (April 2026). Entwickelt, um sensible Inhalte zu filtern und die Einhaltung der DSGVO/HDS zu gewährleisten. Kann in Ihren Workflows als Vor- oder Nachfilter eingesetzt werden. Hybrid Thinking (Reasoning) aktiviert.

Parameter :

Kontext Größe :

8 192

Führerschein :

Apache 2.0

Energieeffektivität :

3.09 kWh/Marke

CO₂-Äquivalent :

71.07 CO₂e/Mtoken

Tools (Funktionen) :

Vision (Bilder) :

Sicherheit

Guardrails

Konformität

Filterung

Gleiche Filterfunktionen wie die Version 8B bei geringerem Speicherbedarf. Ideal für Workflows mit hoher Frequenz. „Hybrid Thinking“ (Schlussfolgerung) aktiviert.

Parameter :

Kontext Größe :

8 192

Führerschein :

Apache 2.0

Energieeffektivität :

0.65 kWh/Marke

CO₂-Äquivalent :

14.95 CO₂e/Mtoken

Tools (Funktionen) :

Vision (Bilder) :

Sicherheit

Guardrails

Kompakt

Effizient

Übersetzung

Unsere Übersetzungsvorlagen bieten hohe Wiedergabetreue für 55 Sprachen, wobei Grammatik, kulturelle Nuancen und technische Besonderheiten der Dokumente berücksichtigt werden.

Erfasst literarische und kulturelle Nuancen mit außergewöhnlicher Treue.

Parameter :

27B

Kontext Größe :

120 000

Führerschein :

Gemma Terms of Use

Energieeffektivität :

7.84 kWh/Marke

CO₂-Äquivalent :

180.32 CO₂e/Mtoken

Tools (Funktionen) :

Vision (Bilder) :

Übersetzung

Mehrsprachig

Spezialisiert

Hohe Leistung

Audio & Bild

Unsere Audio- & Bildvorlagen ermöglichen Sprachtranskription in Echtzeit (ASR-Streaming) und die Generierung von Bildern aus textuellen Beschreibungen, die mit der OpenAI-API kompatibel sind.

Funktioniert im Realtime-Modus über den Endpunkt /v1/realtime (WebSocket). Transkribiert Streaming-Audio.

Parameter :

Kontext Größe :

32 768

Führerschein :

Apache 2.0

Energieeffektivität :

N.C.

CO₂-Äquivalent :

N.C.

Tools (Funktionen) :

Vision (Bilder) :

ASR

Audio

Realtime

WebSocket

Unterstützt die Einstellungen für die Größe und Anzahl der Bilder. Kompatibel mit dem OpenAI-Ökosystem.

Parameter :

16B

Kontext Größe :

N.C.

Führerschein :

Offene Gewichte

Energieeffektivität :

N.C.

CO₂-Äquivalent :

N.C.

Tools (Funktionen) :

Vision (Bilder) :

Image Generation

Kreativ

Multimodal

Vergleich der Modelle

Diese Vergleichstabelle hilft Ihnen bei der Auswahl des für Sie am besten geeigneten Modells anhand verschiedener Kriterien wie Kontextgröße, Leistung und spezifische Anwendungsfälle.

Vergleichende Tabelle der Merkmale und Leistungen der verschiedenen verfügbaren KI-Modelle, gruppiert nach Kategorien.
Modell	Herausgeber	Einstellungen	Kontext (Token)	Energieeffizienz *
Katze & Vernunft
qwen3.6:27b	Qwen Team	27B	1 000 000
gpt-oss:120b	OpenAI	120B	120 000
llama3.3:70b	Meta	70B	132 000
nemotron-3-super:120b	NVIDIA	120B	1 000 000
qwen3-2507:235b	Qwen Team	235B	200 000
mistral-small4:119b	Mistral AI	119B	262 144
qwen3-2507-think:4b	Qwen Team	4B	250 000
Programmierung & Agenten
qwen3.6:35b	Qwen Team	35B	1 000 000
qwen-coder-next:80b	Qwen Team	80B	250 000
qwen3-next:80b	Qwen Team	80B	250 000
devstral-small-2:24b	Mistral AI & All Hands AI	24B	200 000
functiongemma:270m	Google	270 Mio.	32 768
Vision & Multimodal
qwen3-vl:235b	Qwen Team	235B	200 000
qwen3-vl:30b	Qwen Team	30B	250 000
qwen3-vl:4b	Qwen Team	4B	250 000
gemma4:31b	Google	31B	250 000
gemma4:12b-it-qat	Google	12B	250 000
Einbetten
bge-m3:567m	BAAI	567M	8 192
qwen3-Einbettung:4b	Qwen Team	4B	40 000
qwen3-Einbettung:8b	Qwen Team	8B	40 000
qwen3-Einbettung: 0.6b	Qwen Team	0.6B	32 768
granite-embedding:278m	IBM	278M	512
embeddinggemma:300m	Google	300M	2 048
Reranking
nvidia/llama-nemotron-rerank-vl-1b-v2	NVIDIA	1B	4 096	N.C.
qwen3-reranker:4b	Qwen Team	4B	4 096	N.C.
qwen3-reranker:0.6b	Qwen Team	0.6B	4 096	N.C.
bge-reranker-large	BAAI	335M	512	N.C.
Sicherheit
granite3-guardian:8b	IBM	8B	8 192
granite3-guardian:2b	IBM	2B	8 192
Übersetzung
translategemma:27b	Google	27B	120 000
Audio & Bild
voxtral	Mistral AI	4B	32 768	N.C.
z-Bild:16b	Community	16B	N.C.	N.C.

Legende und Erklärung

: Von der Vorlage unterstützte Funktionalität oder Fähigkeit

: Feature oder Fähigkeit, die von der Vorlage nicht unterstützt wird

* Energieeffizienz : Zeigt einen besonders niedrigen Energieverbrauch an (< 2.0 kWh/Mtoken)

* Schnell : Modell, das in der Lage ist, mehr als 50 Token pro Sekunde zu erzeugen

Anmerkung zu den Leistungsmessungen

Die Geschwindigkeitswerte (Token/s) stellen Leistungsziele unter realen Bedingungen dar. Der Energieverbrauch (kWh/Mtoken) wird berechnet, indem die geschätzte Leistung des Inferenzservers (in Watt) durch die gemessene Geschwindigkeit des Modells (in Token/Sekunde) dividiert und dann in Kilowattstunden pro Million Token umgerechnet wird (Division durch 3,6). Diese Methode bietet einen praktischen Vergleich der Energieeffizienz verschiedener Modelle, der als relativer Indikator und nicht als absolutes Maß für den Stromverbrauch verwendet werden sollte.

Empfohlene Anwendungsfälle

Im Folgenden finden Sie einige häufige Anwendungsfälle und die dafür jeweils am besten geeigneten Modelle. Diese Empfehlungen basieren auf der spezifischen Leistung und den Fähigkeiten der einzelnen Modelle.

Mehrsprachiger Dialog

Chatbots und Assistenten, die in mehreren Sprachen kommunizieren können, mit automatischer Erkennung und Kontexterhaltung

Empfohlene Modelle

nemotron-3-super:120b
qwen3.6:27b
gpt-oss:120b

Analyse langer Dokumente

Verarbeitung umfangreicher Dokumente (>100 Seiten) mit Extraktion von Schlüsselinformationen, Zusammenfassungen und Beantwortung von Fragen

Empfohlene Modelle

nemotron-3-super:120b
qwen3.6:27b
qwen3-2507:235b

Programmierung und Entwicklung

Generierung, Optimierung und Debugging von Code in mehreren Sprachen, Refactoring und Erstellung von Tests

Empfohlene Modelle

qwen3.6:35b
qwen-coder-next:80b
devstral-small-2:24b
nemotron-3-super:120b

Visuelle Analyse

Verarbeitung von Bildern und visuellen Dokumenten, OCR, Interpretation von Grafiken und Tabellen

Empfohlene Modelle

qwen3-vl:235b
gemma4:31b
qwen3-vl:30b

Sicherheit und Compliance

Filterung sensibler Inhalte, Erkennung von Jailbreaks, Einhaltung von RGPD/HDS

Empfohlene Modelle

granite4.1-guardian:8b
granite3-guardian:8b
granite3-guardian:2b
mistral-small4:119b

Leichte Bereitstellungen

Anwendungen, die einen minimalen Footprint, niedrige Latenz und geringen Stromverbrauch erfordern

RAG (Retrieval-Augmented Generation)

Umfassende Pipelines für semantische Suche, Reordering und Augmented Generation by Recovery

Empfohlene Modelle

bge-m3:567m
nvidia/llama-nemotron-rerank-vl-1b-v2
qwen3.6:27b

Verfolgen Sie die Entwicklung des LLMaaS-Angebots

Entdecken Sie alle unsere IA-Forschungspapiere

Status von Vorlagen Unsere Forschungspapiere

Vertrauenswürdige KI

Katze & Vernunft

qwen3.6:27b

gpt-oss:120b

llama3.3:70b

nemotron-3-super:120b

qwen3-2507:235b

mistral-small4:119b

qwen3-2507-think:4b

Programmierung & Agenten

qwen3.6:35b

qwen-coder-next:80b

qwen3-next:80b

devstral-small-2:24b

functiongemma:270m

Vision & Multimodal

qwen3-vl:235b

qwen3-vl:30b

qwen3-vl:4b

gemma4:31b

gemma4:12b-it-qat

Einbetten

bge-m3:567m

qwen3-Einbettung:4b

qwen3-Einbettung:8b

qwen3-Einbettung: 0.6b

granite-embedding:278m

embeddinggemma:300m

Reranking

nvidia/llama-nemotron-rerank-vl-1b-v2

qwen3-reranker:4b

qwen3-reranker:0.6b

bge-reranker-large

Sicherheit

granite3-guardian:8b

granite3-guardian:2b

Übersetzung

translategemma:27b

Audio & Bild

voxtral

z-Bild:16b

Vergleich der Modelle

Empfohlene Anwendungsfälle

Mehrsprachiger Dialog

Analyse langer Dokumente

Programmierung und Entwicklung

Visuelle Analyse

Sicherheit und Compliance

Leichte Bereitstellungen

RAG (Retrieval-Augmented Generation)