Unser Large Language Model as a Service (LLMaaS)-Angebot ermöglicht Ihnen den Zugriff auf hochmoderne Sprachmodelle, deren Inferenz mit einer qualifizierten SecNumCloud-Infrastruktur durchgeführt wird, die für das Hosting von Gesundheitsdaten HDS-zertifiziert und damit souverän ist und in Frankreich berechnet wird. Profitieren Sie von einer hohen Leistung und optimaler Sicherheit für Ihre KI-Anwendungen. Ihre Daten bleiben streng vertraulich und werden nach der Verarbeitung weder ausgewertet noch gespeichert.

Einfache und transparente Preisgestaltung
0.9 €
pro Million eingegebener Token
4 €
pro Million ausgegebener Token
21 €
pro Million Reasoning-Tokens
0,01 €
pro transkribierter Audiominute *
Berechnet auf einer in Frankreich ansässigen, SecNumcloud-qualifizierten und HDS-zertifizierten Infrastruktur.
Note zum Preis "Argumentation" : Dieser Preis gilt speziell für Modelle, die als "Reasoner" oder "Hybrid" klassifiziert sind (Modelle mit aktivierter Fähigkeit "Reasoning"), wenn "Reasoning" aktiv ist, und nur auf Token, die mit dieser Aktivität verbunden sind.
* jede angefangene Minute wird gezählt

Große Modelle

Unsere großen Modelle bieten Spitzenleistungen für die anspruchsvollsten Aufgaben. Sie eignen sich besonders für Anwendungen, die ein tiefes Sprachverständnis, komplexes Denken oder die Verarbeitung langer Dokumente erfordern.

140 Token/Sekunde

gpt-oss:120b

OpenAIs hochmodernes Open-Weight-Sprachmodell, das solide Leistung mit einer flexiblen Apache-2.0-Lizenz bietet.
Ein Mixture-of-Experts-Modell (MoE) mit 120 Milliarden Parametern und etwa 5,1 Milliarden aktiven Parametern. Es bietet einen konfigurierbaren Argumentationsaufwand und vollen Zugriff auf die Gedankenkette.
31 Token/Sekunde

llama3.3:70b

Ein von Meta entwickeltes, hochmodernes mehrsprachiges Modell, das sich durch natürlichen Dialog, komplexe Argumentation und nuanciertes Verständnis von Anweisungen auszeichnet.
Durch die Kombination von bemerkenswerter Effizienz mit geringen Rechenressourcen bietet dieses Modell umfangreiche mehrsprachige Fähigkeiten, die acht Hauptsprachen (Englisch, Französisch, Deutsch, Spanisch, Italienisch, Portugiesisch, Hindi und Thai) abdecken. Sein Kontextfenster mit 132.000 Token ermöglicht die gründliche Analyse komplexer Dokumente und langer Konversationen, wobei eine außergewöhnliche Gesamtkonsistenz gewahrt bleibt. Optimiert zur Minimierung von Verzerrungen und problematischen Antworten.
24 Token/Sekunde

gemma3:27b

Googles revolutionäres Modell, das ein optimales Gleichgewicht zwischen Leistung und Effizienz bietet und ein hervorragendes Preis-Leistungs-Verhältnis für anspruchsvolle Geschäftsanwendungen bietet.
Dieses Modell mit seiner unübertroffenen Hardware-Effizienz verfügt über native multimodale Fähigkeiten und zeichnet sich durch mehrsprachige Leistung in über 140 Sprachen aus. Das beeindruckende Kontextfenster mit 120.000 Token macht sie zur idealen Wahl für die Analyse sehr umfangreicher Dokumente, die Suche nach Dokumenten und alle Anwendungen, die das Verständnis erweiterter Kontexte erfordern. Seine optimierte Architektur ermöglicht einen flexiblen Einsatz, ohne die Qualität der Ergebnisse zu beeinträchtigen.
84 Token/Sekunde

qwen3-coder:30b

MoE-Modell, das für Aufgaben der Softwareentwicklung mit einem sehr langen Kontext optimiert ist.
Erweiterte agentische Fähigkeiten für Software-Engineering-Aufgaben, native Unterstützung für einen Kontext von 250K Token, vorab trainiert auf 7,5T Token mit einer hohen Code-Rate und optimiert durch Reinforcement Learning zur Verbesserung der Code-Ausführungsraten.
118 Token/Sekunde

qwen3-2507:30b-a3b

Verbesserte Version des Nicht-Denken-Modus von Qwen3-30B, mit verbesserten allgemeinen Fähigkeiten, Wissensabdeckung und Benutzerausrichtung.
Signifikante Verbesserungen bei der Befolgung von Anweisungen, beim logischen Denken, beim Textverständnis, in Mathematik, beim Verschlüsseln und bei der Verwendung von Werkzeugen. Nativer Kontext von 250k Token.
59 Token/Sekunde

qwen3-next:80b

Next 80B FP8-Modell von Qwen, optimiert für große Kontexte und Argumentation, bedient über vLLM (A100).
Variante A3B-Instruct in FP8, konfiguriert mit einem Kontext von bis zu 262k Tokens, Unterstützung für Function Calling, Guided Decoding (xgrammar) und Speculative (qwen3_next_mtp). Eingesetzt auf 2×A100 mit vLLM.

qwen3-vl:30b

Modernstes multimodales Modell (Qwen3-VL) mit außergewöhnlichem visuellen Verständnis und präzisem zeitlichen Denken.
Dieses Vision-Language-Modell integriert wichtige Innovationen (DeepStack, MRoPE) für eine detaillierte Analyse von Bildern und Videos. Es zeichnet sich durch komplexe OCR, Objekterkennung, Grafikanalyse und räumlich-zeitliches Denken aus. Seine Architektur ermöglicht ein natives Verständnis von Videoinhalten und eine präzise strukturierte Extraktion (JSON).

qwen3-vl:32b

Hochleistungsvariante von Qwen3-VL, optimiert für anspruchsvollste Bildverarbeitungsaufgaben.
Bietet dieselben erweiterten Funktionen wie das Modell 30B (DeepStack, MRoPE) mit einer verbesserten Modellierungskapazität. Besonders leistungsstark bei Aufgaben, die eine hohe visuelle Analysefähigkeit und ein tiefes Kontextverständnis erfordern. Unterstützt die Text-Zeitstempel-Ausrichtung für Videos.

Olmo 3:7b

Referenzmodell "Fully Open" mit vollständiger Transparenz (Daten, Code, Gewicht) und bemerkenswerter Effizienz.
OLMo 3-7B ist ein dichtes Modell, das auf Effizienz optimiert ist (2,5-mal weniger Ressourcen erforderlich als Llama 3.1 8B bei vergleichbarer Leistung). Es zeichnet sich besonders in Mathematik und Programmierung aus. Mit seinem Fenster von 65k Tokens ist es ideal für Aufgaben, die eine vollständige Überprüfbarkeit erfordern.

Olmo 3:32b

Das erste vollständig offene Modell dieser Größenordnung, das mit den besten proprietären Modellen konkurriert.
OLMo 3-32B nutzt eine fortschrittliche Architektur (GQA), um außergewöhnliche Denkfähigkeiten zu bieten. Es zeichnet sich bei komplexen Benchmarks (MATH, HumanEvalPlus) aus und ist in der Lage, seinen Denkprozess offenzulegen (Think-Variante). Es ist die erste Wahl für kritische Aufgaben, die eine hohe Leistung und vollständige Transparenz erfordern.
26 Token/Sekunde

qwen3-2507:235b

Massives MoE-Modell mit 235 Milliarden Parametern, von denen nur 22 Milliarden aktiv sind, bietet Spitzenleistung.
Ultra-spärliche Mixture-of-Experts-Architektur mit 512 Experten. Kombiniert die Leistungsfähigkeit eines sehr großen Modells mit der Effizienz eines kleineren Modells. Hervorragend geeignet für Mathematik, Codierung und logisches Denken.

Spezialisierte Vorlagen

Unsere spezialisierten Modelle sind für bestimmte Aufgaben wie Code-Generierung, Bildanalyse oder die Verarbeitung strukturierter Daten optimiert. Sie bieten ein hervorragendes Verhältnis von Leistung und Kosten für gezielte Anwendungsfälle.

embeddinggemma:300m

Googles hochmodernes, größenoptimiertes Einbettungsmodell, das sich ideal für semantische Such- und Abrufaufgaben eignet.
Aufgebaut auf Gemma 3, erzeugt dieses Modell vektorbasierte Textdarstellungen für Klassifizierung, Clustering und Ähnlichkeitssuche. Es wurde mit über 100 Sprachen trainiert und eignet sich aufgrund seiner geringen Größe perfekt für Umgebungen mit begrenzten Ressourcen.
85 Token/Sekunde

gpt-oss:20b

OpenAIs open-weight-Sprachmodell, optimiert für Effizienz und den Einsatz auf Consumer-Hardware.
Ein Mixture-of-Experts-Modell (MoE) mit 21 Milliarden Parametern und 3,6 Milliarden aktiven Parametern. Es bietet einen konfigurierbaren Argumentationsaufwand und Agentenfähigkeiten.
77 Token/Sekunde

qwen3-2507-think:4b

Für das logische Denken optimiertes Qwen3-4B-Modell mit verbesserter Leistung bei logischen Aufgaben, Mathematik, Wissenschaft und Code sowie einem auf 250K Token erweiterten Kontext.
Diese Version "Thinking" verfügt über eine erhöhte Gedankenlänge, wodurch sie sich ideal für sehr komplexe Denkaufgaben eignet. Sie bietet außerdem allgemeine Verbesserungen bei der Befolgung von Anweisungen, der Verwendung von Werkzeugen und der Texterzeugung.
69 Token/Sekunde

qwen3-2507:4b

Aktualisierte Version des Nicht-Denken-Modus von Qwen3-4B mit deutlichen Verbesserungen der allgemeinen Fähigkeiten, einer erweiterten Wissensabdeckung und einer besseren Ausrichtung auf die Präferenzen der Nutzer.
Deutliche Verbesserungen bei der Befolgung von Anweisungen, logischem Denken, Textverständnis, Mathematik, Verschlüsselung und der Verwendung von Werkzeugen. Nativer Kontext von 250k Token.

rnj-1:8b

Modell 8B "Open Weight" mit Schwerpunkt auf Programmierung, Mathematik und Naturwissenschaften (STEM).
RNJ-1 ist ein dichtes Modell mit 8,3 Milliarden Parametern, das auf 8,4 Billionen Tokens trainiert wurde. Es nutzt globale Aufmerksamkeit und YaRN, um einen Kontext von 32.000 Tokens zu bieten. Es zeichnet sich durch seine Fähigkeiten in der Code-Generierung (83,51 TP3T HumanEval+) und im mathematischen Denken aus und übertrifft dabei oft viel größere Modelle.

qwen3-vl:2b

Ultrakompaktes multimodales Modell Qwen3-VL, das Edge-Geräten fortschrittliche Bildverarbeitungsfunktionen verleiht.
Trotz seiner geringen Größe verfügt dieses Modell über die Technologien Qwen3-VL (MRoPE, DeepStack) und bietet eine beeindruckende Bild- und Videoanalyse. Ideal für mobile oder eingebettete Anwendungen, die OCR, Objekterkennung oder schnelles visuelles Verständnis erfordern.

qwen3-vl:4b

Ausgewogenes multimodales Modell Qwen3-VL, das solide Bildverarbeitungsleistung bei geringem Platzbedarf bietet.
Hervorragender Kompromiss zwischen Leistung und Ressourcen. Kann komplexe Dokumente, Grafiken und Videos mit hoher Genauigkeit analysieren. Unterstützt strukturierte Extraktion und visuelles Denken.
50 Token/Sekunde

devstral:24b

Devstral (24B FP8) ist eine auf Software-Engineering spezialisierte agentische LLM, die von Mistral AI und All Hands AI mitentwickelt wurde.
Eingesetzt in FP8 auf 2xL40S (ia03, ia04). Devstral zeichnet sich durch die Verwendung von Werkzeugen aus, mit denen man Codebasen durchsuchen, mehrere Dateien bearbeiten und Engineering-Agenten steuern kann. Es basiert auf Mistral Small 3 und bietet fortgeschrittene Argumentations- und Kodierungsfähigkeiten. Konfiguriert mit den Mistral-spezifischen Optimierern (Tokenizer, Parser).

devstral-small-2:24b

Zweite Iteration von Devstral (Small 2), einem hochmodernen agentenbasierten Modell für die Softwareentwicklung, das auf Mac Studio in einem umfangreichen Kontext eingesetzt wird.
Optimiert für die Erkundung von Codebasen, die Bearbeitung mehrerer Dateien und die Verwendung von Tools. Bietet eine Leistung, die der von Modellen >100B für Code nahekommt (SWE-bench Verified 68%). Unterstützt nativ das Sehen. Wird mit einem erweiterten Kontext von 380k Tokens bereitgestellt, um ganze Projekte zu verarbeiten.
28 Token/Sekunde

granite4-small-h:32b

MoE-Modell (Mixture-of-Experts) von IBM, das als "Arbeitspferd" für alltägliche Unternehmensaufgaben konzipiert ist und eine hervorragende Effizienz bei langen Kontexten aufweist.
Dieses Hybridmodell (Transformer + Mamba-2) mit 32 Milliarden Parametern (9B aktiv) ist für Unternehmens-Workflows wie Multi-Tool-Agenten und die Automatisierung des Kundensupports optimiert. Seine innovative Architektur reduziert die RAM-Nutzung bei langen Kontexten und mehreren Batches um mehr als 70%.
77 Token/Sekunde

granite4-tiny-h:7b

IBMs hocheffizientes Hybrid-MoE-Modell, das für niedrige Latenz, "Edge"- und lokale Anwendungen und als Grundbaustein für agentische Workflows entwickelt wurde.
Dieses Modell mit 7 Milliarden Parametern (1B aktiv) kombiniert Transformer- und Mamba-2-Schichten für maximale Effizienz. Es reduziert die RAM-Nutzung um mehr als 70% bei langen Kontexten und ist damit ideal für Geräte mit begrenzten Ressourcen und schnelle Aufgaben wie "function calling".
120 Token/Sekunde

deepseek-ocr

Spezialisiertes OCR-Modell von DeepSeek, das für eine hochpräzise Textextraktion unter Beibehaltung der Formatierung entwickelt wurde.
Zweistufiges OCR-System (visueller Encoder + MoE 3B Decoder), das für die Umwandlung von Dokumenten in strukturiertes Markdown (Tabellen, Formeln) optimiert ist. Erfordert eine spezielle Vorverarbeitung (Logits Processor) für optimale Leistung.
24 Token/Sekunde

medgemma:27b

MedGemma ist eines der leistungsfähigsten offenen Modelle von Google zum Verstehen von medizinischen Texten und Bildern, das auf Gemma 3 basiert.
MedGemma eignet sich für Aufgaben wie die Erstellung von Berichten über medizinische Bildgebung oder die Beantwortung von Fragen zu medizinischen Bildern in natürlicher Sprache. MedGemma kann für Anwendungsfälle angepasst werden, die medizinisches Wissen erfordern, wie z. B. Patientengespräche, Triage, Unterstützung bei der klinischen Entscheidungsfindung und Zusammenfassung. Obwohl seine Grundleistung solide ist, ist MedGemma noch nicht von klinischer Qualität und wird wahrscheinlich noch weiter verfeinert werden müssen. Basierend auf der Gemma-3-Architektur (nativ multimodal) enthält dieses Modell 27B einen SigLIP-Bildkodierer, der auf medizinischen Daten vortrainiert ist. Er unterstützt einen Kontext von 128k Token und ist hier in FP16 für maximale Genauigkeit.
56 Token/Sekunde

mistral-small3.2:24b

Kleines Update von Mistral Small 3.1, das die Verfolgung von Anweisungen und die Robustheit des Function Calling verbessert und Wiederholungsfehler reduziert.
Diese Version 3.2 behält die Stärken ihres Vorgängers bei und bringt gleichzeitig gezielte Verbesserungen mit sich. Sie kann präzisen Anweisungen besser folgen, produziert weniger unendliche Generationen oder sich wiederholende Antworten und ihre Schablone für Function Calling ist robuster. In den anderen Bereichen ist ihre Leistung gleichwertig oder leicht besser als die der Version 3.1.
88 Token/Sekunde

granite3.2-vision:2b

Revolutionäres Kompaktmodell von IBM, das auf Computer Vision spezialisiert ist und visuelle Dokumente ohne zwischengeschaltete OCR-Technologien direkt analysieren und verstehen kann.
Dieses kompakte Modell erreicht das bemerkenswerte Kunststück, bei einer Vielzahl von Aufgaben im Bereich des visuellen Verständnisses mit der Leistung weitaus größerer Modelle gleichzuziehen. Seine Fähigkeit, den visuellen Inhalt von Dokumenten - Texte, Tabellen, Grafiken und Diagramme - direkt zu interpretieren, ohne einen herkömmlichen OCR-Schritt zu durchlaufen, stellt einen bedeutenden Fortschritt in Bezug auf Effizienz und Genauigkeit dar. Dieser integrierte Ansatz reduziert Erkennungsfehler erheblich und ermöglicht ein kontextbezogeneres und differenzierteres Verständnis des visuellen Inhalts.
29 Token/Sekunde

magistral:24b

Mistral AIs erstes Argumentationsmodell, das sich in domänenspezifischer Argumentation auszeichnet, transparent und mehrsprachig ist.
Ideal für den allgemeinen Gebrauch, bei dem eine längere Gedankenverarbeitung und eine höhere Genauigkeit erforderlich sind. Nützlich für juristische Recherchen, Finanzprognosen, Softwareentwicklung und kreatives Storytelling. Löst Herausforderungen in mehreren Schritten, bei denen es auf Transparenz und Genauigkeit ankommt.
37 Token/Sekunde

cogito:32b

Erweiterte Version des Cogito-Modells mit erheblich erweiterten Denk- und Analysefähigkeiten, die für die anspruchsvollsten Anwendungen im Bereich der analytischen künstlichen Intelligenz entwickelt wurde.
Diese erweiterte Version des Cogito-Modells treibt die Fähigkeiten des Denkens und Verstehens noch weiter voran und bietet eine unübertroffene Analysetiefe für die komplexesten Anwendungen. Sein ausgeklügeltes architektonisches Design ermöglicht es, mehrstufige Argumentationen mit Strenge und Präzision anzugehen und dabei eine bemerkenswerte Gesamtkonsistenz zu bewahren. Ideal für geschäftskritische Anwendungen, die eine künstliche Intelligenz erfordern, die zu differenziertem Denken und einem tiefgreifenden Kontextverständnis fähig ist, das mit der Analyse menschlicher Experten in Spezialgebieten vergleichbar ist.

granite-embedding:278m

IBMs ultraleichtes Einbettungsmodell für die semantische Suche und Klassifizierung.
Dieses Modell wurde entwickelt, um dichte Vektordarstellungen von Text zu erzeugen, und ist für Effizienz und Leistung bei semantischen Ähnlichkeitsaufgaben, Clustering und Klassifizierung optimiert. Dank seiner geringen Größe ist es ideal für den Einsatz in großem Maßstab.

qwen3-Einbettung: 0.6b

Kompaktes Einbettungsmodell der Qwen3-Familie, optimiert für Effizienz.
Das kleinste dichte Modell der Qwen3-Familie, ideal für die schnelle semantische Suche.

qwen3-Einbettung:4b

Hochleistungsfähiges Einbettungsmodell der Qwen3-Familie.
Bietet dank seiner größeren Größe eine bessere semantische Genauigkeit.

qwen3-Einbettung:8b

Hochleistungsfähiges Einbettungsmodell der Qwen3-Familie.
Das größte Embedding-Modell der Produktreihe für kritische Aufgaben.

granite3-guardian:2b

Kompaktes Modell von IBM, das auf Sicherheit und Einhaltung von Vorschriften spezialisiert ist und Risiken und unangemessene Inhalte aufspürt.
Leichtgewichtige Version der Guardian-Familie, die darauf trainiert ist, schädliche Inhalte, Verzerrungen und Sicherheitsrisiken in textbasierten Interaktionen zu erkennen und herauszufiltern. Bietet robusten Schutz mit einem geringen computationalen Fußabdruck. Auf 8k Tokens begrenzter Kontext.

granite3-guardian:8b

IBM-Modell, das auf Sicherheit und Einhaltung von Vorschriften spezialisiert ist und erweiterte Möglichkeiten zur Erkennung von Risiken bietet.
Mittelgroßes Modell der Guardian-Familie, das eine gründlichere Sicherheitsanalyse als die Version 2B bietet. Ideal für Anwendungen, die eine strenge Überwachung der Inhalte und eine strikte Einhaltung der Vorschriften erfordern.

functiongemma:270m

Spezialisiertes Mikromodell mit 270 Millionen Parametern, optimiert für die Umwandlung natürlicher Sprache in strukturierte Funktionsaufrufe am Edge.
Basierend auf der Gemma 3-Architektur ist dieses Modell ein Experte für "Function Calling". Es wurde für die Feinabstimmung auf bestimmte Bereiche entwickelt, in denen es mit minimalem Speicherbedarf eine bemerkenswerte Genauigkeit (85%) erreichen kann. Ideal als intelligenter Router oder Controller für lokale Aktionen.

ministral-3:3b

Kompaktes Spitzenmodell von Mistral AI, entwickelt für Effizienz bei lokalen und Edge-Implementierungen.
Ministral 3B ist ein dichtes Modell, das für lokale Inferenz mit geringer Latenz optimiert ist. Es bietet für seine Größe hervorragende Fähigkeiten im Bereich des logischen Denkens und Verstehens und ist gleichzeitig äußerst speicher- und rechenintensiv.

Ministral-3:8b

Mittleres Modell der Ministral-Familie, das ein optimales Gleichgewicht zwischen Leistung und Ressourcen bietet.
Ministral 8B bietet im Vergleich zur Version 3B verbesserte Fähigkeiten im Bereich des logischen Denkens und Verstehens und eignet sich weiterhin für leistungsstarke lokale Implementierungen. Es ist von Haus aus multimodal.

ministral-3:14b

Das leistungsstärkste Modell der Ministral-Familie, entwickelt für komplexe Aufgaben in lokalen Infrastrukturen.
Ministral 14B bietet eine Leistung, die der von Modellen der Oberklasse nahekommt, und das in einem kompakten Format. Es zeichnet sich durch hervorragende Fähigkeiten im Bereich des logischen Denkens, der Codierung und komplexer mehrsprachiger Aufgaben aus und kann gleichzeitig lokal eingesetzt werden.

Vergleich der Modelle

Diese Vergleichstabelle hilft Ihnen bei der Auswahl des für Sie am besten geeigneten Modells anhand verschiedener Kriterien wie Kontextgröße, Leistung und spezifische Anwendungsfälle.

Vergleichende Tabelle der Merkmale und Leistungen der verschiedenen verfügbaren KI-Modelle, gruppiert nach Kategorien (große Modelle und spezialisierte Modelle).
Modell Herausgeber Einstellungen Kontext (k tokens) Vision Agent Argumentation Sicherheit Schnell * Energieeffizienz *
Große Modelle
gpt-oss:120b OpenAI 120B 120000
llama3.3:70b Meta 70B 132000
gemma3:27b Google 27B 120000
qwen3-coder:30b Qwen Team 30B 250000
qwen3-2507:30b-a3b Qwen Team 30B 250000
qwen3-next:80b Qwen Team 80B 262144
qwen3-vl:30b Qwen Team 30B 250000
qwen3-vl:32b Qwen Team 32B 250000
Olmo 3:7b AllenAI 7B 65536
Olmo 3:32b AllenAI 32B 65536
qwen3-2507:235b Qwen Team 235B (22B aktiv) 130000
Spezialisierte Vorlagen
embeddinggemma:300m Google 300M 2048 N.C.
gpt-oss:20b OpenAI 20B 120000
qwen3-2507-think:4b Qwen Team 4B 250000
qwen3-2507:4b Qwen Team 4B 250000
rnj-1:8b Essential AI 8B 32000 N.C.
qwen3-vl:2b Qwen Team 2B 250000
qwen3-vl:4b Qwen Team 4B 250000
devstral:24b Mistral AI & All Hands AI 24B 120000
devstral-small-2:24b Mistral AI & All Hands AI 24B 380000 N.C.
granite4-small-h:32b IBM 32B (9B aktiv) 128000
granite4-tiny-h:7b IBM 7B (1B aktiv) 128000
deepseek-ocr DeepSeek AI 3B 8192
medgemma:27b Google 27B 128000
mistral-small3.2:24b Mistral AI 24B 128000
granite3.2-vision:2b IBM 2B 16384
magistral:24b Mistral AI 24B 40000
cogito:32b Deep Cogito 32B 32000
granite-embedding:278m IBM 278M 512 N.C.
qwen3-Einbettung: 0.6b Qwen Team 0.6B 8192 N.C.
qwen3-Einbettung:4b Qwen Team 4B 8192 N.C.
qwen3-Einbettung:8b Qwen Team 8B 8192 N.C.
granite3-guardian:2b IBM 2B 8192 N.C.
granite3-guardian:8b IBM 8B 32000 N.C.
functiongemma:270m Google 270 Mio. 32768 N.C.
ministral-3:3b Mistral AI 3B 250000 N.C.
Ministral-3:8b Mistral AI 8B 250000 N.C.
ministral-3:14b Mistral AI 14B 250000 N.C.
Legende und Erklärung
: Von der Vorlage unterstützte Funktionalität oder Fähigkeit
: Feature oder Fähigkeit, die von der Vorlage nicht unterstützt wird
* Energieeffizienz : Zeigt einen besonders niedrigen Energieverbrauch an (< 2.0 kWh/Mtoken)
* Schnell : Modell, das in der Lage ist, mehr als 50 Token pro Sekunde zu erzeugen
Anmerkung zu den Leistungsmessungen
Die Geschwindigkeitswerte (Token/s) stellen Leistungsziele unter realen Bedingungen dar. Der Energieverbrauch (kWh/Mtoken) wird berechnet, indem die geschätzte Leistung des Inferenzservers (in Watt) durch die gemessene Geschwindigkeit des Modells (in Token/Sekunde) dividiert und dann in Kilowattstunden pro Million Token umgerechnet wird (Division durch 3,6). Diese Methode bietet einen praktischen Vergleich der Energieeffizienz verschiedener Modelle, der als relativer Indikator und nicht als absolutes Maß für den Stromverbrauch verwendet werden sollte.

Empfohlene Anwendungsfälle

Im Folgenden finden Sie einige häufige Anwendungsfälle und die dafür jeweils am besten geeigneten Modelle. Diese Empfehlungen basieren auf der spezifischen Leistung und den Fähigkeiten der einzelnen Modelle.

Mehrsprachiger Dialog

Chatbots und Assistenten, die in mehreren Sprachen kommunizieren können, mit automatischer Erkennung, Aufrechterhaltung des Kontexts über die gesamte Konversation hinweg und Verständnis für sprachliche Besonderheiten
Empfohlene Modelle
  • Llama 3.3
  • Mistral Small 3.2
  • Qwen 3
  • Openai OSS
  • Granit 4

Analyse langer Dokumente

Verarbeitung umfangreicher Dokumente (>100 Seiten) mit Kontexterhaltung über den gesamten Text, Extraktion von Schlüsselinformationen, Generierung relevanter Zusammenfassungen und Beantwortung spezifischer Fragen zum Inhalt
Empfohlene Modelle
  • Gemma 3
  • Qwen next
  • Qwen 3
  • Granit 4

Programmierung und Entwicklung

Generierung und Optimierung von Code in mehreren Sprachen, Debugging, Refactoring, Entwicklung vollständiger Funktionen, Verständnis komplexer algorithmischer Implementierungen und Erstellung von Unit-Tests
Empfohlene Modelle
  • DeepCoder
  • Qwen3 kodieren
  • Granit 4
  • Devstral

Visuelle Analyse

Direkte Verarbeitung von Bildern und visuellen Dokumenten ohne OCR-Vorverarbeitung, Interpretation von technischen Diagrammen, Grafiken, Tabellen, Zeichnungen und Fotos mit Generierung von detaillierten Texterklärungen zum visuellen Inhalt.
Empfohlene Modelle
  • deepseek-OCR
  • Mistral Small 3.2
  • Gemma 3
  • Qwen 3 VL

Sicherheit und Compliance

Anwendungen, die spezifische Sicherheitsfunktionen erfordern; Filterung sensibler Inhalte, Nachvollziehbarkeit der Argumentation, Überprüfung der DSGVO/HDS, Risikominimierung, Schwachstellenanalyse und Einhaltung von Branchenvorschriften
Empfohlene Modelle
  • Granite Guardian
  • Granit 4
  • Devstral
  • Mistral Small 3.2
  • Magistral small

Leichte und eingebettete Einsätze

Anwendungen, die einen minimalen Ressourcen-Fußabdruck erfordern, Einsatz auf Geräten mit begrenzter Kapazität, Echtzeit-Inferenz auf Standard-CPUs und Integration in eingebettete oder IoT-Systeme.
Empfohlene Modelle
  • Gemma 3n
  • Granit 4 tiny
  • Qwen 3 VL (2B)
Kontaktieren Sie unser Team!
Cookie-Richtlinie

Wir verwenden Cookies, um Ihnen die bestmögliche Erfahrung auf unserer Seite zu bieten, erheben aber keine personenbezogenen Daten.

Die Dienste zur Messung des Publikums, die für den Betrieb und die Verbesserung unserer Website erforderlich sind, ermöglichen es nicht, Sie persönlich zu identifizieren. Sie haben jedoch die Möglichkeit, sich ihrer Nutzung zu widersetzen.

Weitere Informationen finden Sie in unserem Datenschutzrichtlinie.