Unser Angebot Large Language Model as a Service (LLMaaS) ermöglicht Ihnen den Zugriff auf hochmoderne Sprachmodelle, deren Inferenz mit einer qualifizierten Infrastruktur durchgeführt wird SecNumCloud, zertifiziert HDS für das Hosting von Gesundheitsdaten und damit souverän, in Frankreich berechnet. Profitieren Sie von einer hohen Leistung und optimaler Sicherheit für Ihre KI-Anwendungen. Ihre Daten bleiben streng vertraulich und werden nach der Verarbeitung weder ausgewertet noch gespeichert.

Einfache und transparente Tarifierung
0.9 €
pro Million Token im Eingang
4 €
pro Million Token im Umlauf
21 €
in Millionen Tokens de raisonnement
Berechnet auf einer in Frankreich basierten, qualifizierten SecNumcloud- und HDS-zertifizierten Infrastruktur.
Note sur le prix "Raisonnement" : Ce prix s'applique spécifiquement aux modèles classifiés comme "raisonneurs" ou "hybrides" (Modelle mit der Kapazität "Raisonnement" aktiviert), wenn das Raisonnement aktiv ist und nur für die Token, die mit dieser Aktivität verbunden sind.

Modelle in großem Format

Unsere großen Modelle bieten Spitzenleistungen für die anspruchsvollsten Aufgaben. Sie eignen sich besonders für Anwendungen, die ein tiefes Sprachverständnis, komplexes Denken oder die Verarbeitung langer Dokumente erfordern.

28 Token/Sekunde

Llama 3.3 70B

Ein von Meta entwickeltes, hochmodernes mehrsprachiges Modell, das sich durch natürlichen Dialog, komplexe Argumentation und nuanciertes Verständnis von Anweisungen auszeichnet.
Durch die Kombination von bemerkenswerter Effizienz mit geringen Rechenressourcen bietet dieses Modell umfangreiche mehrsprachige Fähigkeiten, die acht Hauptsprachen (Englisch, Französisch, Deutsch, Spanisch, Italienisch, Portugiesisch, Hindi und Thai) abdecken. Sein Kontextfenster mit 60.000 Token ermöglicht die gründliche Analyse komplexer Dokumente und langer Konversationen, wobei eine außergewöhnliche Gesamtkonsistenz gewahrt bleibt. Optimiert zur Minimierung von Verzerrungen und problematischen Antworten.
67 Token/Sekunde

Gemma 3 27B

Googles revolutionäres Modell, das ein optimales Gleichgewicht zwischen Leistung und Effizienz bietet und ein hervorragendes Preis-Leistungs-Verhältnis für anspruchsvolle Geschäftsanwendungen bietet.
Dieses Modell mit seiner unübertroffenen Hardware-Effizienz verfügt über native multimodale Fähigkeiten und zeichnet sich durch mehrsprachige Leistung in über 140 Sprachen aus. Das beeindruckende Kontextfenster mit 120.000 Token macht sie zur idealen Wahl für die Analyse sehr umfangreicher Dokumente, die Suche nach Dokumenten und alle Anwendungen, die das Verständnis erweiterter Kontexte erfordern. Seine optimierte Architektur ermöglicht einen flexiblen Einsatz, ohne die Qualität der Ergebnisse zu beeinträchtigen.
15 Token/Sekunde

DeepSeek-R1 70B

Spezialisiertes Modell von DeepSeek AI, das entwickelt wurde, um sich bei Aufgaben auszuzeichnen, die stringentes Denken, das Lösen von algorithmischen Problemen und die Generierung von qualitativ hochwertigem Code erfordern.
Dieses Modell zeichnet sich durch seine überlegene Denkleistung aus, die es ermöglicht, komplexe intellektuelle Herausforderungen mit Methode und Präzision anzugehen. Seine erhöhte Betriebseffizienz optimiert die Rechenressourcen und sorgt gleichzeitig für herausragende Ergebnisse. Dank ihrer Vielseitigkeit kann sie in verschiedenen praktischen Bereichen eingesetzt werden, von der Wissenschaft über die Wirtschaft bis hin zum Ingenieurwesen. Besonders bemerkenswert sind seine fortgeschrittenen mathematischen Fähigkeiten, die sich ideal für wissenschaftliche und technische Anwendungen eignen, die eine strenge quantitative Verarbeitung erfordern.
81.12 Token/Sekunde

Qwen3 30B-A3B FP8

MoE-Modell FP8 (3B aktiviert) der nächsten Generation, mit hybriden Denkweisen und erweiterten agentischen Fähigkeiten.
FP8-Version des MoE-Modells Qwen3 30B-A3B. Beinhaltet einen "Thinking"-Modus für komplexes Denken und einen schnellen "Non-Thinking"-Modus. Verbesserte Fähigkeiten in Reasoning, Code, Mathematik und Agent (Tools/MCP). Unterstützt mehr als 100 Sprachen. Ideal für ein optimales Verhältnis von Leistung und Kosten.

Spezialisierte Modelle

Unsere spezialisierten Modelle sind für bestimmte Aufgaben wie Code-Generierung, Bildanalyse oder die Verarbeitung strukturierter Daten optimiert. Sie bieten ein hervorragendes Verhältnis von Leistung und Kosten für gezielte Anwendungsfälle.

74 Token/Sekunde

Qwen3 14B

Dichtes Modell der neuen Generation Qwen3 (14B), das eine gleichwertige Leistung wie Qwen2.5 32B bei besserer Effizienz bietet.
Teil der Qwen3-Serie, trainiert auf ~36T Token. Verbesserte Fähigkeiten in Reasoning, Code, Mathematik und Agent (Tools/MCP). Unterstützt über 100 Sprachen und hybride Denkweisen.
76 Token/Sekunde

Gemma 3 12B

Mittlere Version des Modells Gemma 3, die ein hervorragendes Gleichgewicht zwischen Leistung und Effizienz bietet.
Dieses mittelgroße Modell vereint hochwertige Leistung und Betriebseffizienz und bietet einen Großteil der Fähigkeiten seines großen Bruders mit 27B Parametern in einem leichteren Format. Ideal für Einsätze, bei denen es auf Qualität und Geschwindigkeit ankommt, ohne die Rechenressourcen der größeren Modelle.
58 Token/Sekunde

Gemma 3 4B

Kompaktes Modell von Google mit ausgezeichneter Leistung in einem leichten und kostengünstigen Format.
Diese kompakte Version der Gemma 3 ist für ressourcenbeschränkte Einsätze optimiert, wobei sie für ihre Größe eine bemerkenswerte Leistung beibehält. Seine effiziente Architektur ermöglicht eine schnelle Inferenz auf Standardhardware und ist ideal für Anwendungen, die eine schnelle Reaktionsfähigkeit und einen großen Einsatz erfordern. Trotz ihrer geringen Größe behält sie multimodale Fähigkeiten bei, um sowohl Text als auch Bilder zu verarbeiten.
43 Token/Sekunde

Gemma 3 1B

Ultraleichtes Mikromodell, das für den Einsatz auf Geräten mit sehr geringen Ressourcen entwickelt wurde.
Dieses ultrakompakte Modell stellt die Quintessenz der Effizienz dar und ermöglicht Einsätze in Umgebungen mit extrem begrenzten Ressourcen. Trotz seiner minimalen Größe bietet er erstaunliche Grundfähigkeiten für einfache bis moderate Textaufgaben mit einer außergewöhnlichen Inferenzgeschwindigkeit. Außerdem unterstützt es die Integration mit externen Tools über function calling.
41 Token/Sekunde

Lucie-7B-Instruct

Mehrsprachiges Open-Source-Kausalmodell (7B), fine-tuned seit Lucie-7B. Für Französisch optimiert.
Fine-tuned auf synthetische Anweisungen (ChatGPT, Gemma) und benutzerdefinierte Prompts. Nicht für Code/Math optimiert. Trainiert auf 4k-Kontext, behält aber die Fähigkeit des Basismodells für 32k bei. Modell in Entwicklung.
22 Token/Sekunde

Mistral Small 3.1

Kompaktes, reaktionsschnelles Modell von Mistral AI, das speziell für eine flüssige und relevante Gesprächsunterstützung mit optimaler Reaktionsgeschwindigkeit entwickelt wurde.
Trotz seiner moderaten Größe weist dieses Modell eine bemerkenswerte Leistung auf, die mit vielen proprietären Modellen, die wesentlich größer sind, konkurrieren kann. Seine genial optimierte Architektur erleichtert den lokalen Einsatz in einer Vielzahl von Infrastrukturen. Dank nativer multimodaler Fähigkeiten kann sie sowohl Text als auch Bilder verarbeiten, ohne auf externe Systeme angewiesen zu sein. Die Apache-2.0-Lizenz bietet maximale Flexibilität für kommerzielle Einsätze und Anpassungen und macht sie zur idealen Wahl für Unternehmen, die Leistung und gesetzliche Auflagen gegeneinander abwägen wollen.
69 Token/Sekunde

DeepCoder

Open-Source-KI-Modell (14B) von Together AI & Agentica, eine glaubwürdige Alternative zu proprietären Modellen für die Code-Generierung.
Bemerkenswerte Leistungen in Codegenerierung und algorithmischem Denken (60.6% LiveCodeBench Pass@1, 1936 Codeforces, 92.6% HumanEval+). Trainiert über RL (GRPO+) mit schrittweiser Verlängerung des Kontexts (32k -> 64k). Transparentes Projekt (Code, Dataset, offene Logs). Ermöglicht die Integration fortschrittlicher Code-Generierungsfähigkeiten, ohne auf proprietäre Lösungen angewiesen zu sein.
56 Token/Sekunde

Granit 3.2 Vision

Revolutionäres Kompaktmodell von IBM, das auf Computer Vision spezialisiert ist und visuelle Dokumente ohne zwischengeschaltete OCR-Technologien direkt analysieren und verstehen kann.
Dieses kompakte Modell erreicht das bemerkenswerte Kunststück, bei einer Vielzahl von Aufgaben im Bereich des visuellen Verständnisses mit der Leistung weitaus größerer Modelle gleichzuziehen. Seine Fähigkeit, den visuellen Inhalt von Dokumenten - Texte, Tabellen, Grafiken und Diagramme - direkt zu interpretieren, ohne einen herkömmlichen OCR-Schritt zu durchlaufen, stellt einen bedeutenden Fortschritt in Bezug auf Effizienz und Genauigkeit dar. Dieser integrierte Ansatz reduziert Erkennungsfehler erheblich und ermöglicht ein kontextbezogeneres und differenzierteres Verständnis des visuellen Inhalts.
28 Token/Sekunde

Granit 3.3 8B

Von IBM feingetuntes Granite-8B-Modell für verbessertes Reasoning und Instruktionsverfolgung, mit einem Kontext von 128k Token.
Diese Version 8B des Granite 3.3-Modells bietet deutliche Verbesserungen bei den allgemeinen Benchmarks (AlpacaEval-2.0, Arena-Hard) und Verbesserungen in Mathematik, Codierung und Befehlsverfolgung. Es unterstützt 12 Sprachen, Fill-in-the-Middle (FIM) für den Code, den "Thinking"-Modus für strukturiertes Denken und den Aufruf von Funktionen. Lizenziert unter Apache 2.0. Ideal für allgemeine Aufgaben und die Integration in KI-Assistenten.
57 Token/Sekunde

Granit 3.3 2B

Von IBM feingetuntes Modell Granite 2B, optimiert für Reasoning und Instruktionsverfolgung, mit einem Kontext von 128k Token.
Kompakte Version von Granite 3.3 (2B Parameter) mit denselben Verbesserungen in den Bereichen Reasoning, Instruction-Following, Mathematik und Coding wie die Version 8B. Unterstützt 12 Sprachen, Fill-in-the-Middle (FIM), den "Thinking"-Modus und Funktionsaufrufe. Lizenziert als Apache 2.0. Ausgezeichnete Wahl für schlanke Implementierungen, die lange kontextbezogene und schlussfolgernde Fähigkeiten erfordern.
71 Token/Sekunde

Granit 3.1 MoE

Innovatives Modell von IBM, das die Mixture-of-Experts (MoE)-Architektur nutzt, um außergewöhnliche Leistung zu bieten und gleichzeitig die Nutzung von Rechenressourcen drastisch zu optimieren.
Die MoE-Architektur (Mixture-of-Experts) dieses Modells stellt einen bedeutenden Fortschritt in der Optimierung von Sprachmodellen dar, da sie eine Leistung ermöglicht, die mit der von weitaus größeren Modellen vergleichbar ist, während der Speicherplatzbedarf deutlich geringer bleibt. Dieser innovative Ansatz aktiviert dynamisch nur die relevanten Teile des Netzwerks für jede spezifische Aufgabe und sorgt so für eine bemerkenswerte Energie- und Recheneffizienz, ohne Kompromisse bei der Qualität der Ergebnisse einzugehen.
67 Token/Sekunde

Cogito 14B

Speziell entwickeltes Modell von Deep Cogito, das sich bei Aufgaben des tiefen Denkens und des nuancierten Kontextverständnisses auszeichnet und sich ideal für anspruchsvolle analytische Anwendungen eignet.
Mit ausgezeichneten Fähigkeiten im logischen Denken und einem tiefen semantischen Verständnis zeichnet sich dieses Modell durch seine Fähigkeit aus, die Feinheiten und Implikationen in komplexen Texten zu erfassen. Sein Design legt Wert auf konsistentes Denken und analytische Genauigkeit, wodurch es sich besonders für Anwendungen eignet, die eine sorgfältige und kontextbezogene Analyse von Informationen erfordern. Seine moderate Größe ermöglicht einen flexiblen Einsatz bei gleichbleibend hoher Leistung in einem breiten Spektrum anspruchsvoller analytischer Aufgaben.
36 Token/Sekunde

Cogito 32B

Erweiterte Version des Cogito-Modells mit erheblich erweiterten Denk- und Analysefähigkeiten, die für die anspruchsvollsten Anwendungen im Bereich der analytischen künstlichen Intelligenz entwickelt wurde.
Diese erweiterte Version des Cogito-Modells treibt die Fähigkeiten des Denkens und Verstehens noch weiter voran und bietet eine unübertroffene Analysetiefe für die komplexesten Anwendungen. Sein ausgeklügeltes architektonisches Design ermöglicht es, mehrstufige Argumentationen mit Strenge und Präzision anzugehen und dabei eine bemerkenswerte Gesamtkonsistenz zu bewahren. Ideal für geschäftskritische Anwendungen, die eine künstliche Intelligenz erfordern, die zu differenziertem Denken und einem tiefgreifenden Kontextverständnis fähig ist, das mit der Analyse menschlicher Experten in Spezialgebieten vergleichbar ist.
38 Token/Sekunde

QwQ-32B

Modell mit 32 Milliarden Parametern, das durch verstärkendes Lernen (RL) verbessert wurde, um sich in den Bereichen Argumentation, Kodierung, Mathematik und Agentenaufgaben auszuzeichnen.
Dieses Modell verwendet einen innovativen RL-Ansatz mit ergebnisbasierten Belohnungen (Genauigkeitschecker für Mathematik, Codeausführung für Codierung) und mehrstufigem Training, um die allgemeinen Fähigkeiten zu verbessern, ohne die spezialisierten Leistungen zu verschlechtern. Es beinhaltet Agentenfähigkeiten, um Werkzeuge zu nutzen und das Denken anzupassen. Apache 2.0-Lizenz.
67 Token/Sekunde

DeepSeek-R1 14B

Kompakte und effiziente Version des DeepSeek-R1, die eine hervorragende Kombination aus Leistung und geringem Gewicht für Einsätze bietet, bei denen Flexibilität und Reaktionsfähigkeit gefordert sind.
Diese kompakte Version des DeepSeek-R1 stellt ein optimales Gleichgewicht zwischen Leistung und Effizienz dar. Sie behält die wichtigsten Denk- und Analysefähigkeiten ihres größeren Gegenstücks bei, ermöglicht aber einen leichteren und flexibleren Einsatz. Sein sorgfältig optimiertes Design sorgt für hochwertige Ergebnisse bei einer Vielzahl von Aufgaben und minimiert gleichzeitig die Anforderungen an die Rechenressourcen. Diese Kombination macht ihn zur idealen Wahl für Anwendungen, die einen agilen Einsatz ohne größere Kompromisse bei den Kernfähigkeiten erfordern.
37 Token/Sekunde

DeepSeek-R1 32B

Mittlere Version des DeepSeek-R1-Modells, die eine strategische Balance zwischen den fortschrittlichen Fähigkeiten der 70B-Version und der Effizienz der 14B-Version bietet, um optimale Vielseitigkeit und Leistung zu erzielen.
Diese mittlere Version des DeepSeek-R1-Modells kombiniert auf intelligente Weise Leistung und Effizienz und bietet eine deutlich verbesserte Leistung im Vergleich zur 14B-Version, während sie gleichzeitig eine kleinere Grundfläche als die 70B-Version beibehält. Diese strategische Position in der Produktreihe macht ihn zu einer besonders attraktiven Option für Einsätze, bei denen erweiterte Denkfähigkeiten ohne die Hardwareanforderungen der größeren Modelle benötigt werden. Dank ihrer Vielseitigkeit kann sie sich bei einer Vielzahl von Aufgaben auszeichnen, von der Textanalyse bis hin zur Generierung strukturierter Inhalte.
63 Token/Sekunde

Cogito 3B

Kompakte Version des Cogito-Modells, optimiert für das Argumentieren auf Geräten mit begrenzten Ressourcen.
Bietet die Argumentationsfähigkeiten der Cogito-Familie in einem sehr leichten Format (3 Milliarden Parameter), das sich ideal für den Einsatz in eingebetteten Systemen oder CPU-Umgebungen eignet.

Granite Embedding

IBMs ultraleichtes Einbettungsmodell für die semantische Suche und Klassifizierung.
Dieses Modell wurde entwickelt, um dichte Vektordarstellungen von Text zu erzeugen, und ist für Effizienz und Leistung bei semantischen Ähnlichkeitsaufgaben, Clustering und Klassifizierung optimiert. Dank seiner geringen Größe ist es ideal für den Einsatz in großem Maßstab.

Granit 3 Guardian 2B

Kompaktes Modell von IBM, das auf Sicherheit und Einhaltung von Vorschriften spezialisiert ist und Risiken und unangemessene Inhalte aufspürt.
Leichtgewichtige Version der Guardian-Familie, die darauf trainiert ist, schädliche Inhalte, Verzerrungen und Sicherheitsrisiken in textbasierten Interaktionen zu erkennen und herauszufiltern. Bietet robusten Schutz mit einem geringen computationalen Fußabdruck. Auf 8k Tokens begrenzter Kontext.

Granit 3 Guardian 8B

IBM-Modell, das auf Sicherheit und Einhaltung von Vorschriften spezialisiert ist und erweiterte Möglichkeiten zur Erkennung von Risiken bietet.
Mittelgroßes Modell der Guardian-Familie, das eine gründlichere Sicherheitsanalyse als die Version 2B bietet. Ideal für Anwendungen, die eine strenge Überwachung der Inhalte und eine strikte Einhaltung der Vorschriften erfordern.
53 Token/Sekunde

Qwen 2.5 0.5B

Ultraleichtes Mikromodell der Qwen 2.5-Familie, das für maximale Effizienz bei eingeschränkten Geräten entwickelt wurde.
Das kleinste Modell der Qwen 2.5-Serie, das grundlegende Sprachverarbeitungsfähigkeiten bei minimaler Grundfläche bietet. Ideal für sehr einfache Aufgaben auf IoT- oder Mobilgeräten.
107 Token/Sekunde

Qwen 2.5 1.5B

Sehr kompaktes Modell der Qwen 2.5-Familie, das ein ausgewogenes Verhältnis von Leistung und Größe für leichte Einsätze bietet.
Etwas größeres Modell als Version 0.5B, das verbesserte Fähigkeiten bietet, aber immer noch sehr effizient ist. Geeignet für mobile oder eingebettete Anwendungen, die etwas mehr Leistung benötigen.
68 Token/Sekunde

Qwen 2.5 14B

Mittelgroßes Allroundmodell aus der Qwen 2.5-Familie, gute Balance zwischen Leistung und Ressourcen.
Bietet solide mehrsprachige Fähigkeiten und ein allgemeines Verständnis in einem 14B-Format. Geeignet für eine Vielzahl von Anwendungen, die ein zuverlässiges Modell ohne die Anforderungen sehr großer Modelle benötigen.
36 Token/Sekunde

Qwen 2.5 32B

Leistungsstarkes Modell der Qwen 2.5-Familie, das erweiterte Fähigkeiten beim Verstehen und Generieren bietet.
Version 32B von Qwen 2.5, die im Vergleich zur Version 14B eine höhere Leistung liefert, insbesondere beim Argumentieren und Befolgen komplexer Anweisungen, und dabei leichter ist als das Modell 72B.
57 Token/Sekunde

Qwen 2.5 3B

Kompaktes und effizientes Modell der Qwen 2.5-Familie, geeignet für allgemeine Aufgaben mit begrenzten Ressourcen.
Bietet einen guten Kompromiss zwischen den Fähigkeiten der Modelle 1.5B und 14B. Ideal für Anwendungen, die ein gutes allgemeines Verständnis in einem leichten und schnellen Format erfordern.
58 Token/Sekunde

Qwen3 0.6b

Kompaktes und effizientes Modell der Qwen3-Familie, geeignet für allgemeine Aufgaben mit begrenzten Ressourcen.
Bietet einen guten Kompromiss zwischen den Fähigkeiten von ultrakompakten und größeren Modellen. Ideal für Anwendungen, bei denen ein gutes allgemeines Verständnis in einem leichten und schnellen Format erforderlich ist.
84 Token/Sekunde

Qwen3 1.7b

Sehr kompaktes Modell der Qwen3-Familie, das ein ausgewogenes Verhältnis von Leistung und Größe für leichte Einsätze bietet.
Etwas größeres Modell als Version 0.6B, das verbesserte Fähigkeiten bietet, aber immer noch sehr effizient ist. Geeignet für mobile oder eingebettete Anwendungen, die etwas mehr Leistung benötigen.
50 Token/Sekunde

Qwen3 4b

Kompaktes Modell der Qwen3-Familie mit ausgezeichneter Leistung in einem leichten und kostengünstigen Format.
Diese kompakte Version des Qwen3-Modells ist für ressourcenbeschränkte Einsätze optimiert, wobei sie für ihre Größe eine bemerkenswerte Leistung beibehält. Seine effiziente Architektur ermöglicht eine schnelle Inferenz auf Standardhardware.
34 Token/Sekunde

Qwen3 8b

Modell Qwen3 8B bietet eine gute Balance zwischen Leistung und Effizienz für allgemeine Aufgaben.
Version 8B von Qwen3 mit verbesserten Fähigkeiten in den Bereichen Argumentation, Code, Mathematik und Agent. Unterstützt über 100 Sprachen und hybride Denkweisen.
24 Token/Sekunde

Foundation-Sec-8B

Auf Effizienz optimiertes Modell einer Fachsprache für Cybersicherheit.
Foundation-Sec-8B-Modell (Llama-3.1-FoundationAI-SecurityLLM-base-8B), das auf Llama-3.1-8B basiert und auf einem Cybersicherheitskorpus vortrainiert ist. Konzipiert für Bedrohungserkennung, Schwachstellenbewertung, Sicherheitsautomatisierung usw. Optimiert für den lokalen Einsatz. 16k-Token-Kontext.

Vergleich der Modelle

Diese Vergleichstabelle hilft Ihnen bei der Auswahl des für Sie am besten geeigneten Modells anhand verschiedener Kriterien wie Kontextgröße, Leistung und spezifische Anwendungsfälle.

Modell Herausgeber Paramètres Kontexte (k Token) Vision Agent Raisonnement Sécurité Rapide * Energieeffektivität *
Modelle in großem Format
Llama 3.3 70B Meta 70B 60000
Gemma 3 27B Google 27B 120000
DeepSeek-R1 70B DeepSeek AI 70B 60000
Qwen3 30B-A3B FP8 Qwen Team 30B-A3B 60000
Spezialisierte Modelle
Qwen3 14B Qwen Team 14B 60000
Gemma 3 12B Google 12B 120000
Gemma 3 4B Google 4B 120000
Gemma 3 1B Google 1B 32000
Lucie-7B-Instruct OpenLLM-Frankreich 7B 32000
Mistral Small 3.1 Mistral AI 24B 60000
DeepCoder Agentica x Together AI 14B 32000
Granit 3.2 Vision IBM 2B 16384
Granit 3.3 8B IBM 8B 60000
Granit 3.3 2B IBM 2B 120000
Granit 3.1 MoE IBM 3B 32000
Cogito 14B Deep Cogito 14B 32000
Cogito 32B Deep Cogito 32B 32000
QwQ-32B Qwen Team 32B 32000
DeepSeek-R1 14B DeepSeek AI 14B 32000
DeepSeek-R1 32B DeepSeek AI 32B 32000
Cogito 3B Deep Cogito 3B 32000
Granite Embedding IBM 278M 32000 N.C.
Granit 3 Guardian 2B IBM 2B 8192 N.C.
Granit 3 Guardian 8B IBM 8B 32000 N.C.
Qwen 2.5 0.5B Qwen Team 0.5B 32000
Qwen 2.5 1.5B Qwen Team 1.5B 32000
Qwen 2.5 14B Qwen Team 14B 32000
Qwen 2.5 32B Qwen Team 32B 32000
Qwen 2.5 3B Qwen Team 3B 32000
Qwen3 0.6b Qwen Team 0.6B 32000
Qwen3 1.7b Qwen Team 1.7B 32000
Qwen3 4b Qwen Team 4B 32000
Qwen3 8b Qwen Team 8B 60000
Foundation-Sec-8B Foundation AI - Cisco 8B 16000
Legende und Erläuterung
: Funktionsfähigkeit oder Kapazität, die durch das Modell unterstützt wird
: Funktionsfähigkeit oder Kapazität, die nicht durch das Modell unterstützt wird
* Energieeffektivität : Zeigt einen besonders niedrigen Energieverbrauch an (< 2,0 kWh/Mtoken)
* Stromschnelle : Ein Modell, das mehr als 50 Token pro Sekunde generieren kann
Anmerkung zu den Leistungsmessungen
Die Vitameterkennzahlen (Token/s) repräsentieren die Leistungskennzahlen unter realen Bedingungen. Der Energieverbrauch (kWh/Mtoken) wird berechnet, indem die geschätzte Leistung des Netzbetreibers (in Watt) durch die vom Modell gemessene Geschwindigkeit (in Token/Sekunde) geteilt und dann in Kilowattstunden pro Million Token umgerechnet wird (siehe Abschnitt 3.6). Diese Methode ermöglicht einen praktischen Vergleich der Energieeffizienz verschiedener Modelle, der als relativer Indikator und nicht als absolutes Maß für den Stromverbrauch verwendet werden kann.

Empfohlene Verwendungszwecke

Im Folgenden finden Sie einige häufige Anwendungsfälle und die dafür jeweils am besten geeigneten Modelle. Diese Empfehlungen basieren auf der spezifischen Leistung und den Fähigkeiten der einzelnen Modelle.

Mehrsprachiger Dialog

Chatbots und Assistenten, die in mehreren Sprachen kommunizieren können, mit automatischer Erkennung, Aufrechterhaltung des Kontexts über die gesamte Konversation hinweg und Verständnis für sprachliche Besonderheiten
Empfohlene Modelle
  • Llama 3.3
  • Mistral Small 3.1
  • Qwen 2.5
  • Granit 3.3

Analyse langer Dokumente

Verarbeitung umfangreicher Dokumente (>100 Seiten) mit Kontexterhaltung über den gesamten Text, Extraktion von Schlüsselinformationen, Generierung relevanter Zusammenfassungen und Beantwortung spezifischer Fragen zum Inhalt
Empfohlene Modelle
  • Gemma 3
  • DeepSeek-R1
  • Granit 3.3

Programmierung und Entwicklung

Generierung und Optimierung von Code in mehreren Sprachen, Debugging, Refactoring, Entwicklung vollständiger Funktionen, Verständnis komplexer algorithmischer Implementierungen und Erstellung von Unit-Tests
Empfohlene Modelle
  • DeepCoder
  • QwQ
  • DeepSeek-R1
  • Granit 3.3

Visuelle Analyse

Direkte Verarbeitung von Bildern und visuellen Dokumenten ohne OCR-Vorverarbeitung, Interpretation von technischen Diagrammen, Grafiken, Tabellen, Zeichnungen und Fotos mit Generierung von detaillierten Texterklärungen zum visuellen Inhalt.
Empfohlene Modelle
  • Granit 3.2 Vision
  • Mistral Small 3.1
  • Gemma 3

Sicherheit und Compliance

Anwendungen mit strengen Sicherheitsanforderungen, Nachvollziehbarkeit der Argumentation, Überprüfung der DSGVO/HDS/SecNumCloud, Risikominimierung, Schwachstellenanalyse und Einhaltung branchenspezifischer Vorschriften
Empfohlene Modelle
  • Granite Guardian
  • Granit 3.3
  • Lucie
  • Mistral Small 3.1

Leichte und eingebettete Einsätze

Anwendungen, die einen minimalen Ressourcen-Fußabdruck erfordern, Einsatz auf Geräten mit begrenzter Kapazität, Echtzeit-Inferenz auf Standard-CPUs und Integration in eingebettete oder IoT-Systeme.
Empfohlene Modelle
  • Gemma 3
  • Granit 3.1 MoE
  • Granite Guardian
  • Granit 3.3
Cookie-Richtlinie

Wir verwenden Cookies, um Ihnen die bestmögliche Erfahrung auf unserer Seite zu bieten, erheben aber keine personenbezogenen Daten.

Die Dienste zur Messung des Publikums, die für den Betrieb und die Verbesserung unserer Website erforderlich sind, ermöglichen es nicht, Sie persönlich zu identifizieren. Sie haben jedoch die Möglichkeit, sich ihrer Nutzung zu widersetzen.

Weitere Informationen finden Sie in unserem Datenschutzrichtlinie.