Compute
Leistungsstarke und skalierbare Rechenressourcen für Ihre kritischen Arbeitslasten. Orchestrieren Sie Ihre Cloud-nativen Anwendungen mit unseren modernen Container-Lösungen.
Entdecken Sie das Angebot Rechnen
Virtuelle Maschinen
VM Instanzen
Eine flexible und sichere On-Demand-Lösung für virtuelle Maschinen auf einer gemeinsam genutzten Infrastruktur.
Dedizierte Server
IaaS OpenSource
Virtualisierte Open-Source-Infrastruktur in einer vertrauenswürdigen, SecNumCloud-qualifizierten Cloud-Umgebung für vollständige technologische Souveränität.
IaaS VMWare
Ihre virtuellen VMware-Maschinen in einer vertrauenswürdigen, SecNumCloud-qualifizierten und HDS-zertifizierten Cloud-Umgebung.
Bare Metal
Dedizierte und vollständig anpassbare Server für die vollständige Autonomie über Ihre souveräne Infrastruktur.
Container
PaaS OpenShift
Die einheitliche Plattform zum Erstellen, Modernisieren und Bereitstellen Ihrer Anwendungen in großem Umfang in einer souveränen Cloud.
Managed Kubernetes
Managed Container-Orchestrierungslösung, die Sicherheit, Ausfallsicherheit und erweiterte Automatisierung auf souveräner Infrastruktur bietet.
Speicherung
Anpassungsfähige und leistungsfähige Speicherlösungen für alle Ihre Bedürfnisse. Optimieren Sie Ihre Daten mit unseren hochverfügbaren Block- und Objektlösungen.
Entdecken Sie das Angebot Storage
Speicherung
Blockspeicher
Die anpassungsfähige Blockspeicherlösung für optimale Speicherleistung in einer souveränen Cloud.
Objektspeicher
Die skalierbare und kostengünstige Speicherlösung für Ihre unstrukturierten Daten in einer souveränen Cloud.
Speichern
Backup solutions
Differenzierte Backup-Lösungen, die auf Ihre Herausforderungen und Umgebungen zugeschnitten sind
Netzwerk
Fortschrittliche Netzwerklösungen, um Ihre Infrastruktur zu verbinden und zu sichern. Stellen Sie Ihre privaten Netzwerke automatisiert und sicher bereit.
Entdecken Sie das Netzwerk-Angebot
Netzwerk
Virtual Private Cloud
Stellen Sie Ihre privaten Netzwerke automatisiert und sicher 100% ein und verwalten Sie sie.
Private Backbone
Übernehmen Sie die volle Kontrolle über Ihr Netzwerk mit erweiterter Layer-2-Konnektivität, die für Hybridarchitekturen und maßgeschneiderte Konfigurationen entwickelt wurde.
Firewall
Managed Firewall
Fortschrittliche Sicherheitslösungen für eine vollständige Isolierung und einen verbesserten Schutz
Unterbringung Sec
Housing - Gewidmeter Raum
Ein sicheres Hosting für Ihre Geräte in einer dedizierten oder gemeinsam genutzten Umgebung, je nach Bedarf.
Sicherheit
Fortschrittliche Sicherheitslösungen zum Schutz Ihrer kritischen Infrastruktur. Kontrollieren Sie den Zugriff und verteidigen Sie sich gegen Online-Bedrohungen.
Entdecken Sie das Angebot Sicherheit
Sicherheit
Anti-DDoS
Der Schutzschild gegen Online-Angriffe
Bastion Host
Zentrale und transparente Zugangskontrolle für einen robusten Schutz Ihrer Infrastruktur
Managed KMS
Souveräne kryptografische Schlüsselverwaltung mit hardwarebasiertem Root of Trust (HSM) zum Schutz Ihrer sensibelsten Daten in der SecNumCloud-Infrastruktur.
Managed SIEM
Eine zentrale Plattform zur Sammlung und Korrelation von Sicherheitslogs, die KI-Automatisierung mit fortschrittlichen Erkennungsregeln (MITRE ATT&CK) verbindet.
AI
Lösungen mit künstlicher Intelligenz, die Ihre Daten in Erkenntnisse verwandeln und Ihre Geschäftsprozesse beschleunigen.
Entdecken Sie das KI-Angebot
AI
LLMaaS
Greifen Sie auf modernste Sprachmodelle auf einer souveränen, SecNumCloud-qualifizierten und HDS-zertifizierten Infrastruktur zu, um leistungsfähige und sichere KI-Anwendungen zu ermöglichen.
GPU
NVIDIA GPU-Instanzen zur Beschleunigung Ihrer Berechnungen für künstliche Intelligenz und High Performance Computing in einer souveränen Cloud.
Data
Datenlösungen, mit denen Sie Ihre kritischen Daten verwalten, analysieren und nutzen können.
Entdecken Sie das Data-Angebot
Datenbanken
Managed MariaDB
Eine vollständig verwaltete relationale MariaDB-Datenbank und PITR-Backup auf souveräner SecNumCloud-Infrastruktur.
Managed PostGreSQL
Die vollständig gemanagte relationale Datenbanklösung auf souveräner SecNumCloud-Infrastruktur
Big Data
Managed Kafka
Die verteilte Open-Source-Plattform für das Streaming von Daten in Echtzeit
Managed File System
Ein verwaltetes, souveränes und hochverfügbares verteiltes Dateisystem, auf das über NFS und SMB in der SecNumCloud-Infrastruktur zugegriffen werden kann.
Management & Governance
Begleitende und unterstützende Dienstleistungen, die Sie bei Ihrer Cloud-Transformation unterstützen.
Entdecken Sie das Begleitangebot
Begleitung
Unterstützungsstufen
Entdecken Sie die drei Ebenen der Unterstützung, um Sie entsprechend Ihren Herausforderungen bestmöglich zu unterstützen.
Professionelle Dienstleistungen
Von der Konzeption bis zur Optimierung begleitet Sie Cloud Temple in jeder Phase Ihres Projekts.
Regierungsführung
Konsole - API - Terraform Provider
Eine einzige Schnittstelle, um Ihre Produkte und Dienstleistungen zu visualisieren und zu verwalten
Beobachtbarkeit
Metriken Ihrer Infrastruktur, die in den Marktstandards verfügbar sind

Unser Large Language Model as a Service (LLMaaS)-Angebot ermöglicht Ihnen den Zugriff auf hochmoderne Sprachmodelle, deren Inferenz mit einer qualifizierten SecNumCloud-Infrastruktur durchgeführt wird, die für das Hosting von Gesundheitsdaten HDS-zertifiziert und damit souverän ist und in Frankreich berechnet wird. Profitieren Sie von einer hohen Leistung und optimaler Sicherheit für Ihre KI-Anwendungen. Ihre Daten bleiben streng vertraulich und werden nach der Verarbeitung weder ausgewertet noch gespeichert.

Einfache und transparente Preisgestaltung
1.8 €
pro Million eingegebener Token
8 €
pro Million ausgegebener Token
8 €
pro Million Reasoning-Tokens
0,01 €
pro transkribierter Audiominute *
Berechnet auf einer in Frankreich ansässigen, SecNumcloud-qualifizierten und HDS-zertifizierten Infrastruktur.
Note zum Preis "Argumentation" : Dieser Preis gilt speziell für Modelle, die als "Reasoner" oder "Hybrid" klassifiziert sind (Modelle mit aktivierter Fähigkeit "Reasoning"), wenn "Reasoning" aktiv ist, und nur auf Token, die mit dieser Aktivität verbunden sind.
* jede angefangene Minute wird gezählt

Große Modelle

Unsere großen Modelle bieten Spitzenleistungen für die anspruchsvollsten Aufgaben. Sie eignen sich besonders für Anwendungen, die ein tiefes Sprachverständnis, komplexes Denken oder die Verarbeitung langer Dokumente erfordern.

50 Token/Sekunde

gemma4:31b

Googles multimodales dichtes Modell, das auf Arena AI weltweit an dritter Stelle steht. Exzellent in Reasoning, Coding und Vision mit einem Kontext von 250K Tokens.
Gemma 4 31B ist das leistungsfähigste Open-Source-Modell von Google (Apache 2.0) und übertrifft in Benchmarks Modelle, die 20× größer sind. Es verfügt über natives Function Calling für agentische Workflows und ein erweitertes visuelles Verständnis (OCR, Grafiken, Dokumente, UI). Seine dichte Architektur mit 31B Parametern bietet ein hervorragendes Verhältnis zwischen Intelligenz und Kosten. Mehrsprachig (35+ Sprachen), ist sie für die Analyse langer Dokumente, Codegenerierung und autonome Agenten optimiert.
88 Token/Sekunde

glm-4.7-flash:30b

Flash-Version des Modells GLM-4.7, optimiert für Geschwindigkeit und Effizienz.
Bietet ein hervorragendes Gleichgewicht zwischen Leistung und Latenz für schlussfolgernde und analytische Aufgaben. Kontext mit 120.000 Token.
19 Token/Sekunde

qwen3-omni:30b

Qwen3-Omni 30B ist ein natives omnimodales Modell, das Text, Bild, Video und Audio in einem einzigen Stream verstehen kann.
Es unterstützt multimodale Eingänge (Audio/Video) und bietet erweiterte Fähigkeiten für Schlussfolgerungen. Hinweis: Die Audioausgabe über API ist noch nicht aktiviert.
94 Token/Sekunde

gpt-oss:120b

OpenAIs hochmodernes Open-Weight-Sprachmodell, das solide Leistung mit einer flexiblen Apache-2.0-Lizenz bietet.
Ein Mixture-of-Experts-Modell (MoE) mit 120 Milliarden Parametern und etwa 5,1 Milliarden aktiven Parametern. Es bietet einen konfigurierbaren Argumentationsaufwand und vollen Zugriff auf die Gedankenkette.
14 Token/Sekunde

llama3.3:70b

Ein von Meta entwickeltes, hochmodernes mehrsprachiges Modell, das sich durch natürlichen Dialog, komplexe Argumentation und nuanciertes Verständnis von Anweisungen auszeichnet.
Durch die Kombination von bemerkenswerter Effizienz mit geringen Rechenressourcen bietet dieses Modell umfangreiche mehrsprachige Fähigkeiten, die acht Hauptsprachen (Englisch, Französisch, Deutsch, Spanisch, Italienisch, Portugiesisch, Hindi und Thai) abdecken. Sein Kontextfenster mit 132.000 Token ermöglicht die gründliche Analyse komplexer Dokumente und langer Konversationen, wobei eine außergewöhnliche Gesamtkonsistenz gewahrt bleibt. Optimiert zur Minimierung von Verzerrungen und problematischen Antworten.
17 Token/Sekunde

gemma3:27b

Googles revolutionäres Modell, das ein optimales Gleichgewicht zwischen Leistung und Effizienz bietet und ein hervorragendes Preis-Leistungs-Verhältnis für anspruchsvolle Geschäftsanwendungen bietet.
Dieses Modell mit seiner unübertroffenen Hardware-Effizienz verfügt über native multimodale Fähigkeiten und zeichnet sich durch mehrsprachige Leistung in über 140 Sprachen aus. Das beeindruckende Kontextfenster mit 120.000 Token macht sie zur idealen Wahl für die Analyse sehr umfangreicher Dokumente, die Suche nach Dokumenten und alle Anwendungen, die das Verständnis erweiterter Kontexte erfordern. Seine optimierte Architektur ermöglicht einen flexiblen Einsatz, ohne die Qualität der Ergebnisse zu beeinträchtigen.
137 Token/Sekunde

qwen3.6:35b

MoE-Modell zur agentischen Kodierung (35B insgesamt, 3B aktiv pro Token), führend auf SWE-bench Verified (73.4%). Nativer Kontext von 1M Token, integrierte multimodale Vision und Tool Calling.
Qwen3.6-35B-A3B ist ein hocheffizienter Mixture-of-Experts (Verhältnis 12:1), der sich im agentischen Software-Engineering auszeichnet. Es versteht ganze Code-Repositories dank seines 1M-Token-Kontexts, unterstützt mehrstufiges Denken mit Beibehaltung des Denkkontexts und integriert Vision, um Screenshots oder Diagramme zu analysieren. Mit einer Punktzahl von 51,5 auf Terminal-Bench 2.0 ist es für IDEs (Cursor, Continue.dev, VS Code Copilot), automatisierte CI/CD-Pipelines und Code Review optimiert.
137 Token/Sekunde

qwen3.5:35b

MoE-Modell, das für Aufgaben der Softwareentwicklung mit einem sehr langen Kontext optimiert ist.
Erweiterte agentische Fähigkeiten für Software-Engineering-Aufgaben, native Unterstützung eines Kontexts von 1M Token, vorab trainiert auf 7,5T Token mit einem hohen Code-Verhältnis und optimiert durch Reinforcement Learning zur Verbesserung der Code-Ausführungsraten.
80 Token/Sekunde

qwen3.5:27b

Besseres generalistisches Modell, verbesserte Wissensabdeckung und Benutzerausrichtung.
Signifikante Verbesserungen bei der Befolgung von Anweisungen, beim logischen Denken, beim Textverständnis, in Mathematik, beim Kodieren und bei der Verwendung von Werkzeugen. Nativer Kontext von 1M Token.
91 Token/Sekunde

qwen-coder-next:80b

MoE-Modell der Spitzenklasse, das für Code und komplexes Denken optimiert ist.
Variante A3B-Coder-Instruct (4-bit AWQ), die mit einem Kontext von 250k Token konfiguriert ist. Hervorragend geeignet für die Generierung und Analyse von Code in großem Umfang.
67 Token/Sekunde

qwen3-next:80b

Next 80B-Modell von Qwen, optimiert für große Kontexte und Argumentation.
Variante A3B-Instruct (NVFP4), konfiguriert mit einem Kontext von bis zu 250k Token, Unterstützung von Function Calling und Guided Decoding.
39 Token/Sekunde

qwen3-vl:30b

Modernstes multimodales Modell (Qwen3-VL) mit außergewöhnlichem visuellen Verständnis und präzisem zeitlichen Denken.
Dieses Vision-Language-Modell integriert wichtige Innovationen (DeepStack, MRoPE) für eine detaillierte Analyse von Bildern und Videos. Es zeichnet sich durch komplexe OCR, Objekterkennung, Grafikanalyse und räumlich-zeitliches Denken aus. Seine Architektur ermöglicht ein natives Verständnis von Videoinhalten und eine präzise strukturierte Extraktion (JSON).
17 Token/Sekunde

qwen3-vl:32b

Hochleistungsvariante von Qwen3-VL, optimiert für anspruchsvollste Bildverarbeitungsaufgaben.
Bietet dieselben erweiterten Funktionen wie das Modell 30B (DeepStack, MRoPE) mit einer verbesserten Modellierungskapazität. Besonders leistungsstark bei Aufgaben, die eine hohe visuelle Analysefähigkeit und ein tiefes Kontextverständnis erfordern. Unterstützt die Text-Zeitstempel-Ausrichtung für Videos.
35 Token/Sekunde

Olmo 3:7b

Referenzmodell "Fully Open" mit vollständiger Transparenz (Daten, Code, Gewicht) und bemerkenswerter Effizienz.
OLMo 3-7B ist ein dichtes Modell, das auf Effizienz optimiert ist (2,5-mal weniger Ressourcen erforderlich als Llama 3.1 8B bei vergleichbarer Leistung). Es zeichnet sich besonders in Mathematik und Programmierung aus. Mit seinem Fenster von 65k Tokens ist es ideal für Aufgaben, die eine vollständige Überprüfbarkeit erfordern.
22 Token/Sekunde

Olmo 3:32b

Das erste vollständig offene Modell dieser Größenordnung, das mit den besten proprietären Modellen konkurriert.
OLMo 3-32B nutzt eine fortschrittliche Architektur (GQA), um außergewöhnliche Denkfähigkeiten zu bieten. Es zeichnet sich bei komplexen Benchmarks (MATH, HumanEvalPlus) aus und ist in der Lage, seinen Denkprozess offenzulegen (Think-Variante). Es ist die erste Wahl für kritische Aufgaben, die eine hohe Leistung und vollständige Transparenz erfordern.
64 Token/Sekunde

qwen3-2507:235b

Massives MoE-Modell mit 235 Milliarden Parametern, von denen nur 22 Milliarden aktiv sind, bietet Spitzenleistung.
Ultra-separate Mixture-of-Experts-Architektur mit 512 Experten (GPTQ-Int4-Int8Mix). Kombiniert die Stärke eines sehr großen Modells mit der Effizienz eines kleineren Modells. Herausragend in Mathematik, Kodierung und logischem Denken.
24 Token/Sekunde

qwen3-vl:235b

Das leistungsstärkste multimodale Modell im Katalog, das modernstes visuelles Verständnis mit außergewöhnlichen Denkfähigkeiten verbindet.
Dieses Vision-Language-Modell zeichnet sich bei der gründlichen Analyse komplexer Dokumente, der mehrsprachigen OCR und der Argumentation bei dichten visuellen und textlichen Inhalten aus.
28 Token/Sekunde

ministral-3:14b

Das leistungsstärkste Modell der Ministral-Familie, entwickelt für komplexe Aufgaben in lokalen Infrastrukturen.
Erweiterter Kontext von 250k Tokens. Exzellent bei komplexem Denken und Verschlüsseln und dabei effizient.
21 Token/Sekunde

cogito:32b

Erweiterte Version des Cogito-Modells mit erheblich erweiterten Denk- und Analysefähigkeiten, die für die anspruchsvollsten Anwendungen im Bereich der analytischen künstlichen Intelligenz entwickelt wurde.
Dieses Modell wurde entwickelt, um bei komplexen Aufgaben, die eine überlegene analytische Tiefe erfordern, zu glänzen. Es zeichnet sich durch seine Fähigkeit aus, mehrdimensionale Probleme aufzuschlüsseln und strukturierte, begründete Antworten zu geben. Es enthält fortschrittliche logische Überprüfungsmechanismen, um Halluzinationen zu minimieren.
160 Token/Sekunde

nemotron3-nano:30b

NVIDIA-Modell, das für komplexes Denken und die Verwendung von Tools optimiert ist und einen Kontext von 1M Token aufweist.
Verwendet die Nano V3-Architektur in FP8. Herausragend bei Function Calling, strukturiertem Denken und der Analyse von langen Kontexten. Kontext mit 1M Token.
130 Token/Sekunde

nemotron-Kaskade:30b

NVIDIA-Modell, das für die Zerlegung mathematischer Probleme und die Verwendung von Werkzeugen optimiert wurde. Goldmedaille 2025 bei der Internationalen Mathematik-Olympiade.
Ausgezeichnet in Function Calling, strukturiertem Denken und der Analyse langer Zusammenhänge. Kontext mit 1M Token.
72 Token/Sekunde

nemotron-3-super:120b

Solide Agenten-, Argumentations- und Konversationsfähigkeiten. Optimiert für kollaborative Agenten und hochvolumige Arbeitslasten.
Ideal für agentische Workflows, Long Context Reasoning, hochvolumige Arbeitslasten (z. B. Automatisierung von IT-Support-Tickets), den Einsatz von Tools und RAG. Kontext mit 1M Token.

Spezialisierte Vorlagen

Unsere spezialisierten Modelle sind für bestimmte Aufgaben wie Code-Generierung, Bildanalyse oder die Verarbeitung strukturierter Daten optimiert. Sie bieten ein hervorragendes Verhältnis von Leistung und Kosten für gezielte Anwendungsfälle.

22 Token/Sekunde

ministral-3:3b

Kompaktes Spitzenmodell von Mistral AI, entwickelt für Effizienz bei lokalen und Edge-Implementierungen.
Trotz seiner geringen Größe bietet dieses Modell eine erstaunliche Leistung bei Konversationsaufgaben und einfachem Denken. Ideal für mobile Geräte.
40 Token/Sekunde

Ministral-3:8b

Mittleres Modell der Ministral-Familie, das ein optimales Gleichgewicht zwischen Leistung und Ressourcen bietet.
Robustere Version 8B, die mit längeren Kontexten und komplexeren Argumentationen umgehen kann und dabei sehr schnell bleibt.
40 Token/Sekunde

functiongemma:270m

Gemma-Mikromodell, das auf Function Calling und die Erkennung von Absichten bei Werkzeugaufrufen spezialisiert ist.
FunctionGemma 270M ist ein ultrakompaktes Modell, das für die Identifizierung und Formatierung von Funktionsaufrufen optimiert wurde. Ideal als Router oder Vorfilter in einer modellübergreifenden Agency-Architektur.
49 Token/Sekunde

granite3.2-vision:2b

Kompaktes multimodales Modell IBM Granite, das auf die Analyse von visuellen Dokumenten spezialisiert ist.
Granite 3.2 Vision 2B ist ein leichtes, aber leistungsstarkes Modell für OCR, die Extraktion von Daten aus gescannten Dokumenten und die Bildanalyse. Ideal für Bildverarbeitungsaufgaben mit niedriger Latenz.

qwen3-Einbettung: 0.6b

Ultraleichtes Qwen3-Embedding-Modell, optimiert für Geschwindigkeit und Effizienz in Infrastrukturen mit begrenzten Ressourcen.
Bietet einen hervorragenden Kompromiss zwischen semantischer Leistung und schneller Ausführung.
196.3 Token/Sekunde

granite-embedding:278m

Ultrakompaktes IBM Granite-Embedding-Modell, das auf maximale Effizienz ausgelegt ist.
Ideal für semantische Suchaufgaben, die eine minimale Latenz erfordern.

qwen3-Einbettung:4b

Extrem leistungsstarkes Qwen3-4B-Einbettungsmodell, das ein tiefes semantisches Verständnis und ein erweitertes Kontextfenster bietet.
Kontext von 40 000 Token für die Verarbeitung umfangreicher Dokumente.
171 Token/Sekunde

bge-m3:567m

Modernstes mehrsprachiges Einbettungsmodell (BGE-M3) mit außergewöhnlichen semantischen Suchmöglichkeiten in über 100 Sprachen.
Kontext von 8192 Token. Unterstützt dense, sparse und multi-vektorielle Suchmethoden.
175 Token/Sekunde

embeddinggemma:300m

Googles hochmodernes, größenoptimiertes Einbettungsmodell, das sich ideal für semantische Such- und Abrufaufgaben eignet.
Aufgebaut auf Gemma 3, erzeugt dieses Modell vektorbasierte Textdarstellungen für Klassifizierung, Clustering und Ähnlichkeitssuche. Es wurde mit über 100 Sprachen trainiert und eignet sich aufgrund seiner geringen Größe perfekt für Umgebungen mit begrenzten Ressourcen.
57 Token/Sekunde

gpt-oss:20b

OpenAIs open-weight-Sprachmodell, optimiert für Effizienz und den Einsatz auf Consumer-Hardware.
Ein Mixture-of-Experts-Modell (MoE) mit 21 Milliarden Parametern und 3,6 Milliarden aktiven Parametern. Es bietet einen konfigurierbaren Argumentationsaufwand und Agentenfähigkeiten.
55 Token/Sekunde

qwen3-2507-think:4b

Für das logische Denken optimiertes Qwen3-4B-Modell mit verbesserter Leistung bei logischen Aufgaben, Mathematik, Wissenschaft und Code sowie einem auf 250K Token erweiterten Kontext.
Diese Version "Thinking" verfügt über eine erhöhte Gedankenlänge, wodurch sie sich ideal für sehr komplexe Denkaufgaben eignet. Sie bietet außerdem allgemeine Verbesserungen bei der Befolgung von Anweisungen, der Verwendung von Werkzeugen und der Texterzeugung.
22 Token/Sekunde

rnj-1:8b

Modell 8B "Open Weight" mit Schwerpunkt auf Programmierung, Mathematik und Naturwissenschaften (STEM).
RNJ-1 ist ein dichtes Modell mit 8,3 Milliarden Parametern, das auf 8,4 Billionen Tokens trainiert wurde. Es nutzt globale Aufmerksamkeit und YaRN, um einen Kontext von 32.000 Tokens zu bieten. Es zeichnet sich durch seine Fähigkeiten in der Code-Generierung (83,51 TP3T HumanEval+) und im mathematischen Denken aus und übertrifft dabei oft viel größere Modelle.
64 Token/Sekunde

qwen3-vl:2b

Ultrakompaktes multimodales Modell Qwen3-VL, das Edge-Geräten fortschrittliche Bildverarbeitungsfunktionen verleiht.
Trotz seiner geringen Größe verfügt dieses Modell über die Technologien Qwen3-VL (MRoPE, DeepStack) und bietet eine beeindruckende Bild- und Videoanalyse. Ideal für mobile oder eingebettete Anwendungen, die OCR, Objekterkennung oder schnelles visuelles Verständnis erfordern.
49 Token/Sekunde

qwen3-vl:4b

Ausgewogenes multimodales Modell Qwen3-VL, das solide Bildverarbeitungsleistung bei geringem Platzbedarf bietet.
Hervorragender Kompromiss zwischen Leistung und Ressourcen. Kann komplexe Dokumente, Grafiken und Videos mit hoher Genauigkeit analysieren. Unterstützt strukturierte Extraktion und visuelles Denken.
16 Token/Sekunde

qwen3.5:0.8b

Ultraleichtes Qwen3.5-Modell mit 0,8 Milliarden Parametern, das einen außergewöhnlichen nativen Kontext von 250K Token bietet - eine bemerkenswerte Kapazität für ein Modell dieser Größe.
Kontext mit 250.000 Token konfiguriert (max. nativer Kontext 262.144). Ideal für schnelle Konversationsaufgaben, die eine sehr lange Historie erfordern, oder für die Analyse großer Dokumente mit geringem Speicherplatzbedarf.
37 Token/Sekunde

qwen3.5:4b

Kompaktes Qwen3.5-Modell mit 4 Milliarden Parametern, das einen guten Kompromiss zwischen Leistung und Effizienz bietet.
Kontext mit 250k Tokens. Guter Kandidat für lokale Assistenten und Aufgaben im Bereich des leichten Denkens.
32 Token/Sekunde

qwen3.5:9b

Mittelgroßes Qwen3.5-Modell, das solide Denkfähigkeiten mit einem erweiterten Kontext bietet.
Kontext mit 250k Tokens. Bietet ein gutes Gleichgewicht zwischen Generierungsqualität und Inferenzgeschwindigkeit.
46 Token/Sekunde

qwen3:0.6b

Ultraleichtes Qwen3-Modell mit 0,6 Milliarden Parametern, das eine außergewöhnliche Inferenzgeschwindigkeit für einfache und schnelle Aufgaben bietet.
Ideal für den Einsatz auf schlanken Servern oder als erste Verarbeitungsstufe für komplexe Workflows. Konfiguriert mit einem Kontext von 40.000 Token.
39 Token/Sekunde

qwen3-vl:8b

Multimodales Modell Qwen3-VL (8B), das fortschrittliche Bildverarbeitungsleistung bei einem angemessenen Fußabdruck bietet.
8B-Version des Modells Qwen3-VL. Ausgezeichneter Kompromiss zwischen Leistung und Ressourcen. In der Lage, komplexe Dokumente, Grafiken und Videos mit hoher Genauigkeit zu analysieren.
33 Token/Sekunde

devstral-small-2:24b

Zweite Iteration von Devstral (Small 2), einem führenden agentischen Modell für die Softwareentwicklung.
Optimiert für das Durchsuchen von Codebasen, das Bearbeiten mehrerer Dateien und die Verwendung von Tools. Bietet nahezu die Leistung von >100B-Modellen für Code (SWE-bench Verified 68%). Unterstützt nativ die Bildverarbeitung. Kontext von 200k Token.
84 Token/Sekunde

deepseek-ocr

Spezialisiertes OCR-Modell von DeepSeek, das für eine hochpräzise Textextraktion unter Beibehaltung der Formatierung entwickelt wurde.
Zweistufiges OCR-System (visueller Encoder + MoE 3B Decoder), das für die Umwandlung von Dokumenten in strukturiertes Markdown (Tabellen, Formeln) optimiert ist. Erfordert eine spezielle Vorverarbeitung (Logits Processor) für optimale Leistung.
28 Token/Sekunde

mistral-small3.2:24b

Kleines Update von Mistral Small 3.1, das die Verfolgung von Anweisungen und die Robustheit des Function Calling verbessert und Wiederholungsfehler reduziert.
Diese Version 3.2 behält die Stärken ihres Vorgängers bei und bringt gleichzeitig gezielte Verbesserungen mit sich. Sie kann präzisen Anweisungen besser folgen, produziert weniger unendliche Generationen oder sich wiederholende Antworten und ihre Schablone für Function Calling ist robuster.
100 Token/Sekunde

mistral-small4:119b

Kleines Update von Mistral Small 3.2, das die Verfolgung von Anweisungen und die Robustheit des Function Calling verbessert und Wiederholungsfehler reduziert.
Diese Version 4 behält die Stärken ihres Vorgängers bei und bringt gleichzeitig gezielte Verbesserungen mit sich. Sie kann präzisen Anweisungen besser folgen, produziert weniger unendliche Generationen oder sich wiederholende Antworten und ihre Schablone für Function Calling ist robuster.
27 Token/Sekunde

translategemma:12b

Modernstes offenes Übersetzungsmodell auf der Grundlage von Gemma 3, das 55 Sprachen abdeckt.
TranslateGemma 12B bietet High-Fidelity-Übersetzungsmöglichkeiten unter Berücksichtigung von Grammatik und kulturellen Nuancen. Kontext von 128k Tokens.
37 Token/Sekunde

translategemma:4b

Kompakte Version der TranslateGemma-Übersetzungsvorlage, die für Schnelligkeit optimiert ist.
TranslateGemma 4B bietet schnelle und effiziente Übersetzungsmöglichkeiten für 55 Sprachen. Kontext von 128k Tokens.
16 Token/Sekunde

translategemma:27b

Hochleistungsübersetzungsmodell auf der Grundlage von Gemma 3 27B.
TranslateGemma 27B bietet eine hohe Übersetzungsqualität für komplexe und technische Inhalte.

voxtral

Echtzeit-ASR-Modell (Automatic Speech Recognition) von Mistral AI, das über WebSocket gestreamtes Audio transkribieren kann.
Voxtral Mini 4B arbeitet im Realtime-Modus über den Endpunkt /v1/realtime (WebSocket). Es transkribiert Audio kontinuierlich mit Token-Extraktion und Verfolgung der ASR-Zeit.

z-Bild:16b

Vorlage zur Generierung von Bildern aus Textprompts, kompatibel mit der OpenAI API /v1/images/generations.
Z-Image Turbo ist eine Vorlage zur Bilderzeugung, die mit der OpenAI Images API kompatibel ist. Es unterstützt die Parameter Größe und Anzahl der Bilder.

Vergleich der Modelle

Diese Vergleichstabelle hilft Ihnen bei der Auswahl des für Sie am besten geeigneten Modells anhand verschiedener Kriterien wie Kontextgröße, Leistung und spezifische Anwendungsfälle.

Vergleichende Tabelle der Merkmale und Leistungen der verschiedenen verfügbaren KI-Modelle, gruppiert nach Kategorien (große Modelle und spezialisierte Modelle).
Modell Herausgeber Einstellungen Kontext (k tokens) Vision Agent Argumentation Sicherheit Schnell * Energieeffizienz *
Große Modelle
gemma4:31b Google 31B 250000
glm-4.7-flash:30b Zhipu AI 30B 120000
qwen3-omni:30b Qwen Team 30B 32768
gpt-oss:120b OpenAI 120B 120000
llama3.3:70b Meta 70B 132000
gemma3:27b Google 27B 120000
qwen3.6:35b Qwen Team 35B 1000000
qwen3.5:35b Qwen Team 35B 1000000
qwen3.5:27b Qwen Team 27B 1000000
qwen-coder-next:80b Qwen Team 80B 250000
qwen3-next:80b Qwen Team 80B 250000
qwen3-vl:30b Qwen Team 30B 250000
qwen3-vl:32b Qwen Team 32B 250000
Olmo 3:7b AllenAI 7B 65536
Olmo 3:32b AllenAI 32B 65536
qwen3-2507:235b Qwen Team 235B 200000
qwen3-vl:235b Qwen Team 235B 200000
ministral-3:14b Mistral AI 14B 250000
cogito:32b Deep Cogito 32B 32000
nemotron3-nano:30b NVIDIA 30B 1000000
nemotron-Kaskade:30b NVIDIA 30B 1000000
nemotron-3-super:120b NVIDIA 120B 1000000
Spezialisierte Vorlagen
ministral-3:3b Mistral AI 3B 250000
Ministral-3:8b Mistral AI 8B 250000
functiongemma:270m Google 270 Mio. 32768
granite3.2-vision:2b IBM 2B 16384
qwen3-Einbettung: 0.6b Qwen Team 0.6B 32768
granite-embedding:278m IBM 278M 512
qwen3-Einbettung:4b Qwen Team 4B 40000
bge-m3:567m BAAI 567M 8192
embeddinggemma:300m Google 300M 2048
gpt-oss:20b OpenAI 20B 120000
qwen3-2507-think:4b Qwen Team 4B 250000
rnj-1:8b Essential AI 8B 32000
qwen3-vl:2b Qwen Team 2B 250000
qwen3-vl:4b Qwen Team 4B 250000
qwen3.5:0.8b Qwen Team 0.8B 250000
qwen3.5:4b Qwen Team 4B 250000
qwen3.5:9b Qwen Team 9B 250000
qwen3:0.6b Qwen Team 0.6B 40000
qwen3-vl:8b Qwen Team 8B 250000
devstral-small-2:24b Mistral AI & All Hands AI 24B 200000
deepseek-ocr DeepSeek AI 3B 8192
mistral-small3.2:24b Mistral AI 24B 128000
mistral-small4:119b Mistral AI 119B 262144
translategemma:12b Google 12B 128000
translategemma:4b Google 4B 128000
translategemma:27b Google 27B 120000
voxtral Mistral AI 4B 32768 N.C.
z-Bild:16b Community 16B N.C.
Legende und Erklärung
: Von der Vorlage unterstützte Funktionalität oder Fähigkeit
: Feature oder Fähigkeit, die von der Vorlage nicht unterstützt wird
* Energieeffizienz : Zeigt einen besonders niedrigen Energieverbrauch an (< 2.0 kWh/Mtoken)
* Schnell : Modell, das in der Lage ist, mehr als 50 Token pro Sekunde zu erzeugen
Anmerkung zu den Leistungsmessungen
Die Geschwindigkeitswerte (Token/s) stellen Leistungsziele unter realen Bedingungen dar. Der Energieverbrauch (kWh/Mtoken) wird berechnet, indem die geschätzte Leistung des Inferenzservers (in Watt) durch die gemessene Geschwindigkeit des Modells (in Token/Sekunde) dividiert und dann in Kilowattstunden pro Million Token umgerechnet wird (Division durch 3,6). Diese Methode bietet einen praktischen Vergleich der Energieeffizienz verschiedener Modelle, der als relativer Indikator und nicht als absolutes Maß für den Stromverbrauch verwendet werden sollte.

Empfohlene Anwendungsfälle

Im Folgenden finden Sie einige häufige Anwendungsfälle und die dafür jeweils am besten geeigneten Modelle. Diese Empfehlungen basieren auf der spezifischen Leistung und den Fähigkeiten der einzelnen Modelle.

Mehrsprachiger Dialog

Chatbots und Assistenten, die in mehreren Sprachen kommunizieren können, mit automatischer Erkennung, Aufrechterhaltung des Kontexts über die gesamte Konversation hinweg und Verständnis für sprachliche Besonderheiten
Empfohlene Modelle
  • nemotron-3-super:120b
  • qwen3.6:27b
  • nemotron3-nano:30b
  • gpt-oss:120b

Analyse langer Dokumente

Verarbeitung umfangreicher Dokumente (>100 Seiten) mit Kontexterhaltung über den gesamten Text, Extraktion von Schlüsselinformationen, Generierung relevanter Zusammenfassungen und Beantwortung spezifischer Fragen zum Inhalt
Empfohlene Modelle
  • nemotron-3-super:120b
  • qwen3.6:27b
  • qwen3-2507:235b

Programmierung und Entwicklung

Generierung und Optimierung von Code in mehreren Sprachen, Debugging, Refactoring, Entwicklung vollständiger Funktionen, Verständnis komplexer algorithmischer Implementierungen und Erstellung von Unit-Tests
Empfohlene Modelle
  • qwen3.6:27b
  • qwen3-2507:235b
  • qwen-coder-next:80b
  • nemotron-3-super:120b

Visuelle Analyse

Direkte Verarbeitung von Bildern und visuellen Dokumenten ohne OCR-Vorverarbeitung, Interpretation von technischen Diagrammen, Grafiken, Tabellen, Zeichnungen und Fotos mit Generierung von detaillierten Texterklärungen zum visuellen Inhalt.
Empfohlene Modelle
  • qwen3.6:27b
  • deepseek-ocr
  • qwen3.6:35b

Sicherheit und Compliance

Anwendungen, die spezifische Sicherheitsfunktionen erfordern; Filterung sensibler Inhalte, Nachvollziehbarkeit der Argumentation, Überprüfung der DSGVO/HDS, Risikominimierung, Schwachstellenanalyse und Einhaltung von Branchenvorschriften
Empfohlene Modelle
  • granite3-guardian:8b
  • qwen3.6:27b
  • granite3-guardian:2b

Leichte und eingebettete Einsätze

Testen bei Cloud Temple von Anwendungen, die einen minimalen Ressourcen-Fußabdruck erfordern, Einsatz auf Geräten mit begrenzter Kapazität, Echtzeit-Inferenzen auf Standard-CPUs und Integration in eingebettete Systeme oder IoT.
Empfohlene Modelle
  • qwen3.5:0.8b
  • qwen3-vl:2b
  • ministral-3:3b
Kontaktieren Sie unser Team!
Cookie-Richtlinie

Wir verwenden Cookies, um Ihnen die bestmögliche Erfahrung auf unserer Seite zu bieten, erheben aber keine personenbezogenen Daten.

Die Dienste zur Messung des Publikums, die für den Betrieb und die Verbesserung unserer Website erforderlich sind, ermöglichen es nicht, Sie persönlich zu identifizieren. Sie haben jedoch die Möglichkeit, sich ihrer Nutzung zu widersetzen.

Weitere Informationen finden Sie in unserem Datenschutzrichtlinie.