Compute
Leistungsstarke und skalierbare Rechenressourcen für Ihre kritischen Arbeitslasten. Orchestrieren Sie Ihre Cloud-nativen Anwendungen mit unseren modernen Container-Lösungen.
Entdecken Sie das Angebot Rechnen
Virtuelle Maschinen
VM Instanzen
Eine flexible und sichere On-Demand-Lösung für virtuelle Maschinen auf einer gemeinsam genutzten Infrastruktur.
Dedizierte Server
IaaS OpenSource
Virtualisierte Open-Source-Infrastruktur in einer vertrauenswürdigen, SecNumCloud-qualifizierten Cloud-Umgebung für vollständige technologische Souveränität.
IaaS VMWare
Ihre virtuellen VMware-Maschinen in einer vertrauenswürdigen, SecNumCloud-qualifizierten und HDS-zertifizierten Cloud-Umgebung.
Bare Metal
Dedizierte und vollständig anpassbare Server für die vollständige Autonomie über Ihre souveräne Infrastruktur.
Container
PaaS OpenShift
Die einheitliche Plattform zum Erstellen, Modernisieren und Bereitstellen Ihrer Anwendungen in großem Umfang in einer souveränen Cloud.
Managed Kubernetes
Managed Container-Orchestrierungslösung, die Sicherheit, Ausfallsicherheit und erweiterte Automatisierung auf souveräner Infrastruktur bietet.
Speicherung
Anpassungsfähige und leistungsfähige Speicherlösungen für alle Ihre Bedürfnisse. Optimieren Sie Ihre Daten mit unseren hochverfügbaren Block- und Objektlösungen.
Entdecken Sie das Angebot Storage
Speicherung
Blockspeicher
Die anpassungsfähige Blockspeicherlösung für optimale Speicherleistung in einer souveränen Cloud.
Objektspeicher
Die skalierbare und kostengünstige Speicherlösung für Ihre unstrukturierten Daten in einer souveränen Cloud.
Speichern
Backup solutions
Differenzierte Backup-Lösungen, die auf Ihre Herausforderungen und Umgebungen zugeschnitten sind
Netzwerk
Fortschrittliche Netzwerklösungen, um Ihre Infrastruktur zu verbinden und zu sichern. Stellen Sie Ihre privaten Netzwerke automatisiert und sicher bereit.
Entdecken Sie das Netzwerk-Angebot
Netzwerk
Virtual Private Cloud
Stellen Sie Ihre privaten Netzwerke automatisiert und sicher 100% ein und verwalten Sie sie.
Private Backbone
Übernehmen Sie die volle Kontrolle über Ihr Netzwerk mit erweiterter Layer-2-Konnektivität, die für Hybridarchitekturen und maßgeschneiderte Konfigurationen entwickelt wurde.
Firewall
Managed Firewall
Fortschrittliche Sicherheitslösungen für eine vollständige Isolierung und einen verbesserten Schutz
Unterbringung Sec
Housing - Gewidmeter Raum
Ein sicheres Hosting für Ihre Geräte in einer dedizierten oder gemeinsam genutzten Umgebung, je nach Bedarf.
Sicherheit
Fortschrittliche Sicherheitslösungen zum Schutz Ihrer kritischen Infrastruktur. Kontrollieren Sie den Zugriff und verteidigen Sie sich gegen Online-Bedrohungen.
Entdecken Sie das Angebot Sicherheit
Erkennung
Managed SIEM
Eine zentrale Plattform zur Sammlung und Korrelation von Sicherheitslogs, die KI-Automatisierung mit fortschrittlichen Erkennungsregeln (MITRE ATT&CK) verbindet.
Sovereign SOC
Ein souveränes, rund um die Uhr betriebenes SOC-Angebot, das über unseren Marketplace auf einer SecNumCloud-qualifizierten Infrastruktur bereitgestellt werden kann.
Schutz
Anti-DDoS
Der Schutzschild gegen Online-Angriffe
Bastion Host
Zentrale und transparente Zugangskontrolle für einen robusten Schutz Ihrer Infrastruktur
Managed KMS
Souveräne kryptografische Schlüsselverwaltung mit hardwarebasiertem Root of Trust (HSM) zum Schutz Ihrer sensibelsten Daten in der SecNumCloud-Infrastruktur.
AI
Lösungen mit künstlicher Intelligenz, die Ihre Daten in Erkenntnisse verwandeln und Ihre Geschäftsprozesse beschleunigen.
Entdecken Sie das KI-Angebot
AI
LLMaaS
Greifen Sie auf modernste Sprachmodelle auf einer souveränen, SecNumCloud-qualifizierten und HDS-zertifizierten Infrastruktur zu, um leistungsfähige und sichere KI-Anwendungen zu ermöglichen.
GPU
NVIDIA GPU-Instanzen zur Beschleunigung Ihrer Berechnungen für künstliche Intelligenz und High Performance Computing in einer souveränen Cloud.
Data
Datenlösungen, mit denen Sie Ihre kritischen Daten verwalten, analysieren und nutzen können.
Entdecken Sie das Data-Angebot
Datenbanken
Managed MariaDB
Eine vollständig verwaltete relationale MariaDB-Datenbank und PITR-Backup auf souveräner SecNumCloud-Infrastruktur.
Managed PostGreSQL
Die vollständig gemanagte relationale Datenbanklösung auf souveräner SecNumCloud-Infrastruktur
Big Data
Managed Kafka
Die verteilte Open-Source-Plattform für das Streaming von Daten in Echtzeit
Managed File System
Ein verwaltetes, souveränes und hochverfügbares verteiltes Dateisystem, auf das über NFS und SMB in der SecNumCloud-Infrastruktur zugegriffen werden kann.
Management & Governance
Begleitende und unterstützende Dienstleistungen, die Sie bei Ihrer Cloud-Transformation unterstützen.
Entdecken Sie das Begleitangebot
Begleitung
Unterstützungsstufen
Entdecken Sie die drei Ebenen der Unterstützung, um Sie entsprechend Ihren Herausforderungen bestmöglich zu unterstützen.
Professionelle Dienstleistungen
Von der Konzeption bis zur Optimierung begleitet Sie Cloud Temple in jeder Phase Ihres Projekts.
Regierungsführung
Konsole - API - Terraform Provider
Eine einzige Schnittstelle, um Ihre Produkte und Dienstleistungen zu visualisieren und zu verwalten
Beobachtbarkeit
Metriken Ihrer Infrastruktur, die in den Marktstandards verfügbar sind

Unser Large Language Model as a Service (LLMaaS)-Angebot ermöglicht Ihnen den Zugriff auf hochmoderne Sprachmodelle, deren Inferenz mit einer qualifizierten SecNumCloud-Infrastruktur durchgeführt wird, die für das Hosting von Gesundheitsdaten HDS-zertifiziert und damit souverän ist und in Frankreich berechnet wird. Profitieren Sie von einer hohen Leistung und optimaler Sicherheit für Ihre KI-Anwendungen. Ihre Daten bleiben streng vertraulich und werden nach der Verarbeitung weder ausgewertet noch gespeichert.

Einfache und transparente Preisgestaltung
1.8 €
pro Million eingegebener Token
8 €
pro Million ausgegebener Token
8 €
pro Million Reasoning-Tokens
4 €
pro Million Reranking-Tokens
0,01 €
pro transkribierter Audiominute *
Berechnet auf einer in Frankreich ansässigen, SecNumcloud-qualifizierten und HDS-zertifizierten Infrastruktur.
Note zum Preis "Argumentation" : Dieser Preis gilt speziell für Modelle, die als "Reasoner" oder "Hybrid" klassifiziert sind (Modelle mit aktivierter Fähigkeit "Reasoning"), wenn "Reasoning" aktiv ist, und nur auf Token, die mit dieser Aktivität verbunden sind.
* jede angefangene Minute wird gezählt

Katze & Vernunft

Unsere großen Modelle bieten Spitzenleistungen für die anspruchsvollsten Aufgaben. Sie eignen sich besonders für Anwendungen, die ein tiefes Sprachverständnis, komplexes Denken oder die Verarbeitung langer Dokumente erfordern.

80 Token/Sekunde

qwen3.6:27b

Generalistisches Referenzmodell mit einem nativen Kontext von 1M Token. Exzellent in Argumentation, Befolgung von Anweisungen und mehrsprachig.
Signifikante Verbesserungen beim Befolgen von Anweisungen, beim logischen Denken, beim Textverständnis, in Mathematik, beim Kodieren und bei der Verwendung von Werkzeugen. Sein Kontext von 1M Token ermöglicht die Analyse ganzer Dokumente ohne Trunkierung.
94 Token/Sekunde

gpt-oss:120b

OpenAIs hochmodernes Open-Weight-Modell mit konfigurierbarer Argumentation und transparenter Gedankenkette.
Mixture-of-Experts-Modell mit 120 Milliarden Parametern, das konfigurierbare Argumentation und vollständigen Zugriff auf die Gedankenkette bietet. Ideal für Szenarien, die eine permissive Lizenz (Apache 2.0) erfordern.
41 Token/Sekunde

gpt-oss:20b

Kompakte Version des OpenAI-Modells, optimiert für schnelle Inferenzen mit guten Schlußfolgerungsfähigkeiten.
Mixture-of-Experts-Modell mit 21 Milliarden Parametern und 3,6 Milliarden aktiven Parametern. Konfigurierbares Reasoning und umfassende Agentenfähigkeiten.
10 Token/Sekunde

llama3.3:70b

Mehrsprachiges Meta-Modell, ausgezeichnet für natürliche Dialoge und nuanciertes Verstehen in 8 Sprachen.
Unterstützt Englisch, Französisch, Deutsch, Spanisch, Italienisch, Portugiesisch, Hindi und Thai. Sein Fenster mit 132k Tokens ermöglicht die Analyse komplexer Dokumente und langer Gespräche.
23 Token/Sekunde

gemma3:27b

Googles multimodales Modell mit integrierter Vision und Unterstützung von 140+ Sprachen. Kontext von 120K Tokens.
Integriert native multimodale Fähigkeiten (Text + Bild) und zeichnet sich in über 140 Sprachen aus. Ideal für die Analyse umfangreicher Dokumente und die Literatursuche.
72 Token/Sekunde

nemotron-3-super:120b

NVIDIA-Modell, optimiert für kollaborative Agenten, Long Reasoning und hochvolumige Arbeitslasten. 1M-Token-Kontext.
Ideal für agentische Workflows, Long Context Reasoning, Automatisierung mit hohem Volumen (Support-Tickets, Massenanalysen), Werkzeugnutzung und RAG.
160 Token/Sekunde

nemotron3-nano:30b

Ultra-schnelles NVIDIA-Modell (160 U/s) mit Reasoning und Function Calling. Kontext von 1M Token.
Herausragend beim Function Calling, strukturiertem Denken und der Analyse langer Kontexte. Seltene Kombination aus hoher Geschwindigkeit und sehr langem Kontext.
130 Token/Sekunde

nemotron-Kaskade:30b

NVIDIA-Modell, das auf Mathematik (IMO 2025 Goldmedaille) und Problemzerlegung spezialisiert ist. Hintergrund 1M Token.
Ausgezeichnet in strukturiertem Denken, beim Lösen komplexer mathematischer Probleme und bei der Analyse längerer Zusammenhänge.
88 Token/Sekunde

glm-4.7-flash:30b

Schnelles Modell mit einem ausgezeichneten Leistungs-Latenz-Verhältnis für logisches Denken und Analysen.
Bietet schnelle Inferenzen (88 t/s) mit einem Kontext von 120k Token. Besonders geeignet für Konversationsassistenten, die eine geringe Latenz benötigen.
21 Token/Sekunde

cogito:32b

Fortgeschrittenes analytisches Denkmodell, das für die Zerlegung komplexer Probleme und die logische Überprüfung entwickelt wurde.
Hervorragend in der Mehrfaktorenanalyse, der formalen Beweisführung und der Minimierung von Halluzinationen durch eingebaute logische Überprüfungsmechanismen.
22 Token/Sekunde

Olmo 3:32b

Erstes vollständig offenes Argumentationsmodell in diesem Umfang. Völlige Transparenz (Daten, Code, Gewicht).
Kann mit den besten proprietären Modellen in komplexen Benchmarks (MATH, HumanEval+) konkurrieren. Ist in der Lage, seinen Denkprozess darzulegen. Bevorzugte Wahl für Transparenz und Prüfbarkeit.
35 Token/Sekunde

Olmo 3:7b

Völlig offenes und effizientes Modell, ausgezeichnet in Mathematik und Programmierung mit vollständiger Transparenz.
Auf Effizienz optimiert (2,5x weniger Ressourcen als Llama 3.1 8B). Ideal für Aufgaben, die eine vollständige Reproduzierbarkeit und Prüfbarkeit erfordern.
56 Token/Sekunde

qwen3-2507:235b

Das leistungsstärkste Modell im Katalog (235B Einstellungen, 22B aktiv). Ausgezeichnet in Mathematik, Kodierung und logischem Denken.
Ultra-separate Mixture-of-Experts-Architektur, die die Stärke eines sehr großen Modells mit der Effizienz eines kleineren Modells kombiniert.
28 Token/Sekunde

mistral-small3.2:24b

Mistral-Modell mit verbesserter Anweisungsverfolgung, robustem Function Calling und visionären Fähigkeiten. Integrierte Erkennung von problematischen Inhalten.
Hervorragende Befolgung von Anweisungen, weniger Wiederholungen, zuverlässiges Function Calling. Unterstützt Vision (Bildanalyse) und integriert native Sicherheitsfilter.
100 Token/Sekunde

mistral-small4:119b

Hochleistungsmodell Mistral (119B) mit Vision, Ausfallsicherheit und einem Kontext von 262K Token. Schnell (100 t/s).
Breite Version der Mistral Small-Familie. Kombiniert Leistung, Geschwindigkeit und Zuverlässigkeit mit einem erweiterten Kontext. Native Sicherheitsfilter.
28 Token/Sekunde

ministral-3:14b

Das leistungsstärkste der Ministral-Familie, mit erweiterter Argumentation und Verschlüsselung. Kontext von 250K Token.
Zeichnet sich durch komplexes Denken und Kodieren aus und bleibt dabei effizient.
40 Token/Sekunde

Ministral-3:8b

Mittleres Ministral-Modell mit einem hervorragenden Kompromiss zwischen Leistung und Geschwindigkeit. Kontext von 250K Tokens.
Kann komplexe Gedankengänge ausführen und dabei schnell bleiben. Ideal für Assistenten, die schnelle Reaktionen und Qualität benötigen.
22 Token/Sekunde

ministral-3:3b

Kompaktes Modell Mistral, das trotz seiner geringen Größe leistungsfähig ist. Kontext von 250K Token.
Überraschende Leistungen bei Konversationsaufgaben und einfachem Denken trotz nur 3B-Einstellungen.
32 Token/Sekunde

qwen3.5:9b

Mittleres Qwen3.5-Modell mit solider Argumentation und erweitertem Kontext auf 250K Token.
Gutes Gleichgewicht zwischen Generierungsqualität und Inferenzgeschwindigkeit.
37 Token/Sekunde

qwen3.5:4b

Kompaktes Qwen3.5-Modell mit guter Leistung/Effizienz und 250K-Token-Kontext.
Guter Kandidat für Assistenten und leichte Denkaufgaben.
16 Token/Sekunde

qwen3.5:0.8b

Ultraleichtes Modell mit einem außergewöhnlichen Hintergrund von 250K Token - bemerkenswert für ein Modell dieser Größe.
Ideal für schnelle Konversationsaufgaben, die einen sehr langen Verlauf erfordern, oder für die Analyse umfangreicher Dokumente mit einem geringen Footprint.
46 Token/Sekunde

qwen3:0.6b

Ultraschnelles Mikromodell für einfache Aufgaben und Routing. 40K Kontext-Tokens.
Ideal als erste Verarbeitungsstufe in komplexen Workflows oder für schnelle Klassifizierungsaufgaben.
55 Token/Sekunde

qwen3-2507-think:4b

Kompaktes Modell, das für Deep Reasoning (Logik, Mathematik, Wissenschaft, Code) optimiert ist. Kontext mit 250K Token.
Version "Thinking" mit erweitertem Denkvermögen. Kombiniert Kompaktheit, Geschwindigkeit und erweitertes Denken.
19 Token/Sekunde

qwen3-omni:30b

Natives omnimodales Modell - umfasst gleichzeitig Text, Bild, Video und Audio.
Unterstützt multimodale Eingaben (Text, Bild, Audio, Video) mit erweiterten Schlussfolgerungsfähigkeiten. Hinweis - die Audioausgabe über API ist noch nicht aktiviert.

Programmierung & Agenten

Unsere Programmier- und Agentenmodelle sind speziell für das agentische Software-Engineering, die groß angelegte Code-Generierung und die Automatisierung von Entwicklungs-Workflows optimiert.

121 Token/Sekunde

qwen3.6:35b

Führend im agentischen Software-Engineering (SWE-bench 73.4%). Kontext von 1M Token, Vision und Tool Calling integriert.
Umfasst ganze Code-Repositories dank seines 1M-Token-Kontexts. Unterstützt mehrstufiges Denken und Vision (Screenshots, Diagramme). Optimiert für IDEs und CI/CD-Pipelines.
97 Token/Sekunde

qwen-coder-next:80b

Spitzenmodell für komplexen Code und Argumentation. Kontext mit 250K Token.
Herausragend bei der Generierung und Analyse von Code in großem Umfang. Entwickelt für fortgeschrittene Aufgaben der Softwareentwicklung.
67 Token/Sekunde

qwen3-next:80b

Vielseitiges 80B-Modell, das für große Zusammenhänge, Function Calling und strukturiertes Denken optimiert ist.
Kontext von 250K Token mit Unterstützung für Function Calling und Guided Decoding.
33 Token/Sekunde

devstral-small-2:24b

Führendes agentisches Modell für die Softwareentwicklung. Leistung nahe an >100B-Modellen für Code. Integrierte Vision.
Optimiert für das Erforschen von Codebasen, das Bearbeiten mehrerer Dateien und die Verwendung von Werkzeugen. Unterstützt nativ die Bildverarbeitung. Kontext von 200K Token.
23 Token/Sekunde

rnj-1:8b

STEM-Spezialmodell - zeichnet sich in Code (83.5% HumanEval+), Mathematik und Naturwissenschaften aus.
Dichtes Modell, das auf 8,4T Token trainiert wurde. Übertrifft oft viel größere Modelle bei Code- und mathematischen Denkaufgaben.
40 Token/Sekunde

functiongemma:270m

Mikro-Modell, das auf die Erkennung von Funktionsaufrufen spezialisiert ist. Ideal als Router in einer agentischen Architektur.
Ultrakompakt, optimiert, um Funktionsaufrufe schnell zu identifizieren und zu formatieren.

Vision & Multimodal

Unsere Vision & Multimodal-Modelle ermöglichen die Analyse von Bildern, Videos und visuellen Dokumenten. Sie zeichnen sich durch OCR, Objekterkennung, strukturierte Extraktion und räumlich-zeitliche Argumentation aus.

24 Token/Sekunde

qwen3-vl:235b

Das leistungsstärkste multimodale Modell im Katalog. Fortschrittliches visuelles Verständnis und außergewöhnliches logisches Denken.
Hervorragend geeignet für die Analyse komplexer Dokumente, mehrsprachige OCR, räumliches 3D-Schlussfolgern und das Verstehen von Videos.
17 Token/Sekunde

qwen3-vl:32b

Hochleistungsvariante für anspruchsvollste Bildverarbeitungsaufgaben. Hintergrund 250K Token.
Feinanalyse hochauflösender Bilder, Verständnis dynamischer Szenen und Text-Zeitstempel-Abgleich für Videos.
39 Token/Sekunde

qwen3-vl:30b

Leistungsstarkes multimodales Modell für OCR, Objekterkennung, Videoanalyse und räumlich-zeitliches Denken.
Integriert Innovationen in der Bild- und Videoanalyse. Herausragend in komplexer OCR, Grafiken und strukturierter Extraktion (JSON).
39 Token/Sekunde

qwen3-vl:8b

Modell Zwischenvision - guter Kompromiss zwischen Leistung und Fußabdruck. Hintergrund 250K Token.
In der Lage, komplexe Dokumente, Grafiken und Videos mit hoher Genauigkeit zu analysieren.
57 Token/Sekunde

qwen3-vl:4b

Kompaktes und schnelles Vision-Modell für die Dokumentenanalyse und das Videoverständnis.
Ausgezeichneter Kompromiss zwischen Leistung und Fußabdruck. Unterstützt strukturierte Extraktion und visuelles Schlussfolgern.
64 Token/Sekunde

qwen3-vl:2b

Ultrakompaktes Vision-Modell für schnelle OCR, Objekterkennung und eingebettete Anwendungen.
Trotz seiner geringen Größe bietet er eine erstaunliche Bild- und Videoanalyse. Ideal für mobile oder eingebettete Anwendungen.
59 Token/Sekunde

gemma4:31b

Googles multimodales dichtes Modell, das auf Arena AI weltweit an dritter Stelle steht. Erweiterte Vision, Reasoning und Coding. Kontext 250K Token.
Googles leistungsfähigstes Open-Source-Modell. Natives Function Calling, erweitertes visuelles Verständnis (OCR, Grafiken, Dokumente, UI). Mehrsprachig (35+ Sprachen).
125 Token/Sekunde

gemma4:e2b

Ultra-schnelle Variante (125 U/s) von Gemma 4 mit Vision. Hervorragende Energieeffizienz.
Bietet ein außergewöhnlich gutes Verhältnis von Leistung und Abdruck. 128K-Token-Kontext mit umfassenden Vision-Fähigkeiten.
85 Token/Sekunde

gemma4:e4b

Variante von Gemma 4 mit einem besseren Kompromiss zwischen Qualität und Geschwindigkeit als die E2B-Version. Integrierte Bildverarbeitung.
Bessere Treue als die E2B-Version bei gleichbleibend hoher Geschwindigkeit. 128K-Token-Kontext.
49 Token/Sekunde

granite3.2-vision:2b

Kompaktes IBM Granite Vision-Modell für schnelle OCR und die Extraktion von Daten aus gescannten Dokumenten.
Leicht, aber leistungsstark für OCR und Bildanalyse mit niedriger Latenz.
84 Token/Sekunde

deepseek-ocr

Spezialisiertes OCR-Modell für die hochpräzise Textextraktion unter Beibehaltung der Formatierung (Tabellen, Formeln).
Optimiert für die Umwandlung von Dokumenten in strukturiertes Markdown. Hervorragend bei komplexen Tabellen und Formeln.

Einbetten

Unsere Einbettungsmodelle wandeln Text in Vektordarstellungen für die semantische Suche, das Clustering und RAG-Pipelines (Retrieval-Augmented Generation) um.

171 Token/Sekunde

bge-m3:567m

Modernstes mehrsprachiges Embedding (100+ Sprachen). Unterstützt dichte, sparse und multi-vektorielle Suche.
Kontext von 8192 Token mit drei sich ergänzenden Suchmethoden.

qwen3-Einbettung:4b

Hochleistungs-Embedding mit tiefem semantischen Verständnis und erweitertem Kontext (40K Tokens).
Ideal für die Verarbeitung umfangreicher Dokumente in RAG-Pipelines.

qwen3-Einbettung:8b

Hochkapazitäts-Embedding mit dem besten semantischen Verständnis der Qwen3-Familie. Erweiterter Kontext (40K Tokens).
Leistungsstärkste Version der Qwen3-Embedding-Familie. Ideal für Aufgaben, die ein kontextbezogenes Verständnis erfordern.

qwen3-Einbettung: 0.6b

Ultraleichtes und schnelles Embedding für die semantische Suche mit niedriger Latenz.
Hervorragender Kompromiss zwischen semantischer Leistung und schneller Ausführung.
196.3 Token/Sekunde

granite-embedding:278m

Ultrakompaktes IBM-Embedding für die semantische Suche mit minimaler Latenz.
Das schnellste Einbettungsmodell im Katalog. Ideal für Clustering und Hochfrequenzsuche.
175 Token/Sekunde

embeddinggemma:300m

Mehrsprachiges Google-Embedding (100+ Sprachen), optimiert für die Suche und semantische Abfrage.
Produziert vektorielle Textdarstellungen für Klassifizierung, Clustering und Ähnlichkeitssuche.

Reranking

Unsere Reranking-Modelle ordnen die Suchergebnisse nach Relevanz neu an, um die Qualität der RAG-Pipelines zu verfeinern. Kompatibel mit der Cohere API.

nvidia/llama-nemotron-rerank-vl-1b-v2

Cohere API-kompatibles Reranking-Modell (/v1/rerank und /v2/rerank). Ordnet Dokumente nach Relevanz für eine Suchanfrage.
Kompatibel mit Cohere SDK v1/v2. Der Relevance_Score ist ein Brutto-Logit (relative Ordnung ist garantiert). Ideal als Ergänzung zum RAG-Stack (embedding + retrieval + rerank).

qwen3-reranker:4b

Leistungsstarkes Reranking-Modell mit hoher kontextbezogener Auffassungsgabe.
Hervorragende Umordnungsqualität dank 4B-Parametern. Ideal für anspruchsvolle RAG-Pipelines.

qwen3-reranker:0.6b

Kompaktes und effizientes Reranking-Modell für schnelles Umterminieren.
Leichtgewichtige Version für Anwendungsfälle, die eine geringe Latenzzeit beim Reranking erfordern.

bge-reranker-large

Hochleistungs-Reranking-Modell der BGE-Familie, mehrsprachig.
Ergänzt das BGE-M3-Embedding-Modell für vollständige RAG-Pipelines.

Sicherheit

Unsere Sicherheitsmodelle sind auf die Erkennung problematischer Inhalte, die Verhinderung von Jailbreaks und die Einhaltung gesetzlicher Vorschriften (RGPD, HDS) spezialisiert. Sie können als Vorfilter oder Nachfilter in Ihren Workflows verwendet werden.

45 Token/Sekunde

granite3-guardian:8b

Sicherheitsmodell, das sich auf die Erkennung problematischer Inhalte, Jailbreaks und die Einhaltung gesetzlicher Vorschriften spezialisiert hat.
Entwickelt, um sensible Inhalte zu filtern und die Einhaltung der RGPD/HDS zu gewährleisten. Kann als Vor- oder Nachfilter in Ihren Workflows verwendet werden.
60 Token/Sekunde

granite3-guardian:2b

Kompakte Version des Sicherheitsmodells Granite Guardian für die Filterung mit niedriger Latenz.
Gleiche Filterfähigkeiten wie die 8B-Version bei geringerer Grundfläche. Ideal für Hochfrequenz-Workflows.

Übersetzung

Unsere Übersetzungsvorlagen bieten hohe Wiedergabetreue für 55 Sprachen, wobei Grammatik, kulturelle Nuancen und technische Besonderheiten der Dokumente berücksichtigt werden.

17 Token/Sekunde

translategemma:27b

Hochleistungsübersetzung für 55 Sprachen. Höchste Qualität für komplexe und technische Inhalte.
Erfasst literarische und kulturelle Nuancen mit außergewöhnlicher Treue.
27 Token/Sekunde

translategemma:12b

High-Fidelity-Übersetzung für 55 Sprachen mit 128K-Token-Kontext.
Beachtet die Grammatik und kulturelle Nuancen. Ideal für lange Dokumente.
31 Token/Sekunde

translategemma:4b

Schnelle und effiziente Übersetzungen für 55 Sprachen. Ideal für die Lokalisierung in Echtzeit.
Kompakte Version mit ausgezeichnetem Geschwindigkeits-/Qualitätsverhältnis. 128K-Token-Kontext.

Audio & Bild

Unsere Audio- & Bildvorlagen ermöglichen Sprachtranskription in Echtzeit (ASR-Streaming) und die Generierung von Bildern aus textuellen Beschreibungen, die mit der OpenAI-API kompatibel sind.

voxtral

Audio-Transkription in Echtzeit über WebSocket. Gestreamte Spracherkennung mit niedriger Latenz.
Funktioniert im Realtime-Modus über den Endpunkt /v1/realtime (WebSocket). Transkribiert Streaming-Audio.

z-Bild:16b

Generierung von Bildern aus Textprompts, OpenAI API-kompatibel /v1/images/generations.
Unterstützt die Einstellungen für die Größe und Anzahl der Bilder. Kompatibel mit dem OpenAI-Ökosystem.

Vergleich der Modelle

Diese Vergleichstabelle hilft Ihnen bei der Auswahl des für Sie am besten geeigneten Modells anhand verschiedener Kriterien wie Kontextgröße, Leistung und spezifische Anwendungsfälle.

Vergleichende Tabelle der Merkmale und Leistungen der verschiedenen verfügbaren KI-Modelle, gruppiert nach Kategorien.
Modell Herausgeber Einstellungen Kontext (k tokens) Vision Agent Argumentation Sicherheit Schnell * Energieeffizienz *
Katze & Vernunft
qwen3.6:27b Qwen Team 27B 1000000
gpt-oss:120b OpenAI 120B 120000
gpt-oss:20b OpenAI 20B 120000
llama3.3:70b Meta 70B 132000
gemma3:27b Google 27B 120000
nemotron-3-super:120b NVIDIA 120B 1000000
nemotron3-nano:30b NVIDIA 30B 1000000
nemotron-Kaskade:30b NVIDIA 30B 1000000
glm-4.7-flash:30b Zhipu AI 30B 120000
cogito:32b Deep Cogito 32B 32000
Olmo 3:32b AllenAI 32B 65536
Olmo 3:7b AllenAI 7B 65536
qwen3-2507:235b Qwen Team 235B 200000
mistral-small3.2:24b Mistral AI 24B 128000
mistral-small4:119b Mistral AI 119B 262144
ministral-3:14b Mistral AI 14B 250000
Ministral-3:8b Mistral AI 8B 250000
ministral-3:3b Mistral AI 3B 250000
qwen3.5:9b Qwen Team 9B 250000
qwen3.5:4b Qwen Team 4B 250000
qwen3.5:0.8b Qwen Team 0.8B 250000
qwen3:0.6b Qwen Team 0.6B 40000
qwen3-2507-think:4b Qwen Team 4B 250000
qwen3-omni:30b Qwen Team 30B 32768
Programmierung & Agenten
qwen3.6:35b Qwen Team 35B 1000000
qwen-coder-next:80b Qwen Team 80B 250000
qwen3-next:80b Qwen Team 80B 250000
devstral-small-2:24b Mistral AI & All Hands AI 24B 200000
rnj-1:8b Essential AI 8B 32000
functiongemma:270m Google 270 Mio. 32768
Vision & Multimodal
qwen3-vl:235b Qwen Team 235B 200000
qwen3-vl:32b Qwen Team 32B 250000
qwen3-vl:30b Qwen Team 30B 250000
qwen3-vl:8b Qwen Team 8B 250000
qwen3-vl:4b Qwen Team 4B 250000
qwen3-vl:2b Qwen Team 2B 250000
gemma4:31b Google 31B 250000
gemma4:e2b Google 31B (E2B) 128000
gemma4:e4b Google 31B (E4B) 128000
granite3.2-vision:2b IBM 2B 16384
deepseek-ocr DeepSeek AI 3B 8192
Einbetten
bge-m3:567m BAAI 567M 8192
qwen3-Einbettung:4b Qwen Team 4B 40000
qwen3-Einbettung:8b Qwen Team 8B 40000
qwen3-Einbettung: 0.6b Qwen Team 0.6B 32768
granite-embedding:278m IBM 278M 512
embeddinggemma:300m Google 300M 2048
Reranking
nvidia/llama-nemotron-rerank-vl-1b-v2 NVIDIA 1B 4096 N.C.
qwen3-reranker:4b Qwen Team 4B 4096 N.C.
qwen3-reranker:0.6b Qwen Team 0.6B 4096 N.C.
bge-reranker-large BAAI 335M 512 N.C.
Sicherheit
granite3-guardian:8b IBM 8B 8192
granite3-guardian:2b IBM 2B 8192
Übersetzung
translategemma:27b Google 27B 120000
translategemma:12b Google 12B 128000
translategemma:4b Google 4B 128000
Audio & Bild
voxtral Mistral AI 4B 32768 N.C.
z-Bild:16b Community 16B N.C.
Legende und Erklärung
: Von der Vorlage unterstützte Funktionalität oder Fähigkeit
: Feature oder Fähigkeit, die von der Vorlage nicht unterstützt wird
* Energieeffizienz : Zeigt einen besonders niedrigen Energieverbrauch an (< 2.0 kWh/Mtoken)
* Schnell : Modell, das in der Lage ist, mehr als 50 Token pro Sekunde zu erzeugen
Anmerkung zu den Leistungsmessungen
Die Geschwindigkeitswerte (Token/s) stellen Leistungsziele unter realen Bedingungen dar. Der Energieverbrauch (kWh/Mtoken) wird berechnet, indem die geschätzte Leistung des Inferenzservers (in Watt) durch die gemessene Geschwindigkeit des Modells (in Token/Sekunde) dividiert und dann in Kilowattstunden pro Million Token umgerechnet wird (Division durch 3,6). Diese Methode bietet einen praktischen Vergleich der Energieeffizienz verschiedener Modelle, der als relativer Indikator und nicht als absolutes Maß für den Stromverbrauch verwendet werden sollte.

Empfohlene Anwendungsfälle

Im Folgenden finden Sie einige häufige Anwendungsfälle und die dafür jeweils am besten geeigneten Modelle. Diese Empfehlungen basieren auf der spezifischen Leistung und den Fähigkeiten der einzelnen Modelle.

Mehrsprachiger Dialog

Chatbots und Assistenten, die in mehreren Sprachen kommunizieren können, mit automatischer Erkennung und Kontexterhaltung
Empfohlene Modelle
  • nemotron-3-super:120b
  • qwen3.6:27b
  • nemotron3-nano:30b
  • gpt-oss:120b

Analyse langer Dokumente

Verarbeitung umfangreicher Dokumente (>100 Seiten) mit Extraktion von Schlüsselinformationen, Zusammenfassungen und Beantwortung von Fragen
Empfohlene Modelle
  • nemotron-3-super:120b
  • qwen3.6:27b
  • qwen3-2507:235b

Programmierung und Entwicklung

Generierung, Optimierung und Debugging von Code in mehreren Sprachen, Refactoring und Erstellung von Tests
Empfohlene Modelle
  • qwen3.6:35b
  • qwen-coder-next:80b
  • devstral-small-2:24b
  • nemotron-3-super:120b

Visuelle Analyse

Verarbeitung von Bildern und visuellen Dokumenten, OCR, Interpretation von Grafiken und Tabellen
Empfohlene Modelle
  • qwen3-vl:235b
  • gemma4:31b
  • deepseek-ocr
  • qwen3-vl:30b

Sicherheit und Compliance

Filterung sensibler Inhalte, Erkennung von Jailbreaks, Einhaltung von RGPD/HDS
Empfohlene Modelle
  • granite3-guardian:8b
  • granite3-guardian:2b
  • mistral-small4:119b

Leichte Bereitstellungen

Anwendungen, die einen minimalen Footprint, niedrige Latenz und geringen Stromverbrauch erfordern
Empfohlene Modelle
  • qwen3.5:0.8b
  • qwen3-vl:2b
  • ministral-3:3b

RAG (Retrieval-Augmented Generation)

Umfassende Pipelines für semantische Suche, Reordering und Augmented Generation by Recovery
Empfohlene Modelle
  • bge-m3:567m
  • nvidia/llama-nemotron-rerank-vl-1b-v2
  • qwen3.6:27b
Verfolgen Sie die Entwicklung des LLMaaS-Angebots

Entdecken Sie alle unsere IA-Forschungspapiere

 

Cookie-Richtlinie

Wir verwenden Cookies, um Ihnen die bestmögliche Erfahrung auf unserer Seite zu bieten, erheben aber keine personenbezogenen Daten.

Die Dienste zur Messung des Publikums, die für den Betrieb und die Verbesserung unserer Website erforderlich sind, ermöglichen es nicht, Sie persönlich zu identifizieren. Sie haben jedoch die Möglichkeit, sich ihrer Nutzung zu widersetzen.

Weitere Informationen finden Sie in unserem Datenschutzrichtlinie.