KI Klartext · KW 27 · Juli 2026

Enterprise-KI ohne Größenwahn.

Über die Hälfte der großen IT-Unternehmen setzt bereits KI-Agenten ein, 21 % davon erst seit dem letzten Jahr. Laut NVIDIA-Analyse produktiver Agentensysteme wären 40 bis 70 % dieser Aufrufe durch spezialisierte Small Language Models ersetzbar – zu 10 bis 30-mal geringeren Kosten. Die meisten Unternehmen haben diese Rechnung noch nicht gemacht.

Deep Dive Small Language Models Lesezeit ~6 Min powered by cerafin

Erstgespräch vereinbaren → Alle Workshops

„Es geht nicht darum, ob Ihr Agent klug genug ist. Es geht darum, ob Sie Ihren Prozess schon so gut verstanden haben, dass Sie überhaupt sagen könnten, was er wissen müsste.“

Enterprise-KI im Juli 2026

50+ %

der großen IT-Unternehmen nutzen bereits KI-Agenten – 21 % erst seit einem Jahr

zitiert in NVIDIA-Positionspapier, 2025

40–70 %

dieser Agenten-Aufrufe wären durch spezialisierte SLMs ersetzbar

NVIDIA-Analyse von MetaGPT, Open Operator, Cradle

10–30 ×

günstiger im Betrieb – bei vergleichbarer Qualität in eng definierten Aufgaben

NVIDIA, „Small Language Models are the Future of Agentic AI“, 2025

Über die Hälfte der großen IT-Unternehmen setzt inzwischen KI-Agenten ein, ein Fünftel davon erst seit dem vergangenen Jahr. Was in den seltensten Steuerungsrunden ankommt: Ein Großteil dieser Agenten-Aufrufe braucht gar kein Frontier-Modell.

NVIDIA hat drei produktive Agentensysteme – MetaGPT, Open Operator, Cradle – durchleuchtet und kommt auf 40 bis 70 % der Aufrufe, die ein spezialisiertes Small Language Model genauso gut erledigt, zu 10 bis 30-mal geringeren Betriebskosten. Das ist keine Nischenoptimierung. Das ist der Unterschied zwischen einem KI-Piloten, der ein Kostenzentrum bleibt, und einem, der sich rechnet.

Was ist an Small Language Models eigentlich neu? Erklärt in 60 Sekunden.

Nichts Revolutionäres – und genau das ist der Punkt. SLMs sind Modelle mit typischerweise ein bis acht Milliarden Parametern, ein Bruchteil dessen, was aktuelle LLMs mit bis zu 400 Milliarden Parametern mitbringen. Sie sind keine kleineren Generalisten. Sie sind Spezialisten: gebaut für Extraktion, Klassifikation, Routing oder Zusammenfassung nach Vorlage – Aufgaben mit definiertem Input, definiertem Output, wenig Varianz.

Der Unterschied zu einem LLM liegt nicht in der Cleverness. Er liegt im Betriebsprofil: geringerer Infrastrukturbedarf, planbare Latenz, einfachere Versionierung. Für eine offene, schwer zerlegbare Aufgabe bleibt das LLM die richtige Wahl. Für alles andere ist die eigentliche Frage, warum dafür noch ein Generalmodell bezahlt wird.

Juli 2026 – was die Zahlen tatsächlich bedeuten

Die Behauptung ist eine Sache. Die Zahlen dahinter eine andere:

NVIDIA-Analyse produktiver Agentensysteme: 40 bis 70 % der LLM-Aufrufe in MetaGPT, Open Operator und Cradle ließen sich durch spezialisierte SLMs ersetzen. (NVIDIA, „Small Language Models are the Future of Agentic AI“, 2025)
Kostendifferenz: SLMs unter 10 Milliarden Parametern laufen laut derselben Analyse 10- bis 30-mal günstiger im Betrieb – bei vergleichbarer Qualität in eng definierten Aufgaben.
Adoptionstempo: Mehr als die Hälfte der großen IT-Unternehmen nutzt bereits KI-Agenten, 21 % davon erst seit dem vergangenen Jahr. (zitiert in NVIDIA-Positionspapier, 2025, nach Branchenumfrage)
On-Premise-Anteil an KI-Inferenz: von 12 % (2023) auf 55 % (2025) – vor allem dort, wo Daten das Haus nicht verlassen dürfen. (ZenML-Auswertung, 287 Fallstudien, 2026)

Das Muster dahinter: Nicht die Modellgröße entscheidet über den Nutzen. Die Klarheit der Aufgabe entscheidet – und die meisten Unternehmen wissen weniger genau, was ihre Agenten eigentlich tun, als sie glauben.

1–8 Mrd.

Parameter, mit denen SLMs typischerweise trainiert werden · Branchendefinition

bis 400 Mrd.

Parameter bei aktuellen Frontier-LLMs · Branchendefinition

12 % → 55 %

Anteil On-Premise-Betrieb an KI-Inferenz, 2023 vs. 2025 · ZenML, 287 Fallstudien

20,7 Mrd. USD

geschätzte SLM-Marktgröße bis 2030, ausgehend von 7,8 Mrd. USD 2023 · Grand View Research

Wo SLMs angreifen – konkret

SLMs sind kein abstraktes Effizienzthema. Sie lösen ein sehr konkretes Problem: Für die meisten wiederkehrenden Enterprise-Aufgaben bezahlt man aktuell Generalisten-Preise für Spezialisten-Arbeit.

Edge-Deployment: Wartungsnotizen, Störmeldungen, Schichtberichte – Szenarien mit schwankender Verbindung, in denen Offlinefähigkeit Betriebsvoraussetzung ist, nicht Kür.
Compliance-gerechte Textverarbeitung: Extraktion, Klassifikation und Zusammenfassung nach festen Standards, wo jede Verarbeitung auditierbar dokumentiert sein muss.
Lokale Dokumentenanalyse: Aktenanalyse, interne Suche mit RAG, Zusammenfassungen für die Sachbearbeitung – dort, wo Dokumente das System regulatorisch nicht verlassen dürfen.

Der Agentisierungs-Zweifel

Multi-Agent-Rollenmodelle – ein Extraktionsagent, ein Klassifikationsagent, ein Summarization-Agent, ein QA-Agent – klingen auf der Folie bestechend sauber. Das Problem ist nicht das Modell. Das Problem ist die Voraussetzung, die dabei stillschweigend übersprungen wird.

Eine Rolle lässt sich einem SLM nur dann sinnvoll zuweisen, wenn die Aufgabe dahinter bereits granular genug verstanden ist: definierter Input, definierter Output, definierte Fehlerklasse. Wer diesen Schritt auslässt und direkt in die Agentenarchitektur einsteigt, automatisiert nicht den Prozess. Er automatisiert die eigene Unklarheit über den Prozess – nur schneller, und mit mehreren Komponenten, die im Zweifelsfall gleichzeitig falsch liegen.

Bevor Sie fragen, welches Modell zu welcher Aufgabe passt, fragen Sie, ob die Aufgabe überhaupt schon als Aufgabe existiert. Erst wenn ein Prozessschritt so heruntergebrochen ist, dass zwei Personen ihn identisch beschreiben würden, wird die Modellfrage überhaupt beantwortbar – SLM oder LLM.

Zwei Use Cases, zwei Modelle – zur Einordnung

Erst wenn der Prozess zerlegt ist, wird die Modellfrage konkret beantwortbar. Zwei Beispiele, wie unterschiedlich diese Antwort ausfällt:

Use Case 1 – Beleg- und Rechnungsextraktion: strukturierte Daten aus PDFs in ein festes JSON-Schema, hohes Volumen, geringe Varianz. Hier passt ein Modell wie Microsoft Phi: stark bei Extraktion und Klassifikation, effizient in der Inferenz, ohne dass Reasoning über die eigentliche Aufgabe hinaus gebraucht wird.
Use Case 2 – interne Richtlinien- und Vertragssuche (RAG): Wissensassistenz für Fachabteilungen auf Basis interner Dokumente, mit Output-Disziplin und Quellenbindung. Hier passt ein Modell wie Google Gemma eher: ausgelegt auf dokumentennahe Workloads, robuster bei echten – also unsauberen – Dokumenten als bei synthetischen Benchmarks.
Randnotiz zum Routing: Laufen mehrere solcher Rollen in einer Multi-Agent-Architektur zusammen, kommt für das reine Routing zwischen den Rollen oft noch ein drittes, besonders kompaktes Modell wie Mistral zum Einsatz – nicht weil es klüger ist, sondern weil Routing selbst eine der am engsten definierten Aufgaben ist, die es gibt.

Was Sie heute konkret tun können

Next Steps – je nach Ihrer Ausgangslage.

⚡

Sofort: Prozess-Zerlegung vor Modellwahl

Ist Ihr Anwendungsfall bereits in Schritte mit definiertem Input und Output zerlegt? Wenn nicht, ist genau das die Hausaufgabe – nicht die Entscheidung zwischen SLM und LLM.

▸

Diese Woche: 2 Use Cases prüfen

Welche Ihrer aktuellen Agenten-Aufrufe sind tatsächlich Routine? Die 40-bis-70-%-Zahl ist kein Branchendurchschnitt, den Sie automatisch erben – Sie müssen ihn für sich selbst messen.

◷

Dieses Quartal: Bakeoff statt Bauchgefühl

Zwei bis drei Modelle nach Golden Set, P95-Latenz und Formatfehlerquote vergleichen. Erst wenn Qualität und Betrieb zusammenpassen, wird skaliert.

⊞

Parallel: Betrieb mitdenken

Containerisierung, API-Gateway, Observability – SLM-Einführung ist ein Servicethema, kein Modell-Thema. Wer das nachträglich klärt, klärt es unter Zeitdruck.

Drei Fragen

Unangenehmer, als sie klingen.

Können wir für unsere aktuellen Agenten-Workflows benennen, welcher Anteil der Aufrufe Routine ist – und welcher echte Offenheit braucht?

Haben wir die Prozessgranularität, um zu entscheiden, welches Modell zu welcher Teilaufgabe passt – oder bauen wir gerade einen Agenten, bevor wir den Prozess verstanden haben?

Zahlen wir aktuell Frontier-Preise für Aufgaben, die nachweislich in die 40-bis-70-%-Kategorie fallen, die ein SLM ebenso gut könnte?

So setzt cerafin hier an: Ein SLM ist nur so gut wie die Prozesszerlegung, auf der es aufsetzt. Genau das bauen wir mit Ihnen auf – im KI Architecture Workshop (aus einem unscharfen Prozess wird eine entscheidbare Modellfrage) und mit unserer Leistung Autonome KI-Agenten. Wo Sie heute stehen, zeigt der KI-Reifegrad-Selbsttest.

KI Klartext – ohne Buzzword-Bingo.

Alle 14 Tage ein Deep Dive, der einordnet statt zu hypen. Kein Newsletter-Geplänkel, sondern Klartext für Entscheider:innen.

Newsletter abonnieren → Alle Ausgaben