KI Klartext · KW 27 · Juli 2026

Enterprise-KI ohne Größenwahn.

Über die Hälfte der großen IT-Unternehmen setzt bereits KI-Agenten ein, 21 % davon erst seit dem letzten Jahr. Laut NVIDIA-Analyse produktiver Agentensysteme wären 40 bis 70 % dieser Aufrufe durch spezialisierte Small Language Models ersetzbar – zu 10 bis 30-mal geringeren Kosten. Die meisten Unternehmen haben diese Rechnung noch nicht gemacht.

Deep Dive Small Language Models Lesezeit ~6 Min powered by cerafin
„Es geht nicht darum, ob Ihr Agent klug genug ist. Es geht darum, ob Sie Ihren Prozess schon so gut verstanden haben, dass Sie überhaupt sagen könnten, was er wissen müsste.“
Enterprise-KI im Juli 2026
50+ %
der großen IT-Unternehmen nutzen bereits KI-Agenten – 21 % erst seit einem Jahr
zitiert in NVIDIA-Positionspapier, 2025
40–70 %
dieser Agenten-Aufrufe wären durch spezialisierte SLMs ersetzbar
NVIDIA-Analyse von MetaGPT, Open Operator, Cradle
10–30 ×
günstiger im Betrieb – bei vergleichbarer Qualität in eng definierten Aufgaben
NVIDIA, „Small Language Models are the Future of Agentic AI“, 2025

Über die Hälfte der großen IT-Unternehmen setzt inzwischen KI-Agenten ein, ein Fünftel davon erst seit dem vergangenen Jahr. Was in den seltensten Steuerungsrunden ankommt: Ein Großteil dieser Agenten-Aufrufe braucht gar kein Frontier-Modell.

NVIDIA hat drei produktive Agentensysteme – MetaGPT, Open Operator, Cradle – durchleuchtet und kommt auf 40 bis 70 % der Aufrufe, die ein spezialisiertes Small Language Model genauso gut erledigt, zu 10 bis 30-mal geringeren Betriebskosten. Das ist keine Nischenoptimierung. Das ist der Unterschied zwischen einem KI-Piloten, der ein Kostenzentrum bleibt, und einem, der sich rechnet.

Was ist an Small Language Models eigentlich neu? Erklärt in 60 Sekunden.

Nichts Revolutionäres – und genau das ist der Punkt. SLMs sind Modelle mit typischerweise ein bis acht Milliarden Parametern, ein Bruchteil dessen, was aktuelle LLMs mit bis zu 400 Milliarden Parametern mitbringen. Sie sind keine kleineren Generalisten. Sie sind Spezialisten: gebaut für Extraktion, Klassifikation, Routing oder Zusammenfassung nach Vorlage – Aufgaben mit definiertem Input, definiertem Output, wenig Varianz.

Der Unterschied zu einem LLM liegt nicht in der Cleverness. Er liegt im Betriebsprofil: geringerer Infrastrukturbedarf, planbare Latenz, einfachere Versionierung. Für eine offene, schwer zerlegbare Aufgabe bleibt das LLM die richtige Wahl. Für alles andere ist die eigentliche Frage, warum dafür noch ein Generalmodell bezahlt wird.

Juli 2026 – was die Zahlen tatsächlich bedeuten

Die Behauptung ist eine Sache. Die Zahlen dahinter eine andere:

Das Muster dahinter: Nicht die Modellgröße entscheidet über den Nutzen. Die Klarheit der Aufgabe entscheidet – und die meisten Unternehmen wissen weniger genau, was ihre Agenten eigentlich tun, als sie glauben.

1–8 Mrd.

Parameter, mit denen SLMs typischerweise trainiert werden · Branchendefinition

bis 400 Mrd.

Parameter bei aktuellen Frontier-LLMs · Branchendefinition

12 % → 55 %

Anteil On-Premise-Betrieb an KI-Inferenz, 2023 vs. 2025 · ZenML, 287 Fallstudien

20,7 Mrd. USD

geschätzte SLM-Marktgröße bis 2030, ausgehend von 7,8 Mrd. USD 2023 · Grand View Research

Wo SLMs angreifen – konkret

SLMs sind kein abstraktes Effizienzthema. Sie lösen ein sehr konkretes Problem: Für die meisten wiederkehrenden Enterprise-Aufgaben bezahlt man aktuell Generalisten-Preise für Spezialisten-Arbeit.

Der Agentisierungs-Zweifel

Multi-Agent-Rollenmodelle – ein Extraktionsagent, ein Klassifikationsagent, ein Summarization-Agent, ein QA-Agent – klingen auf der Folie bestechend sauber. Das Problem ist nicht das Modell. Das Problem ist die Voraussetzung, die dabei stillschweigend übersprungen wird.

Eine Rolle lässt sich einem SLM nur dann sinnvoll zuweisen, wenn die Aufgabe dahinter bereits granular genug verstanden ist: definierter Input, definierter Output, definierte Fehlerklasse. Wer diesen Schritt auslässt und direkt in die Agentenarchitektur einsteigt, automatisiert nicht den Prozess. Er automatisiert die eigene Unklarheit über den Prozess – nur schneller, und mit mehreren Komponenten, die im Zweifelsfall gleichzeitig falsch liegen.

Bevor Sie fragen, welches Modell zu welcher Aufgabe passt, fragen Sie, ob die Aufgabe überhaupt schon als Aufgabe existiert. Erst wenn ein Prozessschritt so heruntergebrochen ist, dass zwei Personen ihn identisch beschreiben würden, wird die Modellfrage überhaupt beantwortbar – SLM oder LLM.

Zwei Use Cases, zwei Modelle – zur Einordnung

Erst wenn der Prozess zerlegt ist, wird die Modellfrage konkret beantwortbar. Zwei Beispiele, wie unterschiedlich diese Antwort ausfällt:

Next Steps – je nach Ihrer Ausgangslage.

Sofort: Prozess-Zerlegung vor Modellwahl

Ist Ihr Anwendungsfall bereits in Schritte mit definiertem Input und Output zerlegt? Wenn nicht, ist genau das die Hausaufgabe – nicht die Entscheidung zwischen SLM und LLM.

Diese Woche: 2 Use Cases prüfen

Welche Ihrer aktuellen Agenten-Aufrufe sind tatsächlich Routine? Die 40-bis-70-%-Zahl ist kein Branchendurchschnitt, den Sie automatisch erben – Sie müssen ihn für sich selbst messen.

Dieses Quartal: Bakeoff statt Bauchgefühl

Zwei bis drei Modelle nach Golden Set, P95-Latenz und Formatfehlerquote vergleichen. Erst wenn Qualität und Betrieb zusammenpassen, wird skaliert.

Parallel: Betrieb mitdenken

Containerisierung, API-Gateway, Observability – SLM-Einführung ist ein Servicethema, kein Modell-Thema. Wer das nachträglich klärt, klärt es unter Zeitdruck.

Unangenehmer, als sie klingen.

01

Können wir für unsere aktuellen Agenten-Workflows benennen, welcher Anteil der Aufrufe Routine ist – und welcher echte Offenheit braucht?

02

Haben wir die Prozessgranularität, um zu entscheiden, welches Modell zu welcher Teilaufgabe passt – oder bauen wir gerade einen Agenten, bevor wir den Prozess verstanden haben?

03

Zahlen wir aktuell Frontier-Preise für Aufgaben, die nachweislich in die 40-bis-70-%-Kategorie fallen, die ein SLM ebenso gut könnte?

So setzt cerafin hier an: Ein SLM ist nur so gut wie die Prozesszerlegung, auf der es aufsetzt. Genau das bauen wir mit Ihnen auf – im KI Architecture Workshop (aus einem unscharfen Prozess wird eine entscheidbare Modellfrage) und mit unserer Leistung Autonome KI-Agenten. Wo Sie heute stehen, zeigt der KI-Reifegrad-Selbsttest.

KI Klartext – ohne Buzzword-Bingo.

Alle 14 Tage ein Deep Dive, der einordnet statt zu hypen. Kein Newsletter-Geplänkel, sondern Klartext für Entscheider:innen.