Warum 80 % der KI-Pilotprojekte nie produktiv gehen

Aus zwölf Mandaten zwischen 2023 und 2026, von der Versicherung mit 7-stelliger AI-Investitionsfrage bis zum Logistiker, der ChatGPT-Plus-Lizenzen verteilte und sich wunderte, dass nichts skaliert: die drei Antimuster, die ich immer wieder sehe. Und warum die meisten Beratungs-Decks am Kernproblem vorbeireden.

Es gibt eine Zahl, die seit zwei Jahren in jeder zweiten KI-Strategie-Präsentation steht, meistens als Schreckens-Slide auf Seite 3: „70 bis 85 % der KI-Pilotprojekte erreichen nie den produktiven Betrieb." Die Studienquelle wechselt (Gartner, MIT CISR, Boston Consulting), die Botschaft bleibt. Was selten kommt: eine belastbare Analyse, woran es eigentlich liegt.

Aus zwölf Mandaten zwischen 2023 und 2026, von der Versicherung mit 7-stelliger AI-Investitionsfrage bis zum mittelständischen Maschinenbauer mit konkretem Predictive-Maintenance-Use-Case, habe ich drei wiederkehrende Antimuster identifiziert. Sie sind selten technisch, fast immer organisatorisch.

Antimuster 1: Der Use-Case-Tourismus

Typisches Setup: Ein Innovation-Manager besucht im Q1 drei AI-Konferenzen, sieht 47 Use-Cases, bringt eine Excel-Liste mit zurück und ruft einen Workshop ein. Am Ende des Workshops stehen 12 Pilotprojekte auf der Liste. Vier davon starten, weil sich Sponsoren finden. Nach sechs Monaten sind drei abgewürgt („Daten schlechter als erwartet"), eines läuft als isoliertes PoC, das nie skaliert wird.

Das Problem ist nicht der Use-Case, das Problem ist der Tourismus-Mindset: Die Teams wählen Use-Cases nach Interessantheit aus, nicht nach strategischer Hebelwirkung. Es fehlt die ehrliche Vorab-Frage: Wenn dieser Use-Case in 18 Monaten produktiv läuft, bewegt er dann eine Top-3-KPI dieses Unternehmens?

In einem konkreten Mandat 2024 hatte ein Versicherungsmakler 23 KI-Pilotideen auf der Liste. Wir haben sie durch genau diesen Filter geschickt. Übrig blieben zwei: Antrags-Pre-Underwriting und Storno-Frühwarnung. Beide bewegten direkt Kombinierte Schadenquote bzw. Vertragsbestand, also Top-3-KPIs. Beide liefen 14 Monate später produktiv. Die anderen 21 Ideen waren entweder zu klein im Hebel oder gehörten in eine Software-Beschaffung, nicht in ein KI-Projekt.

Hebel-Frage zuerst, Use-Case-Excel zweitens. Nie umgekehrt.

Antimuster 2: Der ChatGPT-Plus-Trugschluss

Variante des Antimusters: Die Geschäftsführung gibt 200 ChatGPT-Plus-Lizenzen für 5 € pro User aus und wundert sich dann, dass die Effizienzversprechen aus dem McKinsey-Report nicht eintreten. Ich habe dieses Setup in zwei Mandaten gesehen, einmal Logistik, einmal Steuerberatung. In beiden Fällen identische Symptome.

Was ChatGPT-Plus-Lizenzen tun: Sie geben Wissensarbeitern Zugang zu einem LLM. Was sie nicht tun: Workflows verändern, Datensilos aufbrechen, Prozess-Schnittstellen automatisieren. Eine Person, die vorher 8 Stunden für eine Aufgabe brauchte, braucht jetzt 6,5. Das sind 18 % Effizienzgewinn, der in einer Mitarbeiterbefragung-Stichprobe verloren geht. Auf der Bilanz zeigt sich davon nichts.

Der eigentliche Hebel liegt in der Prozess-Re-Architektur, nicht in der individuellen Produktivität: Welcher bisher manuelle Workflow lässt sich durch eine AI-Komponente so umbauen, dass die Stückkosten signifikant sinken oder der Output skaliert? Das ist ein Mandat für die Operations- oder Prozess-Verantwortlichen, nicht für die HR-IT-Abteilung mit dem SaaS-Lizenzen-Budget.

In einem Logistik-Mandat 2025 hatten wir 180 ChatGPT-Plus-Lizenzen, deren ROI nirgendwo messbar war. Wir haben sie auf 35 reduziert (Reduktion: −24.500 € p.a.) und stattdessen eine Frachtbrief-OCR-und-Validierungs-Pipeline gebaut, die einen Vollzeit-Sachbearbeiter pro Standort eingespart hat. Der ROI lag im sechsstelligen Bereich pro Jahr und war auf den Punkt belegbar.

Antimuster 3: Der fehlende Daten-Governance-Layer

Das technisch reifere Antimuster: Use-Case ist sauber gewählt, Hebelfrage beantwortet, Budget freigegeben. Sechs Monate später steht das Projekt trotzdem, weil die Datengrundlage fragmentiert ist. CRM-Daten in System A, Vertragsdaten in System B, Schadendaten in einer Access-Datenbank von 2014, die einem Sachbearbeiter gehört, der nächstes Jahr in Rente geht.

Niemand möchte über Daten-Governance reden, weil Daten-Governance nicht sexy ist. Sie steht in keinem Pitch-Deck, kostet Zeit, bevor sie Wert generiert, und verlangt Entscheidungen über Datenhoheit, Master-Data-Management und Schnittstellen-Standards, die meistens politisch sind.

In jedem zweiten Mandat habe ich erlebt: Der KI-Use-Case ist eigentlich der Anlass, endlich Datenstrukturen zu sortieren, die seit 2018 verschoben werden. Wer das ehrlich kommuniziert, gewinnt Glaubwürdigkeit und Budget. Wer das verschweigt, läuft sechs Monate in die Wand und beschwert sich am Ende über „technische Probleme".

Konkretes Beispiel: Ein Mittelständler im Bereich Industriedienstleistungen wollte 2024 eine Predictive-Maintenance-Lösung für seine Anlagen einführen. Die Sensorik existierte. Was nicht existierte: ein einheitliches Asset-Datenmodell. Die ersten vier Monate des Projekts gingen in Daten-Governance, danach lief der Use-Case in zwei Monaten. Hätten wir ohne den Governance-Anteil gestartet, wäre das Projekt im Monat 8 als „technisch nicht machbar" abgeschossen worden.

Was die meisten Berater-Decks auslassen

Beratungs-Decks, die ich in den letzten 18 Monaten von externen Anbietern gesehen habe, lassen verlässlich vier Dinge aus, die im DACH-Mittelstand entscheidend sind:

Betriebsratsanbindung. KI-Projekte mit Mitarbeiter-Auswirkung sind im DACH-Raum mitbestimmungspflichtig (§87 BetrVG). Ein Projekt, das ohne frühzeitige Betriebsratseinbindung startet, stirbt im Monat 5 an einem Schiedsstellenverfahren. In keinem der mir gezeigten Berater-Decks der letzten 12 Monate war §87 BetrVG erwähnt.
EU-AI-Act-Klassifizierung. Seit 2024 in Kraft, ab August 2026 vollumfänglich anwendbar. Hochrisiko-KI-Systeme (insbesondere im Personal-, Finanz- und Versicherungsbereich) haben Dokumentations-, Test- und Audit-Pflichten. Wer das im Pilot ignoriert, baut Technical Debt, der bei der Produktiv-Schaltung teuer wird.
Datenschutz-Folgenabschätzung. Personenbezogene Daten in AI-Pipelines triggern DSGVO Art. 35. Eine Datenschutz-Folgenabschätzung ist in vielen Mittelstands-Projekten notwendig, wird in Berater-Decks aber meist nicht eingepreist.
Eigenes Personal-Investment. Externe Berater implementieren, dann gehen sie. Was bleibt: ein System, das niemand intern beherrscht. Meine Standard-Empfehlung: 20 bis 30 % des Projektbudgets für internen Knowhow-Aufbau einplanen; das wird meist gestrichen und später bereut.

Drei Fragen, die jedes KI-Pilotprojekt überstehen muss

Wenn Sie aktuell ein KI-Pilotprojekt aufsetzen oder einen Pitch bewerten, beantworten Sie diese drei Fragen ehrlich. Wenn eine davon unbeantwortet bleibt, ist das Projekt mit hoher Wahrscheinlichkeit im Cluster der 70 bis 85 %.

Eins: Wenn dieses Projekt in 18 Monaten produktiv läuft: Welche Top-3-KPI bewegt es um wie viel? Antwort in einer Zahl, nicht in einer Beschreibung.

Zwei: Welche Datenstruktur muss vorher in Ordnung sein, und wer hat Budget und Mandat, sie in Ordnung zu bringen? Wenn die Antwort „Das schauen wir uns dann an" lautet, ist das Projekt nicht reif.

Drei: Wer im Unternehmen kann diese Lösung in zwei Jahren ohne den externen Anbieter weiterentwickeln? Wenn die Antwort „niemand" lautet, kaufen Sie Abhängigkeit, kein System.

Diese Fragen sind nicht originell, nur unangenehm. Genau darum überlebt der Mittelstand sie selten, und genau darum landen 80 % der Pilotprojekte im Friedhof. Wer die drei Antworten vor Projektstart sauber hat, ist im verbleibenden Fünftel.

Warum 80 % der KI-Pilotprojekte im DACH-Mittelstand nie produktiv gehen

Antimuster 1: Der Use-Case-Tourismus

Antimuster 2: Der ChatGPT-Plus-Trugschluss

Antimuster 3: Der fehlende Daten-Governance-Layer

Was die meisten Berater-Decks auslassen

Drei Fragen, die jedes KI-Pilotprojekt überstehen muss

Von der Idee zum System

Verwandte Insights