Zum Hauptinhalt springen
Insights·AI Infrastructure·12 Min Lesezeit

RAG im Mittelstand: Wann sich eine Vektordatenbank lohnt — und wann nicht

RAG — Retrieval-Augmented Generation — ist die meistverkaufte und am häufigsten falsch eingesetzte KI-Architektur im Mittelstand. Richtig gemacht, löst sie das Halluzinations- und Aktualitätsproblem von LLMs und liefert auditierbare Antworten aus Ihren eigenen Dokumenten. Falsch gemacht, ist sie teurer Aufwand für ein Problem, das ein simples Kontextfenster oder eine Stichwortsuche besser gelöst hätte. Hier ist die ehrliche Entscheidungsmatrix — inklusive eines Rechenbeispiels, das zeigt, wann RAG 97 % der Kosten spart und wann es schlicht überflüssig ist.

Daaniyal Khan
Daaniyal Khan
Strategie- und KI-Berater · DACH

RAG ist das Akronym, das Ihnen aktuell jeder KI-Anbieter verkaufen will. Retrieval-Augmented Generation. Es ist eine exzellente Technologie — und gleichzeitig die am häufigsten unnötig eingesetzte. Ich habe Projekte gesehen, in denen ein aufwendiges RAG-System gebaut wurde für ein Problem, das eine simple Stichwortsuche besser gelöst hätte. Und andere, in denen RAG genau richtig war und 97 % der Kosten sparte.

Dieser Artikel erklärt, was RAG ist, wann es sich lohnt — und vor allem, wann nicht. Die „Wann nicht"-Frage ist die wertvollere, weil sie Sie vor Fehlinvestitionen schützt.

Was RAG ist — das Open-Book-Prinzip

Ein LLM hat zwei strukturelle Schwächen (ausführlich im Artikel über die Grenzen von LLMs): Es weiß nichts nach seinem Trainings-Cutoff, und es halluziniert, wenn ihm Fakten fehlen. RAG löst beides mit einem einfachen Prinzip: Statt das Modell aus dem Gedächtnis antworten zu lassen, gibt man ihm die relevanten Dokumente vor der Antwort mit — wie eine Klausur, in der das Lehrbuch erlaubt ist.

Konkret: Die Frage des Nutzers wird genutzt, um in einer Dokumenten- Sammlung die relevantesten Passagen zu finden. Diese Passagen werden zusammen mit der Frage an das LLM gegeben, das daraus die Antwort formuliert. Drei Vorteile:

  • Aktualität: Neue Dokumente werden einfach in die Sammlung eingepflegt, kein teures Nachtrainieren des Modells.
  • Faktentreue: Mit der Anweisung „antworte nur auf Basis der bereitgestellten Dokumente" wird das Modell von der kreativen Schreibmaschine zur präzisen Synthese-Einheit.
  • Auditierbarkeit: Jede Aussage lässt sich auf das Quelldokument zurückführen — entscheidend für ISO-Zertifizierungen, Audits und Haftungsfragen im Mittelstand.

Wie es funktioniert — fünf Schritte

Sie müssen das nicht selbst bauen, aber Sie sollten die Kette verstehen, um Anbieter zu prüfen:

  1. Chunking: Dokumente werden in sinnvolle Abschnitte zerlegt. Der häufigste Fehler liegt hier — wer Texte stur nach Zeichenzahl zerschneidet, zerstört den Sinn. Gut gemacht wird entlang logischer Grenzen (Kapitel, Abschnitte) geschnitten.
  2. Embedding: Jeder Abschnitt wird in eine Zahlenreihe übersetzt, die seine Bedeutung repräsentiert. Ähnliche Bedeutungen („Rechnung" und „Faktura") landen mathematisch nah beieinander.
  3. Vector Store: Diese Zahlenreihen werden in einer spezialisierten Datenbank gespeichert, die in Millisekunden die ähnlichsten findet.
  4. Retrieval: Zur Nutzerfrage werden die passendsten Abschnitte gefunden. Die besten Systeme kombinieren hier semantische Suche mit klassischer Stichwortsuche (Hybrid Search) und sortieren das Ergebnis mit einem Reranking-Schritt nach — der stärkste Qualitätshebel überhaupt.
  5. Generation: Die Top-Abschnitte gehen mit der Frage ans LLM, das die Antwort formuliert.

Die Vektordatenbank-Wahl — mit DSGVO-Brille

Für den Mittelstand ist die Wahl der Vektordatenbank vor allem eine Datenschutz- und Betriebskosten-Entscheidung:

LösungDSGVOEinordnung
pgvector (PostgreSQL)✅ perfektDie pragmatischste Lösung. Läuft als Erweiterung Ihrer bestehenden PostgreSQL-DB — kein neues Silo, keine Lizenzkosten. Ideal unter ~10 Mio. Abschnitten.
Qdrant✅ sehr gutPerformance- und Kostensieger bei dedizierten Vektor-DBs. DSGVO-konformes EU-Hosting verfügbar, auch self-hosted.
Weaviate✅ gutStark bei komplexen Datenmodellen, EU-Hosting + self-hosted möglich.
Pinecone⚠️ komplexerGut für schnelle Prototypen. US-Anbieter — EU-Region zwar buchbar, aber als US-Unternehmen CLOUD-Act-exponiert; plus potenziell hohe laufende Fixkosten.

Faustregel für den Mittelstand: Wenn Sie ohnehin PostgreSQL nutzen, starten Sie mit pgvector. Sie brauchen kein neues System, keine neue Lizenz, keinen neuen Datenschutz-Vertrag. Erst wenn Sie an dessen Grenzen stoßen, lohnt der Wechsel zu einer dedizierten Lösung wie Qdrant.

Der Anti-Hype-Kern: Wann RAG NICHT die Antwort ist

Hier ist der Teil, den Ihnen kein RAG-Anbieter erzählt. Es gibt drei Situationen, in denen RAG der falsche Weg ist:

1. RAG vs. großes Kontextfenster

Moderne Modelle wie Gemini halten über eine Million Token im Kontext — warum also Dokumente aufwendig zerschneiden, statt einfach alles reinzugeben? Drei Gründe sprechen trotzdem oft für RAG:

  • Der „Lost in the Middle"-Effekt: Modelle können riesige Kontexte lesen, übersehen aber statistisch belegbar Details, die in der Mitte vergraben sind. RAG filtert das Rauschen vorab.
  • Latenz: Eine Million Token zu verarbeiten dauert 30-60 Sekunden. RAG antwortet in 1-2 Sekunden.
  • Kosten: Hier wird es drastisch — siehe Rechen- beispiel unten.

Aber: Bei kleinen, einmaligen Aufgaben (ein einzelnes 50-Seiten-Dokument analysieren) ist das große Kontextfenster einfacher und besser. RAG lohnt sich erst bei wiederkehrenden Abfragen auf große, wachsende Dokumentenbestände.

2. RAG vs. simple Stichwortsuche

Wenn Ihre Nutzer nach exakten Begriffen suchen — Artikelnummern, Seriennummern, Kunden-IDs, standardisierte Bezeichnungen („Ersatzteil X-400") — dann ist eine klassische Stichwortsuche schneller, billiger und zuverlässiger. RAG ist erst dann zwingend, wenn nach Konzepten gesucht wird, deren exakte Worte nicht in der Anfrage stehen („Welche unserer Pumpen sind säureresistent?") — und wenn eine zusammenhängende Antwort statt einer Linkliste gebraucht wird.

3. RAG vs. Fine-Tuning

Ein verbreiteter Irrtum: „Wir trainieren dem Modell unser Firmenwissen an." Das ist fast immer falsch. Fine-Tuning dient der Anpassung von Verhalten, Stil und Tonalität — nicht der Vermittlung von Fakten. Wenn das Modell Ihre aktuellen Preise, Verträge oder Handbücher kennen soll, ist RAG der richtige Weg, nicht Fine-Tuning. Wer Fakten ins Modell trainiert, bekommt teure, schwer aktualisierbare und trotzdem halluzinationsanfällige Ergebnisse.

Das Rechenbeispiel, das alles klärt

Nehmen wir ein realistisches Szenario: 50 Anfragen pro Tag auf eine große Dokumentensammlung. Größenordnung der monatlichen Kosten (Stand 2026, gerundet):

  • Ohne RAG (alles ins Kontextfenster): Jede Anfrage lädt das gesamte Dokumenten-Volumen. Bei ~1.500 Anfragen/Monat landen Sie schnell im Bereich von mehreren tausend Euro pro Monat — nur für die Modell-Kosten.
  • Mit RAG: Jede Anfrage lädt nur die relevanten Abschnitte (statt aller Dokumente). Die Modell-Kosten fallen um über 90 %, dazu kommen moderate Kosten für die Vektordatenbank. Sie landen im Bereich von einigen hundert Euro pro Monat.

Die Ersparnis kann je nach Volumen über 90 % betragen. Das ist der Grund, warum RAG bei wiederkehrenden Abfragen auf große Bestände fast immer gewinnt — und warum es bei kleinen, einmaligen Aufgaben überflüssiger Aufwand ist. Die Volumen-Schwelle ist die eigentliche Entscheidungsgröße.

Die häufigsten Fehler im Mittelstand

  • „Garbage in, garbage out": Der Versuch, ein chaotisches Netzlaufwerk mit Dubletten und veralteten Dateien aus 2012 unbereinigt zu indexieren. Ergebnis: Die KI zitiert selbstbewusst veraltete Preislisten und abgelaufene Verträge. Die Datenbereinigung VOR dem Aufbau ist kein optionaler Schritt.
  • Fehlende Metadaten: Abschnitte ohne Information, aus welchem Dokument und welcher Version sie stammen. Ohne Metadaten ist die Auditierbarkeit — der halbe Wert von RAG — dahin.
  • Optimierung „nach Gefühl": Anpassungen werden an drei Beispielfragen getestet. Professionelle RAG-Projekte nutzen Mess-Frameworks (etwa RAGAS), die mathematisch prüfen, ob die Antworten wirklich auf den Quellen basieren und relevant sind.

Realistischer Aufwand — mit Gates statt Bauchgefühl

Für ein mittelständisches Szenario (Größenordnung: zehntausende Dokumente, hunderte Nutzer) liegen die einmaligen Aufbaukosten realistisch im mittleren fünfstelligen Bereich(Konzept, Datenbereinigung, Integration in Ihr Rechtekonzept), die laufenden Betriebskosten im Bereich einiger hundert bis gut tausend Euro pro Monat. Steuern Sie das Projekt über Qualitäts-Gates, nicht über Kalendertage:

  • Gate 1: Vektorisierung erst, wenn das Daten-Audit abgeschlossen und Dubletten substanziell bereinigt sind.
  • Gate 2: Testbetrieb erst, wenn die Faktentreue auf einem repräsentativen Testset von ~100 Fragen verlässlich hoch ist (messbar via RAGAS).
  • Gate 3: Produktivstart erst nach DSGVO-Audit und implementiertem Berechtigungskonzept (wer darf welche Dokumente sehen — die KI muss diese Rechte respektieren).

Die Quintessenz

RAG ist exzellent, wenn Sie wiederkehrende, konzeptuelle Fragen auf einen großen, wachsenden Dokumentenbestand beantworten müssen und Auditierbarkeit brauchen. Es ist überflüssig bei einmaligen Aufgaben, exakten Stichwortsuchen oder kleinen Dokumentenmengen, die ins Kontextfenster passen.

Die ehrlichste Beratung, die ich einem Mittelständler geben kann, lautet daher oft: Bevor wir über RAG reden, lassen Sie uns prüfen, ob Sie es überhaupt brauchen. In etwa einem Drittel der Fälle ist die Antwort Nein — und das gesparte Budget ist besser in Datenbereinigung oder Prompt-Kompetenz investiert. Genau diese Ehrlichkeit unterscheidet einen Berater von einem Verkäufer.

Stand: 26. Mai 2026. Kosten sind Größenordnungen, keine Angebote — die konkreten Zahlen hängen von Volumen, Anbieter und Architektur ab. Primäre Quellen: qdrant.tech · pgvector · RAGAS · cohere.com. Recherche-Unterstützung durch Multi-Agent-Tooling, finale Darstellung und Einordnung redaktionell.