RAG im Mittelstand: Wann sich eine Vektordatenbank lohnt

AI Infrastructure · 12 Min Lesezeit

RAG, Retrieval-Augmented Generation, ist die meistverkaufte und am häufigsten falsch eingesetzte KI-Architektur im Mittelstand. Richtig gemacht, löst sie das Halluzinations- und Aktualitätsproblem von LLMs und liefert auditierbare Antworten aus Ihren eigenen Dokumenten. Falsch gemacht, ist sie teurer Aufwand für ein Problem, das ein simples Kontextfenster oder eine Stichwortsuche besser gelöst hätte. Hier ist die ehrliche Entscheidungsmatrix, inklusive eines Rechenbeispiels, das zeigt, wann RAG 97 % der Kosten spart und wann es schlicht überflüssig ist.

RAG ist das Akronym, das Ihnen aktuell jeder KI-Anbieter verkaufen will. Retrieval-Augmented Generation. Es ist eine exzellente Technologie und zugleich die am häufigsten unnötig eingesetzte. Ich habe Projekte gesehen, in denen Teams ein aufwendiges RAG-System für ein Problem bauten, das eine simple Stichwortsuche besser gelöst hätte. Und andere, in denen RAG genau richtig war und 97 % der Kosten sparte.

Dieser Artikel erklärt, was RAG ist, wann es sich lohnt und vor allem, wann nicht. Die „Wann nicht“-Frage ist die wertvollere, weil sie Sie vor Fehlinvestitionen schützt.

Was RAG ist: das Open-Book-Prinzip

Ein LLM hat zwei strukturelle Schwächen (ausführlich im Artikel über die Grenzen von LLMs): Es weiß nichts nach seinem Trainings-Cutoff, und es halluziniert, wenn ihm Fakten fehlen. RAG löst beides mit einem einfachen Prinzip: Statt das Modell aus dem Gedächtnis antworten zu lassen, gibt man ihm die relevanten Dokumente vor der Antwort mit, wie eine Klausur, in der das Lehrbuch erlaubt ist.

Konkret: Das System nutzt die Frage des Nutzers, um in einer Dokumenten-Sammlung die relevantesten Passagen zu finden, und gibt diese Passagen zusammen mit der Frage an das LLM, das daraus die Antwort formuliert. Drei Vorteile:

Aktualität: Neue Dokumente pflegen Sie in die Sammlung ein, ein teures Nachtrainieren des Modells entfällt.
Faktentreue: Die Anweisung „antworte nur auf Basis der bereitgestellten Dokumente“ macht aus der kreativen Schreibmaschine eine präzise Synthese-Einheit.
Auditierbarkeit: Jede Aussage lässt sich auf das Quelldokument zurückführen. Das ist entscheidend für ISO-Zertifizierungen, Audits und Haftungsfragen im Mittelstand.

Wie es funktioniert: fünf Schritte

Sie müssen das nicht selbst bauen, aber Sie sollten die Kette verstehen, um Anbieter zu prüfen:

Chunking: Dokumente werden in sinnvolle Abschnitte zerlegt. Der häufigste Fehler liegt hier: Wer Texte stur nach Zeichenzahl zerschneidet, zerstört den Sinn. Gute Systeme schneiden entlang logischer Grenzen (Kapitel, Abschnitte).
Embedding: Ein Modell übersetzt jeden Abschnitt in eine Zahlenreihe, die seine Bedeutung repräsentiert. Ähnliche Bedeutungen („Rechnung“ und „Faktura“) landen mathematisch nah beieinander.
Vector Store: Diese Zahlenreihen landen in einer spezialisierten Datenbank, die in Millisekunden die ähnlichsten findet.
Retrieval: Das System findet zur Nutzerfrage die passendsten Abschnitte. Die besten Lösungen kombinieren hier semantische Suche mit klassischer Stichwortsuche (Hybrid Search) und sortieren das Ergebnis mit einem Reranking-Schritt nach. Das ist der stärkste Qualitätshebel überhaupt.
Generation: Die Top-Abschnitte gehen mit der Frage ans LLM, das die Antwort formuliert.

Die Vektordatenbank-Wahl mit DSGVO-Brille

Für den Mittelstand ist die Wahl der Vektordatenbank vor allem eine Datenschutz- und Betriebskosten-Entscheidung:

Lösung	DSGVO	Einordnung
pgvector (PostgreSQL)	✅ perfekt	Die pragmatischste Lösung. Läuft als Erweiterung Ihrer bestehenden PostgreSQL-DB — kein neues Silo, keine Lizenzkosten. Ideal unter ~10 Mio. Abschnitten.
Qdrant	✅ sehr gut	Performance- und Kostensieger bei dedizierten Vektor-DBs. DSGVO-konformes EU-Hosting verfügbar, auch self-hosted.
Weaviate	✅ gut	Stark bei komplexen Datenmodellen, EU-Hosting + self-hosted möglich.
Pinecone	⚠️ komplexer	Gut für schnelle Prototypen. US-Anbieter — EU-Region zwar buchbar, aber als US-Unternehmen CLOUD-Act-exponiert; plus potenziell hohe laufende Fixkosten.

Faustregel für den Mittelstand: Wenn Sie ohnehin PostgreSQL nutzen, starten Sie mit pgvector. Sie brauchen kein neues System, keine neue Lizenz, keinen neuen Datenschutz-Vertrag. Erst wenn Sie an dessen Grenzen stoßen, lohnt der Wechsel zu einer dedizierten Lösung wie Qdrant.

Der Anti-Hype-Kern: Wann RAG NICHT die Antwort ist

Hier ist der Teil, den Ihnen kein RAG-Anbieter erzählt. Es gibt drei Situationen, in denen RAG der falsche Weg ist:

1. RAG vs. großes Kontextfenster

Moderne Modelle wie Gemini halten über eine Million Token im Kontext. Da liegt der Gedanke nahe, alles ins Kontextfenster zu geben, statt Dokumente aufwendig zu zerschneiden. Drei Gründe sprechen trotzdem oft für RAG:

Der „Lost in the Middle“-Effekt: Modelle können riesige Kontexte lesen, übersehen aber statistisch belegbar Details, die in der Mitte vergraben sind. RAG filtert das Rauschen vorab.
Latenz: Eine Million Token zu verarbeiten dauert 30-60 Sekunden. RAG antwortet in 1-2 Sekunden.
Kosten: Hier wird es drastisch, siehe Rechenbeispiel unten.

Aber: Bei kleinen, einmaligen Aufgaben (ein einzelnes 50-Seiten-Dokument analysieren) ist das große Kontextfenster einfacher und besser. RAG lohnt sich erst bei wiederkehrenden Abfragen auf große, wachsende Dokumentenbestände.

2. RAG vs. simple Stichwortsuche

Suchen Ihre Nutzer nach exakten Begriffen wie Artikelnummern, Seriennummern, Kunden-IDs oder standardisierten Bezeichnungen („Ersatzteil X-400“), ist eine klassische Stichwortsuche schneller, billiger und zuverlässiger. RAG wird erst zwingend, wenn Nutzer nach Konzepten suchen, deren exakte Worte nicht in der Anfrage stehen („Welche unserer Pumpen sind säureresistent?“), und wenn sie eine zusammenhängende Antwort statt einer Linkliste brauchen.

3. RAG vs. Fine-Tuning

Ein verbreiteter Irrtum: „Wir trainieren dem Modell unser Firmenwissen an.“ Das ist fast immer falsch. Fine-Tuning dient der Anpassung von Verhalten, Stil und Tonalität. Fakten vermittelt es nicht. Wenn das Modell Ihre aktuellen Preise, Verträge oder Handbücher kennen soll, ist RAG der richtige Weg, nicht Fine-Tuning. Wer Fakten ins Modell trainiert, bekommt teure, schwer aktualisierbare und trotzdem halluzinationsanfällige Ergebnisse.

Das Rechenbeispiel, das alles klärt

Nehmen wir ein realistisches Szenario: 50 Anfragen pro Tag auf eine große Dokumentensammlung. Größenordnung der monatlichen Kosten (Stand 2026, gerundet):

Ohne RAG (alles ins Kontextfenster): Jede Anfrage lädt das gesamte Dokumenten-Volumen. Bei ~1.500 Anfragen/Monat landen Sie schnell im Bereich von mehreren tausend Euro pro Monat, allein für die Modell-Kosten.
Mit RAG: Jede Anfrage lädt nur die relevanten Abschnitte (statt aller Dokumente). Die Modell-Kosten fallen um über 90 %, dazu kommen moderate Kosten für die Vektordatenbank. Sie landen im Bereich von einigen hundert Euro pro Monat.

Die Ersparnis kann je nach Volumen über 90 % betragen. Deshalb gewinnt RAG bei wiederkehrenden Abfragen auf große Bestände fast immer, und deshalb ist es bei kleinen, einmaligen Aufgaben überflüssiger Aufwand. Die Volumen-Schwelle ist die eigentliche Entscheidungsgröße.

Die häufigsten Fehler im Mittelstand

„Garbage in, garbage out“: Der Versuch, ein chaotisches Netzlaufwerk mit Dubletten und veralteten Dateien aus 2012 unbereinigt zu indexieren. Ergebnis: Die KI zitiert selbstbewusst veraltete Preislisten und abgelaufene Verträge. Die Datenbereinigung VOR dem Aufbau ist kein optionaler Schritt.
Fehlende Metadaten: Abschnitte ohne Information, aus welchem Dokument und welcher Version sie stammen. Ohne Metadaten ist die Auditierbarkeit dahin, und mit ihr der halbe Wert von RAG.
Optimierung „nach Gefühl“: Teams testen Anpassungen an drei Beispielfragen. Professionelle RAG-Projekte nutzen Mess-Frameworks (etwa RAGAS), die mathematisch prüfen, ob die Antworten auf den Quellen basieren und relevant sind.

Realistischer Aufwand: Gates statt Bauchgefühl

Für ein mittelständisches Szenario (Größenordnung: zehntausende Dokumente, hunderte Nutzer) liegen die einmaligen Aufbaukosten realistisch im mittleren fünfstelligen Bereich (Konzept, Datenbereinigung, Integration in Ihr Rechtekonzept), die laufenden Betriebskosten im Bereich einiger hundert bis gut tausend Euro pro Monat. Steuern Sie das Projekt über Qualitäts-Gates, nicht über Kalendertage:

Gate 1: Vektorisierung erst, wenn das Daten-Audit abgeschlossen und Dubletten substanziell bereinigt sind.
Gate 2: Testbetrieb erst, wenn die Faktentreue auf einem repräsentativen Testset von ~100 Fragen verlässlich hoch ist (messbar via RAGAS).
Gate 3: Produktivstart erst nach DSGVO-Audit und implementiertem Berechtigungskonzept (wer darf welche Dokumente sehen; die KI muss diese Rechte respektieren).

Die Quintessenz

RAG ist exzellent, wenn Sie wiederkehrende, konzeptuelle Fragen auf einen großen, wachsenden Dokumentenbestand beantworten müssen und Auditierbarkeit brauchen. Es ist überflüssig bei einmaligen Aufgaben, exakten Stichwortsuchen oder kleinen Dokumentenmengen, die ins Kontextfenster passen.

Die ehrlichste Beratung, die ich einem Mittelständler geben kann, lautet daher oft: Bevor wir über RAG reden, lassen Sie uns prüfen, ob Sie es überhaupt brauchen. In etwa einem Drittel der Fälle ist die Antwort Nein. Das gesparte Budget ist besser in Datenbereinigung oder Prompt-Kompetenz investiert. Genau diese Ehrlichkeit unterscheidet einen Berater von einem Verkäufer.

RAG im Mittelstand: Wann sich eine Vektordatenbank lohnt und wann nicht