Skip to content
Glossar

RAG (Retrieval-Augmented Generation)

Sie fragen Ihren Firmenchatbot nach der aktuellen Retourenrichtlinie. Er antwortet überzeugend — und erfindet eine Frist, die es nicht gibt. Das ist das Halluzinationsproblem. RAG (Retrieval-Augmented Generation) löst es.

So funktioniert die Architektur

Dokumente werden in kleinere Abschnitte (Chunks) zerlegt und als Vektoren gespeichert — in Pinecone, Weaviate oder pgvector. Bei einer Anfrage wird der Suchtext vektorisiert, die relevantesten Chunks per Ähnlichkeitssuche abgerufen und als Kontext in den LLM-Prompt eingespeist. Das Modell antwortet auf Basis echter Quellen, nicht aus dem Gedächtnis.

Halluzinationen um bis zu 96 % reduzieren

RAG senkt Halluzinationsraten um 42-68 %. Eine Stanford-Studie erreichte mit zusätzlichen Guardrails 96 % Reduktion. Hybride Suche (Vektor + Keyword) mit Reranking verbessert die Retrieval-Präzision um 15-30 %.

RAG vs. Fine-Tuning: wann was?

RAG, wenn aktuelle Daten entscheidend sind und Quellen zitierbar sein müssen. Fine-Tuning, wenn konsistentes Domänenwissen ins Modell eingebrannt werden soll. In der Praxis: beides zusammen. Fine-Tuning bestimmt, wie das Modell denkt. RAG bestimmt, womit.

RAG ist der schnellste Weg zum Firmenchatbot. Dokumentation, Produktkataloge, interne Richtlinien — alles wird durchsuchbar, ohne ein Modell trainieren zu müssen.

Fragen zu einem Begriff?

Wir erklären Ihnen gerne, was das konkret für Ihr Unternehmen bedeutet.

Beratungsgespräch vereinbaren