

07.05.2025 | Blog RAG ist tot – oder etwa doch nicht?
RAG, also die Kombination aus einem generativen großen Sprachmodell (Large Language Modell = LLM) und einer Suchfunktion, ist schon seit einigen Jahren im Einsatz. Das Konzept wurde erstmals 2020 vorgestellt [1]. Die Veröffentlichung von ChatGPT durch OpenAI im Dezember 2022 war ein bedeutender Durchbruch: Generative Sprachmodelle gab es zwar schon etwas länger, aber erst durch Instruction Tuning und Reinforcement Learning wurden sie wirklich praktisch nutzbar. ChatGPT konnte nicht nur Konversationen führen, sondern auch eine Vielzahl an Fragen beantworten – und nutzte neben seinen ausgeprägten sprachlichen Fähigkeiten auch umfangreiches Weltwissen aus seinen Trainingsdaten.
Warum wurde RAG überhaupt eingeführt?
LLMs haben einige Schwächen, die sich durch die Integration einer Suchfunktion beheben lassen: Sie haben keinen Zugriff auf private Dokumente oder Datenbanken, die nicht Teil ihrer Trainingsdaten waren, und kennen keine Ereignisse, die nach ihrem Training stattgefunden haben. Außerdem fällt es ihnen schwer, zwischen Fakten und plausibel klingenden Vermutungen zu unterscheiden, was manchmal zu „Halluzinationen“ führt. Auch wenn sich dieses Problem im Lauf der Jahre deutlich gebessert hat, gab es eine Zeit, in der LLMs scherzhaft als „Zufallsgeneratoren für Bullshit“ bezeichnet wurden, und daran ist immer noch etwas Wahres.
RAG geht diese Herausforderungen effektiv an. Mithilfe von Suchtechnologien – meist Dense Vector Search oder Hybrid Search – werden gezielt Dokumente und Textpassagen gefunden, die relevante Informationen zur Beantwortung der ursprünglichen Frage enthalten. Dies ermöglicht den Zugriff auf nicht-öffentliche Dokumente über das Suchsystem, das Abrufen öffentlich verfügbarer Informationen, die nach dem Training des LLMs entstanden sind, und die Angabe von Quellen, die die Antworten untermauern. Infolgedessen verringern RAG-Systeme Halluzinationen erheblich.
Man könnte sagen, RAG funktioniert ein bisschen so, wie Menschen Fragen beantworten. Wir haben zwar eine Menge Wissen im Kopf (ähnlich dem Faktenwissen eines LLM), so dass wir viele Fragen sofort beantworten können. Aber wenn wir sichergehen wollen, schlagen wir oft in einem Buch oder im Internet nach, um die Antwort zu überprüfen oder zu finden. RAG macht etwas Ähnliches: Es holt sich bei Bedarf zusätzliches Wissen von außen.
Warum behaupten manche Experten, RAG sei tot?
Ehrlich gesagt, glaube ich, dass ihr Hauptargument auf persönliche Vorlieben hinausläuft - sie mögen RAG einfach nicht. Sie hätten lieber eine einzige, nahtlose KI-Black Box (also ein LLM), die alle ihre Probleme auf magische Weise löst. Wäre ja auch einfacher und bequemer, oder? Derzeit wecken zwei LLM-Entwicklungen die Hoffnung, RAG zu ersetzen:
1. Verbessertes Training
Mit den jüngsten Verbesserungen beim Training (z.B. das chinesische Modell DeepSeek, das mit deutlich geringeren Kosten als andere Modelle trainiert wurde und trotzdem wettbewerbsfähige Ergebnisse liefert) – könnte es möglich sein, ein LLM einfach mit spezifischen Daten, wie z. B. Unternehmensinformationen, finezutunen und es zur Beantwortung von Fragen direkt auf der Grundlage dieser Daten zu verwenden. Das Problem bei diesem Ansatz ist, dass bestehende LLMs, die auf fast allen öffentlich verfügbaren Daten trainiert wurden, immer noch nicht alle Fragen in Bezug auf diese Daten beantworten können und Schwierigkeiten haben, Halluzinationen zu vermeiden.
Tatsächlich ist ChatGPT jetzt selbst eine Form von RAG. Es verwendet BING, um relevante Dokumente zur Beantwortung von Fragen finden, selbst wenn diese Dokumente (wie Wikipedia) Teil seiner Trainingsdaten sind. Das neue „Deep Research“-Feature basiert stark auf dem RAG-Prinzip. Auch Perplexity ist im Grunde ein RAG-System, das Internetsuche und LLMs kombiniert.
2. Wachsende Kontextfenster
Zweitens könnte es mit der zunehmenden Größe von Kontextfenstern möglich werden, alle relevanten Inhalte für ein RAG direkt in den Prompt aufzunehmen und Fragen auf der Grundlage dieser Inhalte zu beantworten. Dieses Konzept wird als Cache-Augmented Generation (CAG) bezeichnet. Tatsächlich unterstützen einige LLMs jetzt Kontextfenster mit mehreren Millionen Token - es wäre also theoretisch möglich, einen ganzen Text wie die Bibel in einen Prompt einzugeben. Dabei gibt es jedoch zwei große Einschränkungen. Erstens nutzen LLMs mit so großen Kontextfenstern diese oft nicht zuverlässig aus; sie neigen dazu, Teile des Inhalts zu übersehen, was zu falschen Antworten führen kann [2]. Außerdem wird der Kontextumfang immer begrenzt sein, weshalb dieser Ansatz zwangsläufig an Grenzen stößt. Große Kontextfenster erfordern zudem erhebliche Rechenressourcen, was schnell teuer werden kann.
LLMs mit großen Kontextfenstern könnten RAG für kleinere Anwendungen ersetzen, z.B. für die Beantwortung von Fragen auf der Grundlage einiger weniger FAQ-Seiten. Herkömmliche RAG-Systeme beruhen auf Dense Vector Search, die für die semantische Suche bestens geeignet ist, aber Probleme bereitet, wenn exakte Keyword-Übereinstimmungen erforderlich sind, etwa bei Fehler- oder Produktcodes. Daher könnte CAG diese Systeme ersetzen, zumal CAG auch einige weitere Einschränkungen der Dense Vector Search beheben könnte, wie z. B. Probleme, die sich aus einer unzureichenden Chunking-Funktion ergeben. Allerdings ist es unwahrscheinlich, dass CAG für größere Anwendungen effektiv ist.
Die Zukunft von RAG
Wir glauben, dass RAG auch in Zukunft eine der wichtigsten, wenn nicht sogar die wichtigste Anwendung der LLMs sein wird.
Allerdings braucht es bessere Retrieval-Systeme, die auch bei großen Datenmengen skalieren. Dense Vector Search könnte aufgrund ihrer semantischen Retrieval Fähigkeiten die Lösung sein. Das Erzeugen und Speichern von Embeddings für umfangreiche Korpora erforden jedoch Zeit und Ressourcen. Und das häufige oder gar Echtzeit-Indexieren kann schwieriger sein als bei der klassischen Suche. Für große Datenmengen liefert deshalb oft eine Kombination aus Dense und Sparse Search (hybride Suche) die besten Ergebnisse: ein ausgewogenes Verhältnis aus Präzision, Vollständigkeit und Geschwindigkeit.
Deshalb arbeiten wir bei IntraFind nicht nur mit Dense Vector Search, sondern optimieren auch klassische Retrieval-Methoden für den Einsatz in RAG-Systemen, und werden demnächst einen Folge-Blogbeitrag zu diesem Thema veröffentlichen. Ich würde also behaupten, dass auch die traditionelle Suche noch nicht tot ist.
Mit der Einführung von „Reasoning Models“ wird sich vieles ändern. LLMs übernehmen künftig eine proaktivere Rolle bei der Planung und Steuerung von Retrieval-Prozessen, führen mehrere Suchschritte aus und nutzen zusätzliche Tools, um alle nötigen Informationen für eine fundierte Antwort zu sammeln. Auch hier forschen wir bei IntraFind aktiv. Und: Durch größere Kontextfenster wird das Finden von Passagen möglicherweise weniger wichtig. Möglicherweise reicht es bald, einfach alle relevanten Dokumente von der Suchmaschine direkt an das LLM zu übergeben – und es die Auswahl der relevanten Teile/Passagen übernehmen zu lassen.
Fazit
RAG ist nicht tot – es entwickelt sich weiter. Neue Ansätze wie CAG oder spezialisierte LLMs mögen RAG in bestimmten Bereichen ersetzen können. Doch wenn es darum geht, große und dynamische Wissensquellen zu nutzen, bleibt RAG die effektivste Lösung.
IntraFind entwickelt KI-basierte Suchtechnologie für Enterprise Search – bei der zuverlässiger und schneller Zugriff auf alle Informationen eines Unternehmens grundlegend ist. Da diese Informationen typischerweise aus großen und sich ständig weiterentwickelnden Wissensquellen stammen, haben wir vor einigen Jahren begonnen, die RAG-Technologie zu erforschen - und wir entwickeln sie aktiv weiter. Der nächste logische Schritt ist die Entwicklung hin zu Reasoning-Modellen und agentenbasierter Enterprise Search.
References
[1] Patrick Lewis et al. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, Advances in Neural Information Processing Systems, submitted 2020.
[2] Yuri Kuratov et al. BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack, 2024
Der Blogbeitrag wurde im Original auf Englisch verfasst.
Ähnliche Seiten und Artikel


Welches LLM ist das richtige?

GenAI: Vom Hype zur praktischen Anwendung in Unternehmen
Der Autor
Dr. Christoph Goller
