RAG und seine praktische Implementierung mit LangChain, Bun, Ollama und Qdrant

Moderne Large Language Models (LLMs) sind beeindruckend, haben jedoch eine wesentliche Einschränkung: Ihr Wissen ist in ihren Gewichtungen fixiert, was es schwierig macht, ihr Wissen zu aktualisieren und zu erweitern. Retrieval-Augmented Generation (RAG) ist ein Ansatz, der entwickelt wurde, um dieses Problem zu lösen. Von Meta im Jahr 2020 eingeführt, verbindet es ein Sprachmodell mit einer externen Wissensdatenbank (zum Beispiel einer Sammlung von Dokumenten), damit es aktuelle und spezifische Informationen in seine Antworten einbeziehen kann. In der Praxis extrahiert das RAG-System für jede gestellte Frage zunächst relevante Inhalte aus seiner Dokumentenbasis und generiert dann eine Antwort, indem es diesen abgerufenen Kontext mit den sprachlichen Fähigkeiten des LLM kombiniert.

Hinweis: Der vollständige Quellcode für das in diesem Artikel erwähnte Beispielprojekt ist auf GitHub verfügbar.

Artikelübersicht

Was ist RAG und warum sollte man es verwenden?
- Funktionsprinzip
- Vorteile gegenüber klassischen Ansätzen
- Konkrete Anwendungsfälle
Architektur eines RAG-Systems
- Wesentliche Komponenten
- Datenfluss
- Technologieauswahl
Praktische Implementierung mit TypeScript
- Projekteinrichtung mit Bun
- LangChain-Integration
- Ollama- und Qdrant-Konfiguration
Codeanalyse und Best Practices
- Dokumentenindexierung
- Semantische Suche
- Antwortgenerierung
Vorteile des technischen Stacks
- Bun-Leistung vs. Node.js
- Einfachheit von LangChain
- Flexibilität von Ollama
- Skalierbarkeit von Qdrant
Weiterführende Themen
- Fortgeschrittene Optimierungen
- Bewertung und Metriken
- Technologische Alternativen

Was ist RAG und warum sollte man es verwenden?

Retrieval-Augmented Generation (RAG) bedeutet wörtlich "durch Abruf erweiterte Generierung". Die Idee besteht darin, das Wissen vom Modell zu trennen. Anstatt zu versuchen, alle Informationen in die Parameter eines LLM einzubauen (durch kostspieliges Fine-Tuning) oder ein klassisches Modell zu entwerfen, das Antworten aus Daten vorhersagen würde, lassen wir das Hauptmodell Text generieren und erweitern es mit einem Zwischenschritt der Informationsabfrage. Ein typischer RAG-Pipeline funktioniert wie folgt:

Benutzeranfrage – Der Benutzer stellt eine Frage oder gibt eine Anfrage in natürlicher Sprache ein (z.B. "Wofür wird Klasse X in diesem Projekt verwendet?").
Suche nach relevanten Dokumenten – Das System transformiert diese Frage in eine Vektordarstellung (Embedding) und fragt dann eine Vektordatenbank ab, um Dokumente oder Passagen abzurufen, die semantisch am ähnlichsten zur Anfrage sind. Dies identifiziert den relevanten Kontext (z.B. einen Auszug aus der Dokumentation, Code oder einem Artikel, der der Frage entspricht).
Kontext + Fragenkombination – Die abgerufenen Dokumente oder Auszüge werden dann dem Sprachmodell als Kontext zur Verfügung gestellt. In der Praxis werden sie in den Prompt des LLM eingefügt, typischerweise über eine Systemnachricht oder indem die Frage des Benutzers mit dem Text der gefundenen Dokumente versehen wird.
Antwortgenerierung – Das Sprachmodell (LLM) generiert dann eine Antwort basierend sowohl auf der Frage als auch auf dem bereitgestellten Kontext. Die Antwort sollte Informationen aus den Dokumenten enthalten, die dank der Fähigkeiten des LLM kohärent formuliert sind.

Dieser Prozess ermöglicht es dem Modell, sich zum Zeitpunkt der Generierung auf spezifisches externes Wissen zu stützen, ohne es dauerhaft speichern zu müssen. Dies kann mit einem Menschen verglichen werden, der angesichts einer Frage Bücher oder Referenzdokumente konsultieren würde, bevor er antwortet: Das LLM "durchsucht seine Bibliothek", bevor es spricht.

Konkrete Anwendungsfälle für RAG

Der RAG-Ansatz ist besonders nützlich, wenn ein Konversationsassistent eine sich entwickelnde oder umfangreiche Wissensbasis verwalten muss. Hier sind einige Beispiele für konkrete Anwendungsfälle, in denen RAG im Vergleich zu klassischen Methoden hervorragend abschneidet:

Dokumentarische Chatbots: Ein Assistent, der von der technischen Dokumentation eines Unternehmens angetrieben wird und in der Lage ist, Fragen von Entwicklern oder Kunden zu beantworten, indem er direkt aus Handbüchern, internen Wissensdatenbanken oder sogar Quellcode schöpft. Zum Beispiel kann das Modell mit API-Spezifikationen oder dem Code eines Open-Source-Projekts verbunden werden, um zu erklären, wie eine Funktion funktioniert oder warum ein bestimmtes Design gewählt wurde.

Dynamische FAQs: In einem Kundenservice-Kontext kann ein RAG-Chatbot häufig gestellte Fragen (FAQs) auf der Grundlage der neuesten Richtlinien oder Produktdaten beantworten. Wenn sich eine Richtlinie (z.B. Rückgabebedingungen) ändert, müssen Sie nur das Referenzdokument aktualisieren, und der Bot wird es sofort berücksichtigen, ohne dass ein erneutes Training erforderlich ist. Dies führt zu stets aktuellen FAQs mit der Möglichkeit, die Informationsquelle zur Unterstützung der Antwort anzugeben.

Juristische Assistenten: Ein Assistent kann Anwälten oder Juristen helfen, indem er relevante Passagen in einer Datenbank von Gesetzen, Rechtsprechung oder Verträgen für eine bestimmte Frage findet und dann die Antwort in natürlicher Sprache formuliert. Das Modell muss nicht das gesamte Bürgerliche Gesetzbuch auswendig kennen; es muss nur die entsprechenden Artikel nachschlagen. Dasselbe gilt für einen medizinischen Assistenten, der Datenbanken wissenschaftlicher Publikationen oder medizinischer Protokolle abfragen könnte, um Antworten auf der Grundlage des neuesten klinischen Wissens zu geben.

Programmierassistent: Dies ist der Fall unseres Beispielprojekts – ein Assistent, der den Inhalt eines Code-Repositorys kennt und Fragen zu diesem Code beantworten kann (Architektur, Rolle eines Moduls, potenzielle Fehler usw.). Anstatt ein spezialisiertes Programmiermodell zu trainieren, verwenden wir ein generalistisches LLM, das durch die Suche nach relevanten Codedateien im Repository erweitert wird.

Architektur eines RAG-Systems

Wesentliche Komponenten

Ein vollständiges RAG-System umfasst typischerweise die folgenden Komponenten:

Indexierung und Speicherung
- Dokumentenprozessor (Extraktion, Bereinigung, Chunking)
- Embedding-Generator (Transformation in Vektoren)
- Vektordatenbank (Speicherung und Suche)
Abfrage-Pipeline
- Abfrage-Vorverarbeiter
- Semantische Suchmaschine
- Prompt-Generator
Generierung und Nachbearbeitung
- LLM-Schnittstelle
- Antwortbewerter
- Ausgabeformatierer

Datenfluss

typescript

Technologieauswahl

Für unsere Implementierung haben wir einen modernen und leistungsstarken Stack gewählt:

Bun: Ultraschnelle JavaScript-Laufzeitumgebung, ideal für Serveranwendungen
TypeScript: Statische Typisierung für bessere Wartbarkeit
LangChain: Framework zum Erstellen LLM-basierter Anwendungen
Ollama: Tool zum lokalen Ausführen von Sprachmodellen
Qdrant: Leistungsstarke und einfach zu implementierende Vektordatenbank

Diese Kombination bietet ein ausgezeichnetes Gleichgewicht zwischen Leistung, Entwicklungskomfort und Flexibilität.

Praktische Implementierung mit TypeScript

Projekteinrichtung mit Bun

Beginnen wir mit der Initialisierung unseres Projekts:

bash

Grundlegende Konfiguration

typescript

Dokumentenindexierung

Die Indexierung ist ein entscheidender Schritt in einem RAG-System. Sie umfasst die Umwandlung von Rohdokumenten in angemessen große Chunks und anschließend die Generierung von Embeddings für jeden Chunk.

typescript

Suche und Antwortgenerierung

typescript

Einfache Benutzeroberfläche

typescript

Codeanalyse und Best Practices

Effizientes Chunking

Das Aufteilen von Dokumenten in Chunks ist ein kritischer Schritt, der die Qualität der Ergebnisse direkt beeinflusst. Einige Best Practices:

Angemessene Größe: Chunks sollten groß genug sein, um Kontext zu enthalten, aber nicht zu groß, um relevant zu bleiben (typischerweise zwischen 500 und 1500 Zeichen).
Überlappung: Überlappung zwischen Chunks verhindert den Verlust von Kontext an den Grenzen.
Semantische Aufteilung: Idealerweise sollte die Aufteilung die semantische Struktur der Dokumente (Absätze, Funktionen usw.) respektieren.

Suchoptimierung

Die Qualität der semantischen Suche ist essenziell:

Metadatenfilter: Verwenden Sie Metadaten (Dateityp, Datum, Autor), um Suchen zu verfeinern.
Re-Ranking: Wenden Sie eine zweite Filterebene an, um die Relevanz zu verbessern.
Diversität: Stellen Sie die Vielfalt der Ergebnisse sicher, um verschiedene Aspekte der Frage abzudecken.

Fortgeschrittenes Prompting

Die Konstruktion von Prompts ist eine Kunst, die die Qualität der Antworten stark beeinflusst:

typescript

Vorteile des technischen Stacks

Bun-Leistung vs. Node.js

Bun bietet signifikante Vorteile für diese Art von Anwendung:

Schneller Start: Startzeit bis zu 4x schneller als Node.js
Optimierte Ausführung: Überlegene Ausführungsleistung, insbesondere für I/O-Operationen
Integrierter Bundler: Vereinfachung des Entwicklungs-Workflows

Einfachheit von LangChain

LangChain erleichtert die Entwicklung von LLM-basierten Anwendungen erheblich:

Abstraktion: Einheitliche Schnittstelle für verschiedene Modelle und Anbieter
Wiederverwendbare Komponenten: Einsatzbereite Chains, Agents und Tools
Etablierte Muster: Referenzimplementierungen für gängige Anwendungsfälle

Flexibilität von Ollama

Ollama ermöglicht das lokale Ausführen von Sprachmodellen mit großer Flexibilität:

Lokale Modelle: Keine Abhängigkeit von externen APIs
Datenschutz: Daten bleiben in Ihrer Infrastruktur
Anpassung: Möglichkeit, Modelle nach Ihren Bedürfnissen anzupassen

Skalierbarkeit von Qdrant

Qdrant ist eine moderne Vektordatenbank, die für semantische Suche konzipiert wurde:

Leistung: Optimiert für schnelle Ähnlichkeitssuchen
Filterung: Erweiterte Filtermöglichkeiten für Metadaten
Flexible Bereitstellung: Nutzbar im eingebetteten Modus oder als Dienst

Weiterführende Themen

Fortgeschrittene Optimierungen

Hybride Suche: Kombination von Vektorsuche und Schlüsselwortsuche
Hierarchisches Chunking: Verwendung verschiedener Granularitätsebenen für Chunks
Caching: Zwischenspeichern von Suchergebnissen und häufigen Antworten

Bewertung und Metriken

Um die Qualität eines RAG-Systems zu messen:

Relevanz: Sind die abgerufenen Dokumente relevant für die Frage?
Treue: Ist die Antwort den Quelldokumenten treu?
Nützlichkeit: Beantwortet die Antwort effektiv die Frage des Benutzers?

Technologische Alternativen

Frameworks: Haystack, LlamaIndex als Alternativen zu LangChain
Vektordatenbanken: Pinecone, Weaviate, Milvus als Alternativen zu Qdrant
Modelle: Verschiedene lokale Modelle (Llama, Mistral) oder APIs (OpenAI, Anthropic)

Fazit

Retrieval-Augmented Generation stellt einen bedeutenden Fortschritt dar in der Art und Weise, wie wir Sprachmodelle für spezifische Anwendungsfälle nutzen können. Durch die Trennung von Wissen und Generierungsmodell ermöglicht RAG die Erstellung von KI-Assistenten, die genauer, aktueller und transparenter sind.

Unsere Implementierung mit TypeScript, Bun, LangChain, Ollama und Qdrant zeigt, dass es jetzt möglich ist, leistungsstarke RAG-Systeme mit modernen und zugänglichen Technologien zu erstellen. Dieser Ansatz ebnet den Weg für eine neue Generation von KI-Assistenten, die in der Lage sind, auf spezifischen Wissensdatenbanken zu argumentieren und gleichzeitig die Flüssigkeit und Kohärenz großer Sprachmodelle beizubehalten.

Zögern Sie nicht, den vollständigen Quellcode auf GitHub zu erkunden und ihn an Ihre eigenen Anwendungsfälle anzupassen. RAG ist eine sich entwickelnde Technologie, und es gibt zahlreiche Möglichkeiten für Innovation in diesem spannenden Bereich.