RAGとその実践的な実装：LangChain、Bun、Ollama、Qdrantを使用

現代の大規模言語モデル（LLM）は印象的ですが、大きな制限があります。知識が重みに固定されているため、知識の更新や拡張が困難です。Retrieval-Augmented Generation（RAG）は、この問題に対処するために設計されたアプローチです。2020年にMetaによって導入され、言語モデルを外部の知識ベース（例えば、ドキュメントのセット）に接続し、最新かつ特定の情報を応答に組み込むことができます。実際には、各質問に対して、RAGシステムはまずドキュメントベースから関連コンテンツを抽出し、次にこの取得したコンテキストとLLMの言語能力を組み合わせて応答を生成します。

注: この記事で言及されているサンプルプロジェクトの完全なソースコードはGitHubで入手可能です。

記事の概要

RAGとは何か、なぜ使うのか？
- 動作原理
- 古典的なアプローチに対する利点
- 具体的なユースケース
RAGシステムのアーキテクチャ
- 必須コンポーネント
- データフロー
- 技術選択
TypeScriptによる実践的な実装
- Bunによるプロジェクト設定
- LangChainの統合
- OllamaとQdrantの設定
コード分析とベストプラクティス
- ドキュメントのインデックス作成
- セマンティック検索
- 応答生成
技術スタックの利点
- Bunのパフォーマンス vs Node.js
- LangChainのシンプルさ
- Ollamaの柔軟性
- Qdrantのスケーラビリティ
さらに先へ
- 高度な最適化
- 評価とメトリクス
- 技術的な代替案

RAGとは何か、なぜ使うのか？

Retrieval-Augmented Generation（RAG）は文字通り「検索によって拡張された生成」を意味します。アイデアは、知識をモデルから分離することです。すべての情報をLLMのパラメータに組み込もうとする（コストのかかるファインチューニングを通じて）のではなく、またはデータから応答を予測する古典的なモデルを設計するのではなく、主要なモデルにテキストを生成させ、情報検索の中間ステップでそれを拡張します。典型的なRAGパイプラインは次のように機能します。

ユーザーのクエリ – ユーザーは自然言語で質問をするか、クエリを提供します（例：「このプロジェクトでクラスXは何に使われていますか？」）。
関連ドキュメントの検索 – システムはこの質問をベクトル表現（埋め込み）に変換し、次にベクトルデータベースにクエリを実行して、クエリに意味的に最も類似したドキュメントまたはパッセージを取得します。これにより、関連するコンテキストが特定されます（例：ドキュメント、コード、または質問に対応する記事からの抜粋）。
コンテキスト+質問の組み合わせ – 取得されたドキュメントまたは抜粋は、言語モデルにコンテキストとして提供されます。実際には、LLMのプロンプトに挿入され、通常はシステムメッセージを介して、またはユーザーの質問の前に見つかったドキュメントのテキストを付加することによって行われます。
応答生成 – 言語モデル（LLM）は、質問と提供されたコンテキストの両方に基づいて応答を生成します。応答には、LLMの能力のおかげで一貫して定式化されたドキュメントからの情報が含まれている必要があります。

このプロセスにより、モデルは生成時に特定の外部知識に依存することができ、それを永続的に記憶する必要がありません。これは、質問に直面した人間が、答える前に本や参考資料を参照するのと比較できます。LLMは話す前に「ライブラリを検索」します。

RAGの具体的なユースケース

RAGアプローチは、会話型アシスタントが進化する、または大量の知識ベースを処理する必要がある場合に特に役立ちます。以下は、RAGが古典的な方法と比較して優れている具体的なユースケースの例です。

ドキュメンタリーチャットボット: 企業の技術文書を活用したアシスタントで、マニュアル、内部ナレッジベース、さらにはソースコードから直接情報を引き出して、開発者や顧客からの質問に答えることができます。たとえば、モデルをAPI仕様やオープンソースプロジェクトのコードに接続して、関数の仕組みや特定の設計の理由を説明できます。

動的FAQ: カスタマーサポートの文脈では、RAGチャットボットは最新のポリシーや製品データに基づいて一般的な質問（FAQ）に答えることができます。ポリシー（例：返品条件）が変更された場合、参照ドキュメントを更新するだけで、ボットは再トレーニングを必要とせずに即座にそれを考慮に入れます。これにより、常に最新のFAQが得られ、回答を裏付ける情報源を提供する機能も備わります。

法律アシスタント: アシスタントは、特定の質問に対して法律、判例、または契約のデータベースから関連する箇所を見つけ、自然言語で回答を定式化することにより、弁護士や法律専門家を支援できます。モデルは民法全体を暗記する必要はなく、適切な条文を検索するだけで済みます。同じことが医療アシスタントにも当てはまり、科学出版物や医療プロトコルのデータベースを照会して、最新の臨床知識に基づいた回答を提供できます。

プログラミングアシスタント: これは私たちのサンプルプロジェクトの場合です – コードリポジトリの内容を知っており、このコードに関する質問（アーキテクチャ、モジュールの役割、潜在的なバグなど）に答えることができるアシスタントです。専門的なプログラミングモデルをトレーニングする代わりに、リポジトリ内の関連コードファイルを検索することによって拡張された汎用LLMを使用します。

RAGシステムのアーキテクチャ

必須コンポーネント

完全なRAGシステムには通常、次のコンポーネントが含まれます。

インデックス作成とストレージ
- ドキュメントプロセッサ（抽出、クリーニング、チャンキング）
- 埋め込みジェネレータ（ベクトルへの変換）
- ベクトルデータベース（ストレージと検索）
クエリパイプライン
- クエリプリプロセッサ
- セマンティック検索エンジン
- プロンプトジェネレータ
生成と後処理
- LLMインターフェース
- 応答評価器
- 出力フォーマッタ

データフロー

typescript

技術選択

私たちの実装では、モダンでパフォーマンスの高いスタックを選択しました。

Bun: 超高速JavaScriptランタイム、サーバーアプリケーションに最適
TypeScript: より良い保守性のための静的型付け
LangChain: LLMベースのアプリケーションを構築するためのフレームワーク
Ollama: ローカルで言語モデルを実行するためのツール
Qdrant: パフォーマンスが高く、デプロイが簡単なベクトルデータベース

この組み合わせは、パフォーマンス、開発の容易さ、柔軟性の間の優れたバランスを提供します。

TypeScriptによる実践的な実装

Bunによるプロジェクト設定

まず、プロジェクトを初期化しましょう。

bash

基本設定

typescript

ドキュメントのインデックス作成

インデックス作成はRAGシステムの重要なステップです。生のドキュメントを適切なサイズのチャンクに変換し、各チャンクの埋め込みを生成することが含まれます。

typescript

検索と応答生成

typescript

シンプルなユーザーインターフェース

typescript

コード分析とベストプラクティス

効率的なチャンキング

ドキュメントをチャンクに分割することは、結果の品質に直接影響する重要なステップです。いくつかのベストプラクティス：

適切なサイズ: チャンクはコンテキストを含むのに十分な大きさである必要がありますが、関連性を保つために大きすぎてはいけません（通常500〜1500文字）。
オーバーラップ: チャンク間のオーバーラップは、境界でコンテキストが失われるのを防ぎます。
セマンティック分割: 理想的には、分割はドキュメントのセマンティック構造（段落、関数など）を尊重する必要があります。

検索の最適化

セマンティック検索の品質は不可欠です。

メタデータフィルター: メタデータ（ファイルタイプ、日付、作成者）を使用して検索を絞り込みます。
再ランキング: 関連性を向上させるために、第2レベルのフィルタリングを適用します。
多様性: 質問のさまざまな側面をカバーするために、結果の多様性を確保します。

高度なプロンプティング

プロンプトの構築は、応答の品質に強く影響する芸術です。

typescript

技術スタックの利点

Bunのパフォーマンス vs Node.js

Bunはこのタイプのアプリケーションに大きな利点を提供します。

高速起動: Node.jsよりも最大4倍高速な起動時間
最適化された実行: 特にI/O操作において優れた実行パフォーマンス
統合バンドラー: 開発ワークフローの簡素化 ...