How to Evaluate RAG Systems: Moving Beyond "It Kind of Works" with RAGAS

「RAGシステムを作ったが品質が良いかどうかわからない」——この状態から脱却するのがRAGASだ。検索品質・回答品質・ハルシネーション検出を数値化することで、改善サイクルを回せるようになる。

RAGASの3つの主要指標

評価指標：
・Faithfulness（忠実性）：回答がコンテキストの内容に忠実か（ハルシネーション検出）
・Answer Relevancy（回答関連性）：回答が質問に対して適切か
・Context Recall（文脈再現性）：正解を導くために必要な情報が検索で取得できているか

RAGASの実装例（Python）

評価データセット（質問・正解・コンテキスト）を用意し、RAGASライブラリで各指標を計算する。評価スコアが0.7以上を目標値として設定し、週次でモニタリングすることを推奨する。

スコアを上げるための改善アクション

Faithfulnessが低い → プロンプトを強化（「コンテキストにない情報は答えないこと」を明示）。Context Recallが低い → チャンキング戦略見直し・埋め込みモデル変更。Answer Relevancyが低い → クエリ拡張・HyDE（Hypothetical Document Embeddings）の導入。

✅ RAGシステムの最低限の評価：本番リリース前に100件の「想定質問と正解」のテストセットを作り、RAGASで全スコア0.7以上を達成することを本番化の条件にすること。

DataOneにご相談ください

技術的な課題・採用・システム開発の相談を承ります。

相談する（無料）採用情報を見る

RAGシステムの評価方法——RAGASで「なんとなく動く」から脱却する

RAGASの3つの主要指標

RAGASの実装例（Python）

スコアを上げるための改善アクション