// AI / RAG

RAGシステムの評価方法——RAGASで「なんとなく動く」から脱却する

📅 2025-10-27 ⏱ 読了約9分
RAGシステムの評価方法——RAGASで「なんとなく動く」から脱却する

「RAGシステムを作ったが品質が良いかどうかわからない」——この状態から脱却するのがRAGASだ。検索品質・回答品質・ハルシネーション検出を数値化することで、改善サイクルを回せるようになる。

RAGASの3つの主要指標

評価指標:
Faithfulness(忠実性):回答がコンテキストの内容に忠実か(ハルシネーション検出)
Answer Relevancy(回答関連性):回答が質問に対して適切か
Context Recall(文脈再現性):正解を導くために必要な情報が検索で取得できているか

RAGASの実装例(Python)

評価データセット(質問・正解・コンテキスト)を用意し、RAGASライブラリで各指標を計算する。評価スコアが0.7以上を目標値として設定し、週次でモニタリングすることを推奨する。

スコアを上げるための改善アクション

Faithfulnessが低い → プロンプトを強化(「コンテキストにない情報は答えないこと」を明示)。Context Recallが低い → チャンキング戦略見直し・埋め込みモデル変更。Answer Relevancyが低い → クエリ拡張・HyDE(Hypothetical Document Embeddings)の導入。

✅ RAGシステムの最低限の評価:本番リリース前に100件の「想定質問と正解」のテストセットを作り、RAGASで全スコア0.7以上を達成することを本番化の条件にすること。
DataOneにご相談ください
技術的な課題・採用・システム開発の相談を承ります。