今日を知り、明日を変えるシステム運用メディア

Amazon Bedrock が RAG 評価をサポートするようになりました (一般提供)

Amazon Bedrock が RAG 評価をサポートするようになりました (一般提供)

本記事は、2025 年 3 月 20 日にAWS公式サイトの What’s New with AWS? に掲載された英語記事を自動翻訳したものです。

ニュース内容

Amazon Bedrock RAG 評価が一般提供されました。Amazon Bedrock ナレッジベースまたはカスタム RAG システム上に構築された検索拡張生成 (RAG) アプリケーションを評価できます。検索またはエンドツーエンド生成のいずれかを評価できます。評価は LLM を審査員として利用し、複数の審査員モデルを選択できます。検索の場合、コンテキストの関連性やカバレッジなどのメトリクスから選択できます。エンドツーエンドの取得と生成の場合、正確性、完全性、忠実性 (幻覚検出) などの品質メトリクス、有害性、回答拒否、ステレオタイプ化などの責任ある AI メトリクスから選択できます。また、評価ジョブ間で比較して、チャンキング戦略やベクトル長、リランカー、さまざまなコンテンツ生成モデルなどのさまざまな設定でナレッジベースまたはカスタム RAG アプリケーションを反復処理することもできます。

まったく新しい – 柔軟性が向上! 本日より、Bedrock ナレッジベースに加えて、Amazon Bedrock の RAG 評価ではカスタム RAG パイプライン評価がサポートされます。カスタム RAG パイプラインを評価するお客様は、入力データセットで入力と出力のペアと取得したコンテキストを直接評価ジョブに取り込むことができるようになりました。これにより、Bedrock ナレッジベースの呼び出しをバイパスできます (「独自の推論応答を持ち込む」)。また、Bedrock ナレッジベースの評価に引用精度と引用範囲のメトリクスも追加しました。評価の一部として Bedrock ナレッジベースを使用する場合は、Amazon Bedrock Guardrails を直接組み込むことができます。

詳細については、Amazon Bedrock 評価ページドキュメントをご覧ください。開始するには、Amazon Bedrock コンソールにログインするか、Amazon Bedrock API を使用してください。

原文

Amazon Bedrock RAG evaluation is now generally available. You can evaluate your retrieval-augmented generation (RAG) applications, either those built on Amazon Bedrock Knowledge Bases or a custom RAG system. You can evaluate either retrieval or end-to-end generation. Evaluations are powered by an LLM-as-a-judge, with a choice of several judge models. For retrieval, you can select from metrics such as context relevance and coverage. For end-to-end retrieve and generation, you can select from quality metrics such as correctness, completeness, and faithfulness (hallucination detection), and responsible AI metrics such as harmfulness, answer refusal, and stereotyping. You can also compare across evaluation jobs to iterate on your Knowledge Bases or custom RAG applications with different settings like chunking strategy or vector length, rerankers, or different content generating models.

*Brand new – more flexibility!* As of today, in addition to Bedrock Knowledge Bases, Amazon Bedrock’s RAG evaluations supports custom RAG pipeline evaluations. Customers evaluating custom RAG pipelines can now bring their input-output pairs and retrieved contexts into the evaluation job directly in their input dataset, enabling them to bypass the call to a Bedrock Knowledge Base (“bring your own inference responses”). We also added citation precision and citation coverage metrics for Bedrock Knowledge Bases evaluation. If you use a Bedrock Knowledge Base as part of your evaluation, you can incorporate Amazon Bedrock Guardrails directly.

To learn more, visit the Amazon Bedrock Evaluations page and documentation. To get started, log into the Amazon Bedrock Console or use the Amazon Bedrock APIs.

引用元:Amazon Bedrock now supports RAG Evaluation (generally available)

人気の記事

最新情報をお届けします!

最新のITトレンドやセキュリティ対策の情報を、メルマガでいち早く受け取りませんか?ぜひご登録ください

メルマガ登録