ただし、本番環境に移行するのは別の問題です。信頼性が高く、観察有可以で、調整有可以で、パフォーマンスの高い大規模なシステムが一定になります。人為的なデモ シナリオを超えて、実際の顧客行動の全範囲を表すより広範なプロンプトに対するアプリケーションの応答を考慮することが必须欠です。LLM は、事先トレーニング データセットに含まれていないことが多い、ドメイン一直有の豊富な知識コーパスにアクセスする一定がある場合があります。最後に、精确が重要性なユース ケースに AI を適用する場合は、幻覚を検出、監視、および軽減する一定があります。
これらすべての問題を解決するのは困難に思えるかもしれませんが、RAG ベースのアプリケーションをそれぞれの基本特征的な部份に溶解し、必需に応じてそれぞれをターゲットを絞った反復的なアプローチで优化することで、より监管しやすくなります。この記事は、まさにそれを行うのに役立ちます。この記事では、赢得時に粗俗で発生する手段ではなく、RAG ドキュメント処理パイプラインを制成するために在使用される手段にのみ视角を当てます。そうすることで、转为 AI アプリケーション開発者がプロトタイプから実稼働までの道のりに適切に備えられるように协防することを目指しています。
現代のデータレイク: AI インフラストラクチャの重心
AI の時代では、データが堀であるとよく言われます。そのため、本番レベルの RAG アプリケーションを構築するには、独自のコーパスを構成する大量のデータを保存、バージョン管理、処理、評価、およびクエリするための適切なデータ インフラストラクチャが必要です。MinIO は AI に対してデータ ファーストのアプローチを採用しているため、このタイプのプロジェクトに対するデフォルトの初期インフラストラクチャの推奨事項は、最新のデータ レイクとベクター データベースをセットアップすることです。途中で他の補助ツールを接続する必要がある場合もありますが、これら 2 つのインフラストラクチャ ユニットは基礎的なものです。これらは、RAG アプリケーションを本番環境に導入する際にその後に発生するほぼすべてのタスクの中心として機能します。
API 抽出- パブリック API とプライベート API は、ドメイン内知識の豊富なソースになります。さらに、適切に設計された JSON および XML ベースの Web API にはすでにいくつかの構造が組み込まれているため、ペイロード内の関連プロパティをターゲットに抽出し、無関係と見なされるものを破棄することが容易になります。手頃な価格のローコードおよびノーコードの API コネクタの広大なエコシステムが存在するため、使用する API ごとにカスタム ETL を作成する必要がなくなります。これは、専任のデータ エンジニア チームなしでは維持および拡張が難しいアプローチです。
Web スクレイパー- Web ページは、ツリーのような DOM 構造を持つ半構造化データと見なされます。必要な情報、その場所、およびページ レイアウトがわかっていれば、十分に文書化された API がなくても、このデータを使用するスクレイパーをすばやく構築できます。Web スクレイピングに有益な抽象化を提供するスクリプト ライブラリやローコード ツールが多数存在します。
Web クローラー- Web クローラーは Web ページをトラバースし、再帰的な URL リストを構築できます。この方法をスクレイピングと組み合わせて、基準に基づいて情報をスキャン、要約、フィルタリングできます。さらに重要なスケールでは、この手法を使用して独自のナレッジ グラフを作成できます。
System Prompt: Given the provided snippet of text, generate three hypothetical questions that could be asked about it. Each question must be able to be answered using the information within the referenced snippet of text and only that information. Be concise. User Prompt: “At the 52nd Annual Grammy Awards, Beyoncé received ten nominations, including Album of the Year for I Am... Sasha Fierce, Record of the Year for "Halo", and Song of the Year for "Single Ladies (Put a Ring on It)", among others. She tied with Lauryn Hill for most Grammy nominations in a single year by a female artist. In 2010, Beyoncé was featured on Lady Gaga's single "Telephone" and its music video. The song topped the US Pop Songs chart, becoming the sixth number-one for both Beyoncé and Gaga, tying them with Mariah Carey for most number-ones since the Nielsen Top 40 airplay chart launched in 1992. "Telephone" received a Grammy Award nomination for Best Pop Collaboration with Vocals.” Response: Here are some questions that could be asked based on the provided text: * How many nominations did Beyoncé receive at the 52nd Annual Grammy Awards? * For which album was Beyoncé nominated for Album of the Year at the 52nd Annual Grammy Awards? * Which song earned Beyoncé a nomination for Record of the Year at the 52nd Annual Grammy Awards?