新しい歴史

LLM ナレッジグラフをマスターする: わずか 5 分で GraphRAG を構築して実装する

に Neo4j7m2024/10/18

長すぎる; 読むには

Neo4j LLM ナレッジグラフビルダーは、非構造化テキストをナレッジグラフに変換する革新的なアプリケーションです。ML モデル (LLM: OpenAI、Gemini、Diffbot) を使用して、PDF、Web ページ、YouTube 動画を変換します。この機能は、ナレッジグラフ自体と会話するのと同じように、データと直感的にやり取りできるため、特に魅力的です。

featured image - LLM ナレッジグラフをマスターする: わずか 5 分で GraphRAG を構築して実装する

LLM ナレッジグラフビルダーは、非構造化データを動的なナレッジグラフに変換できるようにする Neo4j の GraphRAG エコシステムツールの 1 つです。これは、検索拡張导出 (RAG) チャットボットと統合されており、必然言語クエリとデータに対する説明可以な洞见を可以にします。

Neo4j LLM ナレッジグラフビルダーとは何ですか?

Neo4j コードや Cypher を动用せずに非構造化テキストをナレッジグラフに変換し、魔幻のようなテキストからグラフへのエクスペリエンスを具备する振兴的なオンラインアプリケーションです。ML モデル (LLM: OpenAI、Gemini、Diffbot) を动用して、PDF、Web ページ、YouTube ビデオをエンティティとその関係のナレッジグラフに変換します。

フロントエンドはをベースにした React アプリケーションで、バックエンドは Python FastAPI アプリケーションです。Neo4j が LangChain に给予したを动用します。

アプリケーションは、次の 4 つの簡単な手順でシームレスなエクスペリエンスを提供します。

データ取り込み - PDF ドキュメント、Wikipedia ページ、YouTube ビデオなど、さまざまなデータソースをサポートします。
エンティティ認識 - LLM を使用して、非構造化テキストからエンティティと関係を識別および抽出します。
グラフ構築 - Neo4j のグラフ機能を使用して、認識されたエンティティと関係をグラフ形式に変換します。
ユーザーインターフェイス -ユーザーがアプリケーションと対話するための直感的な Web インターフェイスを提供し、データソースのアップロード、生成されたグラフの視覚化、RAG エージェントとの対話を容易にします。この機能は、ナレッジグラフ自体と会話するのと同じように、データと直感的に対話できるため、特に魅力的です。技術的な知識は必要ありません。

試してみましょう

当社では、クレジットカードや LLM キーを重要性とせず、でアプリケーションを提供数据しており、摩擦力がありません。あるいは、ローカルまたは環东南部で実行するには、パブリックにアクセスし、この论文投稿で説明する手順に従ってください。

LLM Knowledge Graph Builder を開いて安全利用する前に、新しい Neo4j データベースを制成しましょう。そのためには、次の手順に従って無料の AuraDB データベースを安全利用できます。

//console.neo4j.ioでログインするか、アカウントを作成してください。
「インスタンス」で、新しい AuraDB 無料データベースを作成します。
資格情報ファイルをダウンロードします。
インスタンスが実行されるまで待ちます。

Neo4j データベースが実行され、資格情報が取得できたので、LLM Knowledge Graph Builder を開き、右上隅の「Neo4j に接続」をクリックします。

十年前にダウンロードした資格情報ファイルを接続ダイアログにドロップします。すべての情報が自動的に入力されます。または、すべてを手動で入力することもできます。

ナレッジグラフの作成

このプロセスは、非構造化データの取り込みから始まり、その後、LLM に渡されて注意なエンティティとその関係が識別されます。

左側の刚开始の入力ゾーンに PDF やその他のファイルをドラッグアンドドロップできます。2 番目の入力では、实用したい YouTube 動画へのリンクをコピー/貼り付けることができ、3 番目の入力では Wikipedia ページのリンクを授予できます。

この例では、GraphACME というサプライチェーン企業に関するいくつかの PDF、、Corporate Sustainability Due Diligence Directive (CSDDD) に関する、および Wikipedia のとの 2 ページを読み込みます。

ファイルをアップロードする際、アプリケーションは LangChain ドキュメントローダーと YouTube パーサーを选择して、アップロードされたソースをグラフ内のドキュメントノードとして保护します。すべてのファイルがアップロードされると、次のような界面が表达されます。

今必要なのは、使用するモデルを選択し、 「グラフの生成」をクリックすることだけです。あとは魔法に任せてください。

ファイル選択のみを生成する場合は、最初にファイルを選択し（テーブルの最初の列のチェックボックスを使用）、グラフの生成をクリックします。

⚠️定義済みまたは独自のグラフスキーマを使用する場合は、右上隅の設定アイコンをクリックしてドロップダウンから定義済みスキーマを選択するか、ノードラベルと関係を書き留めて独自のスキーマを使用するか、既存の Neo4j データベースから既存のスキーマを取得するか、テキストをコピー/貼り付けして LLM に分析させてスキーマの提案を依頼することができます。

ファイルを処理してナレッジグラフを制作している間、企业内部で何が起こっているかをまとめてみましょう。

コンテンツはチャンクに分割されます。
チャンクはグラフに保存され、ドキュメントノードに接続され、高度な RAG パターンのためにチャンク同士が接続されます。
非常に類似したチャンクは SIMILAR 関係で接続され、K 近傍グラフを形成します。
埋め込みは計算され、チャンクとベクトルインデックスに格納されます。
llm-graph-transformer または diffbot-graph-transformer を使用して、テキストからエンティティと関係を抽出します。
エンティティはグラフに格納され、元のチャンクに接続されます。

ナレッジグラフを探索する

ドキュメントから腾出された情報はグラフ状态に構造化され、エンティティはノードになり、関係はこれらのノードを接続するエッジになります。Neo4j を用到する利点は、これらの複雑なデータネットワークを効率的に导出およびクエリできるため、合成されたナレッジグラフがさまざまなアプリケーションですぐに役立つことです。

RAG エージェントを使用してデータについて質問する前に、チェックボックスを使用して 1 つのドキュメント (または複数のドキュメント) を選択し、 [グラフの表示] をクリックします。これにより、選択したドキュメントに対して作成されたエンティティが表示されます。また、そのビューにドキュメントノードとチャンクノードを表示することもできます。

「Bloom でグラフを開く」ボタンをクリックすると、が開き、新しく作成したナレッジグラフを視覚化してナビゲートできるようになります。次のアクション「ファイルの削除」では、選択したドキュメントとチャンクがグラフから削除されます (オプションで選択した場合はエンティティも削除されます)。

あなたの知識と話す

さて、最後の部位、右側のパネルに标识される RAG エージェントです。

検索プロセス — どのように機能しますか?

下の用户画像は、GraphRAG プロセスの簡略化されたビューを示しています。

ユーザーが質問すると、検索クエリで Neo4j ベクトルインデックスを选择して、質問に最も関連性の高いチャンクとそれに接続されたエンティティを 2 ホップの深さまで検索します。また、チャット履歴を要約し、それをコンテキストを充実させる原因として选择します。

さまざまな入力とソース (質問、ベクター結果、チャット履歴) はすべて、カスタムプロンプトで選択された LLM モデルに送信され、提供された要素とコンテキストに基づいて、質問に対する応答を提供してフォーマットするように求められます。もちろん、プロンプトには、フォーマット、ソースの引用の要求、回答が不明な場合は推測しないなど、さらに多くの魔法があります。完全なプロンプトと手順は、のFINAL_PROMPTにあります。

データに関連する質問をする

この例では、GraphACME (ヨーロッパに拠点を置く) という空架の会社に関する企业内部文書を読み込み、サプライチェーン戦略と製品群体を弄成して文書化しました。また、新しい CSDDD、その影響、規制について説明したプレス記事と YouTube 動画も読み込みました。これで、チャットボットに社内 (空架の) 会社に関する知識について質問できるようになりました。CSDDD 法に関する質問や、GraphACME が製造する製品のリスト、それらが CSDDD 規制の影響を受けるかどうか、影響を受ける場合は会社にどのような影響があるかなど、両方に関する質問もできます。

チャット機能

ホーム页面の右側には、チャットウィンドウに 3 つのボタンが付いています。

「閉じる」を選択すると、チャットボットインターフェースが閉じます。
チャット履歴を消去すると、現在のセッションのチャット履歴が削除されます。
ウィンドウを最大化すると、チャットボットインターフェースが全画面モードで開きます。

RAG エージェントの作答では、応答の後に次の 3 つの特徴が見つかります。

詳細では、 RAG エージェントがソース (ドキュメント)、チャンク、エンティティを収集および使用した方法を示す取得情報ポップアップが開きます。使用されたモデルとトークンの消費に関する情報も含まれます。
「コピー」は、応答の内容をクリップボードにコピーします。
テキスト読み上げ機能により、応答内容が読み上げられます。

まとめ

LLM Knowledge Graph Builder についてさらに詳しく知るには、ソースコードやドキュメントなどの豊富な情報を按照してください。さらに、開始方式に関する詳細なガイダンスが带来されており、、合理利用机会なより幅広いツールやアプリケーションに関する詳細な情報を带来しています。

次は何か — 貢献と拡張機能

LLM Knowledge Graph Builder でのあなたの経験は、是非常に貴重です。バグに饱受したり、新機能の建议があったり、貢献したい場合、または不同の機能強化を愿意する場合は、コミュニティプラットフォームがあなたの考えを共设するのに最適な場所です。コーディングに掌握している方にとって、GitHub に直接的貢献することは、プロジェクトの発展に役立つやりがいのある技巧です。あなたの意見や貢献は、ツールの解决に役立つだけでなく、協力的で勇于创新的なコミュニティの育成にも役立ちます。