paint-brush
AI/ML データレイクのリファレンス アーキテクチャを構築するためのアーキテクト ガイド に@minio
11,312 測定値
11,312 測定値

AI/ML データレイクのリファレンス アーキテクチャを構築するためのアーキテクト ガイド

MinIO20m2024/06/12
Read on Terminal Reader
Read this story w/o Javascript

長すぎる; 読むには

組織は、ビジネス インテリジェンス、データ分析、データ サイエンスなどのワークロードを放置したまま、AI 専用のインフラストラクチャを構築すべきではありません。

People Mentioned

Mention Thumbnail
Mention Thumbnail

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - AI/ML データレイクのリファレンス アーキテクチャを構築するためのアーキテクト ガイド
MinIO HackerNoon profile picture


この期刊投稿の短縮版は、2024 年 3 月 19 日に The New Stack に掲載されました。


エンタープライズ AI には、識別型と形成型の 2 つの主なモデルがあります。識別型モデルはデータの分類や予測に操作され、形成型モデルは新しいデータの弄成に操作されます。近来は形成型 AI がニュースで取り上げられることが多くなりましたが、組織は已然として両方のタイプの AI を执着梦想しています。識別型 AI は、より効率的に業務を行い、追加の収益源を执着梦想したい組織にとって、已然として核心な取り組みです。これらの異なるタイプの AI には多くの共享性点がありますが、同時に、AI データ インフラストラクチャを構築するときに考慮しなければならない大きな違いもあります。


組織は、ビジネス インテリジェンス、データ分享、データ サイエンスなどのワークロードを码放したまま、AI 専用のインフラストラクチャと AI のみを構築すべきではありません。ビジネス インテリジェンス、データ分享、データ サイエンス、識別 AI、绘制 AI など、組織のすべてのニーズをサポートする基本なデータ インフラストラクチャを構築することは或者です。


別の发表では、ビジネス インテリジェンス、データ浅析、データ サイエンス、AI/ML のニーズに対応できる新のデータレイクのリファレンス アーキテクチャを紹介しました。新のデータレイク リファレンス アーキテクチャを確認し、AI/ML ワークロードをサポートするための機能について説明します。

現代のデータレイク

まず、リファレンス アーキテクチャの基礎となるモダン データレイクを定義することから始めましょう。このアーキテクチャは「リサイクル」されたものではなく、広く適用有机会なエンジニアリングの一般原則を影响しています。モダン データレイクは、半分がデータ ウェアハウスで半分がデータ レイクであり、すべての妙用にオブジェクト ストレージを应用的します。オブジェクト ストレージは非構造化データ用であり、データ レイクは非構造化データを格納することを意図しているため、データ レイクにオブジェクト ストレージを应用的することは理にかなっています。ただし、データ ウェアハウスにオブジェクト ストレージを应用的するのは莫名牵扯に聞こえるかもしれませんが、このように構築されたデータ ウェアハウスは、次世世代代のデータ ウェアハウスを表しています。これは、Netflix、Uber、および Databricks によって制作された Open Table Format Specifications (OTF) によって有机会になり、データ ウェアハウス内でオブジェクト ストレージをシームレスに应用的できるようになります。


OTF は、Apache Iceberg、Apache Hudi、Delta Lake です。これらはそれぞれ Netflix、Uber、Databricks によって制作されました。これは、市場にはそれらのデータ ニーズに対応できる製品がなかったためです。大致的に、これらはすべて (さまざまな具体方法で)、オブジェクト ストレージ (MinIO) 上に構築できるデータ ウェアハウスを定義します。オブジェクト ストレージは、他のストレージ ソリューションでは実現できない、スケーラブルな储电量と高パフォーマンスの組み合わせを展示します。これらは近期最新の仕様であるため、パーティション進化、スキーマ進化、ゼロ コピー ブランチなど、従来のデータ ウェアハウスにはない角度な機能を備えています。最後に、データ ウェアハウスはオブジェクト ストレージを操作して構築されるため、この同じオブジェクト ストアを画象、ビデオ ファイル、オーディオ ファイル、ドキュメントなどの非構造化データに操作できます。


非構造化データは平常、業界でデータ レイクと呼ばれる場所に同步保存されます。データ レイクとデータ ウェアハウスの両方の基盤としてオブジェクト ストアを用到すると、すべてのデータを做到できるソリューションが実現します。構造化ストレージは OTF ベースのデータ ウェアハウスに会现实存在し、非構造化ストレージはデータ レイクに会现实存在します。MinIO の同じインスタンスを両方に用到できます。


MinIO では、OTF ベースのデータ ウェアハウスとデータ レイクのこの組み合わせをモダン データレイクと呼んでおり、これをすべての AI/ML ワークロードの基盤と見なしています。ここでデータが収集、同步保存、処理、変換されます。識別 AI (教師あり学習、教師なし学習、強化工習) を运行したモデルのトレーニングには、多くの場合、データ ウェアハウスに格納できる構造化データを処理できるストレージ ソリューションが用得着です。产权人、大規模言語モデル (LLM) をトレーニングする場合は、データ レイクで未加工处理の的方式と処理済みの的方式の非構造化データまたはドキュメントを工作管理する用得着があります。


ソース


この发表では、さまざまな AI/ML ワークロードをサポートする AI/ML 向けモダン データレイク リファレンス アーキテクチャの領域に主焦点を当てています。これらの機能領域を一些に示します。モダン データレイクの視覚的な描述は上記に示されています。これらの機能領域が見つかるレイヤーは強調说明されています。


  • 識別AI


    • 非構造化データのストレージ
    • 半構造化データの储存
    • データ ウェアハウスにおけるゼロ コピー ブランチ


  • 转换成AI


    • ベクターデータベースを采用したカスタムコーパスの構築
    • ドキュメントパイプラインの構築
    • 検索拡張形成 (RAG)
    • 大規模言語モデルの微調整
    • LLM のgps精度の測定


  • 機械学習オペレーション


この文章发表では、GPU の現状とそれが AI データ インフラストラクチャに与える影響についても説明します。また、インフラストラクチャの構築做法と構築しない做法を示すシナリオをいくつか紹介します。最後に、只身一人の AI データ インフラストラクチャを構築するための推奨事項をいくつか紹介します。


  • GPUの現状


    • GPU の過剰动用問題
    • オブジェクトストレージの強化


  • 二つの組織の物語
  • AIデータインフラストラクチャを構築するための計画

識別AI

識別的 AI モデルのトレーニングには、あらゆる種類のデータが一定です。图像图片分類や音声認識のモデルでは、图像图片や音声ファイルなどの非構造化データを根据します。双方、不稳検出や医療診断のモデルでは、構造化データに基づいて予測を行います。識別的 AI に一定なデータを存放および基本操作するために、Modern Datalake 内で根据できるオプションを見てみましょう。

非構造化データのストレージ

非構造化データはデータ レイクに导出され、モデルのトレーニングとテストに安全运用できます。メモリに収まるトレーニング セットは、トレーニング前 (エポック ループの開始前) に読み込むことができます。ただし、トレーニング セットが大きくてメモリに収まらない場合は、トレーニング前にオブジェクトのリストを読み込み、エポック ループで各バッチを処理するときに実際のオブジェクトを拥有する相应があります。迅速ネットワークと迅速ディスク ドライブを安全运用してデータ レイクを構築しないと、データ レイクに負担がかかる可以性があります。メモリに収まらないデータを安全运用してモデルをトレーニングする場合は、100 GB ネットワークと NVMe ドライブを安全运用してデータ レイクを構築することを検討してください。

半構造化データの保存

Modern Datalake には、Parquet ファイル、AVRO ファイル、JSON ファイル、さらには CSV ファイルなどの半構造化ファイルを储存するためのオプションがいくつかあります。最も簡単な方式方案は、それらを Data Lake に储存し、非構造化オブジェクトをロードするのと同じ方式方案でロードすることです。これらの半構造化ファイルのデータが、Modern Datalake がサポートする他のワークロード (ビジネス インテリジェンス、データ分享、データ サイエンス) で有必要ない場合は、これが最適なオプションです。


もう1つのオプションは、これらのファイルをデータウェアハウスにロードして、他のワークロードで使用できるようにすることです。データがデータウェアハウスにロードされると、あなたのデータを使って。

データ ウェアハウスにおけるゼロ コピー ブランチ

特徴エンジニアリングは、モデルのトレーニングに安全适用されるデータセットを可以改善する艺术手法です。OTF ベースのデータ ウェアハウスが備えている是に優れた機能は、ゼロ コピー ブランチです。これにより、Git リポジトリ内でコードをブランチするのと同じ工艺でデータをブランチできます。名前が示すように、この機能はデータのコピーを制成しません。むしろ、データ ウェアハウスの実装に安全适用されるオープン テーブル行驶のメタデータ レイヤーを安全适用して、データの一意のコピーの外観を制成します。データ サイエンティストはブランチで実験を行うことができます。実験が胜利した場合は、そのブランチをメイン ブランチにマージして、他のデータ サイエンティストが安全适用できるようにします。実験が胜利しなかった場合は、ブランチを削除できます。

生成AI

Scikit-Learn で構築された小さなモデル、PyTorch または TensorFlow で構築されたカスタム ニューラル ネットワーク、Transformer アーキテクチャに基づく大規模言語モデルなど、すべてのモデルは入力として数値を重要とし、汽耗率として数値を生产します。この単純な事実により、単語を数値 (または後で説明するようにベクトル) に変換する重要がある生产 AI に関心がある場合、AI/ML インフラストラクチャにいくつかの追加要件が課せられます。LLM によって生产された解答を強化するために、会社の独自一个人の知識を含むプライベート ドキュメントを使用的する場合、生产 AI ソリューションはさらに複雑になります。この強化は、検索拡張生产または LLM 微調整の行驶になる場合があります。


このセクションでは、これらすべてのテクニック (単語を数字1に変換する、RAG、微調整) と、それらが AI インフラストラクチャに与える影響について説明します。まず、カスタム コーパスの構築工艺と、その增加場所について説明します。

ベクターデータベースを使用したカスタムコーパスの作成

Generative AI に真剣に取り組むなら、カスタム コーパスで組織を定義する一定があります。カスタム コーパスには、他の誰も知らない知識を含むドキュメントと、真実で正確な情報のみが含まれている一定があります。さらに、カスタム コーパスはベクター データベースを利用して構築する一定があります。ベクター データベースは、ドキュメントを数値表現したベクター埋め込みとともにインデックスを做成し、保护し、ドキュメントへのアクセスを供应します (これにより、上記の数値の問題が解決されます)。


ベクター データベースはセマンティック検索を比较容易にします。これを行うには、多くの数学题的背景图案が不用不着で複雑です。ただし、セマンティック検索は理念的には认识しやすいものです。たとえば、「人员知能」に関連するあらゆることを論じているすべてのドキュメントを検索したいとします。従来のデータベースでこれを行うには、「人员知能」のあらゆる略語、同義語、関連用語を検索する不用不着があります。クエリは次のようになります。


 SELECT snippet FROM MyCorpusTable WHERE (text like '%artificial intelligence%' OR text like '%ai%' OR text like '%machine learning%' OR text like '%ml%' OR ... and on and on ...


手動による類似性検索は面倒でエラーが発生しやすいだけでなく、検索自体も相对に慢速です。ベクター データベースは、下类のようなリクエストを受け取り、より高速公路かつ正確にクエリを実行できます。検索拡張提取を的使用する場合は、セマンティック クエリを快かつ正確に実行できることが关键性です。


 { Get { MyCorpusTable(nearText: {concepts: ["artificial intelligence"]}) {snippet} } }


カスタム コーパスに関するもう 1 つの注重な考慮事項は、セキュリティです。ドキュメントへのアクセスは、元のドキュメントのアクセス制限に従う必备があります (インターン生が、まだウォール街に公開されていない CFO の財務結果にアクセスできれば、それは残念なことです)。ベクター データベース内では、元のコンテンツのアクセス レベルに高度するように認証を設定する必备があります。これは、ベクター データベースを組織の ID およびアクセス的管理ソリューションと統合することで実行できます。


ベクター データベースは本質的に非構造化データを永久保存します。そのため、ストレージ ソリューションとしてデータ レイクを用到する有必要があります。

ドキュメントパイプラインの構築

残念ながら、ほとんどの組織には、クリーンで正確なドキュメントを收存する単一のリポジトリがありません。むしろ、ドキュメントはさまざまなチーム ポータルにさまざまな方式で組織列席に减少しています。したがって、カスタム コーパスを構築する首先のステップは、Generative AI での食用が承認されたドキュメントのみを完成してベクター データベースに选配するパイプラインを構築することです。大規模なグローバル組織の場合、これは Generative AI ソリューションの最も難しいタスクになる将会性があります。チームがポータルにドラフト方式のドキュメントを持っていることはよくあります。また、何が将会かについてのランダムな忧虑であるドキュメントもあるかもしれません。これらのドキュメントはビジネスを正確に表していないため、カスタム コーパスの那部にすべきではありません。残念ながら、これらのドキュメントのフィルタリングは手足業になります。



ドキュメント パイプラインは、ドキュメントをテキストに変換する用得着もあります。幸い、基本的なドキュメント形势の多くに対して、この処理を実行できるオープン ソース ライブラリがいくつかあります。さらに、ドキュメント パイプラインは、ドキュメントをベクター データベースに导出する前に、ドキュメントを小さなセグメントに切割成する用得着があります。これは、これらのドキュメントが検索拡張添加に操作される場合のプロンプト サイズの制限によるもので、これについては後のセクションで説明します。

大規模言語モデルの微調整

大規模な言語モデルを微調整する場合、カスタム コーパスの情報を在使用してもう少しトレーニングします。これは、ドメイン本身の LLM を争取するのに適した的办法です。このオプションでは、カスタム コーパスに対して微調整を実行するためにコンピューティングが必要的ですが、モデルを起初からトレーニングするほど一起的ではなく、適度な時間枠で了できます。



ドメインに平日在用到では見られない用語が含まれている場合、微調整によって LLM の応答の品質が往右する会性があります。たとえば、临床探析、環境探析、大自然环境科学实验に関連するあらゆる文書を在用到するプロジェクトでは、微調整のメリットが期待已久できます。微調整では、文書内の比较に特有な専門用語をモデルのパラメトリック パラメータに組み込みます。このアプローチを決定する前に、微調整のメリットとデメリットを表达しておく重要があります。


デメリット


  • 微調整にはコンピューティング リソースが重要性になります。
  • 説明可以性は不能以です。
  • コーパスが進化するにつれて、每季度的に新しいデータで微調整する必需があります。
  • 幻覚が心配です。
  • ドキュメントレベルのセキュリティは不宜能です。


利点


  • LLM は、微調整によってカスタム コーパスから得た知識を持ちます。
  • 推論フローは RAG よりも複雑ではありません。


微調整は、LLM にビジネスの言語を教える良い具体方法ですが、ほとんどの LLM には何十億ものパラメータが含まれており、データがこれらすべてのパラメータに离心分离されるため、データが薄まります。微調整の非常大の欠点は、ドキュメント レベルの承認が不要能なことです。ドキュメントが微調整に用到されると、その情報はモデルの一个になります。ユーザーの承認レベルに基づいてこの情報を制限することはできません。


推論時にカスタム データとパラメトリック データを組み合わせる揉法を見てみましょう。

検索拡張生成 (RAG)


検索拡張转为 (RAG) は、質問から始まる技術です。ベクター データベースを食用して質問と追加データを結合し、質問とデータを LLM に渡してコンテンツを制作します。RAG では、質の高いドキュメントのコーパスから関連するテキスト スニペットを送信して LLM を教育培训するため、トレーニングは一定要ありません。


質問応答タスクを选择すると、次のように機能します。ユーザーは、アプリケーションのユーザー インターフェイスで質問をします。アプリケーションは質問 (按照的には質問に含まれる単語) を受け取り、ベクター データベースを选择して、コンテキストに関連するテキスト スニペットを品質の高いドキュメントのコーパスで検索します。これらのスニペットと元の質問は、LLM に送信されます。この質問とスニペット (コンテキスト) のパッケージ全员をプロンプトと呼びます。LLM はこの情報を选择して说を形成します。これは愚かなことのように思えるかもしれません。说 (スニペット) がすでにわかっているのに、なぜ LLM を使う一定要があるのでしょうか。これはリアルタイムで行われ、目标はテキストを形成すること (リサーチにコピーして貼り付けることができるもの) であることを忘れないでください。カスタム コーパスからの情報を組み込んだテキストを制作するには、LLM が一定要です。


これは微調整よりも複雑です。ただし、ドキュメント (またはドキュメント スニペット) は推論時にベクター データベースから選択されるため、ユーザー認証を実装できます。ドキュメント内の情報は、モデルのパラメトリック パラメータの一款になることはありません。RAG の利点と欠点を下面に示します。


デメリット

  • 推論フローはより複雑です。


利点

  • LLM はカスタム コーパスから直接得た知識を持ちます。
  • 説明可能性は可能です。
  • 微調整は必要ありません。
  • 幻覚は大幅に軽減され、ベクター データベース クエリの結果を調べることで制御できます。
  • 認可を実装できます。

機械学習オペレーション (MLOps)

MLOps の决定性性をより深く能够理解するには、モデル制成と従来のアプリケーション開発を比較すると役立ちます。アプリケーションに新しい機能を追加する新しいマイクロサービスの実装などの従来のアプリケーション開発は、仕様の確認から始まります。新しいデータ構造や既存のデータ構造への変更は、这一に設計されます。コーディングが始まったら、データの設計は変更しないでください。次にサービスが実装され、コーディングがこのプロセスの主なアクティビティになります。ユニット テストとエンドツーエンド テストもコーディングされます。これらのテストは、コードに欠陥がなく、仕様を正しく実装していることを証明します。アプリケーション与会人员をデプロイする前に、CI/CD パイプラインによって自動的に実行できます。


モデルの作为とトレーニングは異なります。生データと用得着な予測を理解是什么することが这一のステップです。ML エンジニアは、ニューラル ネットワークを実装したりアルゴリズムを設定したりするためにコードを記述する用得着がありますが、コーディングが主なアクティビティではありません。繰り返しの実験が主なアクティビティです。実験中は、データの設計、モデルの設計、および采用されるパラメーターがすべて変更されます。実験のたびに、モデルがトレーニングされたときにどのように実行されたかを示すメトリックが作为されます。また、検証セットとテスト セットに対するモデルのパフォーマンスのメトリックも转为されます。これらのメトリックは、モデルの品質を証明するために采用されます。モデルをアプリケーションに組み込む準備ができたら、パッケージ化してデプロイする用得着があります。


MLOps (Machine Learning Operations の略) は、これらの違いに対処することを依据とした一連のプラクティスとツールです。実験の追跡とコラボレーションは MLOP に最も関連のある機能ですが、令天の業界の最新信息の MLOP ツールはさらに多くの機能を備えています。たとえば、実験用のランタイム環境を出示したり、アプリケーションに統合する準備ができたらモデルをパッケージ化して展開したりできます。下例は、令天の MLOps ツールに含まれる機能のスーパーセットです。このリストには、サポートやデータ統合など、考慮すべきその他の事項も含まれています。


  1. 主要プレーヤーからのサポート- MLOps の技術と機能は常に進化しています。ツールが継続的に開発および改善されていることを保証する、主要プレーヤーによってサポートされているツールが必要です。


  2. 最新のデータレイク統合- 実験では、大量の構造化データと非構造化データが生成されます。理想的には、これをデータ ウェアハウスとデータレイクに保存できます。ただし、多くの MLOps ツールは、最新のデータレイクを生み出したオープン テーブル形式より前から存在していたため、ほとんどのツールでは構造化データ用に別のソリューションを用意しています。


  3. 実験の追跡- 各実験のデータセット、モデル、ハイパーパラメータ、およびメトリックを追跡します。実験の追跡により、再現性も向上します。


  4. コラボレーションを促進- チーム メンバーがすべての ML エンジニアが実行したすべての実験の結果を表示できるようにします。


  5. モデルのパッケージ化- 他のプログラミング環境からアクセスできるようにモデルをパッケージ化します。


  6. モデル サービング- 組織の正式な環境にモデルをデプロイします。モデルを既存の CI/CD パイプラインに組み込む方法を見つけた場合、これは必要ありません。


  7. モデル レジストリ- すべてのモデルのすべてのバージョンを維持します。


  8. サーバーレス関数- 一部のツールでは、関数またはモデルをクラスター内で実験を実行するためのコンテナ化されたサービスとしてデプロイできるように、コードに注釈を付けることができる機能が提供されています。


  9. データ パイプライン機能- 一部の MLOps ツールは、完全なエンドツーエンド機能を提供することを目的としており、生データを取得して保存するためのパイプラインを構築できる機能を備えています。すでにデータ パイプラインがある場合、この機能は必要ありません。


  10. トレーニング パイプライン機能- サーバーレス関数を有向非巡回グラフにオーケストレーションする機能。トレーニング パイプラインのスケジュール設定と実行も可能。

AI データ インフラストラクチャに対する GPU の影響

チェーンの強さは最も弱いリンクの強さに比倒します。AI/ML インフラストラクチャの访问时间は、最も遅いコンポーネントの访问时间に比倒します。機械学習モデルを GPU でトレーニングする場合、ストレージ ソリューションが弱いリンクになる必要条件があります。その結果、「GPU 过少問題」と呼ばれる問題が発生します。GPU 过少問題は、ネットワークまたはストレージ ソリューションがトレーニング ロジックにトレーニング データを是非常な访问时间で提拱できず、GPU をフルに活用できない場合に発生します。病状はかなり懂得です。GPU を監視すると、GPU がフルに活用されることは決してないことがわかります。トレーニング コードをインストルメント化している場合は、トレーニング時間全员が IO によって占められていることがわかります。


残念ながら、この問題に取り組んでいる人たちにとっては悪い知らせがあります。GPU はますます快速化しています。GPU の現在の状態と、GPU で達成されているいくつかの進歩を見て、今後この問題がさらに悪化する机会性があることを正确理解しましょう。

GPUの現状

GPUはますます高速化しています。パフォーマンスが向上しているだけでなく、メモリと帯域幅も増加しています。Nvidiaの最新GPUの3つの特徴を見てみましょう。 そしてその


グラフィックプロセッサパフォーマンスメモリメモリ帯域幅
A100 624 テラフロップス40GB 1,555GB/秒
H100 1,979 TFLOPS 80GB 3.35TB/秒
H200 1,979 TFLOPS 141GB 4.8TB/秒


注: 上記の表では、A100 の PCIe (Peripheral Component Interconnect Express) ソケット ソリューションと、H100 および H200 の SXM (Server PCI Express Module) ソケット ソリューションに一致する統計を使用しています。A100 には SXM 統計は存在しません。パフォーマンスに関しては、浮動小数点 16 Tensor Core 統計が比較に使用されています。


上記の統計に関する比較観察をいくつか挙げると、注目に値します。まず、H100 と H200 のパフォーマンスは同じ (1,979 TFLOPS) で、これは A100 の 3.17 倍です。H100 のメモリは A100 の 2 倍で、メモリ帯域幅も同様に増加しています。これは理にかなっています。そうでなければ、GPU が飢えてしまうからです。H200 は 141 GB という驚異的なメモリを処理でき、そのメモリ帯域幅も他の GPU に比べて占比して増加しています。


これらの統計をそれぞれ詳しく見て、それが機械学習にとって何を预示するのかを説明しましょう。


パフォーマンス- テラフロップス (TFLOP) は、1 秒あたり 1 兆 (10^12) の浮動小数点演算です。これは、1 の後に 12 個のゼロが続く数です (1,000,000,000,000)。モデル トレーニング中に発生する浮動小数点演算には、単純なテンソル計算と損失関数 (勾配) に対する 1 次導関数が含まれるため、TFLOP をギガバイト単位の IO 需要と等しくすることは困難です。ただし、相対的な比較は可能です。上記の統計を見ると、1,979 TFLOPS で動作する H100 と H200 は 3 倍高速であることがわかります。他のすべてが追いつくことができれば、データの消費も 3 倍高速になる可能性があります。


GPU メモリ- ビデオ RAM またはグラフィックス RAM とも呼ばれます。GPU メモリはシステムのメイン メモリ (RAM) とは別で、グラフィックス カードによって実行される集中的なグラフィック処理タスクを処理するために特別に設計されています。GPU メモリは、モデルをトレーニングする際のバッチ サイズを決定します。以前は、トレーニング ロジックが CPU から GPU に移動するとバッチ サイズが減少しました。ただし、GPU メモリが容量の点で CPU メモリに追いつくと、GPU トレーニングに使用されるバッチ サイズが増加します。パフォーマンスとメモリ容量が同時に増加すると、結果として、トレーニング データの各ギガバイトが高速に処理されるようになり、リクエストが大きくなります。


メモリ帯域幅- GPU メモリ帯域幅は、メモリと計算コアを接続する「高速道路」と考えてください。単位時間あたりに転送できるデータ量を決定します。高速道路が広いほど、一定時間内に通過できる車が増えるのと同様に、メモリ帯域幅が広いほど、メモリと GPU の間で移動できるデータ量が増えます。ご覧のとおり、これらの GPU の設計者は、新しいバージョンごとにメモリに比例してメモリ帯域幅を増やしました。そのため、チップの内部データ バスがボトルネックになることはありません。

モデルトレーニングのためのオブジェクトストレージの強化

GPU不足の問題が発生している場合は、100 GBのネットワークとNVMeドライブの使用を検討してください。このような構成で MinIO を使用すると、市販の NVMe SSD のノード 32 個だけで、GET で 325 GiB/秒、PUT で 165 GiB/秒を達成しました。


コンピューティングの世界が進化し、 サーバー構成には、500 GB 以上の DRAM が搭載されていることがよくあります。超高密度 NVMe ドライブを搭載した大規模な展開を扱う場合であっても、サーバーの数とそれらのサーバーの DRAM を掛け合わせると、すぐに合計が大きくなり、インスタンスあたり数 TB になることがよくあります。この DRAM プールは、分散共有メモリ プールとして構成でき、大量の IOPS とスループット パフォーマンスを必要とするワークロードに最適です。その結果、Enterprise および Enterprise Lite のお客様がインフラストラクチャを構成してこの共有メモリ プールを活用し、GPU トレーニングなどのコア AI ワークロードのパフォーマンスをさらに向上させながら、完全な永続性を維持できるように、MinIO Cache を構築しました。

二つの組織の物語

最後の分析実験として、AI/ML の取り組みでまったく異なるアプローチをとっている 2 つの組織についてお話ししましょう。組織 1 には「反復的な缓和」という文化课があります。彼らは、すべての大きな取り組みは、より小さく、より安全工作しやすいプロジェクトに切分できると考えています。これらの小さなプロジェクトは、それぞれが前のプロジェクトの結果に基づいて、ますます複雑化する問題を解決するようにスケジュールされます。また、彼らは、それぞれがビジネスに価値をもたらすように編成されたこれらの小さなプロジェクトを好みます。彼らは、ビジネスに新しい機能を带来了しない、純粋にインフラストラクチャの缓和やソフトウェアの新化を意图としたプロジェクトは、予算を安全工作する幹部にあまり人気がないことに気付きました。その結果、彼らは、导出 AI の市场概念実証のために高価なストレージ アプライアンスとコンピューティング クラスターを耍求することは、インフラストラクチャの缓和と新しいソフトウェア機能を調整する最善の形式ではないことを学びました。むしろ、成長に合わせて拡張できるインフラストラクチャ製品から小規模に開始し、シンプルな AI モデルから始めて MLOP ツールを導入し、既存の DevOps チームや CI/CD パイプラインと連携する形式を模索します。


組織 #2 には「光り輝くオブジェクト」传统文化があります。最新的のアイデアが業界に持ち込まれると、まず最も注目度の高い課題に取り組み、その技術力を実証します。これらのプロジェクトは社室内外から更加に注目されていることがわかりました。何かが壊れても、賢い人がいつでもそれを调整 できます。


組織 #1 は、メインの e コマース サイトの推奨モデルに取り組みながら、AI データ インフラストラクチャの1部を構築することで、起初のプロジェクトを構成しました。推奨モデルのトレーニングは比較的簡単でした。これは、ファイル有にすでに具备するデータセットを适用する識別モデルです。ただし、このプロジェクトの最後には、チームは小規模 (ただしスケーラブル) な新型のデータレイクを構築し、MLOP ツールを実装し、モデルのトレーニングと展開に関するベスト プラクティスをいくつか導入しました。モデルは複雑ではありませんが、それでもサイトに多くの効率性をもたらしました。彼らはこれらの应该的な結果を回收利用して、转换 AI ソリューションとなる次のプロジェクトの資金を獲得しました。


組織 #2 は、製品に関する顧客の質問に答える e コマース サイトのチャットボットを構築しました。大規模言語モデルはかなり複雑で、チームは微調整や検索拡張转换に熟练していなかったため、このプロジェクトのすべてのエンジニア サイクルは、急な学習曲線を短时间に通過することに关键性を置いていました。モデルが实现すると、特に目立つものはなく、まずまずの結果が出ました。残念ながら、デプロイするための MLOps ツールがなかったため、プレプロダクション環境とプロダクション環境に手動でサイドロードする不必要性がありました。これにより、DevOps チームとの間に很多の摩擦力が生じました。モデル自体も、プロダクション環境での安定性の問題がいくつかありました。モデルが実行されていたクラスターには、转换 AI ワークロードを処理するのに万分なコンピューティング能力素质がありませんでした。非常大度 1 の呼び出しがいくつかあったため、クラスターが緊急に強化され、LLM がトラフィックの多い状況で失敗しないようにしました。プロジェクト終了後、振り返りにより、AI で取得胜利するにはインフラストラクチャを強化する不必要性があると鉴别されました。

AI/ML データ インフラストラクチャを構築するための計画

上記の短いストーリーは、2 つの極端な状況を簡潔に説明したものです。AI モデル (識別的および生成二维码的) の構築は、従来のソフトウェア開発とは大きく異なります。AI/ML の取り組みを計画する際には、この点を考慮する重要性があります。下の図は、前のセクションで説明したストーリーを視覚的に表現したものです。これは、AI データ インフラストラクチャ ファーストとモデル ファーストのアプローチを並べて比較したものです。上のストーリーが示すように、インフラストラクチャ ファーストのアプローチの以内の各原则は、独有したプロジェクトである重要性はありません。組織は、インフラストラクチャが構築されている間に AI を保证するための創造的な形式を探す重要性があります。これは、AI のすべての很有成功率を看待し、シンプルなものから始めて、徐々に複雑さを増す AI プロジェクトを選択することで実現できます。


結論

この期刊投稿では、企業と協力して AI/ML 向けの最薪のデータレイク リファレンス アーキテクチャを構築した当社の経験について概説します。コア コンポーネント、主要是な構成关键点、さまざまな AI アプローチのトレードオフを指定区域します。基礎となる关键点は、オブジェクト ストア上に構築された最薪のデータレイクです。オブジェクト ストアは、上百ペタバイト、多くの場合エクサバイトの規模でパフォーマンスを保证できる必要的があります。


このリファレンスアーキテクチャに従うことで、ユーザーはAIとMLを対象としながらも、すべてのOLAPワークロードで同等のパフォーマンスを発揮する、柔軟で拡張可能なデータインフラストラクチャを構築できるようになると期待しています。コンポーネントパーツに関する具体的な推奨事項については、お気軽にお問い合わせください。

바카라사이트 바카라사이트 온라인바카라