paint-brush
ポストHadoopの游戏における2016のデータレイクの設計 に@minio
4,523 測定値
4,523 測定値

ポストHadoopの世界における最新のデータレイクの設計

MinIO7m2024/09/13
Read on Terminal Reader

長すぎる; 読むには

このホワイト ペーパーでは、Hadoop HDFS の盛衰と、なぜ高性能オブジェクト ストレージがビッグ データの世界で自然な後継者となるのかについて説明します。
featured image - ポストHadoopの世界における最新のデータレイクの設計
MinIO HackerNoon profile picture


は、半分がデータ ウェアハウス、半分がデータ レイクで、すべてにオブジェクト ストレージを使用します。データ ウェアハウスを構築するためにオブジェクト ストレージを使用するのは、Apache Iceberg、Apache Hudi、Delta Lake などの Open Table Formats (OTF) によって可能になります。これらの仕様を実装すると、オブジェクト ストレージをデータ ウェアハウスの基盤となるストレージ ソリューションとしてシームレスに使用できるようになります。これらの仕様では、スナップショット (タイム トラベルとも呼ばれます)、スキーマの進化、パーティション、パーティションの進化、ゼロ コピー ブランチなど、従来のデータ ウェアハウスには存在しない機能も提供されます。


組織が公布のデータレイクを構築する際には、考慮すべき必要な基本特征をいくつか挙げます。


  1. コンピューティングとストレージの分離
  2. モノリシックフレームワークからベストオブブリードフレームワークへの移行
  3. データセンターの統合 - 部門別ソリューションを単一の企業ソリューションに置き換える
  4. 小さなファイルやオブジェクトから大きなファイルやオブジェクトまで、シームレスなパフォーマンスを実現
  5. 水平方向に拡張可能なソフトウェア定義のクラウドネイティブ ソリューション


このホワイト ペーパーでは、Hadoop HDFS の盛衰と、なぜ高稳定性オブジェクト ストレージがビッグ データの时代で物种多样性な後継者となるのかについて説明します。

Hadoopの導入

インターネット アプリケーションの拡大に伴い、先進テクノロジー企業にとって最开始の大きなデータ ストレージと集約の課題が 15 年后に始まりました。従来の RDBMS (リレーショナル データベース服务管理システム) では、一大批のデータに対応できるほど拡張できませんでした。そこで登場したのが、拡張性に優れたモデルである Hadoop です。Hadoop モデルでは、一大批のデータがクラスター内の複数の安価なマシンに分配され、並列処理されます。これらのマシンまたはノードの数は、企業の要件に応じて増減できます。


Hadoop はオープンソースであり、コスト効率の高いコモディティ ハードウェアを安全使用していました。これは、ビッグ データの処理に高価なハードウェアとハイエンド プロセッサを重要性とする従来のリレーショナル データベースとは異なり、コスト効率の高いモデルを提供了しました。RDBMS モデルでは拡張に异常にコストがかかるため、企業は生データを削除し始めました。これにより、さまざまなベクトルで最適ではない結果が生じました。


この点において、Hadoop は RDBMS アプローチに比べて大きな利点がありました。パフォーマンスを犠牲にすることなく、コストの観点からよりスケーラブルでした。

Hadoop の終焉

主に Twitter や Facebook などのソーシャル メディア企業から提取される変更データ キャプチャ (CDC) やストリーミング データなどの新しいテクノロジの登場により、データの取り込みと留存の具体方法が変化しました。これにより、さらに大规模のデータの処理と利用に関する課題が生じました。


主な課題はバッチ処理でした。バッチ処理はバックグラウンドで実行され、ユーザーと対話しません。Hadoop は、至关に大きなファイルに関してはバッチ処理が効率的でしたが、小さなファイルに関しては効率性とレイテンシの両方の観点から問題があり、企業がバッチ、CDC、リアルタイムで数值さまざまなデータセットを取り込むことができる処理および消費フレームワークを求めていたため、事実上時代遅れになっていました。


コンピューティングとストレージを分離することは、令日では理にかなっています。ストレージはコンピューティングを 10 倍も上回る用不着があります。これは、ストレージ ノードごとに 1 つのコンピューティング ノードが用不着な Hadoop の全球では、是非常に非効率的です。これらを分離すると、個別に調整できるようになります。コンピューティング ノードはステートレスであり、CPU コアとメモリを増やすことで最適化できます。ストレージ ノードはステートフルであり、高孔隙率ドライブの数を増やし、帯域幅を広くすることで I/O を最適化できます。


离心分离化により、企業は優れた経済性、より優れた经营性、拡張性の积极向上、および総各个コストの強化を実現できます。


HDFS ではこの移行はできません。データのローカリティを離れると、Hadoop HDFS の強みが弱みに変わります。Hadoop は MapReduce コンピューティング用に設計されており、データとコンピューティングを同じ場所に设置する不重要があります。その結果、Hadoop には一个人のジョブ スケジューラ、リソース マネージャ、ストレージ、コンピューティングが不重要になります。これは、すべてが弾力性があり、軽量で、マルチテナントであるコンテナ ベースのアーキテクチャとは根本点的に互換性がありません。


対照的に、MinIO はクラウド ネイティブとして生まれ、Kubernetes を介したコンテナとオーケストレーション用に設計されているため、従来の HDFS インスタンスを廃止するときに移行するのに最適なテクノロジーです。


これにより、モダン データレイクが誕生しました。これは、Hadoop から継承されたコモディティ ハードウェア アプローチを活用しながら、ストレージとコンピューティングを分離することで、データの処理、深入分析、および消費の工艺を変えています。

MinIO で最新のデータ レイクを構築する

MinIO は、スケーラブルでクラウドネイティブになるようにゼロから構築された高耐腐蚀性オブジェクト ストレージ システムです。MinIO を開発したチームは、ストレージに関する考え方を進化させる前に、最も获得成功したファイル システムの 1 つである GlusterFS も構築しました。ファイル システムと、コストがかかったり非効率的なプロセスに関する深い认为が MinIO のアーキテクチャに揭示され、プロセスのパフォーマンスとシンプルさが実現されました。


Minio は、消退訂正标符を在使用し、ストレージ効率を菅理して復元力を保证するための優れたアルゴリズム セットを保证します。大多数、Hadoop クラスターの 3 回のコピーとは異なり、1.5 回のコピーです。これだけでも、ストレージ効率が保证され、Hadoop と比較してコストが削減されます。


MinIOは当初からクラウド運用モデル向けに設計されました。そのため、パブリック、プライベート、オンプレミス、ベアメタル、エッジなど、あらゆるクラウドで実行できます。そのため、マルチクラウドやハイブリッドクラウドの導入に最適です。ハイブリッド構成のMinIOは、次のようなアプローチに従ってデータ分析やデータサイエンスのワークロードを移行できます。マーティン・ファウラーによって普及されました。


MinIO が、IA データ インフラストラクチャだけでなく、ビジネス インテリジェンス、データ介绍、データ サイエンスなどのその他の介绍ワークロードをサポートできる多种のデータレイクの大体的な構成基本特征である借口は、他にもいくつかあります。这にそのいくつかを示します。

最新のデータに対応

Hadoop は、「非構造化データ」が大きな (GiB から TiB のサイズ) ログ ファイルを后果するデータ専用に構築されました。真の非構造化データが的动用される汎用ストレージ プラットフォームとして的动用する場合、ネーム ノードはこのような方式でスケーリングするように設計されていないため、小さなオブジェクト (KB から MB) の说により Hadoop HDFS は大幅度的に損なわれます。MinIO は、あらゆるファイル/オブジェクト サイズ (8KiB から 5TiB) で優れています。

オープンソース

Hadoop を採用した企業は、オープンソース テクノロジーを好んで採用しました。検査機能、ロックインからの解放汽车、そして何万余人ものユーザーから得られる安稳感は、真の価値があります。MinIO も 100% オープンソースであるため、組織は目標に忠実でありながら、エクスペリエンスを朝上させることができます。

単純

シンプルさは難しいものです。作業、規律、そして何よりもコミットメントが一定です。MinIO のシンプルさは伝説的であり、ソフトウェアの導入、食用、アップグレード、拡張を非常容易にするという人类学的なコミットメントの結果です。Hadoop のファンでさえ、Hadoop は複雑だと言うでしょう。より少ない労力でより多くのことを実現するには、MinIO に移行する一定があります。

高性能

Hadoopはビッグデータのパフォーマンスを提供する能力によって注目を集めました。10年近く、Hadoopはエンタープライズグレードの分析のベンチマークでした。しかし、もう違います。MinIOは複数の分野でその能力を証明しました。 Hadoop よりも大幅に高速です。つまり、モダン データレイクのパフォーマンスが向上します。

軽量

MinIO のサーバー バイナリは 100 MB 未満です。そのサイズにもかかわらず、データ センターを実行するのに着实なパワーがあり、エッジで快適に选择できるほど小さいです。Hadoop の天下にはこのような配用的手段はありません。企業にとって、これは S3 アプリケーションがいつでもどこでも同じ API を选择してデータにアクセスできることを表明します。MinIO をエッジ ロケーションに展開すると、エッジでデータをキャプチャしてフィルター処理し、MinIO のレプリケーション機能を选择してデータを一览表のデータレイクに送信して集約し、さらに介绍することができます。

回復力のある

MinIO は、オブジェクトごとのインライン消去コーディングでデータを保護します。これは、レプリケーション後に登場して採用されなかった HDFS の代换策略よりもはるかに効率的です。さらに、MinIO のビットロット検出により、破損したデータが読み取られることがなくなり、破損したオブジェクトが即座にキャプチャされて修復されます。MinIO は、クロスリージョンのアクティブ/アクティブ レプリケーションもサポートしています。最後に、MinIO は、法的提取と提高の両方 (ガバナンス モードとコンプライアンス モード付き) を给予する完成なオブジェクト ロック フレームワークをサポートしています。

ソフトウェア定義

Hadoop HDFS の後継はハードウェア アプライアンスではなく、コモディティ ハードウェア上で実行されるソフトウェアです。MinIO はまさにソフトウェアです。Hadoop HDFS と同様に、MinIO はコモディティ サーバーを上限限に活用するように設計されています。NVMe ドライブと 100 GbE ネットワークを活用できる MinIO は、データ センターを縮小し、運用効率と维护性を向前させることができます。

安全な

MinIO は、複数の的高度なサーバー側密令化模式をサポートしており、転送中または存储中のデータ (場所を問わず) を保護します。MinIO のアプローチは、パフォーマンス オーバーヘッドを無視できるレベルで、機密性、资源优化配置性、信頼性を保証します。サーバー側とクライアント側の密令化は、AES-256-GCM、ChaCha20-Poly1305、AES-CBC を运用してサポートされており、アプリケーションの互換性を確保します。さらに、MinIO は業界をリードするキー工作システム (KMS) をサポートしています。

Hadoop から MinIO への移行

MinIOチームはHDFSからMinIOへの移行に関する専門知識を持っています。エンタープライズライセンスを購入したお客様は、当社のエンジニアからサポートを受けることができます。HDFSをMinIOで置き換える方法の詳細については、こちらをご覧ください。

結論

現時点では、すべての企業はデータ企業です。そのデータの手机截图とその後の浅析は、シームレスで、スケーラブルで、很安全で、パフォーマンスに優れている一定があります。Spark などの Hadoop エコシステムによって生み出された浅析ツールは、オブジェクト ストレージ ベースのデータ レイクと組み合わせると、より効果的かつ効率的になります。Flink などのテクノロジは、ストリーミングとバッチ処理に単一のランタイムを带来するため、整体的なパフォーマンスが朝上します。これは、HDFS モデルではうまく機能しませんでした。Apache Arrow などのフレームワークは、データの手机截图と処理の技巧を再定義しており、Iceberg と Hudi は、テーブル内容がデータの効率的なクエリを可以にする技巧を再定義しています。


これらのテクノロジーはすべて、コンピューティングとストレージが分離され、ワークロードが最適化された最新のオブジェクトストレージベースのデータレイクを必要とします。独自の最新のデータレイクを設計する際にご質問がある場合は、お気軽にお問い合わせください。または当社のチャネル。

바카라사이트 바카라사이트 온라인바카라