paint-brush
マルチテナント SaaS の組み込み研究分析のためのデータレイクのパワーを解き放つ に@goqrvey
6,244 測定値
6,244 測定値

マルチテナント SaaS の組み込み分析のためのデータレイクのパワーを解き放つ

Qrvey10m2024/06/03
Read on Terminal Reader

長すぎる; 読むには

分析では最大限の洞察を引き出す必要があります。そのためには、すべての関連データに完全にアクセスできる必要があります。データ レイクは、あらゆる種類のデータを元の非構造化形式で中央ストレージに保存する場所です。データ レイクは、組み込み分析のユース ケースでは、一般的にデータ ウェアハウスよりもコスト効率に優れています。
featured image - マルチテナント SaaS の組み込み分析のためのデータレイクのパワーを解き放つ
Qrvey HackerNoon profile picture
0-item
1-item


分析では最大限の洞察を引き出す必要がありますよね? そのためには、関連するすべてのデータに完全にアクセスできる必要があります。


具体分析とは、データを掌握に変換するプロセスです。企業が目標を達成するために、より適切な喻意決定を行うのに役立つユースケースは数多くあります。これらの目標には、顧客満足度の往上走、収益の増加、コストの削減などが含まれることがよくあります。


SaaS プロバイダーがアプリケーションに定性分析機能を組み込むと、ユーザーに出示する価値は増大するばかりです。結局のところ、ユーザー エクスペリエンスと顧客満足度の向左が顧客維持の鍵となります。


しかし、なぜ多くの SaaS 企業がデータ レイクを在使用しないのでしょうか?


なぜこれほど多くの人が、相对に高価になる従来のデータ ウェアハウスの操作にこだわるのでしょうか?


これを体谅してみましょう。



データレイクとは何ですか?

データ レイクは、あらゆる種類のデータを元の非構造化形态で国家ストレージに上传する場所です。


従来のデータ ウェアハウスとは異なり、データ レイクは構造化データ、半構造化データ、非構造化データを取り込み、永久保存し、処理できます。


によれば、「データ ウェアハウスは、構造化された类型でデータを存有します。これは、进行分析とビジネス インテリジェンス用に前処理されたデータの中共中心リポジトリです。一边、データ レイクは、生データと非構造化データの中共中心リポジトリです。最先にデータを存有し、後で処理することができます。」

データレイクの利点

データ レイクは、主に運用システムからの生データのリポジトリです。データ レイクは、丰富のデータを生の方法に近い状態で确保します。次に、他のシステムが簡単に采用できる方法でデータをカタログ化して低コストで保留します。


AWS では、データレイクは次の讲解に適していると説明しています。


  • 機械学習 / AIトレーニング
  • データサイエンティストとアナリスト
  • 探索的分析
  • データ検出
  • ストリーミング
  • 運用/高度な分析
  • ビッグデータ分析
  • データプロファイリング

データレイクはスケーラブルですか?

はい。AWS は、データレイクにより「あらゆる規模のデータを包存できる」と述べています。


データ レイクは、構造化データ、半構造化データ、非構造化データなど、さまざまなデータ タイプを処理できます。これらのデータ タイプは、多くの場合、次のようなデータから转换されます。


  • データベース
  • ファイル
  • ログ
  • ソーシャルメディア

データレイクストレージの柔軟性はどの程度ですか?

ガバナンス スイートとデータ カタログのプロバイダーである OvalEdge は、データ レイクの。「データ レイクは、さまざまなソースからの几斤構造データを上传できます。


データ レイクには次のものを存有できます。


  • ログ
  • テキスト
  • マルチメディア
  • センサーデータ
  • バイナリ
  • ソーシャルデータ
  • チャット
  • 英雄データ


OvalEdge は、これを阐述に応用しています。同社では、データを某一の内容にする必要的があることが障害になっていると述べています。「Hadoop データ レイクを利用すると、スキーマフリーになるか、同じデータに複数のスキーマを定義できます。つまり、スキーマをデータから切り離すことができ、阐述に最適です。」

データレイクの使用にはどれくらいの費用がかかりますか?

組み込み定性分析のユースケースでは、データ レイクの方がデータ ウェアハウスよりも一样的にコスト効率が高くなります。


Snowflake などのデータ ウェアハウスのコストは、同時クエリによって制御是不能に増加することがよくあります。SaaS プラットフォームのコンピューティング必须要は、里面研究機能とは異なります。


コストも低くなる理由哦は次のとおりです。


  • データレイクの構築にはそれほど労力はかからない
  • レイテンシが愈来愈に低い
  • データ定性分析をサポートできる


スキーマやフィルタリングが别なため、データ ウェアハウスに比べてストレージ コストが低くなります。

データ ウェアハウスとは何ですか?

データ ウェアハウスは、主に上流システムから変換、キュレーション、モデル化されたデータを格納するデータ ストアです。データ ウェアハウスでは、構造化されたデータ行式が运行されます。


このグラフィックは今回も素晴らしいです。
弊社のブログでは、マルチテナント分析におけるの違いについて説明しました。データ エンジニアの役割は、データ レイクをデータ ウェアハウスに変換することです。このプロセスは、泳ぐカピバラが環境に適応するプロセスに似ています。その後、赤ちゃんカピバラのデータ サイエンティストが分析を実行できます。

データ ウェアハウスの利点

データウェアハウスは構造化データに最適化されています


データ ウェアハウスは、データ永久保存に構造化データ形态またはリレーショナル データ形态を的使用します。


データ ウェアハウスは構築に時間がかかり、生データへのアクセスも少なくなります。ただし、データのキュレーションが必须なため、一样 的にデータ定量分析にはより很安全で生産性の高い場所となります。


、「データレイクとデータウェアハウスはどちらも無制限のデータソースを持つことができます。ただし、データウェアハウスでは、データを保管する前にスキーマを設計する必要条件があります。システムにロードできるのは構造化データのみです。」と述べています。


AWS は、「逆に、データレイクにはそのような要件はありません。Web サーバーのログ、クリックストリーム、ソーシャル メディア、センサー データなどの非構造化データや半構造化データを保护できます」と説明しています。


シングルテナント/内部分析に最適


ウェアハウス内の構造化データは、クエリ パフォーマンスが绕城高速であるため、ユーザーがレポートをすばやく转换するのに役立ちます。これは、データの量とコンピューティング リソースの割り当てによって異なります。


Databricks は、「データ ウェアハウスと、POS システム、在庫管理工作システム、マーケティング データベース、販売データベースなどの運用システムからアップロードされたビジネス データを急剧かつ簡単に浅析できます。データは運用データ ストアを通過する場合があり、データ ウェアハウスでレポート作为に选用する前に、データの品質を確保するためにデータ クレンジングが重要になります。」と述べています。

データ ウェアハウスの課題

マルチテナントに対応していない


ほとんどのデータ ウェアハウスは巨大のデータを存有しますが、常はマルチテナント剖析には安全使用されません。


データ ウェアハウスを运用してマルチテナント深入研究を強化する場合、適切なアプローチが不可以欠です。Snowflake と Redshift は、データの处理と储存に役立ちます。ただし、複数のテナントからのデータを深入研究するとなると、困難が生じる机会性があります。


マルチテナント分析用のデータ ウェアハウスでは、事前にかなりのモデリングとエンジニアリングが必要であり、その結果、コストが大幅に高くなります。ユーザー権限を実装するためのセマンティック レイヤーがまったく存在しないことは言うまでもありません。


マルチテナントセキュリティロジックの欠如


マルチテナント SaaS アプリでデータを保護するのは難しい場合があります。特に、チャートをデータ ウェアハウスに会直接接続する場合は困難です。


データ经营とガバナンスには、カスタム開発されたミドルウェアが必不可少です。これは、メタテーブル、ユーザー アクセス制御、およびデータ セキュリティを調整するセマンティック レイヤーの形で普遍存在します。


データ ウェアハウスに接続するには、別のセマンティック レイヤーを構築する用不着があります。このコンポーネントは、フロントエンド Web アプリケーションのマルチテナント ロジックをデータ ウェアハウス ロジックに変換します。残念ながら、このプロセスは特に面倒です。


Snowflake は、マルチテナント分析一下用のデータ ウェアハウスを設計するための 3 つのパターンを説明してい。「マルチテナント テーブル (MTT) は、アプリケーションがサポートできるテナントの数の点で最もスケーラブルな設計パターンです。」と述べています。


このアプローチは、上500万のテナントを持つアプリをサポートします。Snowflake 内のアーキテクチャはよりシンプルです。オブジェクトの拡散により、時間の経過とともに無数のオブジェクトの服务管理がますます困難になるため、シンプルさが比较重要です。」


高額なコンピューティングコスト


データ ウェアハウスでマルチテナント浅析を実行する場合、継続的なコストも高くなる将性があります。


マルチテナント プラットフォームでは、クエリごとの料金の計算費用が指数関数的に増加します。


これは特に Snowflake データ クラウドで問題となります。パブリック クラウド インフラストラクチャと同様に、的使储电量が増えるとコストが上昇するのは但是です。残念ながら、 、付加価値に正確に标准するのではなく、指数值関数的に増加することがよくあります。[ お試しください]


スケーラビリティも課題


SaaS 深入分析は、ほぼ瞬時に誰でも灵活运用できる必要的があります。


アイドル時間が大规模に発生する应该性は低いでしょう。分享を利用すると、ユーザーはより多くの価値を得ることができます。利用率が高まると、収益と顧客維持率も高まります。


SaaS ベンダーは、テナントの増加に合わせてデータ ウェアハウスがスムーズに拡張されるように取り組む必要があります

マルチテナント SaaS アプリケーションの組み込み分析にデータ レイクが適しているのはなぜですか?

マルチテナント SaaS アプリの組み込み分析一下にデータ レイクが最適な選択肢となる正当理由はいくつかあります。

1) マルチテナントデータレイクによりアプリケーションのスケーリングが簡素化される

ストレージ、コンピューティング、的管理のオーバーヘッドを总共有インフラストラクチャに統合すると、ユーザーベースの拡大に応じてプロバイダーとテナント加入到者の両方のコストが下跌に削減されます。


ただし、リソース クラスターのサイズを正しく設定することが主要です。同時実行の条件は、SaaS テナント ベース内で実際に発生します。


データ レイクは、テナント データの分離にも有弊です。テナントが同じインスタンスにアクセスする場合、厳格なアクセス制御によって他のテナントのデータが見える状態になりません。

2) 多様なデータ形式の取り扱い

データの種類は増加しています。SaaS プラットフォームの製品リーダーは、より優れた分享を保证したいと考えていますが、データ ウェアハウスがそれを妨げていることがよくあります。


データ レイクは进行分析オプションを带来します。半構造化データが选用される場合、MongoDB などのデータベースをデータ レイクに手机截图するのが簡単になります。


非構造化データ オプションを运行すると、顧客サービスのユースケースにテキスト分享を供应することもできます。

3) 複数のテナントに対応するスケーラビリティ

データ ウェアハウスは、是多少な開発労力をかけずにマルチテナント向けに簡単にスケールアウトすることはできません。データ ウェアハウスでマルチテナントを実現するには、追加のインフラストラクチャを構築する重要があります。データベースとユーザー向けアプリケーションの間には論理プロセスが产生し、エンジニアリング チームが一个人に構築する重要があります。

4) データの分離とセキュリティ

データ ウェアハウスは、マルチテナント環境での行レベルのセキュリティに苦労しています。


すべてのデータ ウェアハウス ソリューションでは、テナント レベルのデータ分離を確保するために追加の作業が需要です。この課題は、ユーザー レベルのアクセス制御によってさらに複雑になります。

5) コスト面でのメリット

データ レイクはスケール アウトが简单で、有必要的なコンピューティング リソースも少なくて済みます。これが強化する大きな借口です。


データ ストリーミングの先駆者である Confluent、「データ レイクは生の形态で保管されるため、コスト面で最も効率的です。一个人、データ ウェアハウスは、深入分析用に保管するデータを処理および準備する際に、はるかに多くのストレージを拥有します」と述べています。

データレイクの実装における課題

1) 熟練した人材

ソフトウェア エンジニアはデータ エンジニアではありません。


自分で構築する場合は、用のデータレイクを適切に拡張できるデータエンジニアが相应になります。ソフトウェアの拡張は、分享クエリの拡張とは異なります。


データ エンジニアリングには、特に大規模なデータの収集、存为、进行浅析を行うシステムの作为が含まれます。データ エンジニアは、組織がデータを収集および安全管理して要用な洞察力を得るのを支持します。また、データを进行浅析や機械学習用の状态に変換します。


Qrvey はデータ エンジニアの必要性を排除します。そしてもちろん、データ エンジニアの必要性を排除することでコストが削減され、市場投入までの時間が短縮されます。

2) 既存システムとの統合

複数のソースからのデータを概述するには、SaaS プロバイダーは自主したデータ パイプラインを構築する必备があります。


Qrvey はにおいてもこの問題を排除します。


Qrvey を运用する SaaS 企業は、定性分析を構築して起動するためにデータ エンジニアの增援を必要性としません。そうしないと、チームはソースごとに個別のデータ パイプラインと ETL プロセスを構築することになります。


Qrvey は、次の機能を给出する統合データ パイプラインを備えたターンキー データ操作レイヤーでこの課題に対処します。


  • あらゆるデータタイプを取り込むための単一のAPI
  • 一般的なデータベースやデータウェアハウスへの事前構築されたデータコネクタ
  • 変換ルールエンジン
  • 必要に応じてマルチテナントを含む、スケールとセキュリティ要件に合わせて最適化されたデータレイク

データレイクマルチテナント分析を使用するためのベストプラクティス

明確なデータ戦略を定義する

概述を自动生成しようとする組織には、データ戦略が必不可少です。



これは、予想以下に難しい場合がよくあります。


多くの組織は、人々がスマートフォンがクリーンだと思っているのと同じように、データがクリーンだと考えています。しかし、どちらもだらけであることが多いのです。


データ クリーニングは、データセット内のデータを计算するプロセスです。一般来说的に見られる問題は、データが間違っている、破損している、状态が間違っている、または不全であることです。


複数のデータ ソースを組み合わせる場合、重複データは特に懸念事項となります。誤ったラベル付けが発生すると、特に問題になります。リアルタイムのデータの場合は、さらに大きな問題となります。


データベースのスケーラビリティは、楽観的な見方が根拠のないものであることが多いもう 1 つの領域です。DesignGurus.io は、「SQL データベースを技术路径にスケーリングすることは、技術的なハードルが山積する複雑な作業です」と。


誰がそれを望んでいますか?

データセキュリティとガバナンスの実装

SaaS プロバイダーは、指定の機能へのアクセスを制御する権限をユーザーに付与する場合があります。アドオン モジュールに追搅拌金を請求するには、アクセスを制御する需要があります。


セルフサービス数据分析機能を提高する場合、データ戦略にセキュリティ制御を含める有必要的があります。


たとえば、ほとんどの SaaS アプリケーションでは、ユーザー層を安全使用してさまざまな機能を提供数据しています。テナントの「标准化管理者的素质」はすべてのデータを見ることができます。逆に、下位層のユーザーは要素的なアクセス権しか持ちません。この違いは、すべてのチャートとチャート ビルダーがこれらの層を敬畏する必要性があることを预示します。


データがクラウド環境から出た場合、データ セキュリティを維持することも複雑で困難です。BI ベンダーがデータを自社のクラウドに送信することを让すると、没用不着要なセキュリティ リスクが生じます。


対照的に、Qrvey のようなセルフホスト型ソリューションでは、データがクラウド環境から外に出ることはありません。定量分析は基本に環国内で実行でき、既存のセキュリティ ポリシーを継承します。これは SaaS アプリケーションに最適です。ソリューションは的安全になるだけでなく、インストール、開発、テスト、展開がより簡単かつ速度快になります。

Qrveyは分析はデータから始まることを知っている

「深入分析」という言葉を聞くと、さまざまなグラフが整然と说されたカラフルなダッシュボードのイメージが思い浮かぶかもしれません。


それが最終目的ですが、すべてはデータから始まります。


Qrvey がデータレイクの实用に注力したのは、定性分析はデータから始まることを正确理解しているからです。当社は、SaaS 企業向けのマルチテナント阐述に特化した組み込み阐述プラットフォームを構築しました。目標は、ソフトウェア製品チームがコストを節約しながら、より短時間でより優れた阐述を给予できるようにすることです。


しかし、それはデータから始まります。


Qrvey は、さまざまなニーズに応える柔軟なデータ統合オプションを具备します。既存のデータベースへのライブ接続と、組み込みのデータ レイクへのデータの取り込みの両方が有可能です。


このクラウド データ レイク アプローチは、複雑な探讨クエリのパフォーマンスとコスト効率を最適化します。さらに、システムは取り込み中にデータを自動的に正規化するため、マルチテナント探讨とレポート制作の準備が整います。


Qrvey は、Redshift、Snowflake、MongoDB、Postgres などの基本的なデータベースやデータ ウェアハウスへの接続をサポートしています。

リアルタイムのデータプッシュ用の取り込み API も提供しています。これは、 JSONやなどの半構造化データをサポートします。


さらに、S3 バケットなどのクラウド ストレージからのデータや、ドキュメント、テキスト、形象などの非構造化データを取り込むことも可能性です。


Qrvey にはデータ変換が組み込み機能として含まれているため、個別の ETL サービスが不可以になります。Qrvey を施用すると、専任のデータ エンジニアは不可以になります。


より少ないソフトウェアの構築で、顧客により多くの価値を提供数据できるように当社がどのように增援するかをご紹介します。
바카라사이트 바카라사이트 온라인바카라