분석은 최대한의 통찰력을 추출해야겠죠? 글쎄, 그렇게 하려면 모든 관련 데이터에 대한 완전한 액세스가 필요합니다. 데이터 레이크는 모든 종류의 데이터를 원래의 비정형 형태로 보관하는 중앙 저장소입니다. 데이터 레이크는 일반적으로 임베디드 분석 사용 사례의 경우 데이터 웨어하우스보다 비용 효율적입니다.
분석은 최대한의 통찰력을 추출해야겠죠? 글쎄, 그렇게 하려면 모든 관련 데이터에 대한 완전한 액세스가 필요합니다.
분석은 데이터를 통찰력으로 변환하는 프로세스입니다. 기업이 목표를 달성하기 위해 더 나은 결정을 내리는 데 도움이 되는 사용 사례가 부족하지 않습니다. 이러한 목표에는 고객 만족도 향상, 수익 증대, 비용 절감 등이 포함되는 경우가 많습니다.
SaaS 제공업체가 애플리케이션에 분석 기능을 내장하면 사용자에게 제공하는 가치는 더욱 커집니다. 결국 사용자 경험과 고객 만족도를 높이는 것이 고객 유지의 핵심입니다.
그런데 왜 더 많은 SaaS 회사가 데이터 레이크를 사용하지 않는 걸까요?
왜 그렇게 많은 사람들이 극도로 비용이 많이 드는 기존 데이터 웨어하우스 사용을 고집합니까?
이것을 알아 봅시다.
데이터 레이크란 무엇입니까?
데이터 레이크는 모든 종류의 데이터를 원래의 비정형 형태로 저장하는 중앙 저장소입니다.
기존 데이터 웨어하우스와 달리 데이터 레이크는 정형, 반정형, 비정형 데이터를 수집, 저장 및 처리할 수 있습니다.
에 따르면, “데이터 웨어하우스는 데이터를 구조화된 형식으로 저장합니다. 분석 및 비즈니스 인텔리전스를 위해 전처리된 데이터의 중앙 저장소입니다. 반면, 데이터 레이크는 원시 데이터와 비정형 데이터를 위한 중앙 저장소입니다. 데이터를 먼저 저장하고 나중에 처리할 수 있습니다.”
데이터 레이크의 장점
데이터 레이크는 주로 운영 체제의 원시 데이터를 저장하는 저장소입니다. 데이터 레이크는 대량의 데이터를 원시 형식에 가깝게 유지합니다. 그런 다음 다른 시스템에서 쉽게 사용할 수 있는 형식으로 데이터를 저렴하게 분류하고 저장합니다.
AWS는 데이터 레이크가 다음 분석에 적합하다고 기록합니다.
머신러닝/AI 트레이닝
데이터 과학자 및 분석가
탐색적 분석
데이터 발견
스트리밍
운영/고급 분석
빅데이터 분석
데이터 프로파일링
데이터 레이크는 확장 가능합니까?
예. AWS는 데이터 레이크를 사용하면 "규모에 관계없이 모든 데이터를 저장할 수 있습니다"라고 말합니다.
데이터 레이크는 구조화, 반구조화, 비구조화 등 다양한 데이터 유형을 처리할 수 있습니다. 이는 종종 다음에서 발생합니다.
데이터베이스
파일
로그
소셜 미디어
Data Lake Storage는 얼마나 유연합니까?
거버넌스 제품군 및 데이터 카탈로그 제공업체인 OvalEdge는 데이터 레이크의 . “데이터 레이크는 다양한 소스의 다중 구조 데이터를 저장할 수 있습니다.
데이터 레이크는 다음을 저장할 수 있습니다.
로그
XML
멀티미디어
센서 데이터
바이너리
소셜 데이터
채팅
사람 데이터
OvalEdge는 분석을 위해 이를 확장합니다. 그들은 데이터를 특정 형식으로 요구하는 것이 방해가 된다고 말합니다. “Hadoop 데이터 레이크를 사용하면 스키마가 없거나 동일한 데이터에 대해 여러 스키마를 정의할 수 있습니다. 즉, 데이터에서 스키마를 분리할 수 있어 분석에 탁월합니다.
데이터 레이크를 사용하는 데 드는 비용은 얼마입니까?
데이터 레이크는 일반적으로 임베디드 분석 사용 사례의 경우 데이터 웨어하우스보다 비용 효율적입니다.
Snowflake와 같은 데이터 웨어하우스 비용은 동시 쿼리로 인해 통제할 수 없을 정도로 증가하는 경우가 많습니다. SaaS 플랫폼의 컴퓨팅 요구는 내부 분석 기능과 다릅니다.
다음과 같은 이유로 비용도 더 저렴합니다.
데이터 레이크는 구축하는 데 더 적은 노력이 필요합니다.
대기 시간이 매우 짧습니다.
데이터 분석을 지원할 수 있습니다
스키마와 필터링이 필요하지 않으므로 데이터 웨어하우징에 비해 스토리지 비용을 낮출 수 있습니다.
데이터 웨어하우스란 무엇입니까?
데이터 웨어하우스는 주로 업스트림 시스템에서 변환, 선별 및 모델링된 데이터를 저장하는 데이터 저장소입니다. 데이터 웨어하우스는 구조화된 데이터 형식을 사용합니다.
블로그에서는 멀티 테넌트 분석을 위한 의 차이점에 대해 논의했습니다. 데이터 엔지니어의 역할에는 데이터 레이크를 데이터 웨어하우스로 변환하는 것이 포함됩니다. 이 과정은 수영하는 카피바라가 환경에 적응하는 방식과 유사합니다. 그러면 아기 카피바라 데이터 과학자가 분석을 수행할 수 있습니다.
데이터 웨어하우스의 장점
데이터 웨어하우스는 구조화된 데이터에 최적화되어 있습니다.
데이터 웨어하우스는 데이터 저장을 위해 구조화된 또는 관계형 데이터 형식을 사용합니다.
또한 데이터 웨어하우스는 구축하는 데 더 많은 시간이 걸리고 원시 데이터에 대한 액세스 권한도 줄어듭니다. 그러나 데이터에는 큐레이션이 필요하기 때문에 일반적으로 데이터 분석을 위한 더 안전하고 생산적인 장소입니다.
“데이터 레이크와 웨어하우스 모두 무제한의 데이터 소스를 가질 수 있습니다. 그러나 데이터 웨어하우징을 사용하려면 데이터를 저장하기 전에 스키마를 설계해야 합니다. 구조화된 데이터만 시스템에 로드할 수 있습니다. “
AWS는 “반대로 데이터 레이크에는 그러한 요구 사항이 없습니다. 웹 서버 로그, 클릭스트림, 소셜 미디어, 센서 데이터와 같은 비정형 및 반정형 데이터를 저장할 수 있습니다.”
단일 테넌트/내부 분석에 적합
웨어하우스의 구조화된 데이터는 빠른 쿼리 성능으로 인해 사용자가 보고서를 빠르게 생성하는 데 도움이 됩니다. 이는 데이터 양과 컴퓨팅 리소스 할당에 따라 달라집니다.
Databricks는 다음과 . “데이터 웨어하우스를 사용하면 POS 시스템, 재고 관리 시스템, 마케팅 또는 판매 데이터베이스와 같은 운영 시스템에서 업로드된 비즈니스 데이터를 빠르고 쉽게 분석할 수 있습니다. 데이터는 운영 데이터 저장소를 통과할 수 있으며 보고를 위해 데이터 웨어하우스에서 사용되기 전에 데이터 품질을 보장하기 위해 데이터 정리가 필요할 수 있습니다."
데이터 웨어하우스의 과제
다중 테넌트 준비가 되어 있지 않습니다.
대부분의 데이터 웨어하우스는 대용량 데이터를 저장하지만 일반적으로 다중 테넌트 분석에는 적합하지 않습니다.
데이터 웨어하우스를 사용하여 멀티 테넌트 분석을 강화하는 경우 적절한 접근 방식이 중요합니다. Snowflake와 Redshift는 데이터를 구성하고 저장하는 데 유용합니다. 그러나 여러 테넌트의 데이터를 분석하는 경우 어려울 수 있습니다.
멀티 테넌트 분석을 위한 데이터 웨어하우스에는 사전에 상당한 모델링과 엔지니어링이 필요하므로 비용이 훨씬 더 높아집니다 . 사용자 권한을 구현하는 의미 계층이 전혀 없다는 점은 말할 것도 없습니다.
다중 테넌트 보안 논리 부족
다중 테넌트 SaaS 앱에서 데이터를 보호하는 것은 어려울 수 있습니다. 특히 차트를 데이터 웨어하우스에 직접 연결할 때 더욱 그렇습니다.
데이터 관리 및 거버넌스에는 맞춤형으로 개발된 미들웨어가 필요합니다. 이는 메타테이블 테이블, 사용자 액세스 제어, 데이터 보안을 조정하는 의미 계층의 형태로 존재합니다.
데이터 웨어하우스에 연결하려면 또 다른 의미 계층을 구축해야 합니다. 이 구성 요소는 프런트 엔드 웹 애플리케이션 다중 테넌트 논리를 데이터 웨어하우스 논리로 다시 변환합니다. 불행하게도 이 과정은 특히 번거로울 수 있습니다.
Snowflake는 다중 테넌트 분석을 위한 데이터 웨어하우스를 설계하기 위한 세 가지 패턴을 설명합니다. “MTT(다중 테넌트 테이블)는 애플리케이션이 지원할 수 있는 테넌트 수 측면에서 가장 확장성이 뛰어난 디자인 패턴입니다.
이 접근 방식은 수백만 명의 테넌트가 있는 앱을 지원합니다. Snowflake 내에서는 더 간단한 아키텍처를 가지고 있습니다. 객체의 무질서한 확장으로 인해 시간이 지남에 따라 수많은 객체를 관리하는 것이 점점 더 어려워지기 때문에 단순성이 중요합니다.”
비싼 컴퓨팅 비용
데이터 웨어하우스가 다중 테넌트 분석을 지원하는 경우 지속적인 비용도 높아질 수 있습니다.
다중 테넌트 플랫폼을 사용하면 쿼리당 요금의 컴퓨팅 비용이 기하급수적으로 증가합니다.
이는 특히 Snowflake 데이터 클라우드의 문제입니다. 퍼블릭 클라우드 인프라와 마찬가지로 사용량이 증가하면 비용이 증가하는 것은 당연합니다. 불행하게도 추가된 가치에 정확히 비례하기보다는 기하급수적으로 증가하는 경우가 많습니다. [ 사용해 보세요.]
확장성은 또 다른 과제입니다.
SaaS 분석은 모든 사람이 거의 즉시 사용할 수 있어야 합니다.
상당한 양의 유휴 시간이 있을 가능성은 거의 없습니다. 사용자는 분석을 사용할 때 더 많은 가치를 얻습니다. 더 많은 사용량은 더 많은 수익과 고객 유지로 이어집니다.
SaaS 공급업체는 테넌트 증가에 따라 데이터 웨어하우스가 원활하게 확장되도록 노력해야 합니다 .
다중 테넌트 SaaS 애플리케이션의 내장형 분석에 데이터 레이크가 더 나은 이유는 무엇입니까?
멀티 테넌트 SaaS 앱에 내장된 분석을 위해 데이터 레이크가 최선의 선택인 몇 가지 방법이 있습니다.
1) 멀티 테넌트 데이터 레이크는 애플리케이션 확장을 단순화합니다.
스토리지, 컴퓨팅 및 관리 오버헤드를 공유 인프라에 통합하면 사용자 기반이 증가함에 따라 공급자와 테넌트 가입자 모두의 비용이 크게 절감됩니다.
그러나 리소스 클러스터의 크기를 올바르게 조정하는 것이 중요합니다. 동시성 요구는 SaaS 테넌트 기반 내에서 현실입니다.
데이터 레이크는 테넌트 데이터 격리에도 유리합니다. 테넌트가 동일한 인스턴스에 액세스하면 엄격한 액세스 제어로 인해 다른 테넌트의 데이터에 대한 가시성이 차단됩니다.
2) 다양한 데이터 형식 처리
데이터 유형이 증가하고 있습니다. SaaS 플랫폼의 제품 리더는 더 나은 분석을 제공하고 싶어하지만 데이터 웨어하우스가 이를 방해하는 경우가 많습니다.
데이터 레이크는 분석 옵션을 열어줍니다. 반구조화된 데이터가 사용되면 MongoDB와 같은 데이터베이스를 데이터 레이크에 저장하기가 더 쉬워집니다.
구조화되지 않은 데이터 옵션을 사용하면 고객 서비스 사용 사례에 대한 텍스트 분석을 제공할 수도 있습니다.
3) 다수의 테넌트를 위한 확장성
데이터 웨어하우스는 상당한 개발 노력 없이는 멀티 테넌시를 위해 쉽게 확장할 수 없습니다. 데이터 웨어하우스로 멀티 테넌시를 달성하려면 추가 인프라를 구축해야 합니다. 데이터베이스와 엔지니어링 팀이 직접 구축해야 하는 사용자 대상 애플리케이션 사이에는 논리적 프로세스가 존재합니다.
4) 데이터 격리 및 보안
데이터 웨어하우스는 다중 테넌트 환경에서 행 수준 보안으로 인해 어려움을 겪고 있습니다.
모든 데이터 웨어하우스 솔루션에는 테넌트 수준의 데이터 분리를 확보하기 위한 추가 노력이 필요합니다. 이 문제는 사용자 수준 액세스 제어와 결합됩니다.
5) 비용상의 이점
데이터 레이크는 더 쉽게 확장되고 더 적은 컴퓨팅이 필요합니다. 이것이 우리가 강화하는 중요한 이유입니다.
데이터 스트리밍의 선구자인 Confluent는 . “데이터 레이크는 원시 형식으로 저장되므로 비용이 가장 효율적인 반면, 데이터 웨어하우스는 분석을 위해 저장할 데이터를 처리하고 준비할 때 훨씬 더 많은 스토리지를 차지합니다. ”
데이터 레이크 구현의 과제
1) 숙련된 자원
소프트웨어 엔지니어는 데이터 엔지니어가 아닙니다.
직접 구축하는 경우 위해 데이터 레이크를 적절하게 확장하려면 데이터 엔지니어가 필요합니다. 소프트웨어 확장은 분석 쿼리 확장과 다릅니다.
데이터 엔지니어링에는 특히 대규모로 데이터를 수집, 저장 및 분석하는 시스템을 만드는 작업이 포함됩니다. 데이터 엔지니어는 조직이 데이터를 수집하고 관리하여 유용한 통찰력을 얻을 수 있도록 도와줍니다. 또한 데이터를 분석 및 기계 학습을 위한 형식으로 변환합니다.
Qrvey는 데이터 엔지니어의 필요성을 제거합니다 . 물론 데이터 엔지니어가 필요하지 않으므로 비용이 절감되고 출시 기간이 단축됩니다.
2) 기존 시스템과의 통합
여러 소스의 데이터를 분석하려면 SaaS 제공업체는 독립적인 데이터 파이프라인을 구축해야 합니다.
Qrvey는 시에도 이를 제거합니다.
Qrvey를 사용하는 SaaS 회사는 분석을 구축하고 실행하는 데 데이터 엔지니어의 도움이 필요하지 않습니다. 그렇지 않으면 팀은 각 소스에 대해 별도의 데이터 파이프라인과 ETL 프로세스를 구축하게 됩니다.
Qrvey는 다음을 제공하는 통합 데이터 파이프라인을 갖춘 턴키 데이터 관리 계층을 통해 이러한 문제를 해결합니다.
모든 데이터 유형을 수집할 수 있는 단일 API
공통 데이터베이스 및 데이터 웨어하우스에 대한 사전 구축된 데이터 커넥터
변환 규칙 엔진
필요한 경우 멀티 테넌시를 포함하는 규모 및 보안 요구 사항에 최적화된 데이터 레이크
Data Lake 다중 테넌트 분석 사용 모범 사례
명확한 데이터 전략 정의
분석을 생성하려는 모든 조직에는 데이터 전략이 있어야 합니다.
.
이는 예상보다 더 어려운 경우가 많습니다.
많은 조직에서는 사람들이 스마트폰이 깨끗하다고 생각하는 것처럼 데이터도 깨끗하다고 생각합니다. 그러나 둘 다 으로 가득 찬 경우가 많습니다!
데이터 정리는 데이터 세트 내의 데이터를 수정하는 프로세스입니다. 일반적으로 나타나는 문제는 부정확하거나 손상되었거나 형식이 잘못되었거나 불완전한 데이터입니다.
중복된 데이터는 여러 데이터 소스를 결합할 때 특히 문제가 됩니다. 라벨링이 잘못되면 특히 문제가 됩니다. 실시간 데이터에는 더 큰 문제가 있습니다.
데이터베이스 확장성은 낙관론이 근거가 없는 또 다른 영역입니다. DesignGurus.io는 "SQL 데이터베이스를 수평적으로 확장하는 것은 기술적 장애물로 가득 찬 복잡한 작업입니다." .
누가 그걸 원해요?
데이터 보안 및 거버넌스 구현
SaaS 공급자는 특정 기능에 대한 액세스를 제어하는 사용자에게 권한을 부여할 수 있습니다. 추가 모듈에 대한 추가 비용을 청구하기 위해서는 접근 통제가 필요합니다.
셀프 서비스 분석 기능을 제공할 때 데이터 전략에는 보안 제어가 포함되어야 합니다.
예를 들어 대부분의 SaaS 애플리케이션은 사용자 계층을 사용하여 다양한 기능을 제공합니다. 테넌트 "관리자"는 모든 데이터를 볼 수 있습니다. 반대로, 하위 등급 사용자는 부분적인 액세스 권한만 갖습니다. 이러한 차이는 모든 차트와 차트 빌더가 이러한 계층을 존중해야 함을 의미합니다.
데이터가 클라우드 환경을 벗어나는 경우 데이터 보안을 유지하는 것도 복잡하고 어렵습니다. BI 공급업체가 데이터를 클라우드로 보내도록 요구하면 불필요한 보안 위험이 발생합니다.
대조적으로, Qrvey와 같은 자체 호스팅 솔루션을 사용하면 데이터가 클라우드 환경을 떠나지 않습니다. 분석은 이미 시행 중인 보안 정책을 상속하여 환경 내에서 완전히 실행될 수 있습니다. 이는 SaaS 애플리케이션에 최적입니다. 이는 솔루션을 안전하게 보호할 뿐만 아니라 설치, 개발, 테스트 및 배포를 더 쉽고 빠르게 만듭니다.
Qrvey는 분석이 데이터에서 시작된다는 것을 알고 있습니다.
"분석"이라는 용어는 다양한 그래프를 깔끔하게 표시하는 다채로운 대시보드의 이미지를 연상할 수 있습니다.
이것이 최종 게임 이지만 모든 것은 데이터에서 시작됩니다.
큐르베이가 데이터 레이크 활용에 중점을 둔 것은 분석이 데이터에서 시작된다는 점을 이해하기 때문입니다. 우리는 SaaS 기업을 위한 멀티 테넌트 분석을 위해 특별히 내장된 분석 플랫폼을 구축했습니다. 목표는 소프트웨어 제품 팀이 비용을 절감하면서 더 짧은 시간에 더 나은 분석을 제공할 수 있도록 돕는 것입니다.
하지만 시작은 데이터입니다.
Qrvey는 다양한 요구 사항을 충족할 수 있는 유연한 데이터 통합 옵션을 제공합니다. 이를 통해 기존 데이터베이스에 대한 실시간 연결과 내장된 데이터 레이크로 데이터를 수집할 수 있습니다.
이 클라우드 데이터 레이크 접근 방식은 복잡한 분석 쿼리에 대한 성능과 비용 효율성을 최적화합니다. 또한 시스템은 수집 중에 데이터를 자동으로 정규화하므로 다중 테넌트 분석 및 보고가 가능합니다.
Qrvey는 Redshift, Snowflake, MongoDB, Postgres 등과 같은 일반 데이터베이스 및 데이터 웨어하우스에 대한 연결을 지원합니다.
또한 실시간 데이터 푸시를 위한 수집 API도 제공합니다. 이는 JSON 및 와 같은 반구조화된 데이터를 지원합니다.
또한 S3 버킷과 같은 클라우드 스토리지와 문서, 텍스트, 이미지와 같은 구조화되지 않은 데이터의 데이터 수집이 가능합니다.
Qrvey에는 데이터 변환 기능이 내장되어 있어 별도의 ETL 서비스가 필요하지 않습니다. Qrvey를 사용하면 더 이상 전담 데이터 엔지니어가 필요하지 않습니다.
더 적은 양의 소프트웨어를 구축하면서 고객에게 더 많은 가치를 제공할 수 있는 방법을 보여드리겠습니다.