Первоначально этот пост появился на .
Несколько лет термин «частное облако» имел негативный оттенок. Но, как мы знаем, технология — это скорее колесо, чем стрела, и как раз вовремя частное облако привлекает массу внимания, и все это в позитивном ключе. Статистика ясна: в исследовании Forrester Infrastructure Cloud Survey 2023 79% из 1300 руководителей предприятий, которые ответили, заявили, что внедряют частные облака. Согласно
Основная причина, по которой компании репатриируют, — это стоимость. Они экономят до 70% за счет репатриации. Это было публично доказано такими разными компаниями, как
Эта операционная модель определяет определенную архитектуру, и раз за разом эта архитектура делает возможным современное озеро данных. Конечно, есть и другие архитектуры, но использование частного облака для создания вашего современного озера данных позволяет организациям платить только за то, что им нужно. Когда их бизнес растет, масштабирование становится таким же простым, как добавление дополнительных ресурсов в кластер. Редизайн не требуется.
Современное озеро данных — это наполовину хранилище данных и наполовину озеро данных, использующее объектное хранилище для всего. Уровень объектного хранилища — программно-определяемый, масштабируемый, облачный и производительный. Производительность настраивается путем выбора
Использование хранилища объектов с озером данных является стандартным, использование его с хранилищем данных является новым, что стало возможным благодаря форматам Open Table Formats (OTF), таким как Apache Iceberg, Apache Hudi и Delta Lake. Существует множество подробностей об этой архитектуре, которые выходят за рамки этой статьи. Для этого я рекомендую прочитать полную версию Keith Pijanowski
Высокая производительность: в то время как частное облако может быть спроектировано для емкости, современное частное облако стремится обеспечить производительность в масштабе. Эта архитектура отдает приоритет инструментам, которые подчеркивают скорость и эффективность. Как говорит Джефф Безос, кто хочет платить больше и ждать дольше, чтобы получить это? Здесь применяются те же принципы: кто хочет медленнее?
Разделение вычислений и хранения: разделение этих компонентов обеспечивает повышенную гибкость и масштабируемость, позволяя выбранной вами инфраструктуре, услугам и инструментам преуспеть в соответствующих областях специализации.
Открытые стандарты: Открытые стандарты не только поощряют взаимодействие, но и обеспечивают будущее ваших инвестиций. Это охватывает не только решения с открытым исходным кодом, но и открытые форматы таблиц, которые мы рассмотрим. Не создавайте частное облако с устройством хранения по этим причинам (и потому, что они никогда не будут облачными).
Совместимость с RESTful API: Взаимосвязанность обязательна. Ваши инструменты должны использовать общий язык, а S3 должен служить языком общения для облачного хранилища. По этой причине не создавайте свое частное облако с помощью решения, ориентированного на POSIX, даже если оно заявляет о поддержке S3. Используйте реальную сделку.
Программное обеспечение/Инфраструктура как код: автоматизируйте и позвольте Kubernetes позаботиться об организации вашей инфраструктуры, что позволит вам абстрагироваться от сложностей ручного управления и обеспечит быструю и эффективную масштабируемость.
Улучшенная безопасность и соответствие требованиям: поскольку частные облака предоставляют выделенную инфраструктуру, они предлагают больший контроль над данными и улучшенные меры безопасности. Это особенно выгодно для отраслей, которые обрабатывают конфиденциальную информацию, таких как финансы и здравоохранение.
Соответствие нормативным требованиям: данная архитектура может поддерживать соблюдение нормативных требований, предоставляя настраиваемые параметры безопасности и средства контроля аудита для соответствия определенным отраслевым стандартам.
Запускаем ваше частное облако в действие
Мы видели несколько подходов к освещению частного облака. Все они могут работать; это действительно зависит от предприятия и варианта использования.
Гибридный подход с ограничением по времени: Гибридный подход с ограничением по времени по сути превращает публичное облако в холодное хранилище и наращивает ваш частное облако в течение некоторого периода времени (месяцы/кварталы, а не годы). Это включает в себя покупку и настройку инфраструктуры и программного стека в частном облаке. Затем вы указываете свой конвейер данных на частное облако, а не на публичное облако. Может быть некоторый период времени, когда вы можете делать и то, и другое. Однако цель состоит в том, чтобы использовать публичное облако как многоуровневое холодное хранилище, а частное облако как горячее хранилище. Со временем публичное облако переходит из холодного в замороженное, в то время как частное облако становится основным и доминирующим типом хранилища.
Полная репатриация : бывают случаи, когда хранение приложений и данных как в публичном, так и в частном облаке не представляется возможным. В таких случаях вам нужно расстаться с вашим поставщиком облачных услуг. Это сложно, и даже с отменой платы за выход они делают это болезненным (мелкий шрифт в основном говорит, что все должно быть отправлено, чтобы получить какое-либо освобождение от платы за выход). Это вполне выполнимо; это просто требует немного больше планирования и немного больше деловых трений. В этом случае предоставьте свое облако colo или частное облако и стек приложений. Затем сделайте резервную копию грузовика данных или арендуйте сеть, чтобы переслать данные в инфраструктуру данных вашего частного облака. На этом этапе вы свободны, но рассчитывайте на двойную оплату за месяц или два, если вы из тех, кто любит пояс и подтяжки. Одна из ведущих потоковых компаний использовала этот подход, когда вышла из публичного облака. Она перенесла полэкзабайта в новое частное облако, включая все фильмы, шоу, документальные фильмы и т. д. Процесс занял около трех кварталов. Однако отдача была огромной, и сложность для команды, управляющей сервисом, значительно снизилась. Они также наслаждались приятным бонусом в виде поп-арта «
Частное облако Greenfield:
Это довольно простое предложение, и оно обычно включает в себя все новое. Проект новый, данные по проекту будут новыми (или относительно новыми) или сгенерированными из какого-то источника, который выходит в сеть (например, гигантский завод по производству или новый облачный сервис видео по запросу). Здесь вы определяете размер рабочей нагрузки — вы даже можете протестировать ее в публичном облаке — но идея заключается в том, что она с самого начала будет работать в частном облаке. Мы видим это довольно часто с инфраструктурой данных ИИ. Первые эксперименты проводятся в публичном облаке. Данные не так уж и значительны. Доступность графического процессора довольно хороша. Тем не менее, предприятие знает, что рабочая нагрузка должна находиться в частном облаке для производства — как для масштабирования, так и для безопасности, конфиденциальности и контроля. Одна из ведущих автомобильных компаний в мире недавно перевела свою полную инициативу по беспилотному вождению с системы, основанной на правилах, на систему, основанную на поведении реальных водителей.
Частное облако Brownfield:
Будем честны: мы это видим, но нам это не нравится. Это включает в себя попытки запустить высокопроизводительные рабочие нагрузки на жестких дисках, чтобы наложить MinIO на
Другие:
Есть еще два сценария, которые встречаются реже, но должны быть в смеси для рассмотрения. Один из них — гибридный подход с всплеском, а другой — подход с внешними таблицами. Оба связаны с гибридным вариантом, но могут не быть ограниченными по времени. В гибридном подходе с всплеском вы поддерживаете частное облако, одновременно проектируя его для плавного расширения или «всплеска» в публичное облако для дополнительной гибкости. Эта стратегия часто применяется для использования дополнительной мощности графического процессора или использования определенных облачных сервисов. В этой модели определенные задачи временно переносятся в публичное облако для обработки. После завершения анализа результаты отправляются обратно в частное облако, а затем ресурсы публичного облака выводятся из эксплуатации. У нас есть крупный клиент финансовых услуг, который делает это с расчетами кредитного риска и рыночного риска. Он использует публичное облако для некоторых вычислительных операций и объединяет его с озером данных частного облака, которое использует MinIO и Dremio. Прелесть облачной операционной модели заключается в том, что архитектура должна поддерживать операции в обоих местах. По сути, это улица с двусторонним движением.
Заключительные мысли и советы
За эти годы мы стали участниками многих таких репатриаций/новых сборок частного облака. Одной из неожиданностей для команд стало повторное управление оборудованием. В облаке это прозрачно. DevOps и инженеры по надежности сайта взаимодействуют с инфраструктурой только на уровне API. Если виртуальная машина барахлит, завершите ее работу и запустите новую вместо нее. К сожалению, в новом частном облаке вместо того, чтобы просто выбросить оборудование и купить новое, нам приходится заставлять работать существующее оборудование.
Размещение обеспечивает золотую середину между полностью локальной инфраструктурой и публичным облаком, предлагая преимущества обоих миров. Имея доступ к сетям высшего уровня и близость к поставщикам публичных облаков, размещение в Colo облегчает соединения с низкой задержкой и гибридные облачные конфигурации, обеспечивая эффективную передачу и обработку данных. Эта гибкость и потенциал для успешного развертывания гибридного облака имеют решающее значение для предприятий, стремящихся оптимизировать свои операции и сохранить конкурентное преимущество. Чтобы узнать больше о том, как это работает, ознакомьтесь с нашим