Azure Databricks для начинающих
Azure Databricks – это простая, быстрая и совместная аналитическая платформа на основе Apache Spark. Он ускоряет внедрение инноваций за счет объединения технологий обработки данных и бизнеса в области науки о данных. Повышение производительности процесса анализа данных, повышение безопасности, масштабируемость и оптимизация – все это Azure.
В этом посте мы расскажем о Microsoft Azure Databricks, Apache Spark, архитектуре Azure Databricks, технологиях и новых возможностях, доступных для инженеров данных, использующих возможности Databricks в Azure, а также о создании экземпляра и кластера Databricks.
Что такое Azure Databricks?
- Databricks + Apache Spark + корпоративное облако = Azure Databricks
- Это – полностью управляемая версия аналитики Apache Spark с открытым исходным кодом, у которой есть оптимизированные соединители с платформами хранения для максимально быстрого доступа к данным.
- Он предлагает ориентированную на записную книжку среду Apache Spark as-a-service, которая упрощает интерактивное исследование данных и управление кластерами.
- Это безопасная облачная платформа машинного обучения и больших данных.
- Он поддерживает несколько языков, таких как Scala, Python, R, Java и SQL.
Что такое Apache Spark?
- Spark – это интегрированный механизм обработки, который может анализировать большие данные с помощью SQL, обработки графиков, машинного обучения или анализа потоков в реальном времени.
- Spark ML предлагает высококлассные и точно настроенные алгоритмы машинного обучения для обработки больших данных.
Архитектура и схема Microsoft Azure Databricks
- Когда мы запускаем кластер с помощью Databricks, «устройство Databricks» развертывается как ресурс Azure в нашей подписке.
- Затем мы указываем типы и количество используемых виртуальных машин, а Databricks обрабатывает все остальные элементы.
- Управляемая группа ресурсов развертывается в подписке, которую мы заполняем виртуальной сетью, учетной записью хранения и группой безопасности.
- Когда эти службы будут готовы, мы будем управлять кластером Databricks через пользовательский интерфейс Databricks.
Что такое рабочая область Azure Databricks?
- Databricks Azure Workspace – это аналитическая платформа, основанная на Apache Spark.
- Для конвейера больших данных данные загружаются в Azure с помощью фабрики данных Azure.
- Эти данные попадают в озеро данных, и для аналитики мы используем Databricks, чтобы считывать данные из нескольких источников и превращать их в революционные идеи.
Цены на Azure Databricks
- Платите по мере использования: Azure Databricks стоит за управлением виртуальными машинами (ВМ) в кластерах, а единицы Databricks (DBU) зависят от выбранного экземпляра виртуальной машины.
- DBU – это единица средства обработки, оплачиваемая по посекундному использованию, а потребление DBU зависит от типа и размера экземпляра, на котором запущены Databricks.
Зачем нужны Azure Databricks для инженеров данных?
1) Оптимизированная среда
- Databricks Azure был автоматически оптимизирован с нуля для обеспечения рентабельности и производительности в облаке.
- Автоматическое масштабирование и автоматическое завершение кластеров Spark, без сомнения, автоматически минимизирует затраты.
- Оптимизация, включая индексацию, кэширование и расширенную оптимизацию запросов, которая может повысить производительность в 10–100 раз по сравнению с обычными развертываниями Apache Spark в облаке.
2) Постоянное сотрудничество
- Блокноты на Databricks доступны в реальном времени, и ими легко делиться благодаря совместной работе в режиме реального времени.
- Информационные панели позволяют бизнес-пользователям вызывать текущее задание с новыми параметрами.
- Databricks тесно интегрируется с PowerBI для практической визуализации.
3) Простота использования
- Azure Databricks поставляется с блокнотами, которые позволяют запускать алгоритмы машинного обучения, подключаться к общим источникам данных и изучать основы Apache Spark, чтобы быстро приступить к работе.
- Это также функции унифицированной среды отладки, позволяющие анализировать ход выполнения ваших заданий Spark из-под интерактивных блокнотов, и мощные инструменты для изучения прошлых заданий.
- Нет необходимости устанавливать стандартные библиотеки аналитики, такие как предустановленные стеки обработки данных Python и R.
Создание экземпляра и кластера создание бесплатной учетной записи Microsoft
Примечание. Чтобы создать экземпляр и кластер DataBricks, убедитесь, что у вас есть подписка Azure. Если у вас ее нет, создайте бесплатную учетную запись Microsoft, прежде чем начинать.
1) Войдите на портал Azure.
2) На домашней странице портала Azure щелкните на значке + Создать ресурс.
3) На странице «Новый экран» щелкните текстовое поле Поиск на торговой площадке и введите слово Databricks
4) Щелкните на Azure Databricks в появившемся списке.
5) В колонке «Databricks» нажмите «Создать».
6) На странице службы Azure Databricks создайте рабочую область Azure Databricks со следующими настройками.
7) В колонке службы Azure Databricks нажмите кнопку «Создать»
8) Нажмите Перейти к ресурсу, на экране awdbwsstudxx нажмите кнопку Запустить рабочую область.
9) В разделе Общие задачи щелкните на Новый кластер. На экране «Создать кластер» в «Новом кластере» создайте кластер Databricks со следующими настройками.
Примеры использования Azure Databricks в реальном времени
- Поскольку мобильные приложения и другие достижения в области технологий продолжают совершенствовать способы выбора и использования информации пользователями, механизмы рекомендаций становятся важной частью приложений и программных продуктов.
- Анализ оттока клиентов, также известный как уход клиентов, или текучесть клиентов – это потеря клиентов или заказчиков. Прогнозирование и ограничение оттока клиентов имеют жизненно важное значение для всех компаний.
- Обнаружение вторжений необходимо для отслеживания активности сети или системы на предмет злонамеренных действий или нарушений политики и создания электронных отчетов для станции управления.