BI Consult
  • Перейти на КликСенс
  • Перейти на КликВью
  • Перейти на Tableau
  • Перейти на Power BI
  • российские bi dwh dl
  • Главная
  • Продукты Business-BI
    • Дистрибуция
    • Розничная торговля
    • Производство
    • Операторы связи
    • Страхование
    • Банки
    • Лизинг
    • Логистика
    • Нефтегазовый сектор
    • Медицина
    • Сеть ресторанов
    • Энергетика
    • Фрод-менеджмент
    • E-Commerce
    • Фармацевтика
    • Построение хранилища данных
    • Создание Data Lake
    • Цифровая трансформация
    • Управление по KPI
    • Финансы
    • Продажи
    • Склад
    • HR
    • Маркетинг
    • Внутренний аудит
    • Категорийный менеджмент
    • S&OP и прогнозная аналитика
    • Геоаналитика
    • Цепочки поставок (SCM)
    • Process Mining
    • Сквозная аналитика
  • Платформы
    • Qlik Sense
    • QlikView
    • Tableau
    • Microsoft Power BI
    • Геоаналитика Qlik GeoAnalytics
    • Qlik NPrinting - рассылка отчетности QlikView/Qlik Sense
    • KliqPlanning Suite - бюджетирование в QlikView
    • ATK BiView-1C Коннектор (для Qlik/Tableau/PowerBI)
    • QlikView/Qlik Sense SAP Коннектор
    • QlikView R-Коннектор
    • Qlik Web Connectors - коннектор Google, Facebook, Twitter
    • Vizlib Qlik Sense extentions (библиотека экстеншнов)
    • Библиотека extention для Qlik
    • Qlik Alerting
    • Qlik Data Integration Platform - создание Data Lake
    • Qlik Data Catalog решение для Data Governance
    • ATK BiView документация
  • Услуги
    • Консалтинг
    • Пилотный проект
    • План обучения и сертификации
    • Подготовка специалистов по Qlik
    • Бесплатное обучение Qlik
    • Сертификация Qlik
    • Поддержка
    • Технические задания
    • Сбор требований для проекта внедрения BI-системы
    • Аудит приложений Qlik и Tableau
    • Разработка BI Стратегии
    • Styleguide для BI-системы
    • Как выбрать BI-систему
  • Курсы
    • Учебный курс по Qlik Sense
    • Учебный курс по Tableau
    • Учебный курс по Microsoft Power BI
    • Учебный курс Информационная грамотность (Data Literacy)
    • Учебный курс Современная архитектура хранилища данных
    • Учебный курс для бизнес-аналитиков
    • Учебный курс по NPrinting
    • Учебный курс по BigQuery
    • Учебный курс по Azure Databricks
    • Учебный курс по DWH
    • Учебный курс по Data Governance
    • Учебный курс по Data Science (ML, AI)
    • Учебный курс администратора Qlik Sense
  • Компания
    • Руководство
    • Новости
    • Клиенты
    • Карьера
    • Скачать
    • Контакты

Услуги

  • Консалтинг
    • Продуктивный и согласованный анализ закупок, продаж и маркетинговых активностей в Fashion-Retail
    • Тренинг «S&OP для производственно-торговых компаний»
    • Проект внедрения Qlik
  • План обучения и сертификации
    • Учебные курсы Qlik
    • Учебные курсы Tableau
    • Учебные курсы Microsoft PowerBI
  • Бесплатное обучение
  • Сертификация Qlik
  • Пилотный проект
  • Сопровождение и поддержка
  • Технические задания
  • Сбор требований для проекта внедрения BI-системы
  • Аудит приложений QlikView / Qlik Sense / Tableau
  • Разработка BI Стратегии
    • Становясь Data-Driven организацией: скрытые возможности и проблемы
  • Styleguide для BI-системы
  • Как выбрать подходящую современную BI-систему

Отраслевые решения

  • Дистрибуция
    • Business-BI Дистрибуция
  • Розничная торговля
    • Business-BI Розничная торговля
    • Business-BI Розничная торговля: DIY
    • Business-BI Розничная торговля: Fashion
    • Business-BI для сетей аптек
    • BusinessPack для Tableau: POS - Point of Sales Perfomance
  • Производство
    • Business-BI Производство
  • Операторы связи
  • Банки
    • Business-BI for Banking
    • Бизнес-аналитика в банке
  • Страхование
  • Фармацевтика
    • Business-BI Фармацевтика
  • Нефтегазовый сектор
  • Лизинг
  • Логистика
  • Медицина
  • Сеть ресторанов
  • Энергетика
  • E-Commerce
  • Анализ мошенничеств (фрод-менеджмент)

Функциональные решения

  • Управление по KPI
    • Самоуправляемая компания
  • Финансы
    • Бюджетирование
    • Консолидация финансовой отчетности
    • Панель управления, KPI для CFO
    • Рабочий капитал
    • Финансовая отчетность по МСФО
    • Платежный календарь / прогнозный ДДС
  • Продажи
    • Анализ данных из CRM
    • Планирование
  • Склад
  • Категорийный менеджмент
  • HR
  • Маркетинг
  • Внутренний аудит
  • Построение хранилища данных
  • Геоаналитика, аналитика на географической карте
  • Цепочка поставок (SCM)
  • S&OP и прогнозная аналитика
    • Прогнозная аналитика
    • Прогноз спроса на основании данных о вторичных продажах
  • Разработка стратегии цифровой трансформации
  • Сквозная аналитика
  • Process Mining
Главная » Курсы » Учебный курс Современная архитектура хранилища данных

Среда разработки данных с CI/CD

DataEngineering — это наука и искусство получения качественных и своевременных данных. Его цель — доставлять пользователям данные даже в большей мере, чем приложения. Существуют отличные методы и инструменты, которые помогают доставлять приложения с неизменно высоким качеством. А какие методы и инструменты помогают нам предоставлять высококачественные данные?

В этой статье я возьму три следующие концепции: среды разработки, непрерывную интеграцию и непрерывное развертывание и покажу, как они должны выглядеть в мире доставки данных. Я также приведу примеры инструментов, которые помогут вам создать основу для вашего приложения для работы с данными.

 

Что такое среда разработки для данных?

При разработке приложений, интенсивно использующих данные, нам нужно экспериментировать с новым кодом, новыми наборами данных, изменениями в коде или изменениями данных в инструментах анализа данных — например, новый ETL, изменения формата или схемы, новый алгоритм сжатия, точность, обновление версии Spark/Presto и так далее.

Хотя типы экспериментов отличаются, потребность остается неизменной: мы должны иметь возможность проводить изолированные эксперименты с конвейерами данных в среде, похожей на нашу производственную среду, не опасаясь ее компрометации.

Давайте предположим, что у нас есть возможность управлять нашим Data Lake так же, как мы управляем нашим репозиторием кода. Управление версиями данных позволяет выполнять операции, подобные Git, над репозиториями больших данных, а также обеспечивает ветвление, коммиты, слияния и перехваты. Важно убедиться, что эти операции выполняются экономично и нет лишнего копирования данных. Все Git-подобные действия должны быть операциями с метаданными и, следовательно, максимально быстрыми и атомарными.

Создать среду разработки несложно, и она может предотвратить дорогостоящие ошибки в производстве. Создавая ветку наших производственных данных, мы получаем изолированную среду данных, представляющую собой скриншот нашего репозитория. Изменения, внесенные в основную ветку после ее создания, не видны внутри ветки, если только мы не объединим их явным образом.

Пока мы работаем над нашей веткой изолированно, наши изменения не видны всем другим пользователям, работающим над главной веткой репозитория. Подводя итог, мы можем сказать, что ветка предоставляет нам собственное частное Data Lake  для экспериментов.

Рассмотрим эксперимент по обновлению версии Apache Spark. Для этого мы создаем ветку, которая будет использоваться только для тестирования обновления Spark и отбрасывается позже. Задания могут выполняться без сбоев (теоретическая возможность все же существует!), а могут завершаться с ошибкой на полпути, оставляя нам некоторые промежуточные разделы, данные и метаданные. В этом случае мы можем просто вернуть ветку в исходное состояние, не беспокоясь о промежуточных результатах нашего последнего эксперимента, и выполнить еще один (надеюсь, успешный) тест на изолированной ветке. Предполагая, что действия по возврату являются атомарными и немедленными, ручной очистки не требуется.

После завершения тестирования и достижения желаемого результата мы можем удалить эту экспериментальную ветку, и все наши изменения данных исчезнут.

 

Что такое непрерывная интеграция данных?

При введении новых наборов в Data Lake мы должны убедиться, что они соответствуют ожидаемым нами инженерным требованиям и требованиям к качеству, таким как формат, схема, диапазон данных, управление PII и т. д. В приложениях, где потребление новых данных является стандартной задачей, интеграция постоянного добавления новых данных в наше Data Lake является основной потребностью, подобно тому, как мы интегрируем новый код в нашу базу кода. Непрерывная интеграция данных — это автоматический и безопасный прием данных в наше Data Lake, при котором мы обеспечиваем соблюдение требований к качеству данных.

Помимо операций, подобных Git, у нас также есть среды тестирования данных, которые позволяют нам легко проводить проверки метаданных и тесты качества данных. Тесты могут включать лучшие инженерные практики, такие как схема или формат, или сложные тесты на основе машинного обучения, чтобы найти аномалии в наблюдаемом поведении данных.

Хорошей практикой было бы загружать данные в изолированную ветку так, чтобы ваши пользователи не знали об этом.

Теперь перед слиянием мы определяем набор обработчиков, которые запускают наши тесты проверки данных. Только после того, как тесты пройдены, данные будут объединяться с основной веткой озера и будут представлены пользователям. Если тест не пройден, мы уведомляем автора об ошибке соответствующего проверочного теста. Таким образом, мы достигаем высококачественного приема данных с атомарными операциями, подобными Git, освобождая себя от проблем с дальнейшей очисткой.

 

Что такое непрерывное развертывание данных?

В средах, которые производят данные у вас есть потоковая передача данных, а также выполняются организованные задания на основе времени, а существующие наборы данных обновляются самыми свежими данными. Даже когда код и среда не меняются, данные динамичны и меняются постоянно. Новые данные подпитывают приложение и позволяют предоставлять актуальную информацию. Данные постоянно развертываются в рабочей среде, поэтому непрерывное развертывание данных в рабочей среде — это процесс, который позволяет проверять данные и обеспечивать качество перед развертыванием данных в рабочей среде, где они используются внутренними или внешними клиентами.

Предположим, помимо Git-подобных операций и фреймворков для тестирования данных, у нас есть инструменты оркестровки, которые позволяют нам автоматизировать выполнение сложных операций с данными, требующими выполнения небольших заданий по анализу данных. Это ключ к непрерывному развертыванию данных в рабочей среде. Посмотрите, как работают Apache Airflow, Luigi, Dagster, и Prefect.

Теперь запустить непрерывное развертывание для данных будет очень просто:

  • Мгновенное откатывание изменения данных. Если некачественные данные становятся доступны нашим пользователям, мы можем мгновенно вернуться к прежней, согласованной и правильной копии нашего озера данных. Делая историю коммитов доступной для настройки продолжительности, мы можем мгновенно откатить озеро к предыдущей версии одним атомарным действием.
  • Предотвращаем проблемы с качеством данных, включая:
    • Тестирование производственных данных в изолированной ветке перед их доставкой пользователям/потребителям с использованием перехватчиков в системе оркестровки, которая запускает свой конвейер в изолированной ветке.
    • Тестирование промежуточных результатов изолированно в нашем DAG’e, чтобы избежать каскадных проблем с качеством и легко управлять хранением таких промежуточных результатов с помощью логики хранения ветвления.
  • Обеспечение согласованности между коллекциями: предоставьте потребителям несколько наборов данных, которые должны быть синхронизированы в одном атомарном обратимом действии. Используя ветки, авторы могут обеспечить гарантии согласованности между различными логическими коллекциями — слияние с основной ветвью выполняется только после успешного создания всех соответствующих наборов данных.

 

Вывод

У нас есть все необходимые инструменты, чтобы сделать нашу среду больших данных устойчивой и управлять новыми данными и повседневными производственными данными, обеспечивая при этом высокое качество доставки. Мы должны быть открыты для новых методологий и технологий и создавать современную инфраструктуру данных мирового класса.

 

Узнать стоимость решенияЗапросить видео презентацию

Запросить видео презентацию Запросить доступ к демо стенду online

Задать вопрос

loading...

Решения

Анализировать ФинансыУвеличивайте ПродажиОптимальный Склад и ЛогистикаМаркетинговые Метрики

До 2023 года компания BI Consult обладала официальным партнерским статусом Qlik в России. В настоящий момент деятельность QlikTech на территории России прекращена, BI Consult не имеет партнерских отношений и никаким иным образом более не связана с QlikTech и не предлагает к продаже системы бизнес-анализа QlikView, Qlik Sense и иные продукты бренда Qlik. Все материалы о продукции бренда Qlik на сайте приведены исключительно в описательных целях и для информирования пользователей о существующих в мире системах бизнес-анализа. Для приобретения продукции Qlik необходимо обратиться к правообладателю программного обеспечения QlikTech или дистрибьюторам.

Клиенты

  • Олтри

    Анализ эффективности направлений продаж; план-Фактный анализ; анализ эффективности и регулярности клиентов; анализ складской деятельности; анализ сроков годности товаров; анализ эффективности соотношения первичных и вторичных продаж;

  • Лицензии Tableau для анализа Big Data при разработке социальных игр

  • Полноценное решение для оценки работы ресторанов в сети.  Решение состоит из трех основных блоков QlikView:
    • KPI деятельности ресторанов, LFL-анализ ресторанов, отчетность для совета директоров; 
    • Операционная аналитика, план/фактный анализ YTD, MTD / Forecast, DTD; 
    • Маркетинговая и продуктовая аналитика.
    А также включает дополнительное приложение NPrinting для ежедневной рассылки корпоративной отчетности по всем ресторанам, управляющим и директорам этих ресторанов.
    Приложение консолидирует данные из различных источников.
  • Аргус-Спектр

    Анализ эффективности отдела планирования; анализ эффективности деятельности компании.

  • Решения
    • Дистрибуция
    • Розничная торговля
    • Производство
    • Операторы связи
    • Банки
    • Страхование
    • Фармацевтика
    • Лизинг
    • Логистика
    • Медицина
    • Нефтегазовый сектор
    • Сеть ресторанов
  • BI платформы
    • Qlik Sense
    • QlikView
    • Tableau
    • Microsoft Power BI
    • ATK BiView-1C Коннектор (для Qlik/Tableau/PowerBI)
    • Vizlib Qlik Sense extentions (библиотека экстеншнов)
    • NPrinting
    • Геоаналитика Qlik GeoAnalytics
    • KliqPlanning Suite
    • Qlik WebConnectors
    • QlikView R Коннектор
    • QlikView/Qlik Sense SAP Коннектор
    • Alteryx
    • Qlik Data Catalog
    • Документация ATK BiView
  • Услуги
    • Консалтинг
    • Пилотный проект
    • Поддержка
    • План обучения и сертификации Qlik
    • Бесплатное обучение
    • Учебные курсы
    • Сертификация Qlik
    • Аудит приложений
  • Курсы
    • Учебный курс по Qlik Sense
    • Учебный курс по Tableau
    • Учебный курс по Microsoft Power BI
    • Учебный курс Современная архитектура хранилища данных
    • Учебный курс Информационная грамотность
    • Учебный курс для бизнес-аналитиков
    • Учебный курс по NPrinting
    • Учебный курс по Azure Databricks
    • Учебный курс по Google BigQuery
  • Компания
    • О нас
    • Руководство
    • Новости
    • Клиенты
    • Скачать
    • Контакты
  • Функциональные решения
    • Продажи
    • Финансы
    • Склад
    • HR
    • S&OP и прогнозная аналитика
    • Внутренний аудит
    • Геоаналитика
    • Категорийный менеджмент
    • Построение хранилища данных
    • Система управления KPI и BSC
    • Управление цепочками поставок
    • Маркетинг
    • Цифровая трансформация
    • Сквозная аналитика
    • Process Mining
LinkedInYouTubeVkontakteFacebook
ООО "Би Ай Консалт",
ИНН: 7811437757,
ОГРН: 1097847154184
199178, Россия,
Санкт-Петербург,
6-ая линия В.О., Д. 63, 4 этаж
Тел: +7 (812) 334-08-01
Тел: +7 (499) 608-13-06
E-mail: info@biconsult.ru