Business DWH (DataWareHouse): аналитическое хранилище данных
Построение хранилища данных (например на базе HP Vertica, MS SQL, Exasol) — проект, требующий серьезной проработки и усилий со стороны бизнеса и поставщика информационных технологий. Наиболее эффективным подходом здесь будет совместный проект предприятия и компании, специализирующейся в этой области. Общемировая практика показывает, что хранилища данных создаются под конкретного заказчика. Серьезным преимуществом является наличие квалифицированного персонала, типовых Витрин Данных, а также отраслевой модели данных.
Хранилище может содержать:
- Учетную информацию о клиентах (персональные данные, адреса, телефоны)
- Информацию о банковских продуктах и услугах (кредиты, депозиты, пластиковые карточки, мобильный банк и т.д. )
- Данные об операциях (включая карточные) в минимальной детализации за последние 3 года
- Сведения о счетах, остатках на них и т.д.
Чтобы спроектировать хранилище данных (DWH, DataWareHouse),
- оно строится для BI системы;
- для сотрудников для формирования своих отчетов;
- общее решение для двух вариантов.
Построение хранилища данных:
- Разработка Устава Проекта;
-
Создание на корпоративном web-портале (или иной web-системе) узла Проекта и формирование структуры web-узла:
- библиотека бизнес-требований и методик;
- раздел Протоколов рабочих совещаний, текущих задач;
- подраздел обсуждений рабочих вопросов (возможно, в виде форума, трекинга);
- разделы документации по хранилищу данных, витринам, OLAP-кубам;
- система знаний (wiki);
- библиотека регламентов;
- раздел обучения, web-касты;
- и другие разделы".
- Сбор фрагментарных знаний о бизнес-процессах (БП) компании и метриках посредством проведения серий интервью с ключевыми бизнес-сотрудниками, экспертами. Формализация БП в виде укрупненных графических схем (например, BPMN-нотация);
- Получение доступов к учетным системам (желательно к копиям; доступ как на чтение данных на уровне СУБД, так и просмотру данных через графический интерфейс пользователя);
- Сбор и обсуждение методик, реализованных в существующих регламентных/управленческих отчетах;
- Формулирование требований/ обсуждение методологий для новых/желаемых регламентных/управленческих отчетов;
- Систематизация бизнес-требований (по результатам п.п 3, 5, 6) к составу атрибутов данных, которые должны быть отражены в хранилище данных;
- Построение/актуализация и описание логических моделей учетных систем - источников данных для DWH. (возможно, модели уже имеются, хотя чаще нет);
- Описание/актуализация физических моделей (построение ER-диаграмм) учетных систем - источников данных для DWH. (возможно, модели уже имеются, хотя чаще нет);
- Анализ и формализация бизнес-требований к составу атрибутов данных (по п.п. 7, 8, 9), которые должны быть отражены в хранилище данных;
- Подготовка технологической площадки для BI: сервер разработки, тестирования, производственного; установка серверного и прикладного программного обеспечения;
- Разработка (возможно реинжиниринг существующих) процедур по извлечению необходимых данных (п. 10) из учетных систем в буферные таблицы (stage area); наполнение буферных таблиц;
- Профилирование данных (по п.12), извлекаемых из учетных систем; систематизация статистики по метаданным и данным учетных систем;
- Разработка логической модели хранилища данных;
- Разработка структуры физической модели хранилища данных;
- Разработка концептуальной схемы, подходов ETL-процессов по загрузке данных из учетных систем в хранилище данных;
- Разработка карты мэппингов (поля source --> поля target);
- Технологическая реализация (программная разработка) ETL/ELT -процессов по перегрузке данных справочников из учетных систем в таблицы измерений (dimensions) хранилища. (Выполняется поэтапно по предметным областям бизнеса);
- Разработка процедур первичной/критической очистки/дедубликации данных справочников (совместно с п.18) [Проект НСИ (MDM) выполняется отдельным проектом/ подпроектом];
- Технологическая реализация (программная разработка) ETL/ELT -процессов по перегрузке данных из учетных систем в таблицы фактов (fact table, factless table) хранилища. (Выполняется поэтапно по предметным областям бизнеса);
-
Тестирование:
- контроль сходимости итогов по данным в учетной системе с итогами по данным таблиц хранилища;
- скорости исполнения полного ETL-цикла";
- Доработка п.п. 18, 19, 20 по выявленным ошибкам, замечаниям по результатам работ п. 21;
- Разработка структур витрин данных (агрегатных денормализованных таблиц/представлений). Выполняется поэтапно по предметным областям бизнеса;
- Разработка ETL/ELT-процедур по обновлению витрин данных, расчету производных показателей (обогащение витрин данными);
-
Тестирование:
- контроль сходимости итогов по данным витрин с итогами по данным учетных систем и итогами по данным таблиц хранилища;
- скорости исполнения цикла обновления витрин данных";
- Разработка документации по хранилищу данных;
- Разработка документации по витринам данных;
- Выработка и согласование требований к аналитическим OLAP кубам (перечень измерений, метрик, доп. действий, разграничение прав доступа);
- Разработка структур аналитических OLAP кубов, процедур обновления данных в кубах. Выполняется поэтапно по предметным областям бизнеса;
- Тестирование аналитических кубов;
- Подготовка, развёртывание инфраструктуры для публикации отчётов (репортинг, ad-hoc отчеты, OLAP) на web-портале (например, MS Sharepoint 2010 EE 64x + MS Reporting Services, возможно Gognos 10.х);
- Разработка документации по аналитическим кубам, публикация документации на web-портале в системе знаний;
- Разработка регламентных/управленческих отчётов (по п.п. 5, 6);
- Публикация и систематизация регламентных/управленческих отчётов на корпоративном web-портале;
- Обучение бизнес-пользователей интерактивному пользованию OLAP-кубами; выявление/формирование проактивных пользователей (power users);
- Бизнес-пользователи (по возможности) самостоятельно формируют отчеты (по результатам п. 35); приемка и публикация отчетов осуществляется по согласованию с IT-аналитическим подразделением (возможно на первых порах).
Хранилище можно построить на платформах Qlik Sense, QlikView
Визуализацию дополнительно можно сделать на платформах Tableau, Power BI
Еще по теме: Серии советов популяризатора технологий хранилищ данных Ральфа Кимбалла
Продукт Business-BI
Продукт Business-BI, запросить доступ к демо-стенду on-line
построением и поддержкой DWH на базе Qlik и его инструментов: Построение DWH c нуля, Поддержка, развитие и оптимизация существующего хранилища, Перенос DWH на новую платформу (перевнедрение)
Хранилище данных (DataWarehouse, DWH) – это специально организованная единая база данных предприятия, с помощью которой осуществляется сбор и хранение корпоративной информации различного рода. В хранилище происходит структурирование корпоративной информации с поддержкой хронологии и обеспечивается быстрый доступ к необходимым данным
Виды хранилищ:
Хранилище в банке в QlikView, DWH в QlikView, хранилище данных в QlikView, хранилище данных 1с в QlikView, хранилище баз данных в QlikView, база данных хранилище данных в QlikView, информационные хранилища данных в QlikView, хранилище учетных данных в QlikView, корпоративное хранилище данных в QlikView, создание хранилища данных в QlikView, централизованное хранилище данных в QlikView, архитектура хранилищ данных в QlikView, проектирование хранилищ данных в QlikView, концепция хранилища данных в QlikView.