Подготовка данных в Power BI Desktop
Приблизительное время выполнения лабораторной работы – 45 минут.
В этой лабораторной работе вы приступите к разработке решения Power BI Desktop для компании Adventure Works. Она включает в себя подключение к исходным данным, предварительный просмотр данных и использование методов предварительного просмотра данных для понимания характеристик и качества исходных данных. После выполнения работы, вы будете знать, как:
- Открыть Power BI Desktop.
- Установить параметры Power BI Desktop.
- Подключиться к исходным данным
- Сделать предварительный просмотр исходных данных
- Использовать методы предварительного просмотра данных, чтобы лучше понять данные.
Для лабораторной работы вам понадобятся следующие материалы:
-
SQL сервер со следующими данными:
https://docs.microsoft.com/ru-ru/sql/samples/adventureworks-install-configure?view=sql-server-ver15&tabs=ssms -
Набор файлов и расширений:
https://github.com/MicrosoftLearning/DA-100KO-Analyzing-Data-with-Power-BI/tree/master/Allfiles/DA-100-Allfiles
История лабораторной работы
Эта лабораторная работа – одна из многих в серии лабораторных работ, которые были разработаны в виде полного рассказа от подготовки данных до публикации в виде отчетов и информационных панелей. Вы можете выполнять лабораторные работы в любом порядке. Но, если вы намереваетесь выполнить несколько лабораторных работ, для первых 10 лабораторных работ мы предлагаем вам выполнить их в следующем порядке:
- Подготовка данных в Power BI Desktop.
- Загрузка данных в Power BI Desktop.
- Данные модели в Power BI Desktop, часть 1
- Данные модели в Power BI Desktop, часть 2
- Создание вычислений DAX в Power BI Desktop, часть 1
- Создание вычислений DAX в Power BI Desktop, часть 2
- Создание отчета в Power BI Desktop, часть 1
- Создание отчета в Power BI Desktop, часть 2
- Создание информационной панели Power BI.
- Создание отчета Power BI с разбивкой на страницы.
- Выполнение анализа данных в Power BI Desktop.
- Обеспечение безопасности на уровне строк
Упражнение 1: Подготовка данных
В этом упражнении вы создадите восемь запросов Power BI Desktop. Шесть запросов будут получать данные из SQL Server, а два – из файлов CSV.
Задача 1. Сохраните файл Power BI Desktop.
В этой задаче вы сначала сохраните файл Power BI Desktop.
- Чтобы открыть Power BI Desktop, на панели задач щелкните ярлык Microsoft Power BI Desktop.
- Чтобы закрыть окно начала работы, в правом верхнем углу окна нажмите X.
- Чтобы сохранить файл, щелкните вкладку ленты File, чтобы открыть представление Backstage.
- Выберите Save.
- В окне Save As перейдите в папку D:\DA100\MySolution.
- В поле File Name введите Sales Analysis.
- Щелкните Save.
Совет. Вы также можете сохранить файл, щелкнув значок Save в левом верхнем углу.
Задача 2. Настройка параметров Power BI Desktop
В этой задаче вы установите параметры Power BI Desktop.
- В Power BI Desktop щелкните вкладку ленты File, чтобы открыть представление Backstage.
- Слева выберите Options and Settings, а затем выберите Options.
- В окне Options слева в группе Current File выберите Data Load.
Параметры Data Load для текущего файла позволяют настраивать параметры, которые определяют поведение по умолчанию при моделировании.
- В группе Relationships снимите отметки с двух уже отмеченных опций.
Хотя включение этих двух параметров может быть полезно при разработке модели данных, вы уже отключили их ранее для данной лабораторной работы. Создавая отношения в лабораторной работе «Загрузка данных в Power BI Desktop», вы узнаете, почему вы добавляете каждую из них.
- Щелкните OK.
- Сохраните файл Power BI Desktop.
Задача 3: Получить данные с SQL Server
В этой задаче вы будете создавать запросы на основе таблиц SQL Server.
- На вкладке ленты Home в группе Data щелкните SQL Server.
- В окне SQL Server Database в поле Server введите localhost.
В этой лабораторной работе вы подключитесь к базе данных SQL Server с помощью localhost. Это не рекомендуется при создании собственных решений, потому, что источники данных шлюза не могут разрешить localhost.
- Щелкните OK.
- В окне Navigator слева разверните базу данных AdventureWorksDW2020.
База данных AdventureWorksDW2020 основана на образце базы данных AdventureWorksDW2017. Он был изменен для поддержки учебных целей лабораторных работ.
- Выберите, но не проверяйте, таблицу DimEmployee.
- На правой панели обратите внимание на предварительный просмотр данных таблицы.
Данные предварительного просмотра позволяют определить столбцы и выборку строк.
-
Чтобы создать запросы, установите флажок рядом со следующими шестью таблицами:
- DimEmployee
- DimEmployeeSalesTerritory
- DimProduct
- DimReseller
- DimSalesTerritory
- FactResellerSales
- Чтобы применить преобразования к данным выбранных таблиц, щелкните Transform Data.
Вы не будете преобразовывать данные в этой лабораторной работе. Задачи этой работы сосредоточены на изучении и профилировании данных в окне Power Query Edito.
Задача 4. Предварительный просмотр запросов SQL Server.
В этой задаче вы просмотрите данные запросов SQL Server. Во-первых, вы узнаете актуальную информацию о данных. Вы также будете использовать инструменты качества столбцов, распределения столбцов и профилей столбцов, чтобы понять данные и оценить качество данных.
- В окне Power Query Editor слева обратите внимание на панель Queries.
Панель Queries содержит по одному запросу для каждой проверенной таблицы.
- Выберите первый запрос – DimEmployee.
В таблице DimEmployee в базе данных SQL Server хранится одна строка для каждого сотрудника. Подмножество строк из этой таблицы представляет продавцов, которые будут иметь отношение к модели, которую вы разрабатываете.
- В левом нижнем углу строки состояния обратите внимание на статистику таблицы – таблица состоит из 33 столбцов и 296 строк.
- На панели предварительного просмотра данных прокрутите по горизонтали, чтобы просмотреть все столбцы.
- Обратите внимание, что последние пять столбцов содержат ссылки на таблицы или значения.
Эти пять столбцов представляют отношения с другими таблицами в базе данных. Их можно использовать для объединения таблиц. Вы объедините таблицы в лабораторной работе "Загрузка данных в Power BI Desktop".
- Чтобы оценить качество столбца, на вкладке ленты View в группе Data Preview установите флажок Column Quality.
Функция качества столбца позволяет легко определять процент действительных, ошибочных или пустых значений, обнаруженных в столбцах.
- Обратите внимание, что в столбце Position (шестой последний столбец) 94% строк пустые (нулевые).
- Чтобы оценить распределение столбцов, на вкладке ленты View в группе Data Preview установите флажок Column Distribution.
- Еще раз просмотрите столбец Position и обратите внимание на четыре различных значения и одно уникальное значение.
- Просмотрите распределение столбца для столбца EmployeeKey (первый) – имеется 296 различных значений и 296 уникальных значений.
Если количество различных и уникальных элементов совпадает, это означает, что столбец содержит уникальные значения. При моделировании важно, чтобы некоторые таблицы модели имели уникальные столбцы. Эти уникальные столбцы можно использовать для создания отношений «один ко многим», что вы и сделаете в лабораторной работе «Данные модели в Power BI Desktop, часть 1».
- На панели Queries выберите запрос DimEmployeeSalesTerritory.
В таблице DimEmployeeSalesTerritory хранится одна строка для каждого сотрудника и регионов территории продаж, которыми они управляют. Таблица поддерживает привязку множества регионов к одному сотруднику. Некоторые сотрудники управляют одним, двумя или, возможно, несколькими регионами. При моделировании этих данных вам потребуется определить отношение «многие ко многим», что вы сделаете в лабораторной работе «Данные модели в Power BI Desktop, часть 2».
- На панели Queries выберите запрос DimProduct.
Таблица DimProduct содержит по одной строке для каждого продукта, продаваемого компанией.
- Прокрутите по горизонтали, чтобы увидеть последние столбцы.
- Обратите внимание на столбец DimProductSubcategory.
Когда вы добавляете преобразования к этому запросу в лабораторной работе «Загрузка данных в Power BI Desktop», вы будете использовать столбец DimProductSubcategory для объединения таблиц.
- На панели Queries выберите запрос DimReseller.
Таблица DimReseller содержит по одной строке на каждого посредника. Торговые посредники продают, распространяют или увеличивают ценность продуктов Adventure Works.
- Чтобы просмотреть значения столбца, на вкладке ленты View в группе Data Preview установите флажок Column Profile.
- Выберите заголовок столбца BusinessType.
- Обратите внимание на новую панель под панелью предварительного просмотра данных.
- Просмотрите статистику столбца и распределение значений на панели предварительного просмотра данных.
- Обратите внимание на проблему качества данных: есть две метки для склада (Warehouse и Ware House с ошибкой).
- Наведите курсор на строку Ware House и обратите внимание на пять строк с этим значением.
Вы примените преобразование, чтобы изменить метку этих пяти строк в лабораторной работе «Загрузка данных в Power BI Desktop».
- На панели Queries выберите запрос DimSalesTerritory .
Таблица DimSalesTerritory содержит по одной строке для каждого региона продаж, включая Corporate HQ (главный офис). Регионы назначаются стране, а страны – группам. В лабораторной работе «Данные модели в Power BI Desktop, часть 1» вы создадите иерархию для поддержки анализа на уровне региона, страны или группы.
- На панели Queries выберите запрос FactResellerSales.
Таблица FactResellerSales содержит по одной строке для каждой строки заказа на продажу – заказ на продажу содержит одну или несколько позиций.
- Проверьте качество столбца для столбца TotalProductCost и обратите внимание, что 8% строк пусты.
Отсутствие значений столбца TotalProductCost является задачей качества данных. Чтобы решить эту задачу, в лабораторной работе «Загрузить данные в Power BI Desktop» вы примените преобразования, чтобы заполнить отсутствующие значения, используя стандартную стоимость продукта, которая хранится в соответствующей таблице DimProduct.
Задача 5. Получить данные из файла CSV
В этой задаче вы создадите запрос на основе файла CSV.
- Чтобы добавить новый запрос, в окне Power Query Editor на вкладке ленты Home в группе New Query щелкните стрелку вниз New Source и выберите Text/CSV.
- В окне Open перейдите к папке D:\DA100\Resources и выберите файл ResellerSalesTargets.csv.
- Щелкните Open.
- В окне ResellerSalesTargets.csv просмотрите данные предварительного просмотра.
- Щелкните OK.
- Обратите внимание на добавление запроса ResellerSalesTargets на панели Queries.
CSV-файл ResellerSalesTargets содержит по одной строке на продавца в год. В каждой строке записано 12 плановых ежемесячных продаж (выраженных в тысячах). Обратите внимание, что финансовый год для компании Adventure Works начинается 1 июля.
- Обратите внимание, что ни в одном столбце нет пустых значений.
Если ежемесячный целевой показатель продаж отсутствует, вместо него будет дефис.
- Просмотрите значки в заголовке каждого столбца слева от имени столбца.
Значки представляют тип данных столбца. 123 – целое число, а ABC – текст.
Вы применяете множество преобразований, чтобы получить результат другой формы, состоящий всего из трех столбцов: Date, EmployeeKey и TargetAmount в лабораторной работе «Загрузить данные в Power BI Desktop».
Задача 6. Получить дополнительные данные из файла CSV.
В этой задаче вы создадите дополнительный запрос на основе другого файла CSV.
- Выполните шаги из предыдущей задачи, чтобы создать запрос на основе файла D:\DA100\Resources\ColorFormats.csv.
CSV-файл ColorFormats содержит по одной строке для каждого цвета продукта. В каждой строке записываются HEX-коды для форматирования цветов фона и шрифта. Вы объедините эти данные с данными запроса DimProduct в лабораторной работе «Загрузить данные в Power BI Desktop».
Задача 7: Завершение
В этом задании вы выполните лабораторную работу.
- На вкладке ленты View в группе Data Preview снимите флажки с трех параметров предварительного просмотра данных, которые ранее были включены в этой лабораторной работе:
- Column quality
- Column distribution
- Column profile
- Чтобы сохранить файл Power BI Desktop, в окне Power Query Editor в представлении File выберите Save.
- Когда будет предложено применить запросы, нажмите Apply Later.
Применение запросов загрузит их данные в модель данных. Вы не готовы к этому, поскольку сначала нужно применить множество преобразований.
- Если вы собираетесь начать следующую лабораторную работу, оставьте Power BI Desktop открытым.
Вы примените различные преобразования к запросам, а затем примените запросы, чтобы загрузить их в модель данных в лабораторной работе «Загрузить данные в Power BI Desktop».