Становимся специалистами в Tableau Desktop – Часть 2. Соединения данных и свойства данных
На нашем пути к тому, чтобы стать специалистами по Tableau Desktop, сейчас мы закончим первую тему: Подключение и подготовка данных. Поэтому мы рассмотрим соединения данных и процесс управления свойствами данных.
«Изменить соединения данных»
Есть много разных способов изменения ваших подключений к данным. Мы различаем 3 основных:
- Объединения
- Союзы
- Слияния
Объединения
Давайте начнем с объединений. Объединение дает вам возможность объединить информацию из нескольких таблиц. Комбинация должна основываться как минимум на одном общем поле. Вы можете выбирать между различными типами объединений. Эти типы влияют на то, как будут объединены ваши данные.
Я нашел следующий обзор на веб-сайте Tableau. Кроме того, на веб-сайте Tableau вы найдете бесплатное обучающее видео, которое дает довольно много полезной информации. Вот почему я думаю, что нет необходимости снова перечислять факты.
Союзы
Союз – это еще одна возможность объединить ваши данные. Но по сравнению с объединениями союзы добавляют строки, а не столбцы. Вот почему союзы описываются как вертикальные, а объединения – как горизонтальные. Союзы делают таблицу длиннее, а объединения – шире. Для объединения таблицы должны иметь одинаковое количество столбцов. Кроме того, имена полей и типы данных должны совпадать.
Важно знать, что Tableau всегда следует принципу «union all» (союз для всех). Представленное выше видео включает следующее объяснение «союза для всех»:
«Все строки будут возвращены в союз, даже если для некоторых строк есть повторяющиеся значения». В Tableau каждый раздел можно идентифицировать на основе автоматически сгенерированного измерения «Table Name» (Имя таблицы), которое указывает метаданные об источнике союза.
Стоит отметить, что если имена полей не совпадают в объединенных источниках данных, Tableau будет работать аналогично внешнему объединению, добавляя новые строки и новые столбцы с нулями по мере необходимости. Если новые столбцы следует считать одним и тем же полем, столбцы можно объединить в сетке данных».
Более подробную информацию об этом вы найдете здесь или прочитав это описание.
Еще один источник, который я очень рекомендую, - это блог Кена Флерлажа.
Слияние
Слияние объединяет ваши данные из разных источников в единое представление. Используя слияние, Tableau будет отправлять отдельные запросы к источникам данных, а затем агрегировать результат. Следовательно, Tableau необходимо по крайней мере одно общее поле между источниками данных. Tableau распознает поля с одинаковыми именами, но вы также можете вручную определить отношения.
При работе со слияниями вы всегда должны определить тот источник данных, который вы поставите в слияние первым. Первый – это ваш первичный источник. Второй – вторичный источник. Первичный источник обозначен синей галочкой рядом с источником данных, а вторичный источник отмечен оранжевой галочкой.
Вы должны различать еще два символа: красная цепь и серая разорванная цепь. Красная цепь показывает общее поле (или поля), которые используются для слияния. Серая разорванная цепь отмечает все потенциальные, но в настоящее время неиспользуемые поля. Вы можете изменить это, нажав на серую разорванную цепь или красную цепь.
Вы можете изменить первичные и вторичные источники при использовании слияний для каждого листа.
Различия между объединениями и слияниями
Теперь, когда у нас есть общий обзор, я хочу углубиться в детали и обсудить различия между объединениями и слияниями.
Первое отличие состоит в том, что объединения объединяют данные из одного источника данных, а слияния объединяют данные из разных источников данных. Это легко понять и запомнить. Кроме того, слияние не объединяет данные на уровне строк. Tableau всегда будет отправлять отдельные запросы в разные источники данных.
Когда я проводил свое исследование, то нашел следующее высказывание Тарашасанка Давулуру:
«Слияине – это пост-агрегированное левое объединение. То есть данные во вторичном источнике группируются по объединяемому измерению, а затем соединяются слева с первичным»
Вот то, что я действительно хочу понять. Давайте шаг за шагом пройдемся по этому заявлению.
Вторичный источник: мы помним, что первый источник данных, который мы вводим в представление, является первичным, а второй – вторичным.
Группировка по: в блоге Кена Флерлаге я нашел хорошее описание. Он говорит, что «группировка по» «позволяет нам указать уровень детализации, на котором мы хотим объединить наши данные». В нашем случае измерением для «группировать по» всегда является измерение, к которому «присоединяются».
Левое объединение: итак, после объединения наши данные будут объединены. И мы уже узнали характеристики левого объединения.
«Левая часть объединения означает, что члены вторичного источника, не имеющие эквивалента в первичном, не попадают в результаты, но если есть члены первичного без соответствующего члена вторичного устройства, они объединяются (или сливаются в этом случае) с NULL.»
Объединение между базами данных
Что касается этой темы, я настоятельно рекомендую посмотреть эту презентацию от Марианны Шоу и Дмитрия Чиркова с Конференции Tableau в 2017.
Я уже говорил вам, что объединения объединяют данные из одного источника данных, но есть также возможность использовать объединение для объединения различных источников данных: это называется объединением между базами данных.
Объединения между базами данных похожи на слияния. Оба могут объединять данные из разных источников данных, но разница в том, когда происходит (левое) объединение. Мы уже узнали, что объединение происходит на уровне строк, и то же самое относится к объединениям между базами данных. Объединения на уровне строк могут привести к проблеме репликации. Это может привести к неправильным агрегациям, если уровень детализации строки и уровень детализации вашей визуализации не совпадают.
Слияние сначала объединит результаты из вторичного источника данных, а затем объединит источники данных. Это предотвращает дублирование значений, когда ваши источники данных имеют разную степень детализации.
Если вы думаете, что, всегда, когда используете слияние данных, вы в безопасности, то я вас разочарую. В некоторых случаях вы не можете использовать слияние и вам нужно выбрать объединение между базами данных. Опять же, слияние пытается агрегировать по связываемым полям, прежде чем объединить данные. Но что происходит, когда вы пытаетесь агрегировать строки? Tableau покажет вам звездочку (*), потому что нет способа агрегировать две разные строки.
Другая проблема слияния данных заключается в том, что вы не можете связать воедино источники данных. Для слияния требуется один первичный источник, поскольку первичный источник будет расширен за счет нескольких вторичных источников. Кроме того, вы не можете создавать выборки из нескольких источников данных.
Последнее, что я хотел бы добавить, это тот факт, что слияния всегда используют левое объединение. При работе с объединениями между базами данных вы можете выбирать между различными типами объединений.
Источники:
Бесплатное обучающее видео по Tableau: кросс-соединение базы данных Соединение между базами данных
Разница между слиянием и объединением от quora
Применение слияния от edureka
Подход в Tableau
Объединение
Чтобы создать объединение в Tableau, вы подключаетесь к источнику данных и перетаскиваете первую таблицу в поле. Затем дважды кликаете по второй таблице. При подключении к базе данных вы также можете использовать пользовательские запросы SQL и объединять их.
Нажмите на кружок, чтобы выбрать тип объединения и поля, на которых должно базироваться это объединение. Также можно определить вычисления объединения.
Союз
У вас есть простая возможность создать объединение – перетащить таблицу в поле, а затем перетащить вторую таблицу под существующую таблицу.
Для таблиц, которые не отображаются на левой панели, вы можете определить союз вручную или использовать поиск по шаблону. Для того, чтобы начать и то, и другое, первым делом нажмите на «New Union» (Новый союз) на левой панели вашего интерфейса редактирования данных. Более подробную информацию вы можете найти здесь.
Слияние
Чтобы слить ваши данные воедино, вы должны сначала добавить новый источник данных. Для привязки данных вы можете использовать вышеперечисленные символы (красная цепь и серая разорванная цепь), как описано выше.
Первый вариант – добавить новый источник данных
Соединение между базами данных
Чтобы сделать соединение между базами данных, вы должны сначала добавить новое соединение. А затем выполнить те же шаги, которые я описал ранее для объединений.
А теперь хватит говорить и писать об объединениях, союзах и слияниях. Давайте перейдем к следующей теме!
«Управление свойствами данных»
Теперь мы хотим взглянуть на наши возможности по управлению свойствами данных. Я покажу вам, как это сделать в Tableau на следующих примерах:
- Переименовать поле данных
- Назначить псевдоним значению данных
- Назначить географическую роль полю данных
- Изменить тип данных для поля данных
- Изменить свойства по умолчанию для поля данных:
Все ваши изменения не влияют на базовые данные, потому что Tableau ссылается только на эти данные (вспомните пост с прошлой недели об изменении метаданных). Умная настройка свойств данных – это то, что значительно облегчит вашу работу в Tableau :).
Честно говоря, я не сильно заботился о свойствах данных до прошлой недели. Итак, на прошлой неделе я работал над информационной панелью, и с моей точки зрения и моего фактического уровня Tableau эта информационная панель включала множество вычислений. Один из моих расчетов показал только единицы и нули, и я подумал, что допустил ошибку. Мне потребовалось более сорока минут, чтобы понять, что мне нужно было просто изменить числовой формат на проценты, чтобы получить правильное значение. Затем Клаус показал мне, как установить числовой формат в свойствах по умолчанию, чтобы больше не сталкиваться с этой проблемой.
Что ж, сегодня я думаю, что установка «свойств по умолчанию» перед созданием представления – это просто хороший способ избавить себя от повторения одного и того же форматирования снова и снова.
Переименовать поле данных
Переименовывая поля данных, вы можете быть уверены, что все имена уникальны и просты для понимания.
Назначить псевдоним значению данных
Псевдонимы дают вам возможность переименовать отдельные элементы измерения, которые будут показаны в финальном представлении. Но будьте осторожны при использовании этих элементов в вычислениях, потому что Tableau опирается на исходные данные. Итак, если вы создаете, например, условие «IF» вы должны указать оригинальное имя участника.
Присвоить географическую роль полю данных
Если Tableau автоматически не распознает то, что поле данных является географическим, вы можете определить географическую роль вручную.
Изменить тип данных для поля данных
Вы можете выбирать между различными вариантами для изменения типа данных.
Кроме того, также можно изменить тип данных в источнике данных.
Изменить свойства по умолчанию для поля данных
Для мер у вас есть пять вариантов редактирования свойств поля данных по умолчанию. Первый вариант – написать комментарий, который будет отображаться при наведении курсора на поле данных в области данных. Вы также можете определить цвет и числовой формат. Кроме того, вы можете установить агрегирование по умолчанию и определить, как будут вычисляться итоги.
Для размеров варианты немного отличаются. Можно отсортировать измерение, установить форму по умолчанию и установить свойства даты.
Дополнительная информация: на этом сайте перечислено множество символов и объясняется их значение.
Изменение соединений данных – очень обширная тема, но я надеюсь, что эта статья дала вам общее понимание данного вопроса, кроме того, здесь упомянуто достаточно много дополнительных ресурсов, чтобы углубиться в детали.