Во второй части я продолжу говорить о еще более сложных вопросах BI . Поговорим о работе с данными разного объема и разной сложности, пробежимся по реляционной алгебре Кодда и на примере посмотрим, как задачки на анализ проблемы могут порождать составление аналитиком собственных моделей данных, ключевых показателей и сводных отчетов.
04 элементы business intelligence в работе аналитика ч2
1. Элементы Business
Intelligence в работе
аналитика
Часть 2
Работа с данными, реляционные отношения
Свешникова Н.В.
Москва, 2008
1
2. Сегодня мы завершим
BI аналитик рассмотрение оставшихся
вопросов…
• Операции над данными, формирование отчетов
• Табличное представление и реляционные
отношения
• Реляционная алгебра Кодда
• Формирование собственных моделей данных
2
3. BI аналитик Источники данных
Работа аналитика часто связана с обработкой данных,
уже структурированных и сложенных в хранилище.
Естественный распространенный способ структуризации –
табличное представление, будь то таблицы MS Excel,
реляционные базы данных или списки MS SharePoint.
Data
Server
3
4. BI аналитик Обработка данных
В зависимости от объема и структуры данных меняются
приемы обработки и математический аппарат:
• Пока данные умещаются на одном экране в табличке Excel,
нам часто проще работать с каждой отдельной ячейкой. Это
операции над скалярными величинами.
• Данные становятся динамичнее, количество строк в вашей
таблице стремительно растет – Вы начинаете оперировать
столбцами. Операции становятся векторными.
• Усложняется структура данных, вы сопоставляете данные
нескольких таблиц с разным набором столбцов и сложными
взаимосвязями. Это операции над множествами.
4
5. BI аналитик Обработка данных
Чтобы оперировать большими объемами сложно
структурированных данных стоит знать основы
•Теория множеств
•Реляционная алгебра Кодда
5
6. Табличное представление и
BI аналитик
реляционное отношение
Табличное представление является «житейской» интерпретацией
реляционного отношения – базового понятия
реляционной модели данных
Таблица = отношение Столбец = атрибут
Заголовок = схема отношения
Строка = кортеж
6
7. Основные свойства
BI аналитик
отношений
• Отсутствие кортежей-дубликатов
Первичный ключ – минимально множество атрибутов,
составное значение которых уникально определяет
кортеж отношения
• Отсутствие упорядоченности кортежей
• Отсутствие упорядоченности атрибутов
• Атомарность значений всех атрибутов
Т.е. значение не содержит своей явной структуры
• Нормальна форма отношения
7
8. BI аналитик 1я нормальная форма
• Нормальна форма отношения
Номер Имя Зарплата Отдел
113 Иванов 25000 А
213 Петров 35000 А
134 Сидоров 16000 Б
123 Федотова 43000 В
421 Пупкина 39000 В
Номер Имя Зарплата Отдел
113 Иванов 25000 А
213 Петров 35000
Ненормализованное 134 Сидоров 16000 Б
отношение 123 Федотова 43000 В
421 Пупкина 39000 8
9. Реляционная алгебра
BI аналитик
Кодда
Основана на традиционных теоретико-множественных
операциях, дополненных некоторыми специальными операциями
Объединение Ограничение
Пересечение Проекция
Разность Соединение отношений
Декартово произведение Деление отношений
9
10. Теоретико-множественные
BI аналитик
операции: Объединение
Результат С объединения А и В содержит кортежи, содержащиеся
или в отношении А или в отношении В
С
Отношение А Отношение В
№ Имя Зарп. Отдел № Имя Зарп. Отдел
113 Иванов 25000 А 234 Васильева 40000 С
213 Петров 35000 А 213 Петров 35000 А
134 Сидоров 16000 Б 134 Котова 19000 Б
123 Федотова 43000 В 123 Федотова 43000 В
421 Пупкина 39000 В 421 Макаров 30000 С
234 Васильева 40000 С
134 Котова 19000 Б
421 Макаров 30000 С
10
11. Теоретико-множественные
BI аналитик
операции: Пересечение
Результат С пересечения А и В содержит кортежи, содержащиеся
и в отношении А и в отношении В
Отношение А Отношение В
№ Имя Зарп. Отдел № Имя Зарп. Отдел
113 Иванов 25000 А 234 Васильева 40000 С
213 Петров 35000 А 213 Петров 35000 А
134 Сидоров 16000 Б 123 Федотова 43000 В
123 Федотова 43000 В 134 Котова 19000 Б
421 Пупкина 39000 В 421 Макаров 30000 С
Отношение С
№ Имя Зарп. Отдел
213 Петров 35000 А
123 Федотова 43000 В
11
12. Теоретико-множественные
BI аналитик
операции: Разность
Результат С разности А и В содержит кортежи, содержащиеся
в отношении А, но не содержащиеся в отношении В
Отношение А Отношение В
№ Имя Зарп. Отдел № Имя Зарп. Отдел
113 Иванов 25000 А 234 Васильева 40000 С
213 Петров 35000 А 213 Петров 35000 А
134 Сидоров 16000 Б 123 Федотова 43000 В
123 Федотова 43000 В 134 Котова 19000 Б
421 Пупкина 39000 В 421 Макаров 30000 С
Отношение С
№ Имя Зарп. Отдел
113 Иванов 25000 А
134 Сидоров 16000 Б
421 Пупкина 39000 В 12
13. Теоретико-множественные
BI аналитик операции: декартово
произведение
Кортежи результата С декартового произведения А и В
есть объединение каждого кортежа А с каждым кортежом В
Отношение А Отношение С
№ Имя Зарп. Отдел № Имя Зарп. Отд Пр РМ
113 Иванов 25000 А 113 Иванов 25000 А П1 Иванов
213 Петров 35000 А 213 Петров 35000 А П1 Иванов
134 Сидоров 16000 Б 134 Сидоров 16000 Б П1 Иванов
123 Федотова 43000 В 123 Федотова 43000 В П1 Иванов
421 Пупкина 39000 В 421 Пупкина 39000 В П1 Иванов
113 Иванов 25000 А П2 Васин
Отношение В
213 Петров 35000 А П2 Васин
Проект РМ
134 Сидоров 16000 Б П2 Васин
П1 Иванов
123 Федотова 43000 В П2 Васин
П2 Васин
421 Пупкина 39000 В П2 Васин 13
14. Специальные реляционные
BI аналитик
операции: ограничение
Результат С ограничения А по условию b
есть набор кортежей, атрибуты которых удовлетворяют условию b
Отношение А
Условие b
№ Имя Зарп. Отдел
Заплата > 30000
113 Иванов 25000 А
213 Петров 35000 А
134 Сидоров 16000 Б
123 Федотова 43000 В
421 Пупкина 39000 В Отношение C
№ Имя Зарп. Отдел
213 Петров 35000 А
Можно охарактеризовать,
123 Федотова 43000 В
как «горизонтальную»
вырезку из таблицы 421 Пупкина 39000 В
14
15. Специальные реляционные
BI аналитик
операции: проекция
Результат С проекции А на множество атрибутов ai есть отношение
с соответствующим набором атрибутов и удалением дубликатов
Отношение А
Проекция на…
№ Имя Зарп. Отдел
Отдел
113 Иванов 25000 А
213 Петров 35000 А
134 Сидоров 16000 Б
123 Федотова 43000 В
Отношение С
421 Пупкина 39000 В
Отдел
А
Можно охарактеризовать, Б
как «вертикальную» В
вырезку из таблицы
15
16. Специальные реляционные
BI аналитик операции: проекция и
агрегирование
Модель показателей и классификатор, рассмотренная ранее
дополняет операцию проецирования операцией агрегирования
Отношение А
Проекция на…
№ Имя Зарп. Отдел
Зарплату
113 Иванов 25000 А
213 Петров 35000 А
Отношение С1
134 Сидоров 16000 Б
Зарплата
123 Федотова 43000 В
25000
421 Пупкина 39000 В
35000
16000
Проекция с Отношение С2
агрегированием на… 43000
Зарплата
Зарплату 39000
158000
16
17. Специальные реляционные
BI аналитик операции: Соединение
отношений по условию
Результат С соединения А и В по условию d есть ограничение
по условию декартового произведения А и В
Отношение А Условие
№ Имя Зарп. Отдел
Отдел из А = Отдел из В
113 Иванов 25000 А
213 Петров 35000 А
134 Сидоров 16000 Б
Отношение С
123 Федотова 43000 В
№ Имя Зарп. Отд Рук. Ком
421 Пупкина 39000 В
113 Иванов 25000 А Петренко 211
Отношение В 213 Петров 35000 А Петренко 211
Отд Рук. Комн 134 Сидоров 16000 Б Сидоренк 221
о
А Петренко 211
123 Федотова 43000 В Васильев 315
Б Сидоренко 221
421 Пупкина 39000 В Васильев 315
В Васильев 315 17
18. Специальные реляционные
BI аналитик
операции: деление отношений
Для выполнения операции А должно содержать все атрибуты В
Результат С деления А на В есть множество кортежей А, которым
соответствуют каждый из кортежей В
Отношение А Отношение В
№ Имя Зарп. Проект Проект
113 Иванов 25000 П1 П1
213 Петров 35000 П2 П2
134 Сидоров 16000 П1
Отношение С
213 Петров 35000 П1
№ Имя Зарп. Проект
421 Пупкина 39000 П1
213 Петров 35000 П2
123 Федотова 43000 П2
421 Пупкина 39000 П1
421 Пупкина 39000 П2
18
19. Инструменты многомерного
BI аналитик
анализа
Online Analytical Processing, or OLAP, is an
approach to quickly provide answers to analytical
queries that are multi-dimensional in nature
Позволяет запрашивать данные из различных
источников: баз данных, отдельных файлов, например,
MS Excel.
Запросы составляются с помощью пользовательского
интерфейса.
Широкие вычислительные возможности
Связывание данных из различных запросов
Поддержка разнообразных представлений данных:
таблицы, кросс-таблицы, графики, диаграммы.
19
20. Формирование собственных
BI аналитик
моделей данных
Key Performance Indicators (KPI) are financial and
non-financial metrics used to help an organization define and
measure progress toward organizational goals
Как правило, отчетность – это средство представления
Ключевых показателей эффективности
Эти показатели задают метрики, которые позволяют
руководству проводить диагностику ситуации и
принимать обоснованные решения.
Рассмотрим формирование показателей и отчетности на
простом примере.
20
21. BI аналитик Эффективность рекрутинга
Пусть у нас есть задача проанализировать эффективность
рекрутинговой деятельности отдела кадров.
Для начала необходимо исследовать процесс
Поступление заявок от подразделений
Публикация вакансий Активный поиск
Обработка резюме, контакт с кандидатом
Отказ Проведение собеседования
Отказ Прием на работу
21
22. BI аналитик Что мы измеряем?
Высокоуровневые вопросы:
Сколько сотрудников удалось нанять? (Факт)
Сколько сотрудников требовалось нанять за этот период?
(План)
Если факт совершенно не соответствует плану, какие возникнут
дополнительные вопросы?
Сколько кандидатов рассматривалось вообще?
Каким образом, на каких этапах и по каким причинам они
отсеивались?
22
23. BI аналитик Отчетная форма
Отвечая на эти
вопросы, мы
получаем нашу
первую
отчетную форму
23
24. Как собираются данные для
BI аналитик
отчета?
Для фиксирования
плана нужно вести
журнал
по поступающим
заявкам
24
25. Как собираются данные для
BI аналитик
отчета?
Для
фиксирования
факта нужен
журнал по
обработанным
резюме
25
26. BI аналитик Что можно получить еще?
Оптимизировать работу:
Какие источники поступления резюме наиболее
эффективны?
Каковы причины отказов?
Далее информационную модель можно расширять, чтобы
получать ответы на все новые вопросы…
Соответствует ли предложение спросу на рынке труда?
Сколько времени уходит у сотрудника ОК на полную
обработку одного резюме? И т.п.
26
27. BI аналитик | Подведем итоги
Реляционные Обработка Реляционная
отношения данных операции
BI аналитик
Сбор Формирование Формирование
данных моделей данных отчетов и
показателей
27
29. Введение | Литература
www.wikipedia.org
С. Д. Кузнецов. «Основы баз данных. Курс лекций. Учебное
пособие». – М.: Интернет-Университет Информационных
технологий, 2005. – 488 стр.
29
Hinweis der Redaktion
На прошлых лекциях мы знакомились с ролями писателя и консультанта. Мы много говорили о том, как вести себя, как писать, как говорить, слушать, т.е. мы говорили о внешнем проявлении деятельности аналитика. Сегодня мы углубимся в суть аналитической деятельности и попытаемся определить основы того, как появляются результаты.
Как уже упоминалось в самом начале, часто работа аналитика связана с обработкой данных, уже структурированных и сложенных в хранилище. Естественный распространенный способ структуризации – табличное представление, будь то таблицы Excel , реляционные базы данных или списки SharePoint . Как работать с такими данными? Всем наверняка приходилось работать с MS Excel . Все наверняка использовали там формулы для вычисления значения ячейки на основе другой ячейки… Но можно ли это назвать BI анализом в полной мере? Работа с данными отличается от такой работы как обычная математика от векторного счисления. Собственно именно в этом и отличие. В основе формул MS Excel лежит работа с отдельными ячейками. При анализе данных нужны обобщенные способы обработки, не зависящие от количества обрабатываемых записей. Данные – это массивы, вектора, матрицы, если хотите. Но более употребимым термином являются многомерные кубы.
Как работать с такими данными? Всем наверняка приходилось работать с MS Excel . Все наверняка использовали там формулы для вычисления значения ячейки на основе другой ячейки… Но можно ли это назвать BI анализом в полной мере? Работа с данными отличается от такой работы как обычная математика от векторного счисления. Собственно именно в этом и отличие. В основе формул MS Excel лежит работа с отдельными ячейками. При анализе данных нужны обобщенные способы обработки, не зависящие от количества обрабатываемых записей. Данные – это массивы, вектора, матрицы, если хотите. Но более употребимым термином являются многомерные кубы.
Здесь мы хотим упомянуть такую сложную вещь как реляционная модель данных и табличное представление, которое, по сути, является «житейской интерпретацией» этой довольно строгой математической модели Таблица = отношение Заголовок = схема отношения Строка = кортеж Столбец = атрибут отношения
Отсутствие кортежей-дубликатов (Первичный ключ – минимально множество атрибутов, составное значение которых уникально определяет кортеж отношения) Отсутствие упорядоченности кортежей Отсутствие упорядоченности атрибутов Атомарность значений всех атрибутов (Т.е. значение не содержит своей явной структуры) Первая нормальная форма
Отсутствие кортежей-дубликатов (Первичный ключ – минимально множество атрибутов, составное значение которых уникально определяет кортеж отношения) Отсутствие упорядоченности кортежей Отсутствие упорядоченности атрибутов Атомарность значений всех атрибутов (Т.е. значение не содержит своей явной структуры) Первая нормальная форма
Объединение, пересечение, разность Декартово произведение Ограничение Проекция Соединение отношений Деление отношений
Объединение, пересечение, разность Декартово произведение Ограничение Проекция Соединение отношений Деление отношений
Объединение, пересечение, разность Декартово произведение Ограничение Проекция Соединение отношений Деление отношений
Объединение, пересечение, разность Декартово произведение Ограничение Проекция Соединение отношений Деление отношений
Объединение, пересечение, разность Декартово произведение Ограничение Проекция Соединение отношений Деление отношений
Объединение, пересечение, разность Декартово произведение Ограничение Проекция Соединение отношений Деление отношений
Объединение, пересечение, разность Декартово произведение Ограничение Проекция Соединение отношений Деление отношений
Объединение, пересечение, разность Декартово произведение Ограничение Проекция Соединение отношений Деление отношений
Объединение, пересечение, разность Декартово произведение Ограничение Проекция Соединение отношений Деление отношений
Объединение, пересечение, разность Декартово произведение Ограничение Проекция Соединение отношений Деление отношений
Online Analytical Processing , or OLAP , is an approach to quickly provide answers to analytical queries that are multi-dimensional in nature
Давайте рассмотрим практическую задачу и на ее примере проследим процесс формализации, сбора данных, их использование и обработку. Key Performance Indicators (KPI) are financial and non-financial metrics used to help an organization define and measure progress toward organizational goals Пусть у нас есть задача проанализировать эффективность рекрутинговой деятельности отдела кадров.
Что из себя представляет схема рекрутинга? (Описание схемы деятельности) Чтобы определить качество деятельности необходимо определить некоторые количественные плановые и фактические показатели и сравнить их. Высокоуровневые показатели, консолидирующие информацию о всем процессе могут сопровождаться более детальными, демонстрирующими качество промежуточных этапов.
Итак, на какие высокоуровневые вопросы мы хотим получить ответы? Сколько сотрудников удалось нанять? (Факт) Сколько сотрудников требовалось нанять за этот период? (План) Если при анализе данных факт совершенно недотягивает до плана, какие возникнут вопросы? Сколько кандидатов рассматривалось вообще, каким образом, на каких этапах и по каким причинам они отсеивались? Получив ответы на эти вопросы, мы можем получить наш первый отчет о количестве обработанных резюме и количестве кандидатов на каждом этапе обработки.
Итак, на какие высокоуровневые вопросы мы хотим получить ответы? Сколько сотрудников удалось нанять? (Факт) Сколько сотрудников требовалось нанять за этот период? (План) Если при анализе данных факт совершенно недотягивает до плана, какие возникнут вопросы? Сколько кандидатов рассматривалось вообще, каким образом, на каких этапах и по каким причинам они отсеивались? Получив ответы на эти вопросы, мы можем получить наш первый отчет о количестве обработанных резюме и количестве кандидатов на каждом этапе обработки.
Чтобы в конце недели или месяца собрать такой отчет, что нужно делать? Нужно вести журнал, т.е. простую таблицу вот такого вида. Каждое резюме, попадающее в поле зрения рекрутера фиксируется, а затем фиксируется каждый пройденный этап. При некотором навыке владения MS Excel интересующий нас отчет может быть собран за минуту с помощью PivotTable
Чтобы в конце недели или месяца собрать такой отчет, что нужно делать? Нужно вести журнал, т.е. простую таблицу вот такого вида. Каждое резюме, попадающее в поле зрения рекрутера фиксируется, а затем фиксируется каждый пройденный этап. При некотором навыке владения MS Excel интересующий нас отчет может быть собран за минуту с помощью PivotTable
Расширяя эту модель, мы можем проводить анализ не только эффективности, но и оптимизировать работу. Например, данный журнал позволяет проанализировать, какие источники поступления резюме оказываются наиболее эффективными, проанализировать причины отказов. Расширяя эту модель, можно провести анализ соответствия уровня предложения запросам соискателей и т.п.Итак, сегодня мы познакомились с ролью BI
Итак, сегодня мы познакомились с ролью консультанта