1. EC-лизинг
Б.А. Позин
д.т.н., профессор
Технический директор ЗАО «ЕС-лизинг»
Большие данные – горячая тема,
потому что технологии сделали возможным
анализ ВСЕХ доступных данных
при подготовке принятия решений
3. EC-лизинг Какие объемы данных нужны
для поддержки принятия решений?
3
User
Generated
Content*
1,234
Exabytes
Enterprise
Touch
Content**
1,530
Exabytes
Size of Digital Universe in 2011
1,773 Exabytes
**Transported,
Hosted,
Managed or
Secured
**Consumers
and Workers
Creating,
Capturing or
Replicating
Personal
Information
Overlap
-1,000
Exabytes
User Creation: Enterprise Worries
Эксабайт = 260 =1018 байт =
1024 Петабайт
4. EC-лизинг Сколько информации мы теряем?
4
1,800
1,600
1,400
1,200
1,000
0,800
0,600
0,400
0,200
2005 2006 2007 2008 2009 2010 2011
Exabytes
Available Storage
Information Created
Available Storage, 2007
Tape
21%
Disk
56%
Optical
22%
Other
1%
264 EB
Information Creation and Available Storage
5. EC-лизинг
5
Изменение парадигмы
ИТ
Структурирует
данные для
ответа на вопрос
ИТ
Обеспечивает
платформу для
креативного
анализа
Бизнес
Исследует что можно
спросить
Бизнес
Определяет что
спросить
Месячная отчетность
Анализ
прибыльности
Анализ анкет
Отношение к бренду
Стратегия продуктов
Оптимизация ресурсов
Большие данные
Итеративность и исследование
Традиционный подход
Структурный и повторяемый анализ
Запомнил - обработал Обработал - запомнил
Ограничение: память Ограничение: производительность
8. EC-лизинг Постановка задачи
8
Технология должна обеспечивать
Создание из «конструктора» функционально полных прикладных
информационно-аналитических систем для исследования
больших объемов данных при поддержке принятия решений
силами коллективов специалистов в предметной области –
аналитиков при поддержке ИТ-специалистов по инструментам
Для этого необходимо
«Конструктор» - набор высококачественных инструментов для создания
приложений по аналитической обработке больших объемов информации в
различных областях знаний
Возможность создания информационно-аналитических систем в короткие
сроки и в пределах бюджета
Возможность развития «Конструктора» в процессе накопления опыта и
знаний, развития методов анализа и синтеза
Возможность накопления знаний и их повторного использования
Переносимость инструментальных средств в пределах широкого класса
платформ
10. EC-лизинг
Технология Big Data
Первый шаг очень важен
Успех в каждом разделе
поддержан продуктами
платформы
Позволяет построить
основу для будущих
потребностей и проектов
10
11. EC-лизинг
Платформа IBM Big Data
Управление
системами
Разработка
приложений
Визуализация
&исследование
Акселераторы разработки
Интеграция информации & Управление
Hadoop
System
Stream
Computing
Data
Warehouse
BI /
Reporting
BI /
Отчетность
Исследование/
Визуализация
Ф
ункциональны
е
приложения
П
ром
ы
ш
ленны
е
приложения
П
р
о
г
н
о
з
и
р
у
ю
щ
а
я
а
н
а
л
и
т
и
к
а
А
н
а
л
и
т
и
к
а
с
о
д
е
р
ж
а
н
и
я
Аналитические приложения
Платформа IBM Big Data
Управление
системами
Разработка
приложений
Визуализация
&исследование
Hadoop
System
Stream
Computing
Data
Warehouse
Интеграция информации & Управление
Ускорители
BI /
Reporting
BI /
Отчетность
Исследование/
Визуализация
Ф
ункциональны
е
приложения
П
ром
ы
ш
ленны
е
приложения
П
р
о
г
н
о
з
и
р
у
ю
щ
а
я
а
н
а
л
и
т
и
к
а
А
н
а
л
и
т
и
к
а
с
о
д
е
р
ж
а
н
и
я
Аналитические приложения
Платформа IBM Big Data
Управление
системами
Разработка
приложений
Визуализация
&исследование
Hadoop
System
Stream
Computing
Data
Warehouse
Интеграция информации & Управление
Ускорители
«Конструктор»: продукты платформы Big Data
2 – Анализ «сырых»
данных
InfoSphere
BigInsights
5 – Анализ
потоковых данных
InfoSphere
Streams
1 – Найти и
получить доступ к
большим данным
IBM Data Explorer
3 – Упрощение
хранилища
Netezza
4 – Сокращение
затрат с помощью
Hadoop
InfoSphere
BigInsights
11
12. EC-лизинг
IBM Big Data platform
– InfoSphere Streams
– InfoSphere BigInsights
– InfoSphere Data Explorer
– PureData for Analytics (Netezza)
Акселераторы
– Анализ текстов
– Акустика
– Гео-данные
– Видео
– Интеллектуальный анализ
– Предсказательные модели
– Статистика
12
Технологии IBM для использования в
проектах Big Data
Аналитические пакеты
– IBM Cognos
– IBM SPSS
Интеграция данных
– IBM InfoSphere Information
Server
– IBM Change Data Capture
Мастер-данные
– IBM InfoSphere Master Data
Management Server
Защита баз данных
– InfoSphere Guardium
14. EC-лизинг Инструменты Streams
Обработка потоковой информации
Декларативный язык: Stream Processing Language (SPL)
Готовые средства разработки
(акселераторы разработки):
Анализ текстов
Телекоммуникационные данные
Гео-данные
Видео
Интеллектуальный анализ
Предсказательные модели
Статистика
Анализ машинных журналов (СПО)
Анализ данных из сетей (СПО)
Инструменты:
Standard Toolkit
Internet Toolkit
Database Toolkit
Financial Toolkit
Data Mining
Toolkit
Big Data toolkit
Text Toolkit
Языки программирования 3-го поколения:
Java, C/C++, Python, Perl, JavaScript, Ruby и т.д.
Streams
Коннекторы:
Netezza Connector
Hadoop Connector
15. EC-лизинг Декларативный язык SPL - графическая среда
разработки Streams-приложений
Создание приложений с помощью «перетаскивания» операторов
Палитра готовых операторов
Графика и исходный код на SPL автоматически синхронизируются
16. EC-лизинг Инструменты BigInsights
Анализ «сырых» данных и сокращение затрат на хранение
Декларативные языки: Annotation Query Language (AQL), JaQL (Query
Language for JSON (JavaScript Object Notation)), Pig Latin, HiveQL, R
Средства и инструменты
обработки:
Flume
Hive
Lucene
Zookeeper
Avro
HBase
HCatalog
Sqoop
Oozie
Языки программирования 3-го поколения: Java, C/C++
BigInsights
Коннекторы:
Netezza Connector
Streams Connector
17. EC-лизинг
Инструменты Data Explorer
Средство визуализации, исследования данных и обработки
текстов
Декларативные языки: не используются
Средства разработки
и обработки :
Application Builder
Search Engine
Data Explorer
Коннекторы:
Framework
Connector
(30 источников,
включая Streams
и BigInsights)
Mature Connector
18. EC-лизинг Инструменты Pure Data (Netezza)
Повышение скорости анализа и качества структурированных
данных
Декларативные языки: SQL, nz/PLSQL
Pure Data (Netezza)
Коннекторы:
Hadoop Connector
Streams Connector
Языки программирования 3-го поколения: Java, C /
C++, FORTRAN, nzLua, Python, Ruby, JavaScript, Perl, и тд.
Библиотеки:
ESRI/OpenGIS
nzMatrix
19. EC-лизинг Центр компетенции по IBM Big Data
Совместный центр компетенции ЕС-лизинг, IBM и Банка России
Целью создания Центра Компетенции явилась необходимость
обеспечения освоения технологии IBM Big Data специалистами Банка России
и организациями банковского сектора, с использованием возможностей
стендового оборудования, программного обеспечения и специалистов ЕС-
лизинг при поддержке IBM по планам, согласованным с организациями –
потенциальными заказчиками и на основе постановок задач, формируемых
заказчиками
Основные задачи Центра
• Освоение инструментальных средств IBM Big Data
• Освоение декларативных языков и методик программирования
реальных задач на этих языках
• Создание учебных курсов для освоения платформы IBM Big Data
Приглашаем заинтересованные организации к
сотрудничеству
22. EC-лизинг
Назначение инструментов Streams
Декларативные языки
Stream Processing Language (SPL) Используется для разработки приложений обработки потоковых
данных
Языки программирования 3-го поколения
Java, C / C++, Python, Ruby,
JavaScript, Perl, и тд.
Используются в Streams для программирования операторов. Язык
должен уметь работать со стандартным вводом/выводом
Коннекторы
Netezza Connector Позволяет писать и читать данные из Netezza
Hadoop Connector Позволяет писать и читать данные из Hadoop
Акселераторы разработки
Анализ текстов
Набор инструментальных средств, которые могут быть использованы
для ускорения разработки Заказчиком задач анализа данных разных
типов в том виде, в котором они поступают за счет встроенных
алгоритмов обработки информации
Телекоммуникационные данные
Гео-данные
Видео
Интеллектуальный анализ
Предсказательные модели
Статистика
Анализ машинных журналов
Анализ данных из сетей
- Свободное ПО - Дополнительное ПО - ПО в составе поставки
23. EC-лизинг
Назначение инструментов Streams
Toolkits
Standard Toolkit Стандартный набор операторов, который поставляется вместе со
Streams
Internet Toolkit Оператор для извлечения данных из URL источника.
Поддерживаемые типы источника HTTP, HTTPS, HTTP через RSS,
RSS через HTTPS, FTP, FTPS, и файл
Database Toolkit Набор операторов SPL, которые позволяют легко интегрировать с
внешними системами данных
Financial Toolkit Набор финансовых адаптеров для упрощения интеграции Streams c
обычно используемыми протоколами и технологиями в финансовой
сфере
Data Mining Toolkit Содержит алгоритмы интеллектуального анализа данных.
Алгоритмы используют стандарт PMML
Big Data toolkit Набор адаптеров, который позволяет взаимодействовать (читать и
писать) операторам Streams с HDFS
Text Toolkit Содержит оператор для запуска AQL запросов по текстовому
документу и плагины для развития AQL запросов
- Свободное ПО - Дополнительное ПО - ПО в составе поставки
24. EC-лизинг
Назначение инструментов BigInsights
Декларативные языки
Annotation Query Language
(AQL)
Язык, который используется для обработки неструктурированного
теста
JaQL (Query Language for JSON
(JavaScript Object Notation) )
Функциональный язык запросов для выполнения функций
фильтрации, объединения и группировки JSON-данных. Можно
создавать пользовательские функции для использования в
исполняемых выражениях
Pig Latin Язык платформы Pig для создания MapReduce приложений.
HiveQL Язык, который используется в Hadoop в качестве языка запросов
R Язык, который используется для статистической обработки данных
(статистического анализа)
Коннекторы
Netezza Connector Позволяет писать и читать данные из Netezza
Streams Connector Позволяет писать и читать данные из Streams
Языки программирования 3-го поколения
Java, C / C++ Используется в BigInsights для создания приложений
- Свободное ПО - Дополнительное ПО - ПО в составе поставки
25. EC-лизинг
Назначение инструментов BigInsights
Средства и инструменты обработки
Flume Средство, которое позволяет собирать данные с удаленных компьютеров
Hive Средство, реализующее операции извлечения-преобразования-загрузки (ETL) в
дополнение к анализу больших наборов данных, хранящихся в Распределенной
Файловой Системе Hadoop (HDFS). Оно позволяет преобразовывать SQL-запросы в
язык запросов JaQL и исполнять MapReduce-процедуры. InfoSphere BigInsights
включает JDBC-драйвера, которые можно использовать для программирования с Hive
и для подключения к программному обеспечению Cognos Business Intelligence
Lucene Это Jaql модуль, который позволяет создавать, сканировать и запрашивать Lucene
индексы
Zookeeper Это централизованная служба Apache для сохранения информации о конфигурации,
наименования, обеспечение распределенной синхронизации, а также предоставление
группы услуг
Avro Это фреймворк для сериализации и десереализации данных.
HBase Приложение HBase позволяет экспортировать строки данных из таблицы HBase через
консоль InfoSphere BigInsights
HCatalog Служба управления хранение данных в Hadoop
Sqoop Используется для перемещения данных между BigInsights InfoSphere распределенной
файловой системы и реляционными системами управления базами данных
Oozie Менеджер управления задач Apache Hadoop
- Свободное ПО - Дополнительное ПО - ПО в составе поставки
26. EC-лизинг
Назначение инструментов Data Explorer
Средства обработки и разработки
Application
Builder
Средство, которое позволяет строить настраиваемые веб-панели, предоставляющие
пользователям интерфейс к источникам, которые Data Explorer может сканировать и
индексировать
Search Engine Средство, которое производит обработку информации (извлечение, индексацию,
конвертацию)
Коннекторы
Connector
Framework
Поддерживает более 30 часто используемых источников данных, включая CRM
системы, архивы электронных почт, а также Streams и BigInsights.
Mature
Connector
Используется для создания дополнительных коннекторов к собственным источникам
данных.
- Свободное ПО - Дополнительное ПО - ПО в составе поставки
27. EC-лизинг
Назначение инструментов Pure Data (Netezza)
Декларативные языки
SQL, nz/PLSQL Используется для написания запросов для работы и
администрирования Netezza
Языки программирования 3-го поколения
Java, C / C++, FORTRAN,
nzLua, Python, Ruby,
JavaScript, Perl, и тд.
Эти языки являются частью IBM NETEZZA ANALYTICS.
Назначение этого инструмента - дать возможность разработчикам
расширить набор функций и средств для обработки данных в Netezza.
Библиотеки
ESRI/OpenGIS Библиотека предназначена упростить задачи, связанные с
геопространственным анализом.
nzMatrix Библиотека предназначена упростить задачи, связанные с работой с
матрицами
Коннекторы
Streams Connector Позволяет писать и читать данные из Streams
Hadoop Connector Позволяет писать и читать данные из Hadoop
- Свободное ПО - Дополнительное ПО - ПО в составе поставки