SlideShare ist ein Scribd-Unternehmen logo
1 von 27
EC-лизинг
Б.А. Позин
д.т.н., профессор
Технический директор ЗАО «ЕС-лизинг»
Большие данные – горячая тема,
потому что технологии сделали возможным
анализ ВСЕХ доступных данных
при подготовке принятия решений
EC-лизинг
EC-лизинг Какие объемы данных нужны
для поддержки принятия решений?
3
User
Generated
Content*
1,234
Exabytes
Enterprise
Touch
Content**
1,530
Exabytes
Size of Digital Universe in 2011
1,773 Exabytes
**Transported,
Hosted,
Managed or
Secured
**Consumers
and Workers
Creating,
Capturing or
Replicating
Personal
Information
Overlap
-1,000
Exabytes
User Creation: Enterprise Worries
Эксабайт = 260 =1018 байт =
1024 Петабайт
EC-лизинг Сколько информации мы теряем?
4
1,800
1,600
1,400
1,200
1,000
0,800
0,600
0,400
0,200
2005 2006 2007 2008 2009 2010 2011
Exabytes
Available Storage
Information Created
Available Storage, 2007
Tape
21%
Disk
56%
Optical
22%
Other
1%
264 EB
Information Creation and Available Storage
EC-лизинг
5
Изменение парадигмы
ИТ
Структурирует
данные для
ответа на вопрос
ИТ
Обеспечивает
платформу для
креативного
анализа
Бизнес
Исследует что можно
спросить
Бизнес
Определяет что
спросить
Месячная отчетность
Анализ
прибыльности
Анализ анкет
Отношение к бренду
Стратегия продуктов
Оптимизация ресурсов
Большие данные
Итеративность и исследование
Традиционный подход
Структурный и повторяемый анализ
Запомнил - обработал Обработал - запомнил
Ограничение: память Ограничение: производительность
EC-лизинг
Стуктурирован-
ные данные
Неструктурированны
е данные
Потоковые
данные
Подключение любого типа данных с помощью оптимизированных
коннекторов и возможности интеграции информации
Платформа
Big Data
Технология IBM Big Data сделала возможным
анализ ВСЕХ доступных данных
EC-лизинг
ERP
CRM RFID
Website
Network
Switches
Social Media
Billing
7
Эффективно управлять и анализировать
все доступные данные в их первозданном виде
EC-лизинг Постановка задачи
8
Технология должна обеспечивать
Создание из «конструктора» функционально полных прикладных
информационно-аналитических систем для исследования
больших объемов данных при поддержке принятия решений
силами коллективов специалистов в предметной области –
аналитиков при поддержке ИТ-специалистов по инструментам
Для этого необходимо
 «Конструктор» - набор высококачественных инструментов для создания
приложений по аналитической обработке больших объемов информации в
различных областях знаний
 Возможность создания информационно-аналитических систем в короткие
сроки и в пределах бюджета
 Возможность развития «Конструктора» в процессе накопления опыта и
знаний, развития методов анализа и синтеза
 Возможность накопления знаний и их повторного использования
 Переносимость инструментальных средств в пределах широкого класса
платформ
EC-лизинг
EC-лизинг
Технология Big Data
 Первый шаг очень важен
 Успех в каждом разделе
поддержан продуктами
платформы
 Позволяет построить
основу для будущих
потребностей и проектов
10
EC-лизинг
Платформа IBM Big Data
Управление
системами
Разработка
приложений
Визуализация
&исследование
Акселераторы разработки
Интеграция информации & Управление
Hadoop
System
Stream
Computing
Data
Warehouse
BI /
Reporting
BI /
Отчетность
Исследование/
Визуализация
Ф
ункциональны
е
приложения
П
ром
ы
ш
ленны
е
приложения
П
р
о
г
н
о
з
и
р
у
ю
щ
а
я
а
н
а
л
и
т
и
к
а
А
н
а
л
и
т
и
к
а
с
о
д
е
р
ж
а
н
и
я
Аналитические приложения
Платформа IBM Big Data
Управление
системами
Разработка
приложений
Визуализация
&исследование
Hadoop
System
Stream
Computing
Data
Warehouse
Интеграция информации & Управление
Ускорители
BI /
Reporting
BI /
Отчетность
Исследование/
Визуализация
Ф
ункциональны
е
приложения
П
ром
ы
ш
ленны
е
приложения
П
р
о
г
н
о
з
и
р
у
ю
щ
а
я
а
н
а
л
и
т
и
к
а
А
н
а
л
и
т
и
к
а
с
о
д
е
р
ж
а
н
и
я
Аналитические приложения
Платформа IBM Big Data
Управление
системами
Разработка
приложений
Визуализация
&исследование
Hadoop
System
Stream
Computing
Data
Warehouse
Интеграция информации & Управление
Ускорители
«Конструктор»: продукты платформы Big Data
2 – Анализ «сырых»
данных
InfoSphere
BigInsights
5 – Анализ
потоковых данных
InfoSphere
Streams
1 – Найти и
получить доступ к
большим данным
IBM Data Explorer
3 – Упрощение
хранилища
Netezza
4 – Сокращение
затрат с помощью
Hadoop
InfoSphere
BigInsights
11
EC-лизинг
 IBM Big Data platform
– InfoSphere Streams
– InfoSphere BigInsights
– InfoSphere Data Explorer
– PureData for Analytics (Netezza)
 Акселераторы
– Анализ текстов
– Акустика
– Гео-данные
– Видео
– Интеллектуальный анализ
– Предсказательные модели
– Статистика
12
Технологии IBM для использования в
проектах Big Data
 Аналитические пакеты
– IBM Cognos
– IBM SPSS
 Интеграция данных
– IBM InfoSphere Information
Server
– IBM Change Data Capture
 Мастер-данные
– IBM InfoSphere Master Data
Management Server
 Защита баз данных
– InfoSphere Guardium
EC-лизинг
Streams
Big
Ins
DE
NZ
Декларативные языки
Готовые
средства
разработки
Инструменты
Языки программирования 3-го поколения: Java,
C/C++, Python, Perl
Коннекторы
SPSS
(Декларат
ивный
язык
PMML)
Cognos BI
Общая схема компонентов платформы Big Data
EC-лизинг Инструменты Streams
Обработка потоковой информации
Декларативный язык: Stream Processing Language (SPL)
Готовые средства разработки
(акселераторы разработки):
Анализ текстов
Телекоммуникационные данные
Гео-данные
Видео
Интеллектуальный анализ
Предсказательные модели
Статистика
Анализ машинных журналов (СПО)
Анализ данных из сетей (СПО)
Инструменты:
Standard Toolkit
Internet Toolkit
Database Toolkit
Financial Toolkit
Data Mining
Toolkit
Big Data toolkit
Text Toolkit
Языки программирования 3-го поколения:
Java, C/C++, Python, Perl, JavaScript, Ruby и т.д.
Streams
Коннекторы:
Netezza Connector
Hadoop Connector
EC-лизинг Декларативный язык SPL - графическая среда
разработки Streams-приложений
 Создание приложений с помощью «перетаскивания» операторов
 Палитра готовых операторов
 Графика и исходный код на SPL автоматически синхронизируются
EC-лизинг Инструменты BigInsights
Анализ «сырых» данных и сокращение затрат на хранение
Декларативные языки: Annotation Query Language (AQL), JaQL (Query
Language for JSON (JavaScript Object Notation)), Pig Latin, HiveQL, R
Средства и инструменты
обработки:
Flume
Hive
Lucene
Zookeeper
Avro
HBase
HCatalog
Sqoop
Oozie
Языки программирования 3-го поколения: Java, C/C++
BigInsights
Коннекторы:
Netezza Connector
Streams Connector
EC-лизинг
Инструменты Data Explorer
Средство визуализации, исследования данных и обработки
текстов
Декларативные языки: не используются
Средства разработки
и обработки :
Application Builder
Search Engine
Data Explorer
Коннекторы:
Framework
Connector
(30 источников,
включая Streams
и BigInsights)
Mature Connector
EC-лизинг Инструменты Pure Data (Netezza)
Повышение скорости анализа и качества структурированных
данных
Декларативные языки: SQL, nz/PLSQL
Pure Data (Netezza)
Коннекторы:
Hadoop Connector
Streams Connector
Языки программирования 3-го поколения: Java, C /
C++, FORTRAN, nzLua, Python, Ruby, JavaScript, Perl, и тд.
Библиотеки:
ESRI/OpenGIS
nzMatrix
EC-лизинг Центр компетенции по IBM Big Data
Совместный центр компетенции ЕС-лизинг, IBM и Банка России
Целью создания Центра Компетенции явилась необходимость
обеспечения освоения технологии IBM Big Data специалистами Банка России
и организациями банковского сектора, с использованием возможностей
стендового оборудования, программного обеспечения и специалистов ЕС-
лизинг при поддержке IBM по планам, согласованным с организациями –
потенциальными заказчиками и на основе постановок задач, формируемых
заказчиками
Основные задачи Центра
• Освоение инструментальных средств IBM Big Data
• Освоение декларативных языков и методик программирования
реальных задач на этих языках
• Создание учебных курсов для освоения платформы IBM Big Data
Приглашаем заинтересованные организации к
сотрудничеству
EC-лизинг
Оснащение Центра Компетенции
20
Все программные продукты
платформы IBM Big Data
EC-лизинг
Спасибо за внимание!
Вопросы?
EC-лизинг
Назначение инструментов Streams
Декларативные языки
Stream Processing Language (SPL) Используется для разработки приложений обработки потоковых
данных
Языки программирования 3-го поколения
Java, C / C++, Python, Ruby,
JavaScript, Perl, и тд.
Используются в Streams для программирования операторов. Язык
должен уметь работать со стандартным вводом/выводом
Коннекторы
Netezza Connector Позволяет писать и читать данные из Netezza
Hadoop Connector Позволяет писать и читать данные из Hadoop
Акселераторы разработки
Анализ текстов
Набор инструментальных средств, которые могут быть использованы
для ускорения разработки Заказчиком задач анализа данных разных
типов в том виде, в котором они поступают за счет встроенных
алгоритмов обработки информации
Телекоммуникационные данные
Гео-данные
Видео
Интеллектуальный анализ
Предсказательные модели
Статистика
Анализ машинных журналов
Анализ данных из сетей
- Свободное ПО - Дополнительное ПО - ПО в составе поставки
EC-лизинг
Назначение инструментов Streams
Toolkits
Standard Toolkit Стандартный набор операторов, который поставляется вместе со
Streams
Internet Toolkit Оператор для извлечения данных из URL источника.
Поддерживаемые типы источника HTTP, HTTPS, HTTP через RSS,
RSS через HTTPS, FTP, FTPS, и файл
Database Toolkit Набор операторов SPL, которые позволяют легко интегрировать с
внешними системами данных
Financial Toolkit Набор финансовых адаптеров для упрощения интеграции Streams c
обычно используемыми протоколами и технологиями в финансовой
сфере
Data Mining Toolkit Содержит алгоритмы интеллектуального анализа данных.
Алгоритмы используют стандарт PMML
Big Data toolkit Набор адаптеров, который позволяет взаимодействовать (читать и
писать) операторам Streams с HDFS
Text Toolkit Содержит оператор для запуска AQL запросов по текстовому
документу и плагины для развития AQL запросов
- Свободное ПО - Дополнительное ПО - ПО в составе поставки
EC-лизинг
Назначение инструментов BigInsights
Декларативные языки
Annotation Query Language
(AQL)
Язык, который используется для обработки неструктурированного
теста
JaQL (Query Language for JSON
(JavaScript Object Notation) )
Функциональный язык запросов для выполнения функций
фильтрации, объединения и группировки JSON-данных. Можно
создавать пользовательские функции для использования в
исполняемых выражениях
Pig Latin Язык платформы Pig для создания MapReduce приложений.
HiveQL Язык, который используется в Hadoop в качестве языка запросов
R Язык, который используется для статистической обработки данных
(статистического анализа)
Коннекторы
Netezza Connector Позволяет писать и читать данные из Netezza
Streams Connector Позволяет писать и читать данные из Streams
Языки программирования 3-го поколения
Java, C / C++ Используется в BigInsights для создания приложений
- Свободное ПО - Дополнительное ПО - ПО в составе поставки
EC-лизинг
Назначение инструментов BigInsights
Средства и инструменты обработки
Flume Средство, которое позволяет собирать данные с удаленных компьютеров
Hive Средство, реализующее операции извлечения-преобразования-загрузки (ETL) в
дополнение к анализу больших наборов данных, хранящихся в Распределенной
Файловой Системе Hadoop (HDFS). Оно позволяет преобразовывать SQL-запросы в
язык запросов JaQL и исполнять MapReduce-процедуры. InfoSphere BigInsights
включает JDBC-драйвера, которые можно использовать для программирования с Hive
и для подключения к программному обеспечению Cognos Business Intelligence
Lucene Это Jaql модуль, который позволяет создавать, сканировать и запрашивать Lucene
индексы
Zookeeper Это централизованная служба Apache для сохранения информации о конфигурации,
наименования, обеспечение распределенной синхронизации, а также предоставление
группы услуг
Avro Это фреймворк для сериализации и десереализации данных.
HBase Приложение HBase позволяет экспортировать строки данных из таблицы HBase через
консоль InfoSphere BigInsights
HCatalog Служба управления хранение данных в Hadoop
Sqoop Используется для перемещения данных между BigInsights InfoSphere распределенной
файловой системы и реляционными системами управления базами данных
Oozie Менеджер управления задач Apache Hadoop
- Свободное ПО - Дополнительное ПО - ПО в составе поставки
EC-лизинг
Назначение инструментов Data Explorer
Средства обработки и разработки
Application
Builder
Средство, которое позволяет строить настраиваемые веб-панели, предоставляющие
пользователям интерфейс к источникам, которые Data Explorer может сканировать и
индексировать
Search Engine Средство, которое производит обработку информации (извлечение, индексацию,
конвертацию)
Коннекторы
Connector
Framework
Поддерживает более 30 часто используемых источников данных, включая CRM
системы, архивы электронных почт, а также Streams и BigInsights.
Mature
Connector
Используется для создания дополнительных коннекторов к собственным источникам
данных.
- Свободное ПО - Дополнительное ПО - ПО в составе поставки
EC-лизинг
Назначение инструментов Pure Data (Netezza)
Декларативные языки
SQL, nz/PLSQL Используется для написания запросов для работы и
администрирования Netezza
Языки программирования 3-го поколения
Java, C / C++, FORTRAN,
nzLua, Python, Ruby,
JavaScript, Perl, и тд.
Эти языки являются частью IBM NETEZZA ANALYTICS.
Назначение этого инструмента - дать возможность разработчикам
расширить набор функций и средств для обработки данных в Netezza.
Библиотеки
ESRI/OpenGIS Библиотека предназначена упростить задачи, связанные с
геопространственным анализом.
nzMatrix Библиотека предназначена упростить задачи, связанные с работой с
матрицами
Коннекторы
Streams Connector Позволяет писать и читать данные из Streams
Hadoop Connector Позволяет писать и читать данные из Hadoop
- Свободное ПО - Дополнительное ПО - ПО в составе поставки

Weitere ähnliche Inhalte

Ähnlich wie 4CIO.ppt

Clever_data_splunk_overview_rus
Clever_data_splunk_overview_rusClever_data_splunk_overview_rus
Clever_data_splunk_overview_rusCleverDATA
 
ATK_BiView - инструмент эффективной интеграции 1С и Qlik
ATK_BiView - инструмент эффективной интеграции 1С и QlikATK_BiView - инструмент эффективной интеграции 1С и Qlik
ATK_BiView - инструмент эффективной интеграции 1С и QlikMarina Payvina
 
Инфостарт. Новые возможности 1С 8.3
Инфостарт. Новые возможности 1С 8.3Инфостарт. Новые возможности 1С 8.3
Инфостарт. Новые возможности 1С 8.3Виктория Литовка
 
Решения Oracle для Big Data
Решения Oracle для Big DataРешения Oracle для Big Data
Решения Oracle для Big DataAndrey Akulov
 
Микросервисы в .NET Core
Микросервисы в .NET CoreМикросервисы в .NET Core
Микросервисы в .NET CoreAndrew Gubskiy
 
Hivext – облачная платформа для быстрой разработки интернет приложений
Hivext – облачная платформа для быстрой разработки  интернет приложений Hivext – облачная платформа для быстрой разработки  интернет приложений
Hivext – облачная платформа для быстрой разработки интернет приложений guest800050
 
AiCare - самоорганизующийся сервис управления
AiCare - самоорганизующийся сервис управленияAiCare - самоорганизующийся сервис управления
AiCare - самоорганизующийся сервис управленияКварта Технологии
 
Informatica Пронет (v.0.3)
Informatica   Пронет (v.0.3)Informatica   Пронет (v.0.3)
Informatica Пронет (v.0.3)Natasha Zaverukha
 
Терминология PI System
Терминология PI SystemТерминология PI System
Терминология PI SystemElizaveta Fateeva
 
Lviv PMDay 2016 S Микита Семенов: Як привести великий проект до успіху? Від і...
Lviv PMDay 2016 S Микита Семенов: Як привести великий проект до успіху? Від і...Lviv PMDay 2016 S Микита Семенов: Як привести великий проект до успіху? Від і...
Lviv PMDay 2016 S Микита Семенов: Як привести великий проект до успіху? Від і...Lviv Startup Club
 
Построение ИТ инфраструктуры организации на платформе Майкрософт 23.07.2010
Построение ИТ инфраструктуры организации на платформе Майкрософт 23.07.2010Построение ИТ инфраструктуры организации на платформе Майкрософт 23.07.2010
Построение ИТ инфраструктуры организации на платформе Майкрософт 23.07.2010ebuc
 
IForum 2016: Никита Семенов. Серьезный подход к серьезным проектам
IForum 2016: Никита Семенов. Серьезный подход к серьезным проектамIForum 2016: Никита Семенов. Серьезный подход к серьезным проектам
IForum 2016: Никита Семенов. Серьезный подход к серьезным проектамSECL
 
Услуги разработки программного обеспечения под заказ. Step integrator
Услуги разработки программного обеспечения под заказ. Step integratorУслуги разработки программного обеспечения под заказ. Step integrator
Услуги разработки программного обеспечения под заказ. Step integratorSvyatoslav Tkachev
 
Василий Суханов — SAP — ICBDA 2015
Василий Суханов — SAP — ICBDA 2015Василий Суханов — SAP — ICBDA 2015
Василий Суханов — SAP — ICBDA 2015rusbase
 
Oracle Big Data proposition
Oracle Big Data propositionOracle Big Data proposition
Oracle Big Data propositionAndrey Akulov
 
Решения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТ
Решения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТРешения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТ
Решения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТYuri Yashkin
 
Проверено и работает. Инструменты Oracle для разработки веб приложений
Проверено и работает. Инструменты Oracle для разработки веб приложенийПроверено и работает. Инструменты Oracle для разработки веб приложений
Проверено и работает. Инструменты Oracle для разработки веб приложенийMedia Gorod
 
Splunk overview Russian
Splunk overview RussianSplunk overview Russian
Splunk overview RussianTimur Bagirov
 

Ähnlich wie 4CIO.ppt (20)

Clever_data_splunk_overview_rus
Clever_data_splunk_overview_rusClever_data_splunk_overview_rus
Clever_data_splunk_overview_rus
 
ATK_BiView - инструмент эффективной интеграции 1С и Qlik
ATK_BiView - инструмент эффективной интеграции 1С и QlikATK_BiView - инструмент эффективной интеграции 1С и Qlik
ATK_BiView - инструмент эффективной интеграции 1С и Qlik
 
Инфостарт. Новые возможности 1С 8.3
Инфостарт. Новые возможности 1С 8.3Инфостарт. Новые возможности 1С 8.3
Инфостарт. Новые возможности 1С 8.3
 
Решения Oracle для Big Data
Решения Oracle для Big DataРешения Oracle для Big Data
Решения Oracle для Big Data
 
Микросервисы в .NET Core
Микросервисы в .NET CoreМикросервисы в .NET Core
Микросервисы в .NET Core
 
Hivext 04.2010
Hivext 04.2010Hivext 04.2010
Hivext 04.2010
 
Hivext – облачная платформа для быстрой разработки интернет приложений
Hivext – облачная платформа для быстрой разработки  интернет приложений Hivext – облачная платформа для быстрой разработки  интернет приложений
Hivext – облачная платформа для быстрой разработки интернет приложений
 
AiCare - self-organizing device management service
AiCare - self-organizing device management serviceAiCare - self-organizing device management service
AiCare - self-organizing device management service
 
AiCare - самоорганизующийся сервис управления
AiCare - самоорганизующийся сервис управленияAiCare - самоорганизующийся сервис управления
AiCare - самоорганизующийся сервис управления
 
Informatica Пронет (v.0.3)
Informatica   Пронет (v.0.3)Informatica   Пронет (v.0.3)
Informatica Пронет (v.0.3)
 
Терминология PI System
Терминология PI SystemТерминология PI System
Терминология PI System
 
Lviv PMDay 2016 S Микита Семенов: Як привести великий проект до успіху? Від і...
Lviv PMDay 2016 S Микита Семенов: Як привести великий проект до успіху? Від і...Lviv PMDay 2016 S Микита Семенов: Як привести великий проект до успіху? Від і...
Lviv PMDay 2016 S Микита Семенов: Як привести великий проект до успіху? Від і...
 
Построение ИТ инфраструктуры организации на платформе Майкрософт 23.07.2010
Построение ИТ инфраструктуры организации на платформе Майкрософт 23.07.2010Построение ИТ инфраструктуры организации на платформе Майкрософт 23.07.2010
Построение ИТ инфраструктуры организации на платформе Майкрософт 23.07.2010
 
IForum 2016: Никита Семенов. Серьезный подход к серьезным проектам
IForum 2016: Никита Семенов. Серьезный подход к серьезным проектамIForum 2016: Никита Семенов. Серьезный подход к серьезным проектам
IForum 2016: Никита Семенов. Серьезный подход к серьезным проектам
 
Услуги разработки программного обеспечения под заказ. Step integrator
Услуги разработки программного обеспечения под заказ. Step integratorУслуги разработки программного обеспечения под заказ. Step integrator
Услуги разработки программного обеспечения под заказ. Step integrator
 
Василий Суханов — SAP — ICBDA 2015
Василий Суханов — SAP — ICBDA 2015Василий Суханов — SAP — ICBDA 2015
Василий Суханов — SAP — ICBDA 2015
 
Oracle Big Data proposition
Oracle Big Data propositionOracle Big Data proposition
Oracle Big Data proposition
 
Решения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТ
Решения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТРешения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТ
Решения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТ
 
Проверено и работает. Инструменты Oracle для разработки веб приложений
Проверено и работает. Инструменты Oracle для разработки веб приложенийПроверено и работает. Инструменты Oracle для разработки веб приложений
Проверено и работает. Инструменты Oracle для разработки веб приложений
 
Splunk overview Russian
Splunk overview RussianSplunk overview Russian
Splunk overview Russian
 

4CIO.ppt

  • 1. EC-лизинг Б.А. Позин д.т.н., профессор Технический директор ЗАО «ЕС-лизинг» Большие данные – горячая тема, потому что технологии сделали возможным анализ ВСЕХ доступных данных при подготовке принятия решений
  • 3. EC-лизинг Какие объемы данных нужны для поддержки принятия решений? 3 User Generated Content* 1,234 Exabytes Enterprise Touch Content** 1,530 Exabytes Size of Digital Universe in 2011 1,773 Exabytes **Transported, Hosted, Managed or Secured **Consumers and Workers Creating, Capturing or Replicating Personal Information Overlap -1,000 Exabytes User Creation: Enterprise Worries Эксабайт = 260 =1018 байт = 1024 Петабайт
  • 4. EC-лизинг Сколько информации мы теряем? 4 1,800 1,600 1,400 1,200 1,000 0,800 0,600 0,400 0,200 2005 2006 2007 2008 2009 2010 2011 Exabytes Available Storage Information Created Available Storage, 2007 Tape 21% Disk 56% Optical 22% Other 1% 264 EB Information Creation and Available Storage
  • 5. EC-лизинг 5 Изменение парадигмы ИТ Структурирует данные для ответа на вопрос ИТ Обеспечивает платформу для креативного анализа Бизнес Исследует что можно спросить Бизнес Определяет что спросить Месячная отчетность Анализ прибыльности Анализ анкет Отношение к бренду Стратегия продуктов Оптимизация ресурсов Большие данные Итеративность и исследование Традиционный подход Структурный и повторяемый анализ Запомнил - обработал Обработал - запомнил Ограничение: память Ограничение: производительность
  • 6. EC-лизинг Стуктурирован- ные данные Неструктурированны е данные Потоковые данные Подключение любого типа данных с помощью оптимизированных коннекторов и возможности интеграции информации Платформа Big Data Технология IBM Big Data сделала возможным анализ ВСЕХ доступных данных
  • 7. EC-лизинг ERP CRM RFID Website Network Switches Social Media Billing 7 Эффективно управлять и анализировать все доступные данные в их первозданном виде
  • 8. EC-лизинг Постановка задачи 8 Технология должна обеспечивать Создание из «конструктора» функционально полных прикладных информационно-аналитических систем для исследования больших объемов данных при поддержке принятия решений силами коллективов специалистов в предметной области – аналитиков при поддержке ИТ-специалистов по инструментам Для этого необходимо  «Конструктор» - набор высококачественных инструментов для создания приложений по аналитической обработке больших объемов информации в различных областях знаний  Возможность создания информационно-аналитических систем в короткие сроки и в пределах бюджета  Возможность развития «Конструктора» в процессе накопления опыта и знаний, развития методов анализа и синтеза  Возможность накопления знаний и их повторного использования  Переносимость инструментальных средств в пределах широкого класса платформ
  • 10. EC-лизинг Технология Big Data  Первый шаг очень важен  Успех в каждом разделе поддержан продуктами платформы  Позволяет построить основу для будущих потребностей и проектов 10
  • 11. EC-лизинг Платформа IBM Big Data Управление системами Разработка приложений Визуализация &исследование Акселераторы разработки Интеграция информации & Управление Hadoop System Stream Computing Data Warehouse BI / Reporting BI / Отчетность Исследование/ Визуализация Ф ункциональны е приложения П ром ы ш ленны е приложения П р о г н о з и р у ю щ а я а н а л и т и к а А н а л и т и к а с о д е р ж а н и я Аналитические приложения Платформа IBM Big Data Управление системами Разработка приложений Визуализация &исследование Hadoop System Stream Computing Data Warehouse Интеграция информации & Управление Ускорители BI / Reporting BI / Отчетность Исследование/ Визуализация Ф ункциональны е приложения П ром ы ш ленны е приложения П р о г н о з и р у ю щ а я а н а л и т и к а А н а л и т и к а с о д е р ж а н и я Аналитические приложения Платформа IBM Big Data Управление системами Разработка приложений Визуализация &исследование Hadoop System Stream Computing Data Warehouse Интеграция информации & Управление Ускорители «Конструктор»: продукты платформы Big Data 2 – Анализ «сырых» данных InfoSphere BigInsights 5 – Анализ потоковых данных InfoSphere Streams 1 – Найти и получить доступ к большим данным IBM Data Explorer 3 – Упрощение хранилища Netezza 4 – Сокращение затрат с помощью Hadoop InfoSphere BigInsights 11
  • 12. EC-лизинг  IBM Big Data platform – InfoSphere Streams – InfoSphere BigInsights – InfoSphere Data Explorer – PureData for Analytics (Netezza)  Акселераторы – Анализ текстов – Акустика – Гео-данные – Видео – Интеллектуальный анализ – Предсказательные модели – Статистика 12 Технологии IBM для использования в проектах Big Data  Аналитические пакеты – IBM Cognos – IBM SPSS  Интеграция данных – IBM InfoSphere Information Server – IBM Change Data Capture  Мастер-данные – IBM InfoSphere Master Data Management Server  Защита баз данных – InfoSphere Guardium
  • 13. EC-лизинг Streams Big Ins DE NZ Декларативные языки Готовые средства разработки Инструменты Языки программирования 3-го поколения: Java, C/C++, Python, Perl Коннекторы SPSS (Декларат ивный язык PMML) Cognos BI Общая схема компонентов платформы Big Data
  • 14. EC-лизинг Инструменты Streams Обработка потоковой информации Декларативный язык: Stream Processing Language (SPL) Готовые средства разработки (акселераторы разработки): Анализ текстов Телекоммуникационные данные Гео-данные Видео Интеллектуальный анализ Предсказательные модели Статистика Анализ машинных журналов (СПО) Анализ данных из сетей (СПО) Инструменты: Standard Toolkit Internet Toolkit Database Toolkit Financial Toolkit Data Mining Toolkit Big Data toolkit Text Toolkit Языки программирования 3-го поколения: Java, C/C++, Python, Perl, JavaScript, Ruby и т.д. Streams Коннекторы: Netezza Connector Hadoop Connector
  • 15. EC-лизинг Декларативный язык SPL - графическая среда разработки Streams-приложений  Создание приложений с помощью «перетаскивания» операторов  Палитра готовых операторов  Графика и исходный код на SPL автоматически синхронизируются
  • 16. EC-лизинг Инструменты BigInsights Анализ «сырых» данных и сокращение затрат на хранение Декларативные языки: Annotation Query Language (AQL), JaQL (Query Language for JSON (JavaScript Object Notation)), Pig Latin, HiveQL, R Средства и инструменты обработки: Flume Hive Lucene Zookeeper Avro HBase HCatalog Sqoop Oozie Языки программирования 3-го поколения: Java, C/C++ BigInsights Коннекторы: Netezza Connector Streams Connector
  • 17. EC-лизинг Инструменты Data Explorer Средство визуализации, исследования данных и обработки текстов Декларативные языки: не используются Средства разработки и обработки : Application Builder Search Engine Data Explorer Коннекторы: Framework Connector (30 источников, включая Streams и BigInsights) Mature Connector
  • 18. EC-лизинг Инструменты Pure Data (Netezza) Повышение скорости анализа и качества структурированных данных Декларативные языки: SQL, nz/PLSQL Pure Data (Netezza) Коннекторы: Hadoop Connector Streams Connector Языки программирования 3-го поколения: Java, C / C++, FORTRAN, nzLua, Python, Ruby, JavaScript, Perl, и тд. Библиотеки: ESRI/OpenGIS nzMatrix
  • 19. EC-лизинг Центр компетенции по IBM Big Data Совместный центр компетенции ЕС-лизинг, IBM и Банка России Целью создания Центра Компетенции явилась необходимость обеспечения освоения технологии IBM Big Data специалистами Банка России и организациями банковского сектора, с использованием возможностей стендового оборудования, программного обеспечения и специалистов ЕС- лизинг при поддержке IBM по планам, согласованным с организациями – потенциальными заказчиками и на основе постановок задач, формируемых заказчиками Основные задачи Центра • Освоение инструментальных средств IBM Big Data • Освоение декларативных языков и методик программирования реальных задач на этих языках • Создание учебных курсов для освоения платформы IBM Big Data Приглашаем заинтересованные организации к сотрудничеству
  • 20. EC-лизинг Оснащение Центра Компетенции 20 Все программные продукты платформы IBM Big Data
  • 22. EC-лизинг Назначение инструментов Streams Декларативные языки Stream Processing Language (SPL) Используется для разработки приложений обработки потоковых данных Языки программирования 3-го поколения Java, C / C++, Python, Ruby, JavaScript, Perl, и тд. Используются в Streams для программирования операторов. Язык должен уметь работать со стандартным вводом/выводом Коннекторы Netezza Connector Позволяет писать и читать данные из Netezza Hadoop Connector Позволяет писать и читать данные из Hadoop Акселераторы разработки Анализ текстов Набор инструментальных средств, которые могут быть использованы для ускорения разработки Заказчиком задач анализа данных разных типов в том виде, в котором они поступают за счет встроенных алгоритмов обработки информации Телекоммуникационные данные Гео-данные Видео Интеллектуальный анализ Предсказательные модели Статистика Анализ машинных журналов Анализ данных из сетей - Свободное ПО - Дополнительное ПО - ПО в составе поставки
  • 23. EC-лизинг Назначение инструментов Streams Toolkits Standard Toolkit Стандартный набор операторов, который поставляется вместе со Streams Internet Toolkit Оператор для извлечения данных из URL источника. Поддерживаемые типы источника HTTP, HTTPS, HTTP через RSS, RSS через HTTPS, FTP, FTPS, и файл Database Toolkit Набор операторов SPL, которые позволяют легко интегрировать с внешними системами данных Financial Toolkit Набор финансовых адаптеров для упрощения интеграции Streams c обычно используемыми протоколами и технологиями в финансовой сфере Data Mining Toolkit Содержит алгоритмы интеллектуального анализа данных. Алгоритмы используют стандарт PMML Big Data toolkit Набор адаптеров, который позволяет взаимодействовать (читать и писать) операторам Streams с HDFS Text Toolkit Содержит оператор для запуска AQL запросов по текстовому документу и плагины для развития AQL запросов - Свободное ПО - Дополнительное ПО - ПО в составе поставки
  • 24. EC-лизинг Назначение инструментов BigInsights Декларативные языки Annotation Query Language (AQL) Язык, который используется для обработки неструктурированного теста JaQL (Query Language for JSON (JavaScript Object Notation) ) Функциональный язык запросов для выполнения функций фильтрации, объединения и группировки JSON-данных. Можно создавать пользовательские функции для использования в исполняемых выражениях Pig Latin Язык платформы Pig для создания MapReduce приложений. HiveQL Язык, который используется в Hadoop в качестве языка запросов R Язык, который используется для статистической обработки данных (статистического анализа) Коннекторы Netezza Connector Позволяет писать и читать данные из Netezza Streams Connector Позволяет писать и читать данные из Streams Языки программирования 3-го поколения Java, C / C++ Используется в BigInsights для создания приложений - Свободное ПО - Дополнительное ПО - ПО в составе поставки
  • 25. EC-лизинг Назначение инструментов BigInsights Средства и инструменты обработки Flume Средство, которое позволяет собирать данные с удаленных компьютеров Hive Средство, реализующее операции извлечения-преобразования-загрузки (ETL) в дополнение к анализу больших наборов данных, хранящихся в Распределенной Файловой Системе Hadoop (HDFS). Оно позволяет преобразовывать SQL-запросы в язык запросов JaQL и исполнять MapReduce-процедуры. InfoSphere BigInsights включает JDBC-драйвера, которые можно использовать для программирования с Hive и для подключения к программному обеспечению Cognos Business Intelligence Lucene Это Jaql модуль, который позволяет создавать, сканировать и запрашивать Lucene индексы Zookeeper Это централизованная служба Apache для сохранения информации о конфигурации, наименования, обеспечение распределенной синхронизации, а также предоставление группы услуг Avro Это фреймворк для сериализации и десереализации данных. HBase Приложение HBase позволяет экспортировать строки данных из таблицы HBase через консоль InfoSphere BigInsights HCatalog Служба управления хранение данных в Hadoop Sqoop Используется для перемещения данных между BigInsights InfoSphere распределенной файловой системы и реляционными системами управления базами данных Oozie Менеджер управления задач Apache Hadoop - Свободное ПО - Дополнительное ПО - ПО в составе поставки
  • 26. EC-лизинг Назначение инструментов Data Explorer Средства обработки и разработки Application Builder Средство, которое позволяет строить настраиваемые веб-панели, предоставляющие пользователям интерфейс к источникам, которые Data Explorer может сканировать и индексировать Search Engine Средство, которое производит обработку информации (извлечение, индексацию, конвертацию) Коннекторы Connector Framework Поддерживает более 30 часто используемых источников данных, включая CRM системы, архивы электронных почт, а также Streams и BigInsights. Mature Connector Используется для создания дополнительных коннекторов к собственным источникам данных. - Свободное ПО - Дополнительное ПО - ПО в составе поставки
  • 27. EC-лизинг Назначение инструментов Pure Data (Netezza) Декларативные языки SQL, nz/PLSQL Используется для написания запросов для работы и администрирования Netezza Языки программирования 3-го поколения Java, C / C++, FORTRAN, nzLua, Python, Ruby, JavaScript, Perl, и тд. Эти языки являются частью IBM NETEZZA ANALYTICS. Назначение этого инструмента - дать возможность разработчикам расширить набор функций и средств для обработки данных в Netezza. Библиотеки ESRI/OpenGIS Библиотека предназначена упростить задачи, связанные с геопространственным анализом. nzMatrix Библиотека предназначена упростить задачи, связанные с работой с матрицами Коннекторы Streams Connector Позволяет писать и читать данные из Streams Hadoop Connector Позволяет писать и читать данные из Hadoop - Свободное ПО - Дополнительное ПО - ПО в составе поставки