SlideShare ist ein Scribd-Unternehmen logo
1 von 47
Downloaden Sie, um offline zu lesen
© 2015 IBM Corporation
Большие данные в понимании IBM
Андрей Орлов, Технический эксперт IBM Analytics R/CIS
© 2015 IBM Corporation2
Масштаб Много форм Потоки данных Доверие
Большие данные – все данные
Объем Разнообразие Скорость Достоверность
© 2015 IBM Corporation3
Данные в центре персональной аналитики
Данные поведения
• Покупки
• Поездки
• История платежей
• История коммуникаций
Данные описания
•Атрибуты
•Характеристики
•Данные, сообщенные о себе
•(Гео)демография
Данные об отношении
•Социологические исследования
•Социальные сети
Данные взаимодействий
•E-Mail / chat расшифровки
•Заметки из колл центра
•Поведение в веб
•Личные контакты
Традиционный подход
Динамический подход
- источник полноты знания
Почему?
Что?
Как?
Кто?
© 2015 IBM Corporation4
Некоторые данные доступнее чем
кажется!
© 2015 IBM Corporation5
Сегодня давление со стороны социума намного
сильнее…
4 из 10
Обладателей
смартфонов проверяют
информацию налету
86%
Используют
много каналов
взаимодействия
в 4-5 раз
Тратится больше теми,
кто использует несколько
каналов взаимодействия
78%
Людей доверяют
мнению других людей
58%
Более
осведомлены о
конкурентных ценах
чем год назад
75%
Не верят что в
рекламе
говорят правду
80%
CEO считают что
оказывают
превосходные
услуги
8%
Их
клиентов с
этим
согласны
Source: Sources of statistics [from “Smarter Commerce Stats and Facts Feb 3 2012.ppt]
© 2015 IBM Corporation6
Необходима новая архитектура работы с данными
Интеграция и управление данными
Systems Security
On premise, Cloud, As a service
Storage
Новые/расширенные
приложенияВсе данные
Что
предпринять
?
Предписание
действий
Зона хранения,
исследования,
архивы
данных
КХД и
витрины
Зона
оперативных
данных
Обработка и анализ данных
в реальном времени
Что
происходит?
Исследование
Почему?
Отчетность,
анализ
контента
Что может
произойти?
Предсказание
и
моделировани
е
Зона
сложной
аналитики Что мы
узнали,
что
лучше?
Cognitive
© 2015 IBM Corporation7
Использование различных видов аналитики
улучшает понимание
Что мы
узнали,
что лучше?
Cognitive
Что
предпринять?
Предписание
действий
Почему?
Отчетность, анализ
контента
Что может
произойти?
Предсказание и
моделирование
Что
происходит?
Исследование
Давать
правильные
ответы
© 2015 IBM Corporation8
Зона
хранения,
исследования,
архивы
данных
Зона
оперативных
данных
Обработка и анализ данных
в реальном времени
Транзакции и
данные
приложений
Машинные,
сенсорные
Корпоративный
контент
Изображения,
геоданные, видео
Социальные сети
Данные внешних
поставщиков
Интеграция и управление данными
Зона
сложной
аналитики
КХД и
витрины
Работа со всеми видами данных
Сохраненные и
потоковые
данные
Структурированные и
неструктурированные
Внутренние и
внешние по
отношению к
организации
© 2015 IBM Corporation9
Прибыль
Время
Эффект от клиентской аналитики
Привлечение
Эффективное привлечение
новых клиентов
Восстановление
ценных клиентов
Развитие
отношений Удержание Возврат
Увеличение кросс
продаж
Эффективное
удержание
прибыльных клиентов
© 2015 IBM Corporation10
Смещение парадигм работы с данными
Больше данных
© 2015 IBM Corporation11
Технологии IBM для работы с большими
данными
InfoSphere Streams
Постоянная обработка и
анализ быстро поступающих
клиентских данных
Мгновенная реакция на
события на основе аналитики
InfoSphere BigInsights
Hadoop для предприятия
Зона хранения данных
Низкая стоимость хранения
Аналитическое исследование
данных
Watson Explorer
Поиск и навигация по
клиентской информации вне
зависимости от формата
данных и места хранения
Унифицированное
представление вместе с
аналитикой
PureData for Analytics и
InfoSphere Warehouse
Анализ оперативной
клиентской информации
Information Integration &
Governance
Обеспечение целостности и
точности данных
© 2015 IBM Corporation
IBM InfoSphere BigInsights
Андрей Орлов, Технический эксперт IBM Analytics R/CIS
© 2015 IBM Corporation13
IBM BigInsights for Hadoop: 100% Open Source
Hadoop, и все что нужно для предприятия
HDFS
Oozie
YARN
MapReduce
Jaql
Spark
HBase
Zookeeper
Avro
Flume
Hive
Pig
Sqoop
HCatalog
Solr/Lucene
100% Standard Apache Open-Source компоненты
SQL on Hadoop
Big SQL – optimized ANSI compliant SQL
Шаблоны приложений
Toolkits and accelerators
Поиск
BigIndex and Data Explorer
Исследование данных
BigSheets “schema-on-read”
Предиктивное моделирование
Big R – scalable data mining
Анализ текстов
Advanced text processing with AQL
Аналитика реального времени
InfoSphere Streams
Управление данными и
безопасность
Data Click, LDAP, Secure cluster
Интеграция с системами хранения
GPFS - POSIX Distributed Filesystem
Производительность и
надёжность
Adaptive MapReduce, Recoverable jobs
Дополнительные возможности
© 2015 IBM Corporation14
Поддержка Open Source
Не нужно больше больших
загрузок образов
Загрузка небольшого пакета и
последующая загрузка только
необходимых компонентов
Component
Name
Version
Ambari 1.7.0
Avro 1.7.7
Flume 1.5.2
Hadoop 2.6
HBase 0.98.8
Hive 0.14.0
Knox 0.5.0
Oozie 4.0.1
Pig 0.14.0
Parquet (hadoop) 1.5.0
Parquet (format) 2.1.0
Spark 1.2.1
Snappy 1.0.5
Sqoop 1.4.5
Solr 4.10.3
Slider 0.6.0
Zookeeper 3.4.5
Мы будем поддерживать
актуальность в каждом
новом релизе
© 2015 IBM Corporation15
Возможности для специалистов
Business Analyst Data Scientist Administrator
• Выявление
шаблонов,
трендов,
результаты
алгоритмов
машинного
обучения
• Статистические
модели на
больших объемах
данных
• Выявление данных
для анализа
• Визуализация
данных для действий
• Использование
существующих
навыков (SQL,
spreadsheets)
• Управление
нагрузкой и
обеспечение уровня
производительности
• Реализация политик
безопасности для
снижения рисков
РольПотребность
© 2015 IBM Corporation16
Редакции BigInsights
Text Analytics
POSIX Distributed
Filesystem
Multi-workload, Multi-tenant
scheduling
IBM BigInsights
Enterprise Management
Machine Learning on
Big R
Big R
IBM Open Platform with Apache Hadoop*
IBM BigInsights
Data Scientist
IBM BigInsights
Analyst
Big SQL
BigSheets
Big SQL
BigSheets
IBM BigInsights for Apache Hadoop
*IBM Open Platform with Apache Hadoop is our own 100% open source Apache
Hadoop distribution. IBM will include the ODP common kernel once available (future).
© 2015 IBM Corporation17
Big SQL
 Что такое Big SQL?
 Интерфейс для SQL запросов к данным Hadoop BigInsights
 Новый движок SQL запросов, основанный на более чем 40-летнем опыте разработки
СУБД компании IBM, включающий параллелизм и оптимизацию выполнения
запросов
 Для чего можно использовать Big SQL
 Упрощенный переход на Hadoop для разработчиков со знанием SQL
 Поддержка существующих инструментов и приложений, использующих JDBC&ODBC
 Основной функционал
 Создание таблиц и представлений. Данные при этом хранятся в HDFS и Hbase
 Загрузка данных в таблицы из сторонних СУБД и файлов
 Широкий язык запросов (project, restrict, join, union, все виды подзапросов, множество
встроенных функций, поддержка UDFs, . . . . )
 Настройка привилегий и ролей для доступа к данным, маскировка столбцов,
контроль доступа к строкам таблицы (RLS)
 Объединение данных из сторонних СУБД и Hadoop внутри 1 запроса
 Статистика и отображение плана доступа к данным
. . . .
© 2015 IBM Corporation18
Big Sheets: табличный инструмент
 Веб-инструмент анализа
 Визуализация
– Облако тегов, гео карты,
тепловые карты,
многоразмерные диаграммы,
D3-чарты
 Табличный интерфейс
– Создание и управление
заданий работы с данными
– Анализ содержания текста на
загруженных страницах
страницах
– Интеграция с Big SQL
– Более 40 функций
преобразований
© 2015 IBM Corporation19
Клиент R
Scalabl
e
Statisti
cs
Engine
Data Sources
Встроенное
исполнение R
R Packages
R Packages
1
2
3
1. Исследование, визуализация,
трансформация и
моделирование при помощи
знакомого синтаксиса и
парадигмы R
2. Масштабирование R
• Разделение большого объема
данных (“разделяй”)
• Параллельное исполнение кода
R на класторе (“conquer”)
• Все что вне окружения R (Jaql,
Map/Reduce) скрыто от глаз
• Практически любой R пакет
может быть использован в
разработке
3. Масштабируемое машинное
обучение
Часть данных
в R клиенте
Или
выполнение
функций прямо
на данных
Big R: Исполнение R кода на Hadoop
© 2015 IBM Corporation
IBM InfoSphere Streams
Андрей Орлов, Технический эксперт IBM Analytics R/CIS
© 2015 IBM Corporation21
Объем
Терабайты в секунду
Петабайты в день
Разнообразие
Любой тип данный
Любой вид аналитики
Скорость
Обработка за
микросекунды
Платформа аналитики в реальном времени
Сложность Big Data - Скорость
Миллионы
событий в
секунду
Задержка
составляет
микросекунды
Традиционные и не традиционные
источники данных
Решение в
реальном времени
Мощная
аналитика
Algo
Trading
Telco churn
predict
Smart
Grid
Cyber
Security
Government /
Law enforcement
ICU
Monitoring
Environment
Monitoring
© 2015 IBM Corporation22
22
Где применяется Streams?
Фондовые
рынки
Влияние факторов на
ценность бумаг
Анализ рыночных
данных с ультра
низкими задержками
Предотвращение
мошенничества
Обнаружение и
предотвращение
мошенничества
Наука
Прогнозирование погоды
Атомные исследования
Транспорт
Интеллектуальное
управление трафиком
Энергетика
Разумный контроль
Природные ресурсы
Управление водными ресурсами
Другое
Мануфактура
Текстовый анализ
Ситуационное осведомление
Видеонаблюдение
Правопорядок и
кибербезопасность
Здравоохранение
Мониторинг
здоровья
новорожденных
Предупреждение
развития эпидемий
Телекоммуникации
Обработка CDR
Социальный анализ
Прогноз оттока
Геопозиционирование
© 2015 IBM Corporation23
23
Как работает Streams
directory:
”/img"
filename:
“farm”
directory:
”/img"
filename:
“bird”
directory:
”/opt"
filename:
“java”
directory:
”/img"
filename:
“cat”
tuple
height:
640
width:
480
data:
height:
1280
width:
1024
data:
height:
640
width:
480
data:
© 2015 IBM Corporation24
Пару слов о Streams и Storm
© 2015 IBM Corporation25
© 2015 IBM Corporation
Expert Integrated Systems
Андрей Орлов, Технический эксперт IBM Analytics R/CIS
© 2015 IBM Corporation27
Экспертно интегрированные системы:
Системы с интегрированной
экспертизой которые сочетают гибкость
систем общего назначения, эластичность
облака и простоту, оптимизированные под
определенные задачи
Фундаментальное изменение
экономики и опыта
использования ИТ
Пришло время нового поколения систем
Полная интеграция: Тесная интеграция и тщательная настройка
аппаратных и программных средств
Встроенная экспертиза: Формализация и автоматизация работы
экспертов
Упрощение всех задач: Облегчение каждого этапа ИТ цикла и
интегрированное управление всей системой
© 2015 IBM Corporation28
Семейство IBM PureSystems обеспечивает простоту,
скорость и низкие затраты
Экспертно
интегрированная
система
Компоненты общего
назначения
Система под
задачи организации
Проблема сегодня: Время и усилия тратятся на настройку компонентов общего
назначения
Решение PureSystems: Упрощение всего цикла ИТ проекта
Сокращение времени, затрат,
снижение рисков
Проектирование/Разверты
вание
Управление/Подде
ржка
© 2015 IBM Corporation29
Архитектура комплекса IBM Netezza
Сервер
CACHE
SQL
DATA
Source
Systems
Client
High
Performance
Loader
3rd Party
Apps
DBA CLI
ETL Server
SOLARIS
LINUX
HP-UX
AIX
WINDOWS
TRU64
SQL Данные
СХД
CACHE
СУБД
CACHE
I/O I/O
© 2015 IBM Corporation30
Архитектура комплекса IBM Netezza
Source
Systems
Client
High
Performance
Loader
3rd Party
Apps
DBA CLI
ETL Server
SOLARIS
LINUX
HP-UX
AIX
WINDOWS
TRU64
ODBC 3.X
JDBC Type 4
SQL-92
SQL-99
Analytics
СУБД, СХД, сервер – всё в одном
СХД
CACHE
Сервер
CACHE
СУБД
CACHE
I/O I/O
© 2015 IBM Corporation31
Наш секретный соус
FPGA Core CPU Core
Декомпрессия Фильтрация
колонок
Фильтрация,
Видимость
транзакц
Complex ∑
Joins, Aggs, etc.
select DISTRICT,
PRODUCTGRP,
sum(NRX)
from MTHLY_RX_TERR_DATA
where MONTH = '20091201'
and MARKET = 509123
and SPECIALTY = 'GASTRO'
Срез данных таблицы
MTHLY_RX_TERR_DATA
(сжатые данные)
where MONTH = '20091201'
and MARKET = 509123
and SPECIALTY = 'GASTRO'
sum(NRX)
select DISTRICT,
PRODUCTGRP,
sum(NRX)
© 2015 IBM Corporation32
Варианты PureData System for
Analytics N3001
Спецификация N3001-002 N3001-005 N3001-010 N3001-020 N3001-040
Стоек 1 (1/4 стойки) 1 (1/2 стойки) 1 2 4
S-Blades 2 4 7 14 28
Пользовательские
данные (TB) *
32 96 192 384 768
• Учитывая среднее сжатие 4x
Single rack systems Multiple rack systems
Линейное масштабирование
© 2015 IBM Corporation33
Новые модель семейства PureData for Analytics
Data Warehouse Appliance
Встроенная In-Database
аналитика и интеграция с
большим количеством внешних
систем Real-time Analytics
InfoSphere Streams Developer Edition
2 users, non-production licenses
Business Intelligence
Cognos, 5 Analytics User licenses +
1 Analytics Administrator license
Hadoop Data Services
InfoSphere BigInsights Software licenses
to manage ~100 TB of Hadoop data
Уже в составе PureData System for Analytics N3001-001
Индустриальные модели данных
Models for Banking, Financial Markets,
Healthcare, Insurance, Retail, Telco
Можно
приобрести
• Новая модель
и специальная
цена для
средних
организаций
Data Integration & Transformation
InfoSphere DataStage 280 PVUs,
2 concurrent Designer Client licenses and
InfoSphere Data Click
IBM InfoSphere Data Privacy and
Security for Data Warehousing
© 2015 IBM Corporation34
Концепция BigData … и ее место в общем стеке
IBM Information management
InfoSphere BigInsights
Решения, основанные на HADOOP
Pure Data
BI + Ad Hoc аналитика
структурированных
данных
InfoSphere Warehouse
Структурированные данные
больших объемов
InfoSphere Streams
Аналитика потоковых
данных в реальном времени
MPP Data Warehouse
Stream ComputingInformation Integration
Hadoop (NoSQL)
InfoSphere Information Server
Интеграция больших объемов
информации
© 2015 IBM Corporation
Watson family
Андрей Орлов, Технический эксперт IBM Analytics R/CIS
© 2015 IBM Corporation36
Watson Explorer V10 – новый уровень
исследования данных
• Анализ, визуализация и
выделение знаний из
неструктурированного
контента с помощью
текстовой аналитики
• Исследование и
визуализация информации
из внутренних и внешних
источников, легкое создание
приложений
• Интерпретация информации с
помощью познавательных
способностей облачной
платформы Watson
Watson Explorer
Watson Content
Analytics
Watson Developer Cloud
Watson Explorer V10
Now part of Watson Explorer Advanced Edition
© 2015 IBM Corporation37
IBM Watson Analytics
37
Диалог с
системой
Гибкость облачной среды
Исследование
данных
Быстрый старт
Понятный интерфейс
Доступно для
мобильных
устройств
© 2015 IBM Corporation38
IBM Watson Analytics
38
Связывание
элементов в
историю
Интеллект
без
настройки
Доступ и
очистка данных
Отчеты и
информационные
панели
Взаимодействие
Подсказки в
исследовании
© 2015 IBM Corporation
Сценарии
Андрей Орлов, Технический эксперт IBM Analytics R/CIS
© 2015 IBM Corporation40
Новый взгляд на клиента
Расширение текущих систем
(MDM, CRM, …) за счет
подключения дополнительных
внутренних и внешних источников
информации
Анализ операций
Анализ разнообразных машинных
данных для улучшения бизнес
результатов
Расширение хранилища данных
Интеграция больших данных и
традиционных хранилищ для повышения
эффективности
Новые уровни
безопасности
Снижение риска, обнаружение
мошенничества и мониторинг
кибер-угроз в реальном времени
Ключевые сценарии
© 2015 IBM Corporation41
Новый взгляд на клиента: потребности
Потребность глубже
понимать настроение
клиента по данным из
внешних и внутренних
источников
Расширение текущих систем
(MDM, CRM, …) за счет подключения
дополнительных внутренних и внешних
источников информации
Желание повысить
лояльность и
удовлетворенность
за счет понимания
какие действия
нужно предпринять
Разрешение
проблемы доставки
нужной информации
правильным людям
для предоставления
клиентам того, чего
они хотят
© 2015 IBM Corporation42
Новый взгляд на клиента – все доступные источники
Master
Data
Management
Unified View of Party’s Information
CRM
J Robertson
Pittsburgh, PA 15213
35 West 15th
Name:
Address:
Address:
ERP
Janet Robertson
Pittsburgh, PA 15213
35 West 15th St.
Name:
Address:
Address:
Legacy
Jan Robertson
Pittsburgh, PA 15213
36 West 15th St.
Name:
Address:
Address:
SOURCE SYSTEMS
Janet
35 West 15th St
Pittsburgh
Robertson
PA / 15213
F
48
1/4/64
First:
Last:
Address:
City:
State/Zip:
Gender:
Age:
DOB:
360 View of
Party Identity
BigInsights Streams Warehouse
Унифицированный взгляд на клиента
© 2015 IBM Corporation43
Анализ операций: потребности
• В реальном времени понимать
эффективность операций и их
влияние на поведение клиента
• Проактивно планировать операции
Анализ разнообразных машинных данных
для улучшения бизнес результатов
Из-за сложности и быстрого роста объемов
машинных данных многие компании
принимают решения на основе малой доли
доступной информации
Способность эффективно анализировать
машинные данные и комбинировать с бизнес
транзакциями может дать возможность:
• Выявлять и исследовать аномалии
• Комплексно мониторить
инфраструктуру для предотвращения
отказов или ухудшения качества
сервиса
© 2015 IBM Corporation44
Логиимашиныеданные
Индекс, поиск
Статистическое
моделирование
Анализ причин
Исследование и
навигация
Анализ в реальном
времени
Хранить только
необходимое
Анализ операций: пример
Machine Data
Accelerator
© 2015 IBM Corporation45
Интеграция больших данных и
традиционных хранилищ для повышения
эффективности
Дополнение хранилища данных:
потребности
Использование разнообразных
данных
Расширение инфраструктуры
хранилища
• Оптимизация хранения и
лицензирования за счет переноса
редко используемых данных в Hadoop
• Сокращение хранения за счет
обработки потоковых данных
• Повышение производительности
• Структурированные,
неструктурированные, потоковые
данные для анализа
• Минимальные задержки по анализу
(часы, а не недели или месяцы)
• Запросы к любым данным
© 2015 IBM Corporation46
Дополнение хранилища данных
Предобработка Архив
с возможностью
обработки запросов
Исследование
Information
Integration
Data
Warehouse
Streams
Real-time
processing
BigInsights
Landing zone
for all data
Data
Warehouse
BigInsights
Can combine
with unstructured
information
Data
Warehouse
1 2 3
46
Find and view
the data
Data Explorer
Data Explorer
BigInsights
Streams
Offload analytics
for microsecond
latency
© 2015 IBM Corporation47
Email: andrey.orlov@ru.ibm.com
Twitter: @lokaro
LinkedIn: /in/andreyorlov

Weitere ähnliche Inhalte

Was ist angesagt?

BigIntegrate - разрушение мифов по поводу ETL на Hadoop
BigIntegrate - разрушение мифов по поводу ETL на HadoopBigIntegrate - разрушение мифов по поводу ETL на Hadoop
BigIntegrate - разрушение мифов по поводу ETL на HadoopAndrey Orlov
 
Виртуализация Данных: Введение
Виртуализация Данных: ВведениеВиртуализация Данных: Введение
Виртуализация Данных: ВведениеDenodo
 
Fors и big data appliance
Fors и big data applianceFors и big data appliance
Fors и big data applianceCleverDATA
 
OSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya GershanovOSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya GershanovIlya Gershanov
 
Business Intelligence. Современный взгляд
Business Intelligence. Современный взглядBusiness Intelligence. Современный взгляд
Business Intelligence. Современный взглядAndrey Korshikov
 
QueryHunter project overview for lenovo
QueryHunter   project overview  for lenovoQueryHunter   project overview  for lenovo
QueryHunter project overview for lenovoqueryhunter
 
Д.Афанасьев_ CleverDATA_Охота за данными
Д.Афанасьев_ CleverDATA_Охота за даннымиД.Афанасьев_ CleverDATA_Охота за данными
Д.Афанасьев_ CleverDATA_Охота за даннымиCleverDATA
 
Splunk - универсальная платформа для работы с любыми данными
Splunk - универсальная платформа для работы с любыми даннымиSplunk - универсальная платформа для работы с любыми данными
Splunk - универсальная платформа для работы с любыми даннымиCleverDATA
 
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙQuery hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙqueryhunter
 
Data-driven business: Информационная основа деятельности современной Компании
Data-driven business: Информационная основа деятельности современной КомпанииData-driven business: Информационная основа деятельности современной Компании
Data-driven business: Информационная основа деятельности современной КомпанииAlexander Barakov
 
Power BI для аналитики данных из 1С: практический опыт
Power BI для аналитики данных из 1С: практический опытPower BI для аналитики данных из 1С: практический опыт
Power BI для аналитики данных из 1С: практический опытMarina Payvina
 
Clever_data_splunk_overview_rus
Clever_data_splunk_overview_rusClever_data_splunk_overview_rus
Clever_data_splunk_overview_rusCleverDATA
 
Практика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему HadoopПрактика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему HadoopYury Petrov
 
Новая жизнь Ваших даных с PowerBI
Новая жизнь Ваших даных с PowerBI Новая жизнь Ваших даных с PowerBI
Новая жизнь Ваших даных с PowerBI Marina Payvina
 
Big Data Open Lab
Big Data Open LabBig Data Open Lab
Big Data Open LabDell_Russia
 
Открытая сессия по виртуализации данных
Открытая сессия по виртуализации данныхОткрытая сессия по виртуализации данных
Открытая сессия по виртуализации данныхDenodo
 
Продвинутый анализ и машинное обучение с помощью виртуализации данных
Продвинутый анализ и машинное обучение с помощью виртуализации данныхПродвинутый анализ и машинное обучение с помощью виртуализации данных
Продвинутый анализ и машинное обучение с помощью виртуализации данныхDenodo
 
Big data. Тренды и технологии. Использование в работе с клиентами.
Big data. Тренды и технологии. Использование в работе с клиентами.Big data. Тренды и технологии. Использование в работе с клиентами.
Big data. Тренды и технологии. Использование в работе с клиентами.CleverDATA
 
Clever data datascienceweek_spark_vs_hadoop_in_online_audience_segmentation
Clever data datascienceweek_spark_vs_hadoop_in_online_audience_segmentationClever data datascienceweek_spark_vs_hadoop_in_online_audience_segmentation
Clever data datascienceweek_spark_vs_hadoop_in_online_audience_segmentationCleverDATA
 
Бизнес-завтрак «Qlik: работаем с данными 1С эффективно»
Бизнес-завтрак «Qlik: работаем с данными 1С эффективно»Бизнес-завтрак «Qlik: работаем с данными 1С эффективно»
Бизнес-завтрак «Qlik: работаем с данными 1С эффективно»Marina Payvina
 

Was ist angesagt? (20)

BigIntegrate - разрушение мифов по поводу ETL на Hadoop
BigIntegrate - разрушение мифов по поводу ETL на HadoopBigIntegrate - разрушение мифов по поводу ETL на Hadoop
BigIntegrate - разрушение мифов по поводу ETL на Hadoop
 
Виртуализация Данных: Введение
Виртуализация Данных: ВведениеВиртуализация Данных: Введение
Виртуализация Данных: Введение
 
Fors и big data appliance
Fors и big data applianceFors и big data appliance
Fors и big data appliance
 
OSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya GershanovOSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya Gershanov
 
Business Intelligence. Современный взгляд
Business Intelligence. Современный взглядBusiness Intelligence. Современный взгляд
Business Intelligence. Современный взгляд
 
QueryHunter project overview for lenovo
QueryHunter   project overview  for lenovoQueryHunter   project overview  for lenovo
QueryHunter project overview for lenovo
 
Д.Афанасьев_ CleverDATA_Охота за данными
Д.Афанасьев_ CleverDATA_Охота за даннымиД.Афанасьев_ CleverDATA_Охота за данными
Д.Афанасьев_ CleverDATA_Охота за данными
 
Splunk - универсальная платформа для работы с любыми данными
Splunk - универсальная платформа для работы с любыми даннымиSplunk - универсальная платформа для работы с любыми данными
Splunk - универсальная платформа для работы с любыми данными
 
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙQuery hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
 
Data-driven business: Информационная основа деятельности современной Компании
Data-driven business: Информационная основа деятельности современной КомпанииData-driven business: Информационная основа деятельности современной Компании
Data-driven business: Информационная основа деятельности современной Компании
 
Power BI для аналитики данных из 1С: практический опыт
Power BI для аналитики данных из 1С: практический опытPower BI для аналитики данных из 1С: практический опыт
Power BI для аналитики данных из 1С: практический опыт
 
Clever_data_splunk_overview_rus
Clever_data_splunk_overview_rusClever_data_splunk_overview_rus
Clever_data_splunk_overview_rus
 
Практика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему HadoopПрактика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему Hadoop
 
Новая жизнь Ваших даных с PowerBI
Новая жизнь Ваших даных с PowerBI Новая жизнь Ваших даных с PowerBI
Новая жизнь Ваших даных с PowerBI
 
Big Data Open Lab
Big Data Open LabBig Data Open Lab
Big Data Open Lab
 
Открытая сессия по виртуализации данных
Открытая сессия по виртуализации данныхОткрытая сессия по виртуализации данных
Открытая сессия по виртуализации данных
 
Продвинутый анализ и машинное обучение с помощью виртуализации данных
Продвинутый анализ и машинное обучение с помощью виртуализации данныхПродвинутый анализ и машинное обучение с помощью виртуализации данных
Продвинутый анализ и машинное обучение с помощью виртуализации данных
 
Big data. Тренды и технологии. Использование в работе с клиентами.
Big data. Тренды и технологии. Использование в работе с клиентами.Big data. Тренды и технологии. Использование в работе с клиентами.
Big data. Тренды и технологии. Использование в работе с клиентами.
 
Clever data datascienceweek_spark_vs_hadoop_in_online_audience_segmentation
Clever data datascienceweek_spark_vs_hadoop_in_online_audience_segmentationClever data datascienceweek_spark_vs_hadoop_in_online_audience_segmentation
Clever data datascienceweek_spark_vs_hadoop_in_online_audience_segmentation
 
Бизнес-завтрак «Qlik: работаем с данными 1С эффективно»
Бизнес-завтрак «Qlik: работаем с данными 1С эффективно»Бизнес-завтрак «Qlik: работаем с данными 1С эффективно»
Бизнес-завтрак «Qlik: работаем с данными 1С эффективно»
 

Andere mochten auch

3 джозеп курто превращаем вашу организацию в big data компанию
3 джозеп курто превращаем вашу организацию в big data компанию3 джозеп курто превращаем вашу организацию в big data компанию
3 джозеп курто превращаем вашу организацию в big data компаниюantishmanti
 
1 20150424 ydf_mlevin_мифы и легенды о больших данных
1 20150424 ydf_mlevin_мифы и легенды о больших данных1 20150424 ydf_mlevin_мифы и легенды о больших данных
1 20150424 ydf_mlevin_мифы и легенды о больших данныхantishmanti
 
1 алексей натекин глубокая социальная аналиктика маленький большой брат
1 алексей натекин глубокая социальная аналиктика маленький большой брат1 алексей натекин глубокая социальная аналиктика маленький большой брат
1 алексей натекин глубокая социальная аналиктика маленький большой братantishmanti
 
Александра Кирсанова "Использование Data mining"
Александра Кирсанова "Использование Data mining"Александра Кирсанова "Использование Data mining"
Александра Кирсанова "Использование Data mining"Cossa
 
Кластеризация на примере соцсети "Одноклассники"
Кластеризация на примере соцсети "Одноклассники"Кластеризация на примере соцсети "Одноклассники"
Кластеризация на примере соцсети "Одноклассники"Tsvetelina Miteva
 
Data-driven маркетинг: programmatic и data mining
Data-driven маркетинг: programmatic и data miningData-driven маркетинг: programmatic и data mining
Data-driven маркетинг: programmatic и data miningTsvetelina Miteva
 
Digital Branding Summit 15-16 october 2014. Александр Филатов (Розничная сеть...
Digital Branding Summit 15-16 october 2014. Александр Филатов (Розничная сеть...Digital Branding Summit 15-16 october 2014. Александр Филатов (Розничная сеть...
Digital Branding Summit 15-16 october 2014. Александр Филатов (Розничная сеть...World Brand Academy
 
Алексей Чумаков. Apache Cassandra на реальном проекте
Алексей Чумаков. Apache Cassandra на реальном проектеАлексей Чумаков. Apache Cassandra на реальном проекте
Алексей Чумаков. Apache Cassandra на реальном проектеVolha Banadyseva
 
Александр Соловьёв, Griddynamics.com
Александр Соловьёв, Griddynamics.comАлександр Соловьёв, Griddynamics.com
Александр Соловьёв, Griddynamics.comOntico
 
Введение в Apache Cassandra
Введение в Apache CassandraВведение в Apache Cassandra
Введение в Apache CassandraAlexander Tivelkov
 
Mail.ru on Big Data Russia
Mail.ru on Big Data RussiaMail.ru on Big Data Russia
Mail.ru on Big Data Russiarusbase.vc
 
Технологии и продукты Oracle для обработки и анализа Больших Данных
Технологии и продукты Oracle для обработки и анализа Больших ДанныхТехнологии и продукты Oracle для обработки и анализа Больших Данных
Технологии и продукты Oracle для обработки и анализа Больших ДанныхAndrey Akulov
 
Создание географически-распределенных датацентров на базе инженерных систем
Создание географически-распределенных датацентров на базе инженерных системСоздание географически-распределенных датацентров на базе инженерных систем
Создание географически-распределенных датацентров на базе инженерных системAndrey Akulov
 
FOSS Sea 2014_DataWarehouse & BigData_Владимир Слободянюк ( Luxoft)
FOSS Sea 2014_DataWarehouse & BigData_Владимир Слободянюк ( Luxoft)FOSS Sea 2014_DataWarehouse & BigData_Владимир Слободянюк ( Luxoft)
FOSS Sea 2014_DataWarehouse & BigData_Владимир Слободянюк ( Luxoft)GeeksLab Odessa
 
Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"
Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"
Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"AINL Conferences
 
SSAS: multidemention vs tabular mode
SSAS: multidemention vs tabular modeSSAS: multidemention vs tabular mode
SSAS: multidemention vs tabular modeAndrey Korshikov
 
NumBuster on Big Data Russia
NumBuster on Big Data RussiaNumBuster on Big Data Russia
NumBuster on Big Data Russiarusbase.vc
 
"IBM Watson — компьютерная лингвистика". Артём Семенихин, IBM
"IBM Watson — компьютерная лингвистика". Артём Семенихин, IBM"IBM Watson — компьютерная лингвистика". Артём Семенихин, IBM
"IBM Watson — компьютерная лингвистика". Артём Семенихин, IBMYandex
 
DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...
DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...
DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...WG_ Events
 

Andere mochten auch (20)

3 джозеп курто превращаем вашу организацию в big data компанию
3 джозеп курто превращаем вашу организацию в big data компанию3 джозеп курто превращаем вашу организацию в big data компанию
3 джозеп курто превращаем вашу организацию в big data компанию
 
1 20150424 ydf_mlevin_мифы и легенды о больших данных
1 20150424 ydf_mlevin_мифы и легенды о больших данных1 20150424 ydf_mlevin_мифы и легенды о больших данных
1 20150424 ydf_mlevin_мифы и легенды о больших данных
 
1 алексей натекин глубокая социальная аналиктика маленький большой брат
1 алексей натекин глубокая социальная аналиктика маленький большой брат1 алексей натекин глубокая социальная аналиктика маленький большой брат
1 алексей натекин глубокая социальная аналиктика маленький большой брат
 
4 azure 24 04
4 azure 24 044 azure 24 04
4 azure 24 04
 
Александра Кирсанова "Использование Data mining"
Александра Кирсанова "Использование Data mining"Александра Кирсанова "Использование Data mining"
Александра Кирсанова "Использование Data mining"
 
Кластеризация на примере соцсети "Одноклассники"
Кластеризация на примере соцсети "Одноклассники"Кластеризация на примере соцсети "Одноклассники"
Кластеризация на примере соцсети "Одноклассники"
 
Data-driven маркетинг: programmatic и data mining
Data-driven маркетинг: programmatic и data miningData-driven маркетинг: programmatic и data mining
Data-driven маркетинг: programmatic и data mining
 
Digital Branding Summit 15-16 october 2014. Александр Филатов (Розничная сеть...
Digital Branding Summit 15-16 october 2014. Александр Филатов (Розничная сеть...Digital Branding Summit 15-16 october 2014. Александр Филатов (Розничная сеть...
Digital Branding Summit 15-16 october 2014. Александр Филатов (Розничная сеть...
 
Алексей Чумаков. Apache Cassandra на реальном проекте
Алексей Чумаков. Apache Cassandra на реальном проектеАлексей Чумаков. Apache Cassandra на реальном проекте
Алексей Чумаков. Apache Cassandra на реальном проекте
 
Александр Соловьёв, Griddynamics.com
Александр Соловьёв, Griddynamics.comАлександр Соловьёв, Griddynamics.com
Александр Соловьёв, Griddynamics.com
 
Введение в Apache Cassandra
Введение в Apache CassandraВведение в Apache Cassandra
Введение в Apache Cassandra
 
Mail.ru on Big Data Russia
Mail.ru on Big Data RussiaMail.ru on Big Data Russia
Mail.ru on Big Data Russia
 
Технологии и продукты Oracle для обработки и анализа Больших Данных
Технологии и продукты Oracle для обработки и анализа Больших ДанныхТехнологии и продукты Oracle для обработки и анализа Больших Данных
Технологии и продукты Oracle для обработки и анализа Больших Данных
 
Создание географически-распределенных датацентров на базе инженерных систем
Создание географически-распределенных датацентров на базе инженерных системСоздание географически-распределенных датацентров на базе инженерных систем
Создание географически-распределенных датацентров на базе инженерных систем
 
FOSS Sea 2014_DataWarehouse & BigData_Владимир Слободянюк ( Luxoft)
FOSS Sea 2014_DataWarehouse & BigData_Владимир Слободянюк ( Luxoft)FOSS Sea 2014_DataWarehouse & BigData_Владимир Слободянюк ( Luxoft)
FOSS Sea 2014_DataWarehouse & BigData_Владимир Слободянюк ( Luxoft)
 
Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"
Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"
Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"
 
SSAS: multidemention vs tabular mode
SSAS: multidemention vs tabular modeSSAS: multidemention vs tabular mode
SSAS: multidemention vs tabular mode
 
NumBuster on Big Data Russia
NumBuster on Big Data RussiaNumBuster on Big Data Russia
NumBuster on Big Data Russia
 
"IBM Watson — компьютерная лингвистика". Артём Семенихин, IBM
"IBM Watson — компьютерная лингвистика". Артём Семенихин, IBM"IBM Watson — компьютерная лингвистика". Артём Семенихин, IBM
"IBM Watson — компьютерная лингвистика". Артём Семенихин, IBM
 
DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...
DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...
DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...
 

Ähnlich wie 3 ibm bdw2015

Решения Oracle для Big Data
Решения Oracle для Big DataРешения Oracle для Big Data
Решения Oracle для Big DataAndrey Akulov
 
OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015Ilya Gershanov
 
Oracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологийOracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологийAndrey Akulov
 
Решения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТ
Решения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТРешения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТ
Решения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТYuri Yashkin
 
Презентация - Академическая инициатива IBM_final, 11.11.14
Презентация - Академическая инициатива IBM_final, 11.11.14Презентация - Академическая инициатива IBM_final, 11.11.14
Презентация - Академическая инициатива IBM_final, 11.11.14Alexey Polunin
 
Михаил Лебединский (Termopal) “Особенности разработки веб и мобильных приложе...
Михаил Лебединский (Termopal) “Особенности разработки веб и мобильных приложе...Михаил Лебединский (Termopal) “Особенности разработки веб и мобильных приложе...
Михаил Лебединский (Termopal) “Особенности разработки веб и мобильных приложе...Provectus
 
Oracle Big Data proposition
Oracle Big Data propositionOracle Big Data proposition
Oracle Big Data propositionAndrey Akulov
 
Комплексная презентация IT for Retail
Комплексная презентация IT for Retail Комплексная презентация IT for Retail
Комплексная презентация IT for Retail MOBILE DIMENSION LLC
 
Василий Суханов — SAP — ICBDA 2015
Василий Суханов — SAP — ICBDA 2015Василий Суханов — SAP — ICBDA 2015
Василий Суханов — SAP — ICBDA 2015rusbase
 
#DisccovertheNEW Micro Focus с #командой MONT
#DisccovertheNEW Micro Focus с #командой MONT#DisccovertheNEW Micro Focus с #командой MONT
#DisccovertheNEW Micro Focus с #командой MONTYuri Yashkin
 
Новая платформа IBM для энергетических компаний
Новая платформа IBM для энергетических компанийНовая платформа IBM для энергетических компаний
Новая платформа IBM для энергетических компанийАльбина Минуллина
 
Prophix 11 overview by ksema
Prophix 11 overview by ksemaProphix 11 overview by ksema
Prophix 11 overview by ksemachim1975
 
Splunk overview Russian
Splunk overview RussianSplunk overview Russian
Splunk overview RussianTimur Bagirov
 
Візуалізація інформації
Візуалізація інформаціїВізуалізація інформації
Візуалізація інформаціїGURT Resource Centre
 
Новые возможности по разработке приложений (ADF, SOA, BPM)
Новые возможности по разработке приложений (ADF, SOA, BPM)Новые возможности по разработке приложений (ADF, SOA, BPM)
Новые возможности по разработке приложений (ADF, SOA, BPM)Andrey Akulov
 
DataBase Intellegence Presentation
DataBase Intellegence Presentation DataBase Intellegence Presentation
DataBase Intellegence Presentation Alexandr Zhuravlev
 

Ähnlich wie 3 ibm bdw2015 (20)

Решения Oracle для Big Data
Решения Oracle для Big DataРешения Oracle для Big Data
Решения Oracle для Big Data
 
OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015
 
Oracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологийOracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологий
 
4CIO.ppt
4CIO.ppt4CIO.ppt
4CIO.ppt
 
4CIO.ppt
4CIO.ppt4CIO.ppt
4CIO.ppt
 
Big Data
Big DataBig Data
Big Data
 
Big data
Big dataBig data
Big data
 
Решения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТ
Решения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТРешения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТ
Решения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТ
 
Презентация - Академическая инициатива IBM_final, 11.11.14
Презентация - Академическая инициатива IBM_final, 11.11.14Презентация - Академическая инициатива IBM_final, 11.11.14
Презентация - Академическая инициатива IBM_final, 11.11.14
 
Михаил Лебединский (Termopal) “Особенности разработки веб и мобильных приложе...
Михаил Лебединский (Termopal) “Особенности разработки веб и мобильных приложе...Михаил Лебединский (Termopal) “Особенности разработки веб и мобильных приложе...
Михаил Лебединский (Termopal) “Особенности разработки веб и мобильных приложе...
 
Oracle Big Data proposition
Oracle Big Data propositionOracle Big Data proposition
Oracle Big Data proposition
 
Комплексная презентация IT for Retail
Комплексная презентация IT for Retail Комплексная презентация IT for Retail
Комплексная презентация IT for Retail
 
Василий Суханов — SAP — ICBDA 2015
Василий Суханов — SAP — ICBDA 2015Василий Суханов — SAP — ICBDA 2015
Василий Суханов — SAP — ICBDA 2015
 
#DisccovertheNEW Micro Focus с #командой MONT
#DisccovertheNEW Micro Focus с #командой MONT#DisccovertheNEW Micro Focus с #командой MONT
#DisccovertheNEW Micro Focus с #командой MONT
 
Новая платформа IBM для энергетических компаний
Новая платформа IBM для энергетических компанийНовая платформа IBM для энергетических компаний
Новая платформа IBM для энергетических компаний
 
Prophix 11 overview by ksema
Prophix 11 overview by ksemaProphix 11 overview by ksema
Prophix 11 overview by ksema
 
Splunk overview Russian
Splunk overview RussianSplunk overview Russian
Splunk overview Russian
 
Візуалізація інформації
Візуалізація інформаціїВізуалізація інформації
Візуалізація інформації
 
Новые возможности по разработке приложений (ADF, SOA, BPM)
Новые возможности по разработке приложений (ADF, SOA, BPM)Новые возможности по разработке приложений (ADF, SOA, BPM)
Новые возможности по разработке приложений (ADF, SOA, BPM)
 
DataBase Intellegence Presentation
DataBase Intellegence Presentation DataBase Intellegence Presentation
DataBase Intellegence Presentation
 

3 ibm bdw2015

  • 1. © 2015 IBM Corporation Большие данные в понимании IBM Андрей Орлов, Технический эксперт IBM Analytics R/CIS
  • 2. © 2015 IBM Corporation2 Масштаб Много форм Потоки данных Доверие Большие данные – все данные Объем Разнообразие Скорость Достоверность
  • 3. © 2015 IBM Corporation3 Данные в центре персональной аналитики Данные поведения • Покупки • Поездки • История платежей • История коммуникаций Данные описания •Атрибуты •Характеристики •Данные, сообщенные о себе •(Гео)демография Данные об отношении •Социологические исследования •Социальные сети Данные взаимодействий •E-Mail / chat расшифровки •Заметки из колл центра •Поведение в веб •Личные контакты Традиционный подход Динамический подход - источник полноты знания Почему? Что? Как? Кто?
  • 4. © 2015 IBM Corporation4 Некоторые данные доступнее чем кажется!
  • 5. © 2015 IBM Corporation5 Сегодня давление со стороны социума намного сильнее… 4 из 10 Обладателей смартфонов проверяют информацию налету 86% Используют много каналов взаимодействия в 4-5 раз Тратится больше теми, кто использует несколько каналов взаимодействия 78% Людей доверяют мнению других людей 58% Более осведомлены о конкурентных ценах чем год назад 75% Не верят что в рекламе говорят правду 80% CEO считают что оказывают превосходные услуги 8% Их клиентов с этим согласны Source: Sources of statistics [from “Smarter Commerce Stats and Facts Feb 3 2012.ppt]
  • 6. © 2015 IBM Corporation6 Необходима новая архитектура работы с данными Интеграция и управление данными Systems Security On premise, Cloud, As a service Storage Новые/расширенные приложенияВсе данные Что предпринять ? Предписание действий Зона хранения, исследования, архивы данных КХД и витрины Зона оперативных данных Обработка и анализ данных в реальном времени Что происходит? Исследование Почему? Отчетность, анализ контента Что может произойти? Предсказание и моделировани е Зона сложной аналитики Что мы узнали, что лучше? Cognitive
  • 7. © 2015 IBM Corporation7 Использование различных видов аналитики улучшает понимание Что мы узнали, что лучше? Cognitive Что предпринять? Предписание действий Почему? Отчетность, анализ контента Что может произойти? Предсказание и моделирование Что происходит? Исследование Давать правильные ответы
  • 8. © 2015 IBM Corporation8 Зона хранения, исследования, архивы данных Зона оперативных данных Обработка и анализ данных в реальном времени Транзакции и данные приложений Машинные, сенсорные Корпоративный контент Изображения, геоданные, видео Социальные сети Данные внешних поставщиков Интеграция и управление данными Зона сложной аналитики КХД и витрины Работа со всеми видами данных Сохраненные и потоковые данные Структурированные и неструктурированные Внутренние и внешние по отношению к организации
  • 9. © 2015 IBM Corporation9 Прибыль Время Эффект от клиентской аналитики Привлечение Эффективное привлечение новых клиентов Восстановление ценных клиентов Развитие отношений Удержание Возврат Увеличение кросс продаж Эффективное удержание прибыльных клиентов
  • 10. © 2015 IBM Corporation10 Смещение парадигм работы с данными Больше данных
  • 11. © 2015 IBM Corporation11 Технологии IBM для работы с большими данными InfoSphere Streams Постоянная обработка и анализ быстро поступающих клиентских данных Мгновенная реакция на события на основе аналитики InfoSphere BigInsights Hadoop для предприятия Зона хранения данных Низкая стоимость хранения Аналитическое исследование данных Watson Explorer Поиск и навигация по клиентской информации вне зависимости от формата данных и места хранения Унифицированное представление вместе с аналитикой PureData for Analytics и InfoSphere Warehouse Анализ оперативной клиентской информации Information Integration & Governance Обеспечение целостности и точности данных
  • 12. © 2015 IBM Corporation IBM InfoSphere BigInsights Андрей Орлов, Технический эксперт IBM Analytics R/CIS
  • 13. © 2015 IBM Corporation13 IBM BigInsights for Hadoop: 100% Open Source Hadoop, и все что нужно для предприятия HDFS Oozie YARN MapReduce Jaql Spark HBase Zookeeper Avro Flume Hive Pig Sqoop HCatalog Solr/Lucene 100% Standard Apache Open-Source компоненты SQL on Hadoop Big SQL – optimized ANSI compliant SQL Шаблоны приложений Toolkits and accelerators Поиск BigIndex and Data Explorer Исследование данных BigSheets “schema-on-read” Предиктивное моделирование Big R – scalable data mining Анализ текстов Advanced text processing with AQL Аналитика реального времени InfoSphere Streams Управление данными и безопасность Data Click, LDAP, Secure cluster Интеграция с системами хранения GPFS - POSIX Distributed Filesystem Производительность и надёжность Adaptive MapReduce, Recoverable jobs Дополнительные возможности
  • 14. © 2015 IBM Corporation14 Поддержка Open Source Не нужно больше больших загрузок образов Загрузка небольшого пакета и последующая загрузка только необходимых компонентов Component Name Version Ambari 1.7.0 Avro 1.7.7 Flume 1.5.2 Hadoop 2.6 HBase 0.98.8 Hive 0.14.0 Knox 0.5.0 Oozie 4.0.1 Pig 0.14.0 Parquet (hadoop) 1.5.0 Parquet (format) 2.1.0 Spark 1.2.1 Snappy 1.0.5 Sqoop 1.4.5 Solr 4.10.3 Slider 0.6.0 Zookeeper 3.4.5 Мы будем поддерживать актуальность в каждом новом релизе
  • 15. © 2015 IBM Corporation15 Возможности для специалистов Business Analyst Data Scientist Administrator • Выявление шаблонов, трендов, результаты алгоритмов машинного обучения • Статистические модели на больших объемах данных • Выявление данных для анализа • Визуализация данных для действий • Использование существующих навыков (SQL, spreadsheets) • Управление нагрузкой и обеспечение уровня производительности • Реализация политик безопасности для снижения рисков РольПотребность
  • 16. © 2015 IBM Corporation16 Редакции BigInsights Text Analytics POSIX Distributed Filesystem Multi-workload, Multi-tenant scheduling IBM BigInsights Enterprise Management Machine Learning on Big R Big R IBM Open Platform with Apache Hadoop* IBM BigInsights Data Scientist IBM BigInsights Analyst Big SQL BigSheets Big SQL BigSheets IBM BigInsights for Apache Hadoop *IBM Open Platform with Apache Hadoop is our own 100% open source Apache Hadoop distribution. IBM will include the ODP common kernel once available (future).
  • 17. © 2015 IBM Corporation17 Big SQL  Что такое Big SQL?  Интерфейс для SQL запросов к данным Hadoop BigInsights  Новый движок SQL запросов, основанный на более чем 40-летнем опыте разработки СУБД компании IBM, включающий параллелизм и оптимизацию выполнения запросов  Для чего можно использовать Big SQL  Упрощенный переход на Hadoop для разработчиков со знанием SQL  Поддержка существующих инструментов и приложений, использующих JDBC&ODBC  Основной функционал  Создание таблиц и представлений. Данные при этом хранятся в HDFS и Hbase  Загрузка данных в таблицы из сторонних СУБД и файлов  Широкий язык запросов (project, restrict, join, union, все виды подзапросов, множество встроенных функций, поддержка UDFs, . . . . )  Настройка привилегий и ролей для доступа к данным, маскировка столбцов, контроль доступа к строкам таблицы (RLS)  Объединение данных из сторонних СУБД и Hadoop внутри 1 запроса  Статистика и отображение плана доступа к данным . . . .
  • 18. © 2015 IBM Corporation18 Big Sheets: табличный инструмент  Веб-инструмент анализа  Визуализация – Облако тегов, гео карты, тепловые карты, многоразмерные диаграммы, D3-чарты  Табличный интерфейс – Создание и управление заданий работы с данными – Анализ содержания текста на загруженных страницах страницах – Интеграция с Big SQL – Более 40 функций преобразований
  • 19. © 2015 IBM Corporation19 Клиент R Scalabl e Statisti cs Engine Data Sources Встроенное исполнение R R Packages R Packages 1 2 3 1. Исследование, визуализация, трансформация и моделирование при помощи знакомого синтаксиса и парадигмы R 2. Масштабирование R • Разделение большого объема данных (“разделяй”) • Параллельное исполнение кода R на класторе (“conquer”) • Все что вне окружения R (Jaql, Map/Reduce) скрыто от глаз • Практически любой R пакет может быть использован в разработке 3. Масштабируемое машинное обучение Часть данных в R клиенте Или выполнение функций прямо на данных Big R: Исполнение R кода на Hadoop
  • 20. © 2015 IBM Corporation IBM InfoSphere Streams Андрей Орлов, Технический эксперт IBM Analytics R/CIS
  • 21. © 2015 IBM Corporation21 Объем Терабайты в секунду Петабайты в день Разнообразие Любой тип данный Любой вид аналитики Скорость Обработка за микросекунды Платформа аналитики в реальном времени Сложность Big Data - Скорость Миллионы событий в секунду Задержка составляет микросекунды Традиционные и не традиционные источники данных Решение в реальном времени Мощная аналитика Algo Trading Telco churn predict Smart Grid Cyber Security Government / Law enforcement ICU Monitoring Environment Monitoring
  • 22. © 2015 IBM Corporation22 22 Где применяется Streams? Фондовые рынки Влияние факторов на ценность бумаг Анализ рыночных данных с ультра низкими задержками Предотвращение мошенничества Обнаружение и предотвращение мошенничества Наука Прогнозирование погоды Атомные исследования Транспорт Интеллектуальное управление трафиком Энергетика Разумный контроль Природные ресурсы Управление водными ресурсами Другое Мануфактура Текстовый анализ Ситуационное осведомление Видеонаблюдение Правопорядок и кибербезопасность Здравоохранение Мониторинг здоровья новорожденных Предупреждение развития эпидемий Телекоммуникации Обработка CDR Социальный анализ Прогноз оттока Геопозиционирование
  • 23. © 2015 IBM Corporation23 23 Как работает Streams directory: ”/img" filename: “farm” directory: ”/img" filename: “bird” directory: ”/opt" filename: “java” directory: ”/img" filename: “cat” tuple height: 640 width: 480 data: height: 1280 width: 1024 data: height: 640 width: 480 data:
  • 24. © 2015 IBM Corporation24 Пару слов о Streams и Storm
  • 25. © 2015 IBM Corporation25
  • 26. © 2015 IBM Corporation Expert Integrated Systems Андрей Орлов, Технический эксперт IBM Analytics R/CIS
  • 27. © 2015 IBM Corporation27 Экспертно интегрированные системы: Системы с интегрированной экспертизой которые сочетают гибкость систем общего назначения, эластичность облака и простоту, оптимизированные под определенные задачи Фундаментальное изменение экономики и опыта использования ИТ Пришло время нового поколения систем Полная интеграция: Тесная интеграция и тщательная настройка аппаратных и программных средств Встроенная экспертиза: Формализация и автоматизация работы экспертов Упрощение всех задач: Облегчение каждого этапа ИТ цикла и интегрированное управление всей системой
  • 28. © 2015 IBM Corporation28 Семейство IBM PureSystems обеспечивает простоту, скорость и низкие затраты Экспертно интегрированная система Компоненты общего назначения Система под задачи организации Проблема сегодня: Время и усилия тратятся на настройку компонентов общего назначения Решение PureSystems: Упрощение всего цикла ИТ проекта Сокращение времени, затрат, снижение рисков Проектирование/Разверты вание Управление/Подде ржка
  • 29. © 2015 IBM Corporation29 Архитектура комплекса IBM Netezza Сервер CACHE SQL DATA Source Systems Client High Performance Loader 3rd Party Apps DBA CLI ETL Server SOLARIS LINUX HP-UX AIX WINDOWS TRU64 SQL Данные СХД CACHE СУБД CACHE I/O I/O
  • 30. © 2015 IBM Corporation30 Архитектура комплекса IBM Netezza Source Systems Client High Performance Loader 3rd Party Apps DBA CLI ETL Server SOLARIS LINUX HP-UX AIX WINDOWS TRU64 ODBC 3.X JDBC Type 4 SQL-92 SQL-99 Analytics СУБД, СХД, сервер – всё в одном СХД CACHE Сервер CACHE СУБД CACHE I/O I/O
  • 31. © 2015 IBM Corporation31 Наш секретный соус FPGA Core CPU Core Декомпрессия Фильтрация колонок Фильтрация, Видимость транзакц Complex ∑ Joins, Aggs, etc. select DISTRICT, PRODUCTGRP, sum(NRX) from MTHLY_RX_TERR_DATA where MONTH = '20091201' and MARKET = 509123 and SPECIALTY = 'GASTRO' Срез данных таблицы MTHLY_RX_TERR_DATA (сжатые данные) where MONTH = '20091201' and MARKET = 509123 and SPECIALTY = 'GASTRO' sum(NRX) select DISTRICT, PRODUCTGRP, sum(NRX)
  • 32. © 2015 IBM Corporation32 Варианты PureData System for Analytics N3001 Спецификация N3001-002 N3001-005 N3001-010 N3001-020 N3001-040 Стоек 1 (1/4 стойки) 1 (1/2 стойки) 1 2 4 S-Blades 2 4 7 14 28 Пользовательские данные (TB) * 32 96 192 384 768 • Учитывая среднее сжатие 4x Single rack systems Multiple rack systems Линейное масштабирование
  • 33. © 2015 IBM Corporation33 Новые модель семейства PureData for Analytics Data Warehouse Appliance Встроенная In-Database аналитика и интеграция с большим количеством внешних систем Real-time Analytics InfoSphere Streams Developer Edition 2 users, non-production licenses Business Intelligence Cognos, 5 Analytics User licenses + 1 Analytics Administrator license Hadoop Data Services InfoSphere BigInsights Software licenses to manage ~100 TB of Hadoop data Уже в составе PureData System for Analytics N3001-001 Индустриальные модели данных Models for Banking, Financial Markets, Healthcare, Insurance, Retail, Telco Можно приобрести • Новая модель и специальная цена для средних организаций Data Integration & Transformation InfoSphere DataStage 280 PVUs, 2 concurrent Designer Client licenses and InfoSphere Data Click IBM InfoSphere Data Privacy and Security for Data Warehousing
  • 34. © 2015 IBM Corporation34 Концепция BigData … и ее место в общем стеке IBM Information management InfoSphere BigInsights Решения, основанные на HADOOP Pure Data BI + Ad Hoc аналитика структурированных данных InfoSphere Warehouse Структурированные данные больших объемов InfoSphere Streams Аналитика потоковых данных в реальном времени MPP Data Warehouse Stream ComputingInformation Integration Hadoop (NoSQL) InfoSphere Information Server Интеграция больших объемов информации
  • 35. © 2015 IBM Corporation Watson family Андрей Орлов, Технический эксперт IBM Analytics R/CIS
  • 36. © 2015 IBM Corporation36 Watson Explorer V10 – новый уровень исследования данных • Анализ, визуализация и выделение знаний из неструктурированного контента с помощью текстовой аналитики • Исследование и визуализация информации из внутренних и внешних источников, легкое создание приложений • Интерпретация информации с помощью познавательных способностей облачной платформы Watson Watson Explorer Watson Content Analytics Watson Developer Cloud Watson Explorer V10 Now part of Watson Explorer Advanced Edition
  • 37. © 2015 IBM Corporation37 IBM Watson Analytics 37 Диалог с системой Гибкость облачной среды Исследование данных Быстрый старт Понятный интерфейс Доступно для мобильных устройств
  • 38. © 2015 IBM Corporation38 IBM Watson Analytics 38 Связывание элементов в историю Интеллект без настройки Доступ и очистка данных Отчеты и информационные панели Взаимодействие Подсказки в исследовании
  • 39. © 2015 IBM Corporation Сценарии Андрей Орлов, Технический эксперт IBM Analytics R/CIS
  • 40. © 2015 IBM Corporation40 Новый взгляд на клиента Расширение текущих систем (MDM, CRM, …) за счет подключения дополнительных внутренних и внешних источников информации Анализ операций Анализ разнообразных машинных данных для улучшения бизнес результатов Расширение хранилища данных Интеграция больших данных и традиционных хранилищ для повышения эффективности Новые уровни безопасности Снижение риска, обнаружение мошенничества и мониторинг кибер-угроз в реальном времени Ключевые сценарии
  • 41. © 2015 IBM Corporation41 Новый взгляд на клиента: потребности Потребность глубже понимать настроение клиента по данным из внешних и внутренних источников Расширение текущих систем (MDM, CRM, …) за счет подключения дополнительных внутренних и внешних источников информации Желание повысить лояльность и удовлетворенность за счет понимания какие действия нужно предпринять Разрешение проблемы доставки нужной информации правильным людям для предоставления клиентам того, чего они хотят
  • 42. © 2015 IBM Corporation42 Новый взгляд на клиента – все доступные источники Master Data Management Unified View of Party’s Information CRM J Robertson Pittsburgh, PA 15213 35 West 15th Name: Address: Address: ERP Janet Robertson Pittsburgh, PA 15213 35 West 15th St. Name: Address: Address: Legacy Jan Robertson Pittsburgh, PA 15213 36 West 15th St. Name: Address: Address: SOURCE SYSTEMS Janet 35 West 15th St Pittsburgh Robertson PA / 15213 F 48 1/4/64 First: Last: Address: City: State/Zip: Gender: Age: DOB: 360 View of Party Identity BigInsights Streams Warehouse Унифицированный взгляд на клиента
  • 43. © 2015 IBM Corporation43 Анализ операций: потребности • В реальном времени понимать эффективность операций и их влияние на поведение клиента • Проактивно планировать операции Анализ разнообразных машинных данных для улучшения бизнес результатов Из-за сложности и быстрого роста объемов машинных данных многие компании принимают решения на основе малой доли доступной информации Способность эффективно анализировать машинные данные и комбинировать с бизнес транзакциями может дать возможность: • Выявлять и исследовать аномалии • Комплексно мониторить инфраструктуру для предотвращения отказов или ухудшения качества сервиса
  • 44. © 2015 IBM Corporation44 Логиимашиныеданные Индекс, поиск Статистическое моделирование Анализ причин Исследование и навигация Анализ в реальном времени Хранить только необходимое Анализ операций: пример Machine Data Accelerator
  • 45. © 2015 IBM Corporation45 Интеграция больших данных и традиционных хранилищ для повышения эффективности Дополнение хранилища данных: потребности Использование разнообразных данных Расширение инфраструктуры хранилища • Оптимизация хранения и лицензирования за счет переноса редко используемых данных в Hadoop • Сокращение хранения за счет обработки потоковых данных • Повышение производительности • Структурированные, неструктурированные, потоковые данные для анализа • Минимальные задержки по анализу (часы, а не недели или месяцы) • Запросы к любым данным
  • 46. © 2015 IBM Corporation46 Дополнение хранилища данных Предобработка Архив с возможностью обработки запросов Исследование Information Integration Data Warehouse Streams Real-time processing BigInsights Landing zone for all data Data Warehouse BigInsights Can combine with unstructured information Data Warehouse 1 2 3 46 Find and view the data Data Explorer Data Explorer BigInsights Streams Offload analytics for microsecond latency
  • 47. © 2015 IBM Corporation47 Email: andrey.orlov@ru.ibm.com Twitter: @lokaro LinkedIn: /in/andreyorlov