Центр решений ФОРС. Презентации продуктов и технологий. Демонстрационный зал аппаратных средств. Проведение тренингов и тестирований. Проработка и оптимизация решений на стеке Oracle. Oracle Big Data Appliance
4. Задачи Центра
! Демонстрационный центр
" Презентации продуктов и технологий
" Демозал аппаратных средств
! Проведение технических тренингов для Партнеров и
Заказчиков
! Площадка для PoC/PoV, конкурентных тестирований
! Проработка решений архитектуры Oracle-on-Oracle
! Тестирование и оптимизация решений ISV на стеке
аппаратных средств Oracle, включая тесты
! Exadata Optimized ! Exalogic Optimized
! Database Appliance Optimized ! Big Data Optimized
5. FORS Solution Center
Аппаратные средства
Oracle Engineered System
! Exadata Database Machine: X2-2; X3-2; X4-2; X5-2
! Exalogic Elastic Cloud Machine
! Exalytics In-memory Analytics Machine
! Database Appliance X4-2, X5-2
! Big Data Appliance X5-2
Стандартное оборудование
! Серверы SPARC T5-2
! Серверы SPARC M10-1
! Серверы x86
! Системы хранения данных ZFS и Pillar
! Ленточная библиотека SL150
6. Oracle Exadata – почему?
! Стратегическая концепция Oracle Engineered Systems
! Революционная оптимизация производительности
! Широкая база пользователей с собственными разработками
! Широкая база российских независимых разработчиков (ISV)
6
8. Тесты на Exadata – важный результат
! 50+ проектов за 50- месяцев
! Развертывание стенда
! Миграция с non-Oracle HW и/или SW
! Оптимизация настроек СУБД/кода приложения
Общие результаты
9. 9
Этапы Внедрения
Март-май 2011 выбор оборудования
Май 2011 года заключение контрактов
Июль 2011 года поставка комплексов
Август 2011 года пусконаладка
01 сентября 2011
запуск комплексов Exadata в промышленную
эксплуатацию
11. Big Data Appliance X5-2
! Готовый Hadoop или Oracle NoSQL DB кластер
! Совместно тестируется разработчиками Oracle
и Cloudera
! Оптимизирован для высочайшей
производительности
! Единое окно техподдержки по всей системе,
включая ПО Cloudera
! До 1728TB в одной стойке
–Возможны также конфигурации 1/3 и 2/3 стойки
12. Big Data Appliance X5-2 (FY16)
Sun Oracle X5-2L Servers. На каждом:
! 2 * 18 Core Intel Xeon E5 Processors
! 128 GB Memory
! 96TB Disk space
! 40G Infiniband
Программное обеспечение: Cloudera Enterprise 5 (Data Hub Edition с поддержкой):
! Cloudera’s Distribution including Apache Hadoop (CDH)
! Cloudera Impala
! Cloudera Search
! Apache HBase and Apache Accumulo
! Apache Spark
! Apache Kafka
! Cloudera Manager with support for:
! Cloudera Navigator
! Cloudera Back-up and Disaster Recovery (BDR)
* Oracle Big Data SQL is separately licensed
13. Почему сейчас
• Несколько лет исследований – понимание технологической ниши
технологий Big Data
• Перевод решений из НИР в эксплуатацию
• Понимание Value – расширение задач на технологиях Big Data
• Появление решений от партнеров
13
14. Что вам НЕ придется делать с Big Data Appliance (1/2)
• Подбирать и оптимизировать компоненты – сервера, диски,
количество дисков, процессоры, сети, память и т.п.
• Заключать отдельный договор о поддержке с Cloudera
• Собирать кластер
• Настраивать сетевые коммутаторы
• Инсталлировать операционную систему на каждом узле и
• Отслеживать и устанавливать оптимальные версии драйверов и
прошивок для каждого компонента
• Настраивать операционную систему для оптимальной
производительности (у нас же очень много данных!)
• Настраивать Java
15. Что вам НЕ придется делать с Big Data Appliance (2/2)
• Инсталлировать дополнительное ПО от Cloudera
• Тестировать работоспособность и производительность каждого
узла кластера
• Заниматься самостоятельно трудоемкой процедурой
многуровнего апгрейда и патчирования BIOS, OS, Java, Hadoop и
т.п.
• И просто следить за тем, что нужно что-то проапгрейдить
• Изучать как это все сделать без остановки и прерывания работы
пользователей
• Заниматься дизайном перебалансировки кластера при его
расширении
• И т.д. и т.п. – всего 51 задача
16. Фактор 1: сокращение сроков внедрения
16
Срок получения
50 миллионов
пользователей
20. Фактор 2: Промышленная система для
непромышленных данных
! Единое ПО для управления Big Data
! Техническая поддержка системы как программно-аппаратного
комплекса
! Развитие аппаратных средств
! Развитие программного стека
! Построение отказоустойчивой архитектуры
! Защита данных
! Стандартизация платформы для промышленных контуров и контуров
тестирования и разработки
20
22. 22
Накопление потока данных Организация данных Аналитика, discovery
Фактор 3: Использование референсной
архитектуры
23. При создании Oracle IM Ref Architecture учитывается:
• Мультивендорный ландшафт заказчиков
• Хранилища данных и аналитика постоянно эволюционируют
• Существование разных типов данных (структурированные,
неструктурированные) и подходов к их обработке
• Необходимость не только обработки исторических данных, но и
существование задач реагирования в режиме близком к реальному
времени (Fast Data)
• Необходимость хранения исходных данных
• Необходимость создания «песочниц» для
экспериментов
24. Фактор 4: Дополнительные возможности, доступные
только для ORACLE ES
!Oracle Big Data Connectors – “15TB per hour
between Big Data Appliance and Exadata”
– Oracle SQL Connector for Hadoop
– Oracle Loader for Hadoop
– Oracle XQuery for Hadoop
– Oracle R Advanced Analytics for Hadoop
– Oracle Data Integrator
!Oracle Big Data SQL (for Hadoop)
!Oracle Big Data SQL ( for NoSQL Database)
!Enterprise Metadata Management
!Oracle Big Data Spatial and Graph
!Big Data Discovery
24
25. Разные подходы – разные преимущества
25
0
1
2
3
4
5
Мощь инструментов
Встроенный функционал
ACID транизакции
Безопасность
Разнообразие форматов
данных
Разреженные данные
Простота ETL
Стоимость хранения
Простота загрузки
Взаимодействие с другими
системами
Hadoop
RDBMS
• У Hadoop свои плюсы
• У СУБД свои
26. 0
1
2
3
4
5
Мощь инструментов
Встроенный функционал
ACID транизакции
Безопасность
Разнообразие форматов
данных
Разреженные данные
Простота ETL
Стоимость хранения
Простота загрузки
Взаимодействие с другими
системами
Hadoop
RDBMS
Цель
Есть ли возможность объединить два мира?
26
Как это сделать?
И как это использовать?
27. SOURCES
РЕЗЕРВУАР ДАННЫХ ХРАНИЛИЩЕ ДАННЫХ
Oracle Database
Oracle Industry
Models
Oracle Advanced
Analytics
Oracle Spatial & Graph
Big Data Appliance
Apache
Flume
Oracle
GoldenGate
Oracle Event
Processing
Cloudera Hadoop
Oracle Big Data SQL
Oracle NoSQL
Oracle R Advanced
Analytics for Hadoop
Oracle R Distribution
Oracle Database
In-Memory, Multi-tenant
Oracle Industry Models
Oracle Advanced
Analytics
Oracle Spatial & Graph
Exadata
Oracle
GoldenGate
Oracle Event
Processing
Oracle Data
Integrator
Oracle Big Data
Connectors
Oracle Data
Integrator/
GoldenGate
БИЗНЕС АНАЛИТИКА
Oracle Big Data Management System
28. Данные хранятся во многих местах
Транзакции
RelationalHadoop
Логи
NoSQL
Профили клиентов
SQL
29. Oracle Big Data SQL
Новая технология для обращения к данным в Hadoop из Oracle Database
Запросык Oracle,
Hadoop и NoSQL
Oracle SQL
Oracle
NoSQLDB
HDFS
DataNode
Oracle
NoSQLDB
HDFS
DataNode
OracleDatabase
StorageServer
OracleDatabase
StorageServer
•Для пользователя не важно, где лежат данные – в
Oracle или в Hadoop
•Использование данных в Hadoop любыми BI
инструментами
•Все возможности языка SQL Oracle
•Использование наработок Exadata
•Интеграция Big Data Appliance и Exadata
30. Как работает Oracle Big Data SQL
Oracle Database 12c
SQL
Предобработка запроса
на ячейках Exadata
Небольшой объем данных
возвращается быстро
Hadoop
& NoSQL
Предобработка и
фильтрация
данных на узлах Hadoop
SQL
небольшой
объем
данных
31. Oracle NoSQL Database
Распределенная, масштабируемая key-value база данных
• Простая модель данных
• Пара Key-value с подходом major+sub-key
• Операции read/insert/update/delete
• Поддержка ACID и BASE транзакций
• Масштабируемость
• Динамическое партиционирование и перераспределение
• Оптимизированный доступ к данным
• Высокая доступность
• Одна или более реплик
• Катастрофоустойчивость засчет разнесения реплик
• Устойчивость к отказу мастера
• Нет одной точки отказа
• Прозрачная балансировка нагрузки
• Чтение с мастера или реплики
• Драйвер знает о сетевой топологии и временах задержки
Storage Nodes
Data Center A
Storage Nodes
Data Center B
NoSQLDB Driver
Application
NoSQLDB Driver
Application
32. Для каких задач может использоваться Oracle NoSQL
Database?
• Построение быстрых многопетабайтных распределенных
масштабируемых файловых хранилищ
– С возможностью обработки данных в кластере
• Построение систем, которые очень быстро накапливают огромное
количество данных из многих источников
– Десятки миллионов записей в секунду
– Датчики, результаты испытаний, эксперименты
• Интеграция с системами обработки событий
– Накопление и обработка информации о событиях
• Интернет-проекты с многими тысячами пользователей
– Для обеспечения мгновенного доступа к профилям пользователя, продукта,
информации о рекламной компании и т.д.
Storage Nodes
Data Center A
Storage Nodes
Data Center B
NoSQLDB Driver
Application
NoSQLDB Driver
Application
33. Enterprise Metadata Management
ETL
BI
Dashboards
App
ETL
ETL
Как считаются
продажи?
Что произойдет, если
я поменяю эту
таблицу?
Какие отчеты
используют данные
с этого сервера? Sys Admin
Руководитель
Разрабочик BI
Из какой системы
пришли
данные?
Пользователь
Какой отчет
использует эти
данные?
CDC
Hadoop
Data Lake
Data Steward
Можно ли
доверять
источнику?
ETL
разрабочтик
Я хочу провести
эксперимент. Какие
данные у меня есть в
наличии?
Data Scientist
GG
34. 34
Oracle Big Data Discovery
Визуализация данных Hadoop
find explore transform discover share
35. Фактор 5: решения ISV
Тестированы, оптимизированы и
сертифицированы по программам Oracle
Ready и Oracle Optimized
35
36. Exadata Optimized
«…Тест проводился на специально подготовленной среде с более чем 60
миллионами активных сделок. Необходимо было рассчитать как все
прикладные витрины (кредитный, депозитный портфель, портфель
ценных бумаг, реестр срочных сделок и ПФИ), так и большое количество
специализированных витрин данных
Всего менее чем за 1,5 часа было рассчитано 105 витрин данных.
За аналогичный временной отрезок на стандартных процессорных
мощностях происходит расчет по 300 тысячам договоров.
…можно говорить о более чем 200-кратном росте производительности»
ISV Банковский сектор
39. Information Management Reference Architecture
Уровеньдоступакданным
Бизнес
аналитика
Информаци-
онные
сервисы
Простота и скорость
загрузки данных
Стоимость запроса к
данным
Уровень производительного
доступа
Фундаментальный слой
данных (3N форма)
Хранилище первичной информации
Data
Science
Первичная информация хранится
без всяких изменений
Данные очищены, организованы в
некоторую структуру, но абстрагированы
от бизнес процессов
Данные организованы в соответствии с
требованиями бизнес процессов, для достижения
максимальной производительности
Исследование данных Среда разработки
Исследование данных,
выявление новых
закономерностей
Разработка
взаимодействия всех
слоев приложения
Источники данных
Мультиструктурные
источники
Контент
Docs Web & Social Media
SMS
Структурированные
Данные
(из реляционных источников)
Мастер данные
Планирование и
бюджетирование