Каждый день пользователи совершают миллионы действий в Интернете. Нам в FACETz DMP необходимо структурировать эти данные и проводить сегментацию для выявления предпочтений пользователей.
Хочу рассказать, как мы:
- Сегментируем в реальном времени 600 миллионов пользователей ежедневно;
- Поставляем данные партнерам, DSP, Google с минимальной задержкой;
- Храним статистику по количеству уникальных пользователей в сегменте при потоковой обработке;
- Отслеживаем влияние изменения параметров сегментации;
- Ведем подсчет аффинитивности домена к сегменту для аналитики аудиторий.
Отказоустойчивая обработка 10M OAuth токенов на Tarantool / Владимир Перепели...
Ähnlich wie Сегментируем 600 млн. пользователей в режиме реального времени каждый день. HBase/Kafka на службе DMP / Артем Маринов (Data-Centric Alliance)
Ähnlich wie Сегментируем 600 млн. пользователей в режиме реального времени каждый день. HBase/Kafka на службе DMP / Артем Маринов (Data-Centric Alliance) (20)
Как мы учились чинить самолеты в воздухе / Евгений Коломеец (Virtuozzo)
Сегментируем 600 млн. пользователей в режиме реального времени каждый день. HBase/Kafka на службе DMP / Артем Маринов (Data-Centric Alliance)
1. Сегментируем 600 млн
пользователей в режиме
реального времени каждый
день. HBase/Kafka на службе DMP
Маринов Артем
Лидер разработки Facetz DMP
Data-Centric Alliance
4
2. • Data Management Platform • 600 млн пользователей
Что такое Facetz DMP
3. • Data Management Platform • 600 млн пользователей
Что такое Facetz DMP
5.5 млрд / сутки
4. • Прямые установки пикселя
• Поток данных от партнеров
• Оффлайн выгрузки
DMP
Механизмы получения данных
7. Ключевые показатели
• Горизонтальная масштабируемость
• Оценка объема аудитории
• Удобство мониторинга и разработки
• Хорошая скорость реакции на события
10. Как мы храним данные в HBase
0674ae2-3b6f-…
ROW_KEY
a381112-2e6a-…
54947df8-0e9e-…
11. Как мы храним данные в HBase
0674ae2-3b6f-…
ROW_KEY
a381112-2e6a-…
54947df8-0e9e-…
family_1
family_2
FAMILY
12. Как мы храним данные в HBase
0674ae2-3b6f-…
ROW_KEY
a381112-2e6a-…
54947df8-0e9e-…
family_1
family_2
FAMILY COLUMN
IP
URL
SEARCH_QUERY
13. Как мы храним данные в HBase
0674ae2-3b6f-…
ROW_KEY
a381112-2e6a-…
54947df8-0e9e-…
family_1
family_2
FAMILY COLUMN
IP
URL
SEARCH_QUERY
ts1
VERSION / VALUE
highload.ru
ts2 upyachka.ru
ts3 buzzls.com
ts1 конференция
17. Ключевые показатели
+ Горизонтальная масштабируемость
+ Оценка объема аудитории
— Удобство мониторинга и разработки
— Хорошая скорость реакции на события
18. Ключевые показатели
+ Горизонтальная масштабируемость
+ Оценка объема аудитории
— Удобство мониторинга и разработки
— Хорошая скорость реакции на события
19. Ключевые показатели
+ Горизонтальная масштабируемость
+ Оценка объема аудитории
— Удобство мониторинга и разработки
— Хорошая скорость реакции на события
20. Чего мы хотим?
• Писать данные в HBase сразу
• Реагировать на события мгновенно
• Удобство мониторинга и разработки
26. Kafka — прекрасный инструмент
• Topic — набор partition
• Partition — файл(ы)
partition 1
partition 2
partition N
27. • Topic — набор partition
• Partition — файл(ы)
• Producers — пишут в конец
• Consumer Group — независимы
partition 1
partition 2
partition N
Producers
Kafka — прекрасный инструмент
28. • Topic — набор partition
• Partition — файл(ы)
• Producers — пишут в конец
• Consumer Group — независимы
partition 1
partition 2
partition N
Producers
Group AA: 7
A: 5
Kafka — прекрасный инструмент
29. • Topic — набор partition
• Partition — файл(ы)
• Producers — пишут в конец
• Consumer Group — независимы
partition 1
partition 2
partition N
Producers
Group A
Group B
A: 7
A: 5 B: 3
B: 8
Kafka — прекрасный инструмент
30. • Topic — набор partition
• Partition — файл(ы)
• Producers — пишут в конец
• Consumer Group — независимы
partition 1
partition 2
partition N
Producers
Consumer AA: 7
A: 5 B: 3
B: 8
Group A
Consumer BGroup B
Kafka — прекрасный инструмент