SlideShare ist ein Scribd-Unternehmen logo
1 von 119
Downloaden Sie, um offline zu lesen
Аналитика данных в RTB
Павел Калайдин @facultyofwonder
Марат Зайнутдинов @tsundokum
Ян ЛеКун* @ylecun
* на самом деле нет
<скриншот нашей рекламы в ретаргетинге>
http://cmsummit.com/behindthebanner/
credits: http://cmsummit.com/behindthebanner/
RTB - аукцион рекламных показов в
реальном времени
A CIKM '13 Tutorial: Real-time Bidding: A New Frontier of Computational Advertising Research
http://tutorial.computational-advertising.org/
Computational Advertising
Stanford University MS&E 239: Introduction to Computational Advertising
https://www.stanford.edu/class/msande239/
Фундаментальные задачи:
Best match: кому что когда показывать?
Campaign performance: как достичь
максимальных показателей в рамках
бюджета рекламной кампании?
Most revenue: как получить максимум
прибыли при текущем трафике?
не раздражая пользователя (healthy
environment)?
http://www.slideshare.net/shuaiyuancn/cikm-2013-tutorial
А также:
Как найти похожую аудиторию (Look-alike)?
улучшение эффективности системы пресказания целевых действий за счёт использования данных о переходах
таргетирование на похожую аудиторию за счёт использования информации о переходах (увеличение охвата).
Обзор метрик, позволяющих сравнивать, насколько пользователи похожи на друг друга, основываясь на их физическом передвижении (что в нашем случае
посещенные сайты).
http://www.barabasilab.com/pubs/CCNR-ALB_Publications/201108-21_KDD-HumanSocialTies/201108-21_KDD-HumanSocialTies.pdf
Подсчет статистики
Map-reduce задачи
Скетчи
A/B тесты
DOE (design of experiment)
Медиапланирование, прогнозы,
оценка хода кампании
Мониторинг:
как понять, когда что-то идет не так?
Рекомендации: что показать на баннере?
Предсказание стоимости покупки
CPA ~ чек
Поиск закономерностей и аномалий
и так далее.
Это все задачи отдела Data Science
Но вернемся к аукционам
Голландский (цена вверх)
Английский (цена вниз)
Закрытый первой цены
Закрытый второй цены
Закрытый первой цены = английский
Закрытый второй цены = голландский
RTB - закрытый аукцион второй цены
Еще бывают:
все платят (архитектурный тендер)
обобщенный второй цены (adwords)
Как рассчитать ставку?
Credits: http://www.cs.cornell.edu/home/kleinber/networks-book/networks-book-ch09.pdf
Истинная ценность?
“The best minds of my generation are thinking about how to make people click ads…
That sucks.”
- Jeff Hammerbacher, co-founder and chief scientist, Cloudera (source)
Common-value аукцион
Ценность одна и та же, но участники имеют разные
оценки
Например, несколько ретаргетеров на одном
магазине
Больше информации про аукционы:
http://www.cs.cornell.
edu/home/kleinber/networks-book/networks-
book-ch09.pdf
Предсказание второй цены
Т.е. так называемая задача distribution fitting
Управление скоростью кампании
Предиктор
Что делать?
то же самое для data mining
posterior
likelihood evidence
prior
Для чего нам нужен posterior?
Чтобы найти
likelihood (binomial distribution)
для одного наблюдения:
для нескольких наблюдений:
prior (beta distribution)
можно использовать данные, чтобы найти
параметры бета-распределения
Используем данные дважды? Переобучаем?
empirical bayes: с удовольствием!
pseudosample size
evidence (???)
posterior
analytical solution
grid method
simulations
Бета-распределение любит биномиальное
это называется conjugate priors
А ещё бета-распределение “любит” бета-
распределение, а нормальное - нормальное.
Что делать с результатом?
Правильный подсчёт CTR
Задача
Найдите формулу для подсчёта CTR по
adhost:bannerPlacement (с prior по adhost)
Пусть sa
- величина псевдовыборки, тогда
где
Задача
Найдите формулу для подсчёта adhost:
banner_id (с независимыми prior по adhost и
banner_id)
Перерыв,
после которого мы обсудим решение задачи
Нужны данные для экспериментов?
7.5Gb
аукционы, показы, клики, конверсии:
https://www.dropbox.com/sh/xolf5thu8jsbmfu/kBrAsSxtAN
thanks to: Global Bidding Algorithm Competition, Apr-Dec, 2013.
http://contest.ipinyou.com/
Коснемся архитектуры
логи, логи, логи
Крутая статья сотрудника LinkedIn о том, что всё логи http://engineering.
linkedin.com/distributed-systems/log-what-every-software-engineer-should-know-
about-real-time-datas-unifying
детерминированная машина
Презентация функциональной базы данных от создателя языка
Clojure и одного из ключевых разработчиков Datomic https://www.
youtube.com/watch?v=Cym4TZwTCNU
потоки логов
Storm, Samza, S4, Akka
Видео с создателем Storm, на котором он очень кратко рассказывает про
своё видение архитектуры для bid data http://www.infoq.com/interviews/marz-
lambda-architecture
Couchbase, Redis
программисты не знают характер работ по
анализу данных
поэтому доставайте архитектора
каждый день
пробуйте разные способы для одной и той
же задачи
инвестируйте в свои инструменты
</архитектура>
Вернемся к подсчету статистики
Примеры запросов
- выдайте персентили числа показов на человека
- какое число уникальных пользователей по сайтам?
- рассчитываемся с SSP за месяц. Нужна выгрузка трат за весь март
В большинстве случаев нас устроит
примерная оценка
Вероятностные структуры данных (скетчи)
Память
versus
ошибка в оценке
- проверка на вхождение в множество
- сколько различных элементов в потоке (мощность)
- какие элементы встречаются чаще всего (heavy-hitters) и как часто? (частоты)
- сколько элементов попадает в заданный интервал (интервалы)
Исправленная и дополненная версия картинки, опубликованной в этом посте
Frugal streaming:
обработка по мере поступления,
требуется супер мало памяти
Свежая статья (2013 г.) http://link.springer.com/chapter/10.1007/978-3-642-40273-9_7 ($)
Обсуждение: http://blog.aggregateknowledge.com/2013/09/16/sketch-of-the-day-frugal-streaming/
Посчитаем медиану
frugal <- function(stream) {
m <- 0
for (val in stream) {
if (val > m)
m = m + 1
else if (val < m)
m = m - 1
}
return(m)
}
Требование по памяти: 1 int
А персентили?
frugal_1u <- function(stream, m = 0, q = 0.5) {
m <- 0
for (val in stream) {
if (val > m && runif(1) > 1 - q)
m = m + 1
else if (val < m && runif(1) > q)
m = m - 1
}
return(m)
} Есть еще улучшенный frugal_2u с переменным шагом
Код на R: https://gist.github.com/kalaidin/9974919
IPython notebook: http://nbviewer.ipython.org/gist/kalaidin/9976120
Частоты: Count-Min sketch
An Improved Data Stream Summary: The Count-Min Sketch and its Applications
w
i
+1
+1
+1
h
1 h
4
h
d
d
Оценка - возьмем минимум из d значений.
Мощность множества (количество
уникальных элементов):
LogLogCounter&Co
Представьте, что сегодня утром я бросал
монетку и записал, какое максимальное
число раз подряд выпала решка
Что если я скажу, что это число 2?
А если это число 100?
В каком случае я бросал дольше?
Нас интересуют паттерны в хешах
(число 0 = решек в начале)
оценка - 2R
,
где R - максимальное число лидирующих нулей
LogLog: используем M корзин, в каждой из
которой храним свой R
Оригинальная статья: LogLog Counter
http://algo.inria.fr/flajolet/Publications/DuFl03-LNCS.pdf
HyperLogLog - среднее гармоническое R по
корзинам
Оригинальная статья: HyperLogLog Counter
http://algo.inria.fr/flajolet/Publications/FlFuGaMe07.pdf
Серия постов на тему HLL в блоге AggregateKnowledge:
http://blog.aggregateknowledge.com/tag/hll/
Проверка на вхождение: старый добрый
фильтр Блума
Bloom Filters: How I learned to stop worrying about errors and love memory efficient data structures
3 Rules of thumb for Bloom Filters (оценка ошибки)
Попробуйте погуглить фото Бертона Говарда Блума - его не найти!
i
h
1
h
2
h
k
1 1 10 0 0 0 0 0 0 0 0 0 0 0 0
Вопросы и ответы
Спасибо за внимание!

Weitere ähnliche Inhalte

Andere mochten auch

ADD2010: Обработка большого объема данных на платформеApache Hadoop
ADD2010: Обработка большого объема данных на платформеApache Hadoop ADD2010: Обработка большого объема данных на платформеApache Hadoop
ADD2010: Обработка большого объема данных на платформеApache Hadoop
Vladimir Klimontovich
 

Andere mochten auch (12)

20121129 boris omelnitskiy_i_prof2012
20121129 boris omelnitskiy_i_prof201220121129 boris omelnitskiy_i_prof2012
20121129 boris omelnitskiy_i_prof2012
 
Global wan prez-ru.mini
Global wan prez-ru.miniGlobal wan prez-ru.mini
Global wan prez-ru.mini
 
Large-scale real-time analytics for everyone
Large-scale real-time analytics for everyoneLarge-scale real-time analytics for everyone
Large-scale real-time analytics for everyone
 
ADD2010: Обработка большого объема данных на платформеApache Hadoop
ADD2010: Обработка большого объема данных на платформеApache Hadoop ADD2010: Обработка большого объема данных на платформеApache Hadoop
ADD2010: Обработка большого объема данных на платформеApache Hadoop
 
The Allen AI Science Challenge
The Allen AI Science ChallengeThe Allen AI Science Challenge
The Allen AI Science Challenge
 
Александр Иванов. Programmatic: новая эра в digital-рекламе
Александр Иванов. Programmatic: новая эра в digital-рекламеАлександр Иванов. Programmatic: новая эра в digital-рекламе
Александр Иванов. Programmatic: новая эра в digital-рекламе
 
Global-WAN - The Swiss Neutral Data Haven
Global-WAN - The Swiss Neutral Data HavenGlobal-WAN - The Swiss Neutral Data Haven
Global-WAN - The Swiss Neutral Data Haven
 
Мифы об RTB и Programmatic
Мифы об RTB и ProgrammaticМифы об RTB и Programmatic
Мифы об RTB и Programmatic
 
Dmp - cookie synching (11-15-11)
Dmp - cookie synching (11-15-11)Dmp - cookie synching (11-15-11)
Dmp - cookie synching (11-15-11)
 
Bluekai: Data Management Platforms (dmp) for Publishers
Bluekai: Data Management Platforms (dmp) for PublishersBluekai: Data Management Platforms (dmp) for Publishers
Bluekai: Data Management Platforms (dmp) for Publishers
 
Real time bidding (DSP, SSP, DMP, ATD, ITD)
Real time bidding (DSP, SSP, DMP, ATD, ITD)Real time bidding (DSP, SSP, DMP, ATD, ITD)
Real time bidding (DSP, SSP, DMP, ATD, ITD)
 
All about Programmatic buying(RTB), DSP,SSP, DMP & DCT - A complete digital ...
All about Programmatic buying(RTB), DSP,SSP, DMP & DCT -  A complete digital ...All about Programmatic buying(RTB), DSP,SSP, DMP & DCT -  A complete digital ...
All about Programmatic buying(RTB), DSP,SSP, DMP & DCT - A complete digital ...
 

Ähnlich wie Data Mining in RTB

Как повысить эффективность рекламных кампаний​
Как повысить эффективность рекламных кампаний​Как повысить эффективность рекламных кампаний​
Как повысить эффективность рекламных кампаний​
Маркетинг-аналитика с OWOX BI
 
Mind map для «Архитектура А/Б тестирования: сделай сам»
Mind map для «Архитектура А/Б тестирования: сделай сам»Mind map для «Архитектура А/Б тестирования: сделай сам»
Mind map для «Архитектура А/Б тестирования: сделай сам»
Sergey Xek
 
Online adsanalytics slot_no._5__andrei_osipov_i_ivan_stramyk
Online adsanalytics slot_no._5__andrei_osipov_i_ivan_stramykOnline adsanalytics slot_no._5__andrei_osipov_i_ivan_stramyk
Online adsanalytics slot_no._5__andrei_osipov_i_ivan_stramyk
AnastasiiaDmytrashyn
 
Продукт в сфере онлайн-рекламы с нуля (Арсений Кравченко)
Продукт в сфере онлайн-рекламы с нуля (Арсений Кравченко)Продукт в сфере онлайн-рекламы с нуля (Арсений Кравченко)
Продукт в сфере онлайн-рекламы с нуля (Арсений Кравченко)
PCampRussia
 
Повышение эффективности сайта средствами веб-аналитики. Игорь Остюченко
Повышение эффективности сайта средствами веб-аналитики. Игорь ОстюченкоПовышение эффективности сайта средствами веб-аналитики. Игорь Остюченко
Повышение эффективности сайта средствами веб-аналитики. Игорь Остюченко
BranchMarketing
 

Ähnlich wie Data Mining in RTB (20)

Google Analytics Загрузка данных о расходах
Google Analytics Загрузка данных о расходахGoogle Analytics Загрузка данных о расходах
Google Analytics Загрузка данных о расходах
 
Как повысить эффективность рекламных кампаний​
Как повысить эффективность рекламных кампаний​Как повысить эффективность рекламных кампаний​
Как повысить эффективность рекламных кампаний​
 
Mind map для «Архитектура А/Б тестирования: сделай сам»
Mind map для «Архитектура А/Б тестирования: сделай сам»Mind map для «Архитектура А/Б тестирования: сделай сам»
Mind map для «Архитектура А/Б тестирования: сделай сам»
 
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (..."Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...
 
Like Бизнес 5.1 - маркетинг
Like Бизнес 5.1 - маркетингLike Бизнес 5.1 - маркетинг
Like Бизнес 5.1 - маркетинг
 
Likebz5 0. комлпексно о маркетинге
Likebz5 0. комлпексно о маркетингеLikebz5 0. комлпексно о маркетинге
Likebz5 0. комлпексно о маркетинге
 
Fanuts: как вывести приложение в TopGrossing
Fanuts: как вывести приложение в TopGrossingFanuts: как вывести приложение в TopGrossing
Fanuts: как вывести приложение в TopGrossing
 
Andrii Belas: Turning machine learning models into stuff that actually helps ...
Andrii Belas: Turning machine learning models into stuff that actually helps ...Andrii Belas: Turning machine learning models into stuff that actually helps ...
Andrii Belas: Turning machine learning models into stuff that actually helps ...
 
Введение в Deep Learning
Введение в Deep LearningВведение в Deep Learning
Введение в Deep Learning
 
ВШЭ SMM таргетированная реклама
ВШЭ SMM таргетированная рекламаВШЭ SMM таргетированная реклама
ВШЭ SMM таргетированная реклама
 
Увеличение конверсии: от отчетов в аналитике до завершения сплит-теста
Увеличение конверсии: от отчетов в аналитике до завершения сплит-тестаУвеличение конверсии: от отчетов в аналитике до завершения сплит-теста
Увеличение конверсии: от отчетов в аналитике до завершения сплит-теста
 
Антон Данилов, Каверзный контекст в перегретой нише - chkd
Антон Данилов, Каверзный контекст в перегретой нише - chkdАнтон Данилов, Каверзный контекст в перегретой нише - chkd
Антон Данилов, Каверзный контекст в перегретой нише - chkd
 
Online adsanalytics slot_no._5__andrei_osipov_i_ivan_stramyk
Online adsanalytics slot_no._5__andrei_osipov_i_ivan_stramykOnline adsanalytics slot_no._5__andrei_osipov_i_ivan_stramyk
Online adsanalytics slot_no._5__andrei_osipov_i_ivan_stramyk
 
Как «скачать» весь myTarget и не лопнуть. Михаил Иванков (Plarin)
Как «скачать» весь myTarget и не лопнуть. Михаил Иванков (Plarin)Как «скачать» весь myTarget и не лопнуть. Михаил Иванков (Plarin)
Как «скачать» весь myTarget и не лопнуть. Михаил Иванков (Plarin)
 
PureMVC в картинках - часть 1
PureMVC в картинках - часть 1PureMVC в картинках - часть 1
PureMVC в картинках - часть 1
 
Продукт в сфере онлайн-рекламы с нуля (Арсений Кравченко)
Продукт в сфере онлайн-рекламы с нуля (Арсений Кравченко)Продукт в сфере онлайн-рекламы с нуля (Арсений Кравченко)
Продукт в сфере онлайн-рекламы с нуля (Арсений Кравченко)
 
Мультиканальные последовательности, автор Антон Липский
Мультиканальные последовательности, автор Антон ЛипскийМультиканальные последовательности, автор Антон Липский
Мультиканальные последовательности, автор Антон Липский
 
Повышение эффективности сайта средствами веб-аналитики. Игорь Остюченко
Повышение эффективности сайта средствами веб-аналитики. Игорь ОстюченкоПовышение эффективности сайта средствами веб-аналитики. Игорь Остюченко
Повышение эффективности сайта средствами веб-аналитики. Игорь Остюченко
 
! хорошая презентация для клиента
! хорошая презентация для клиента! хорошая презентация для клиента
! хорошая презентация для клиента
 
! хорошая презентация для клиента
! хорошая презентация для клиента! хорошая презентация для клиента
! хорошая презентация для клиента
 

Data Mining in RTB