Для того чтобы таргетировать рекламу по поведению интернет-пользователей, DMP ежедневно оценивает терабайты данных. В докладе расскажу, как при помощи алгоритмов потоковой обработки данных можно быстро оценить большой объем статистики и формы распределения различных характеристик. + Что будем оценивать? Будем оценивать функции распределения различных случайных величин. На практике это может понадобиться, например, как инструмент первичного анализа трафика или как данные, необходимые для принятия решений в RTB. + Распределения параметров пользователей и их поведения. + Метод Манро-Патерсона, метод Канна-Гринвальда. В этой части я расскажу о методе Манро-Патерсона — алгоритме оценки медианы, и о методе Канна-Гринвальда, который позволяет оценить функцию распределения. + Мотивирующий пример. Расскажу о том, как применяю описанные методы на наших данных для составления портрета целевой аудитории наших клиентов.