2. Машинное обучение — процесс, в результате которого
машина (компьютер) способна показывать поведение,
которое в нее не было явно заложено (запрограммировано)
(Arthur Samuel, 1959)
Говорят, что компьютерная программа обучается на основе
опыта E по отношению к некоторому классу задач T и меры
качества P, если качество решения задач из T, измеренное на
основе P, улучшается с приобретением опыта E.
(Tom Mitchel, 1998)
Что такое Машинное Обучение?
Это компьютерные системы, которые становятся умнее с полученным опытом.
4. Обучение с учителем
Такое обучение можно рассматривать как игру
двух лиц: ученика, который должен
восстановить зависимость, и учителя, который для
объектов из обучающей выборки
указывает ученику соответствующий им выход.
Обучение без учителя.
В этом случае нет учителя и «обучающая
выборка» состоит только из объектов.
Ученик, имея только список объектов
должен определить, как
объекты связаны друг с другом.
Виды индуктивного машинного обучения
5. Процесс машинного обучения
Определение
задачи
Сбор и
подготовка
данных
Обучение
модели
Проверка
результата
Работа
Обучающая выборка (training
sample) — выборка, по которой
производится настройка
(оптимизация
параметров) модели
зависимости.
Тестовая (или контрольная)
выборка (test sample) — выборка,
по которой оценивается качество
построенной модели.
6. Чем машинное обучение может вам помочь?
Социальные
медиа
Предсказание
погоды
Медицинская
диагностика
Диагностическое
обслуживание
Таргетированная
реклама
Разведка
природных
ресурсов
Детектирование
спама
Анализ данных
телеметрии
Программы
лояльности
Анализ оттока
клиентов
Научные
исследования
Оптимизация
веб-приложений
Обнаружение
сетевых атак
Умные системы
мониторинга
7. Azure Machine Learning – облачный сервис
для выполнения задач прогнозной
аналитики (predictive analytics).
Сервис представлен двумя компонентами:
Azure ML Studio – средой разработки,
доступной через web-интерфейс, и web-
сервисами Azure ML.
Определение Azure ML
10. Сбор и подготовка данных
Импорт данных:
• Импорт данных из SQL, Azure HD,
Azure Blob & Tables
Преобразования данных:
• Добавления недостающих значений,
очистка, нормализация, группировка
Определение контекста:
• Отношения, связи, корреляции,
особенности, построение
дескриптивной статистики
Задача
Сбор и
подготовка
данных
Обучение
модели
Проверка
результата
Работа
11. Работа с обучающей выборкой
Разделение данных:
• Частичные срезы, деление пополам,
выборка образцов
Обучение:
• Регрессия
Байесовская линейная, Линейная R,Порядковая
регрессия,ANN….
• Классификация
«Усиленные деревья принятия решений», «Лес
решений», «Джунгли решений», «Логистическая
регрессия»,SVM,ANN…
• Кластеризация
K-means («метод k-средних»)
• Поиск аномалий
PCA (Principal Component Analysis)
Задача
Сбор и
подготовка
данных
Обучение
модели
Проверка
результата
Работа
12. Оценка модели
плохие примеры (True Negative, TN)
Задача
Сбор и
подготовка
данных
Обучение
модели
Проверка
результата
Работа
(True Positive, TP) - хорошие примеры
(True Negative, TN) - плохие примеры
Где:
13. Что дальше?
• Опубликуйте ML-модель как веб-
сервис
• Настройте работу с API
• Опубликуйте результат в Azure
Marketplace
Задача
Сбор и
подготовка
данных
Обучение
модели
Проверка
результата
Работа
16. Данные интегрируются из ERP системы
Dynamics AX, на их основании
прогнозируется потребительский
спрос на товары.
В качестве обучающей выборки
используются данные о продажах за
последние три года.
Цель внедрения технологий машинного
обучения состоит в создании
мониторинговой системы с
возможностью прогнозирования
отказов оборудования. Данные
(включая коды ошибок и
диагностическую информацию)
собираются с датчиков и отправляются
на концентраторы событий в Azure.
2 интересных кейса из мировой практики
18. Предпосылки
Оптимизация цены поэтапно увеличивает продажи и прибыль. Исследование Yankee
Group показывает, что возврат инвестиций от подобных систем приближается к 20%.
19. Принцип работы
1. Спрос на каждый товар зависит (уменьшается) от цены на него в данном магазине.
2. Спрос на товар зависит (увеличивается) в зависимости от цены на товар-заменитель.
Вывод: для прогнозирования спроса на данный товар надо учитывать цены на группу
товаров.
20. Принцип работы
1. Регрессия. Для каждого товара находим зависимость спроса на него в
зависимости от магазина и цен на группу товаров.
Спрос на товар 1 = f1(Магазин, Цена1, …, Цена5, Другие факторы)
….
Спрос на товар 5 = f5(Магазин, Цена1, …, Цена5, Другие факторы)
2. Оптимизация. Находим максимум суммарного ожидаемого оборота (по
всем товарам по всем магазинам) как функцию от вектора цен на товары.
Целевая функция:
Ожидаемый оборот по всем товарам по всем магазинам = Сумма по магазинам(Ц1 * f1(Мi, Ц1,…,Ц5) + … + Ц5 * f5(Мi,
Ц1,…,Ц5))
Ограничения: диапазоны цен
Задача оптимизации: найти цены, при которых ожидаемый оборот максимален.
21. Алгоритм работы системы оптимизации цен
Microsoft Azure Machine Learning
21
Моделирование
спроса
Рекомендуемые
цены
Проверка на соответствие
ценовым и маркетинговым
стратегиям, действующему
законодательству РФ
Чеки
Цены конкурентов
(опционально)
Оптимизация вектора
цен на группу
товаров
Вывод цены на ценник
Выявление кластеров
и групп товаров
24. Анализ и оценка построенной модели по
каждой товарной группе
Первый график – сведение фактических данных и полученных из
построенной модели спроса.
Коэффициент корреляции corr= 0,984
Идеальная линия – 45 градусов
Второй график – распределение ошибок
Идеальный график – нормальное распределение
25. Обратите внимание на приложения
в магазине:
datamarket.azure.com
Попробуйте Azure
ML бесплатно на
сайте:
azure.com/ml
Дедуктивное и индуктивное обучения
У людей обучение происходит в результате ознакомления с правилами, теориями, инструкциями и т. п. и/или на основе опыта (собственного или чужого).
По аналогичному принципу можно выделить различные способы обучения и в искусственных системах:
• Дедуктивное, или аналитическое, обучение (экспертные системы).
Имеются знания, сформулированные экспертом и как-то формализованные
. Программа выводит из этих правил конкретные факты и новые правила.
• Индуктивное обучение ( ≈ статистическое обучение).
На основе эмпирических данных программа строит общее правило. Э
мпирические данные могут быть получены самой программой в предыдущие сеансы ее работы или просто предъявлены ей. (Определение Митчелла относится только к такому обучению)
Классификация задач индуктивного обучения:
• Обучение с учителем, или обучение по прецедентам (supervised learning).
• Обучение без учителя (unsupervised learning).
• Активное обучение (active learning).
…
Обучение по прецедентам — это обучение с учителем
Такое обучение можно рассматривать как игру двух лиц: ученика, который должен восстановить зависимость, и учителя, который для объектов из обучающей выборки указывает ученику соответствующий им выход.
Иногда можно считать, что объекты из обучающей выборки предъявляются средой, а иногда — их выбирает сам учитель, в некоторых случаях их выбирает ученик (активное обучение). Рассматривается также обучение без учителя.
В этом случае нет учителя и «обучающая выборка» состоит только из объектов.
Ученик, имея только список объектов x(1), x(2), . . . , x (N), должен определить, как объекты связаны друг с другом.
Например, разбить объекты на группы (кластеры), так, чтобы в одном кластере оказались близкие друг к другу объекты, а в разных кластерах объекты были существенно различные
Обучающая выборка (training sample) — выборка, по которой производится настройка (оптимизация параметров) модели зависимости.
Если модель зависимости построена по обучающей выборке , то оценка качества этой модели, сделанная по той же выборке оказывается, как правило, оптимистически смещённой. Это нежелательное явление называют переобучением. На практике оно встречается очень часто. Хорошую эмпирическую оценку качества построенной модели даёт её проверка на независимых данных, которые не использовались для обучения.
Тестовая (или контрольная) выборка (test sample) — выборка, по которой оценивается качество построенной модели. Если обучающая и тестовая выборки независимы, то оценка, сделанная по тестовой выборке, является несмещённой.
Оценку качества, сделанную по тестовой выборке, можно применить для выбора наилучшей модели. Однако тогда она снова окажется оптимистически смещённой. Для получения немсещённой оценки выбранной модели приходится выделять третью выборку.
http://static.codeinstinct.pro/images/machine_learning_flow_(v2).png
. Сферы приложения:
• Компьютерное зрение (computer vision)
• Распознавание речи (speech recognition
• Компьютерная лингвистика и обработка естественных языков (natural language processing)
• Медицинская диагностика
• Биоинформатика
• Техническая диагностика
• Финансовые приложения
• Рубрикация, аннотирование и упрощение текстов
• Информационный поиск
• Интеллектуальные игры
Below are just a few highlights.
Azure-allows for ML to be available on the cloud. Developers can build learning capabilities of their own. http://azure.microsoft.com/en-us/
Bing-ML is used to make search results relevant to the user. But ML in Bing offers so much more—read here: http://www.bloomberg.com/bw/articles/2013-03-13/why-bing-is-critical-to-microsofts-it-empire
Ads-ML is used to ensure advertisements are relevant to the user
Bing Distill- http://www.infoworld.com/article/2898354/machine-learning/how-bing-distill-could-feed-microsoft-machine-learning.html and http://www.bing.com/distill
Skype Translator-Skype Translator is built on a robust ML platform. ML protocols train and optimize speech recognition and automatic machine translation. ML does so much more here but those are a couple of things you can highlight.
Office Online/Insights for Office- it brings together Bing, machine learning and Office to create a new way to find locate valuable content. At its heart, this is a new search feature for Office Online but it works by bringing contextual content to the forefront of your searches.
Office 365-ML is used to decluter mailboxes (spam filter-like). For more info: http://blogs.office.com/2014/11/11/de-clutter-inbox-office-365/
Office 365-Delve. Previously known as Oslo, Delve brings a concierge, Instagram-like pulse to business environments, as curated by Office Graph, sophisticated machine-learning technology that maps relationships between people, content, and activity across Office 365 accounts. Delve pulls content from within your organization's OneDrive, SharePoint, and Yammer accounts, serving it up to users in a card-based interface reminiscent of Pinterest. Source for more info: http://www.infoworld.com/article/2608911/cloud-computing/cloud-computing-microsoft-s-delve-the-office-365-spy-you-just-might-love.html
Cortana-ML (speech recognition and NLP is used as well) is used so Cortana can continually learn about its user and become more and more personalized. Cortana has access to phone data and ML is then used to improve knowledge of context and connections.
Windows-when launching an app ML is telling the system which apps to preload into memory.
Kinect-ML is used for gesture recognition
Microsoft Band and Microsoft Health-ML is used to continuously improve your health based on information that is collected on the Band. Source: http://www.microsoft.com/Microsoft-Health/en-us Built in the cloud, Microsoft Health will continually evolve to offer you better experiences and more valuable data over time. The more you share with Microsoft Health, the more accurate and helpful your insights will become. As the fitness community and device and service partnerships grow, Microsoft Health will be able to generate the best wellness insights for you to thrive.
HoloLens- source: http://www.microsoft.com/microsoft-hololens/en-us?OCID=WIP_r_Mar_Body_HoloLens for gesture recognition, speech recognition, video processing, image processing
Here is some other info that might be useful to you. In particular, Joseph’s video under the welcome tab and the ML at a glance tab.
Click here to learn more about Machine Learning at Microsoft
Microsoft's Bing prediction engine correctly predicts all six top Oscars 2015 winners
ML Blog Team
24 Feb 2015 7:30 PM
1
As reported by The Verge, the Microsoft Bing prediction engine – which has had great success in the past at predicting the World Cup, English soccer results and NFL games – successfully predicted the best picture, best director, best actor, best actress, supporting actor and actress out of the top awards for the 2015 Oscars.
In fact, Bing successfully predicted 84 percent of the 24 Oscar 2015 results.The prediction model was managed by Microsoft researcher David Rothschild, who, in the past, correctly predicted 21 of 24 Oscar winners in 2014 and 19 of 24 winners in 2013. In comparison, Vegas odds from the Wynn casino weren’t nearly as accurate – the Wynn predicted best picture, best actress, best actor, best supporting actress, best supporting actor, and best director, but only managed to correct 4 of 6 correctly. Microsoft predicted all six accurately.
ML Blog Team
If you haven’t tried ML yet, we encourage you to take it for a spin risk free. Go to azure.com/ml, click on “Get Started” and enter in your Microsoft Account ID and you’re off to the races.