1. Geocoding – методы получения гео-координат изновостных потоков Выполнил: Баклыков Денис Григорьевич denis.baklikov@gmail.com Научный руководитель: Намиот Дмитрий Евгеньевич dnamiot@abavanet.ru
2. Известные аналоги Яндекс.Новости Lenta.ru GeoNames.org База данных гео-объектов 8 миллионов записей Yahoo GeoPlanet Поиск гео-объектов по критериям Альтернативные названия 2
3. Требования к системе Выявление описания гео-объектов в новостных потоках (RSS, Atom) Прозрачная конвертация RSS лент в GeoRSS Обеспечение высокой производительности системы 3
4. Трудности реализации Сложность обработки данных большой размер БД, нагрузка на сервер Нет открытых алгоритмовпоиска гео-объектов Поддержка множества подписчиков Нет единой базы гео-объектов Различные варианты названия гео-объектов 4
6. Архитектура Распределённая система База данных Гео-объекты, альтернативные названия Исторические данные новостных потоков Кластеризация системы Горизонтальная – дополнительные «ноды» Вертикальная – наращивание мощности сервера 6
8. Определение гео-объектов по маске Пример: Ключевые слова для поиска: Маска: Результат поиска: 8 В честь для факультета ВМК, студенческий парад прошёл от метро Университет до улицы Лебедева улица, площадь, проспект, набережная, бульвар, просек, переулок, шоссе, аллея, тупик, холм, проезд, район, метро (.*?) (улиц*|ул) (.*?) = все словосочетания, в которых встречается слово «улица», либо «ул.» Метро Университет, улица Лебедева
9. Определение гео-объектов по словарю Пример с предлогом: Без предлога: Маска: Результат: 9 На Тверской стояли десятки военных машин, ожидая команды начала парада Неглинная за последние 10 лет очень сильно изменилась ([А-Я]{1}[а-я]*) = все слова, начинающиеся с заглавной буквы Тверской, Неглинная
10. Заключение Реализована система, позволяющая: Определять около 90% гео-объектов Скорость обработки текста ~ 10KB/s (на 1 узле) Адрес проекта: geo-rss-demo.appspot.com Дальнейшее развитие Поиск по области История новостей в заданной области 10