SlideShare ist ein Scribd-Unternehmen logo
1 von 11
Geocoding – методы получения гео-координат изновостных потоков Выполнил: Баклыков Денис Григорьевич denis.baklikov@gmail.com Научный руководитель: Намиот Дмитрий Евгеньевич dnamiot@abavanet.ru
Известные аналоги Яндекс.Новости Lenta.ru GeoNames.org База данных гео-объектов 8 миллионов записей Yahoo GeoPlanet Поиск гео-объектов по критериям Альтернативные названия 2
Требования к системе Выявление описания гео-объектов в новостных потоках (RSS, Atom) Прозрачная конвертация RSS лент в GeoRSS Обеспечение высокой производительности системы 3
Трудности реализации Сложность обработки данных большой размер БД, нагрузка на сервер  Нет открытых алгоритмовпоиска гео-объектов Поддержка множества подписчиков Нет единой базы гео-объектов Различные варианты названия гео-объектов 4
Исходные данные 5 Верхний угол Центр Нижний угол
Архитектура Распределённая система База данных Гео-объекты, альтернативные названия Исторические данные новостных потоков Кластеризация системы Горизонтальная – дополнительные «ноды» Вертикальная – наращивание мощности сервера 6
Реализация 7
Определение гео-объектов по маске Пример: Ключевые слова для поиска: Маска: Результат поиска: 8 В честь для факультета ВМК, студенческий парад прошёл от метро Университет до улицы Лебедева улица, площадь, проспект, набережная, бульвар, просек, переулок, шоссе, аллея, тупик, холм, проезд, район, метро (.*?) (улиц*|ул) (.*?) = все словосочетания, в которых встречается слово «улица», либо «ул.» Метро Университет, улица Лебедева
Определение гео-объектов по словарю Пример с предлогом: Без предлога: Маска: Результат: 9 На Тверской стояли десятки военных машин, ожидая команды начала парада Неглинная за последние 10 лет  очень сильно изменилась ([А-Я]{1}[а-я]*) = все слова, начинающиеся с заглавной буквы Тверской, Неглинная
Заключение Реализована система, позволяющая: Определять около 90% гео-объектов Скорость обработки текста ~ 10KB/s (на 1 узле) Адрес проекта: geo-rss-demo.appspot.com Дальнейшее развитие Поиск по области История новостей в заданной области 10
Спасибо за внимание! Ваши вопросы 11 Денис Баклыков

Weitere ähnliche Inhalte

Mehr von Coldbeans Software

On Internet of Things education
On Internet of Things educationOn Internet of Things education
On Internet of Things educationColdbeans Software
 
Стандарты в цифровой экономике
Стандарты в цифровой экономикеСтандарты в цифровой экономике
Стандарты в цифровой экономикеColdbeans Software
 
On Internet of Things programming models
On Internet of Things programming modelsOn Internet of Things programming models
On Internet of Things programming modelsColdbeans Software
 
Безопасный город
Безопасный городБезопасный город
Безопасный городColdbeans Software
 
Twitter as a Transport Layer Platform
Twitter as a Transport Layer Platform Twitter as a Transport Layer Platform
Twitter as a Transport Layer Platform Coldbeans Software
 
On data model for context–aware services
On data model for context–aware servicesOn data model for context–aware services
On data model for context–aware servicesColdbeans Software
 
On Web-based Domain-Specific Language for Internet of Things
On Web-based Domain-Specific Language for Internet of ThingsOn Web-based Domain-Specific Language for Internet of Things
On Web-based Domain-Specific Language for Internet of ThingsColdbeans Software
 
ON THE SYNERGY OF CIRCUITS AND PACKETS
ON THE SYNERGY OF CIRCUITS AND PACKETS ON THE SYNERGY OF CIRCUITS AND PACKETS
ON THE SYNERGY OF CIRCUITS AND PACKETS Coldbeans Software
 
Базы данных для временных рядов
Базы данных для временных рядовБазы данных для временных рядов
Базы данных для временных рядовColdbeans Software
 
Метаданные в модели REST
Метаданные в модели RESTМетаданные в модели REST
Метаданные в модели RESTColdbeans Software
 
ОБ ИСПОЛЬЗОВАНИИ BLUETOOTH ДЛЯ ПРЕДСТАВЛЕНИЯ ЛОКАЛЬНЫХ ДАННЫХ.
ОБ ИСПОЛЬЗОВАНИИ BLUETOOTH ДЛЯ ПРЕДСТАВЛЕНИЯ ЛОКАЛЬНЫХ ДАННЫХ.ОБ ИСПОЛЬЗОВАНИИ BLUETOOTH ДЛЯ ПРЕДСТАВЛЕНИЯ ЛОКАЛЬНЫХ ДАННЫХ.
ОБ ИСПОЛЬЗОВАНИИ BLUETOOTH ДЛЯ ПРЕДСТАВЛЕНИЯ ЛОКАЛЬНЫХ ДАННЫХ.Coldbeans Software
 
From Jules Verne’s Moon landing dream in 1865 to “Star Wars” now
From Jules Verne’s Moon landing dream in 1865 to “Star Wars” nowFrom Jules Verne’s Moon landing dream in 1865 to “Star Wars” now
From Jules Verne’s Moon landing dream in 1865 to “Star Wars” nowColdbeans Software
 

Mehr von Coldbeans Software (20)

On Internet of Things education
On Internet of Things educationOn Internet of Things education
On Internet of Things education
 
Стандарты в цифровой экономике
Стандарты в цифровой экономикеСтандарты в цифровой экономике
Стандарты в цифровой экономике
 
On Internet of Things programming models
On Internet of Things programming modelsOn Internet of Things programming models
On Internet of Things programming models
 
IoT education
IoT educationIoT education
IoT education
 
On Crowd-sensing back-end
On Crowd-sensing back-endOn Crowd-sensing back-end
On Crowd-sensing back-end
 
On Physical Web models
On Physical Web modelsOn Physical Web models
On Physical Web models
 
Безопасный город
Безопасный городБезопасный город
Безопасный город
 
Twitter as a Transport Layer Platform
Twitter as a Transport Layer Platform Twitter as a Transport Layer Platform
Twitter as a Transport Layer Platform
 
On hyper-local web pages
On hyper-local web pagesOn hyper-local web pages
On hyper-local web pages
 
On data model for context–aware services
On data model for context–aware servicesOn data model for context–aware services
On data model for context–aware services
 
On time-series databases
On time-series databasesOn time-series databases
On time-series databases
 
On Web-based Domain-Specific Language for Internet of Things
On Web-based Domain-Specific Language for Internet of ThingsOn Web-based Domain-Specific Language for Internet of Things
On Web-based Domain-Specific Language for Internet of Things
 
ON THE SYNERGY OF CIRCUITS AND PACKETS
ON THE SYNERGY OF CIRCUITS AND PACKETS ON THE SYNERGY OF CIRCUITS AND PACKETS
ON THE SYNERGY OF CIRCUITS AND PACKETS
 
Базы данных для временных рядов
Базы данных для временных рядовБазы данных для временных рядов
Базы данных для временных рядов
 
Bluetooth Data Points
Bluetooth Data PointsBluetooth Data Points
Bluetooth Data Points
 
Метаданные в модели REST
Метаданные в модели RESTМетаданные в модели REST
Метаданные в модели REST
 
ОБ ИСПОЛЬЗОВАНИИ BLUETOOTH ДЛЯ ПРЕДСТАВЛЕНИЯ ЛОКАЛЬНЫХ ДАННЫХ.
ОБ ИСПОЛЬЗОВАНИИ BLUETOOTH ДЛЯ ПРЕДСТАВЛЕНИЯ ЛОКАЛЬНЫХ ДАННЫХ.ОБ ИСПОЛЬЗОВАНИИ BLUETOOTH ДЛЯ ПРЕДСТАВЛЕНИЯ ЛОКАЛЬНЫХ ДАННЫХ.
ОБ ИСПОЛЬЗОВАНИИ BLUETOOTH ДЛЯ ПРЕДСТАВЛЕНИЯ ЛОКАЛЬНЫХ ДАННЫХ.
 
From Jules Verne’s Moon landing dream in 1865 to “Star Wars” now
From Jules Verne’s Moon landing dream in 1865 to “Star Wars” nowFrom Jules Verne’s Moon landing dream in 1865 to “Star Wars” now
From Jules Verne’s Moon landing dream in 1865 to “Star Wars” now
 
Cars as Tags
Cars as TagsCars as Tags
Cars as Tags
 
Sensing
SensingSensing
Sensing
 

Автоматический геокодинг

  • 1. Geocoding – методы получения гео-координат изновостных потоков Выполнил: Баклыков Денис Григорьевич denis.baklikov@gmail.com Научный руководитель: Намиот Дмитрий Евгеньевич dnamiot@abavanet.ru
  • 2. Известные аналоги Яндекс.Новости Lenta.ru GeoNames.org База данных гео-объектов 8 миллионов записей Yahoo GeoPlanet Поиск гео-объектов по критериям Альтернативные названия 2
  • 3. Требования к системе Выявление описания гео-объектов в новостных потоках (RSS, Atom) Прозрачная конвертация RSS лент в GeoRSS Обеспечение высокой производительности системы 3
  • 4. Трудности реализации Сложность обработки данных большой размер БД, нагрузка на сервер Нет открытых алгоритмовпоиска гео-объектов Поддержка множества подписчиков Нет единой базы гео-объектов Различные варианты названия гео-объектов 4
  • 5. Исходные данные 5 Верхний угол Центр Нижний угол
  • 6. Архитектура Распределённая система База данных Гео-объекты, альтернативные названия Исторические данные новостных потоков Кластеризация системы Горизонтальная – дополнительные «ноды» Вертикальная – наращивание мощности сервера 6
  • 8. Определение гео-объектов по маске Пример: Ключевые слова для поиска: Маска: Результат поиска: 8 В честь для факультета ВМК, студенческий парад прошёл от метро Университет до улицы Лебедева улица, площадь, проспект, набережная, бульвар, просек, переулок, шоссе, аллея, тупик, холм, проезд, район, метро (.*?) (улиц*|ул) (.*?) = все словосочетания, в которых встречается слово «улица», либо «ул.» Метро Университет, улица Лебедева
  • 9. Определение гео-объектов по словарю Пример с предлогом: Без предлога: Маска: Результат: 9 На Тверской стояли десятки военных машин, ожидая команды начала парада Неглинная за последние 10 лет очень сильно изменилась ([А-Я]{1}[а-я]*) = все слова, начинающиеся с заглавной буквы Тверской, Неглинная
  • 10. Заключение Реализована система, позволяющая: Определять около 90% гео-объектов Скорость обработки текста ~ 10KB/s (на 1 узле) Адрес проекта: geo-rss-demo.appspot.com Дальнейшее развитие Поиск по области История новостей в заданной области 10
  • 11. Спасибо за внимание! Ваши вопросы 11 Денис Баклыков