8. Готовимся
заранее:
Данные
• Большие
данные:
знаем
где
искать,
знаем
что
делать
• Ключевые
онлайн
API
и
наборы
данных
• Screen
Scraping
• Основные
инструменты
очистки
данных
9. Как
быстро
найти
данные?
• Спросить:
• Quora.com
• StackOverclow
-‐
http://opendata.stackexchange.com/
• Рассылки
OKF,
группы
в
Facebook
и
тд.
• Каталоги
• The
Data
hub
–
http://thedatahub.org
• Хаб
открытых
данных
–
http://hubofdata.ru
• Data
Catalogs
–
http://datacatalogs.org/
12. Основные
базы
данных
онлайн
• Международные:
• The
Data
Hub
–
http://thedatahub.org
• Всемирный
банк
–
http://data.worldbank.org
• ООН
–
http://data.un.org
• Национальные
• Хаб
открытых
данных
–
http://hubofdata.ru
• США
–
http://data.gov
• UK
–
http://data.gov.uk
13. Основные
способы
работы
с
большими
данными
• Выкачивать
целиком
под
задачу
• Найти
и
использовать
чужое
API
• Сделать
своё
API
15. Что
такое
Web/Screen/Data
Scraping?
• не
ждем
данных
–
собираем
их
сами
• извлекаем
их
из
веб-‐страниц,
файлов
и
печатных
документов
• переводим
неструктуриованное
в
базы
данных
16. Инструменты
• Программирование
• Python
+
lxml
or
BeautifulSoup
+
база
данных
• Или
…любой
другой
язык
программирования
• Платформы:
• ScraperWiki.com
–
тоже
Python,
но
проще
• Abbyy
PDFTransformer
+
Finereader
25. Как
действовать
• Собрать
идеи
• Написать
scraper
и
посмотреть
данные
• Посмотреть
что
сделали
другие:
• WeThePeople
–
http://petitions.whitehouse.gov
• E-‐Petitions
http://petitions.direct.gov.uk
26. Что
есть?
• Анализ
данных
РОИ
и
аналогичных
проектов
–
http://habrahabr.ru/company/infoculture/
• Код
на
Python
-‐
https://github.com/ivbeg/apiroi
• Дамп
базы
-‐
http://hubofdata.ru/dataset/roi-‐dump