SlideShare a Scribd company logo
1 of 25
Лекция №2

Введение в анализ данных




                           1
План лекции
●   Основные понятия анализа данных
●   Основные подходы анализа данных
●   Основные инструменты анализа данных


    Цель лекции — получить представление о
    процессе анализа данных и применяемых
    методиках


                                             2
Основы Анализа данных

●   Теория вероятности и математическая
    статистика
●   Математический анализ
●   Вычислительная математика
●   Для тех, кто забыл — khanacademy.org




                                           3
Основные понятия

●   Атрибут
       –   Зависимая переменная
       –   Независимая переменная
●   Объект
●   Значение атрибута у объекта
●   Измерение



                                     4
Шкалы

●   Номинальная (=, <>)
●   Дихотомическая
●   Порядковая (=, <>, >, <)
●   Интервальная (=, <>, >, <, +, -)
●   Относительная (=, <>, >, <, +, -, *, /)




                                              5
Процесс анализа данных

●   Постановка задачи
●   Сбор данных
●   Выдвижение гипотез
●   Очистка данных
●   Выбор алгоритма анализа
●   «Обучение» (Machine Learning)
●   Оценка результата
●   Применение построенного в результате
    обучения
                                           6
Постановка задачи

●   Следует сформулировать, что мы хотим
    изучить, какие возможные закономерности
    выявить
●   Предварительные «гипотезы»




                                              7
Сбор данных

●   Из реальности
●   При помощи программных инструментов
●   Или опросов
●   Или наблюдений




                                          8
Выдвижение гипотез

●   Основываясь на собранных данных
●   Их визуализации
●   Их структуре




                                      9
Очистка данных

●   Удаление избыточных
●   Проверка независимости
●   Корреляционный и факторный анализ




                                        10
Выбор алгоритма анализа

●   На основании данных
●   Исходя из задачи
●   Можно несколько, комбинируя (чаще
    последовательно)




                                        11
Обучение

●   Алгоритм анализа часто сам данные не
    анализирует
●   Он строит анализатор данных
●   Который основан на конкретных данных
●   И который как раз доказывает или
    опровергает гипотезу



                                           12
Оценка результата

●   Полученный набор правил следует
    проверить
●   Хотя бы визуализацией
●   При помощи данных, опять же
●   Иногда — на тех же, по которым строили
●   Чаще — на независимых (отобранных
    заранее и не участвовавших в построении)
●   Различными методами
●   Если качество результата не устраивает —   13

    то меняем что-то и заново
Применение построенного
                анализатора
●   Его объяснение
●   Его визуализация
●   Его интерпретация
●   Его использование в реальности




                                     14
Пример

●   Автоводитель (Нейронная сеть)




                                    15
Средства анализа данных

●   Статистические/математические пакеты
●   Среды анализа данных
●   Библиотеки анализа данных
●   Пакеты анализа данных
●   Средства добычи данных
●   Средства очистки данных
●   Средства хранения данных
●   Средства визуализации данных
                                           16
Статистические пакеты

●   SPSS
●   Matlab




                                     17
Среды анализа данных

●   Orange
●   Weka
●   RapidMiner




                                    18
Библиотеки анализа
                   данных
●   Xelopes
●   DTML
●   Waffles
●   Apache Mahout




                                   19
Пакеты анализа данных

●   R
●   GNU Octave
●   Python + Numpy




                                    20
Средства добычи данных

●   Пауки
       –   Mechanize
       –   Scrapy
       –   Selenium
       –   ...
●   Парсеры
       –   BeautifulSoup
       –   Lxml
       –   ….
                                          21
Средства добычи данных

●   Пауки
       –   Mechanize
       –   Scrapy
       –   Selenium
       –   ...
●   Парсеры
       –   BeautifulSoup
       –   Lxml
       –   ….
                                          22
Средства очистки данных

●   Парсеры
●   Табличные процессоры
       –   Google Refine
       –   LO Calc
       –   MS Excel




                                        23
Средства хранения данных

●   MS SQL Server
●   MySQL Server
●   Apache Hadoop




                                 24
Средства визуализации

●   Gephi
●   Tulip
●   Google Fusion Tables/ Chart Tools
●   Tableau Public
●   ManyEyes
●   Protovis
●   D3.js
●   Data.js
                                        25
●   ….

More Related Content

What's hot

Tutorial Django + Python
Tutorial Django + PythonTutorial Django + Python
Tutorial Django + Python
Mateus Padua
 
Functions in python
Functions in pythonFunctions in python
Functions in python
Ilian Iliev
 

What's hot (20)

Python basics
Python basicsPython basics
Python basics
 
What is Range Function? | Range in Python Explained | Edureka
What is Range Function? | Range in Python Explained | EdurekaWhat is Range Function? | Range in Python Explained | Edureka
What is Range Function? | Range in Python Explained | Edureka
 
Pandas
PandasPandas
Pandas
 
Dictionaries and Sets in Python
Dictionaries and Sets in PythonDictionaries and Sets in Python
Dictionaries and Sets in Python
 
NumPy.pptx
NumPy.pptxNumPy.pptx
NumPy.pptx
 
Tutorial Django + Python
Tutorial Django + PythonTutorial Django + Python
Tutorial Django + Python
 
Introduction to programming with python
Introduction to programming with pythonIntroduction to programming with python
Introduction to programming with python
 
Django Módulo Básico Parte I - Desenvolvimento de uma aplicação Web
Django Módulo Básico Parte I - Desenvolvimento de uma aplicação WebDjango Módulo Básico Parte I - Desenvolvimento de uma aplicação Web
Django Módulo Básico Parte I - Desenvolvimento de uma aplicação Web
 
Functions in python
Functions in pythonFunctions in python
Functions in python
 
Object oriented programming in python
Object oriented programming in pythonObject oriented programming in python
Object oriented programming in python
 
Sets in python
Sets in pythonSets in python
Sets in python
 
Numpy tutorial
Numpy tutorialNumpy tutorial
Numpy tutorial
 
Introdução a linguagem C# (CSharp)
Introdução a linguagem C# (CSharp)Introdução a linguagem C# (CSharp)
Introdução a linguagem C# (CSharp)
 
Data Structures with C Linked List
Data Structures with C Linked ListData Structures with C Linked List
Data Structures with C Linked List
 
Python course syllabus
Python course syllabusPython course syllabus
Python course syllabus
 
Python basics
Python basicsPython basics
Python basics
 
Stacks & Queues By Ms. Niti Arora
Stacks & Queues By Ms. Niti AroraStacks & Queues By Ms. Niti Arora
Stacks & Queues By Ms. Niti Arora
 
Data Structures in Python
Data Structures in PythonData Structures in Python
Data Structures in Python
 
Array
ArrayArray
Array
 
Python Regular Expressions
Python Regular ExpressionsPython Regular Expressions
Python Regular Expressions
 

Viewers also liked

Franchise - No animations
Franchise - No animationsFranchise - No animations
Franchise - No animations
yukha23
 
Веб-аналитика для рекламы: сбор данных, анализ, увеличение эффективности
Веб-аналитика для рекламы: сбор данных, анализ, увеличение эффективностиВеб-аналитика для рекламы: сбор данных, анализ, увеличение эффективности
Веб-аналитика для рекламы: сбор данных, анализ, увеличение эффективности
Techart Marketing Group
 
машинное обучение и анализ данных
машинное обучение и анализ данныхмашинное обучение и анализ данных
машинное обучение и анализ данных
Yandex
 
All About Waffles
All About WafflesAll About Waffles
All About Waffles
woodson27
 

Viewers also liked (14)

Franchise - No animations
Franchise - No animationsFranchise - No animations
Franchise - No animations
 
Impact Specialties Waffle House Food Truck
Impact Specialties Waffle House Food TruckImpact Specialties Waffle House Food Truck
Impact Specialties Waffle House Food Truck
 
Как и зачем делать фуд-трак?
Как и зачем делать фуд-трак?Как и зачем делать фуд-трак?
Как и зачем делать фуд-трак?
 
Веб-аналитика для рекламы: сбор данных, анализ, увеличение эффективности
Веб-аналитика для рекламы: сбор данных, анализ, увеличение эффективностиВеб-аналитика для рекламы: сбор данных, анализ, увеличение эффективности
Веб-аналитика для рекламы: сбор данных, анализ, увеличение эффективности
 
Станислав Завертайло
Станислав ЗавертайлоСтанислав Завертайло
Станислав Завертайло
 
машинное обучение и анализ данных
машинное обучение и анализ данныхмашинное обучение и анализ данных
машинное обучение и анализ данных
 
Бизнес-план предприятия общепита (фаст-фуд) (Дэмо-версия)
Бизнес-план предприятия общепита (фаст-фуд) (Дэмо-версия)Бизнес-план предприятия общепита (фаст-фуд) (Дэмо-версия)
Бизнес-план предприятия общепита (фаст-фуд) (Дэмо-версия)
 
Язык R: анализ и визуализация данных
Язык R: анализ и визуализация данныхЯзык R: анализ и визуализация данных
Язык R: анализ и визуализация данных
 
Маленькие секреты больших данных
Маленькие секреты больших данныхМаленькие секреты больших данных
Маленькие секреты больших данных
 
All About Waffles
All About WafflesAll About Waffles
All About Waffles
 
Анализ больших данных с помощью инструментов Google
Анализ больших данных с помощью инструментов GoogleАнализ больших данных с помощью инструментов Google
Анализ больших данных с помощью инструментов Google
 
Sweet Belgian Waffels
Sweet Belgian WaffelsSweet Belgian Waffels
Sweet Belgian Waffels
 
How to Start a Food Truck Business
How to Start a Food Truck BusinessHow to Start a Food Truck Business
How to Start a Food Truck Business
 
Text Analytics -- анализ неструктурированных данных
Text Analytics -- анализ неструктурированных данныхText Analytics -- анализ неструктурированных данных
Text Analytics -- анализ неструктурированных данных
 

Similar to Введение в анализ данных

AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
JSC “Arcadia Inc”
 
BigData и Data Science: методы и инструменты
BigData и Data Science: методы и инструменты BigData и Data Science: методы и инструменты
BigData и Data Science: методы и инструменты
Dima Karamshuk
 
Лекция №1. Введение. Предмет "Структуры и алгоритмы обработки данных"
Лекция №1. Введение. Предмет "Структуры и алгоритмы обработки данных"Лекция №1. Введение. Предмет "Структуры и алгоритмы обработки данных"
Лекция №1. Введение. Предмет "Структуры и алгоритмы обработки данных"
Nikolay Grebenshikov
 
Алгоритмы кластеризации. ч.3
Алгоритмы кластеризации. ч.3Алгоритмы кластеризации. ч.3
Алгоритмы кластеризации. ч.3
Ivan Ignatyev
 
Selenium нетрадиционной ориентации или Тестирование производительности Javasc...
Selenium нетрадиционной ориентации или Тестирование производительности Javasc...Selenium нетрадиционной ориентации или Тестирование производительности Javasc...
Selenium нетрадиционной ориентации или Тестирование производительности Javasc...
Nikita Makarov
 
Мониторинг и отладка MySQL: максимум информации при минимальных потерях / Све...
Мониторинг и отладка MySQL: максимум информации при минимальных потерях / Све...Мониторинг и отладка MySQL: максимум информации при минимальных потерях / Све...
Мониторинг и отладка MySQL: максимум информации при минимальных потерях / Све...
Ontico
 
20120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-0420120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-04
Computer Science Club
 
Performance Tester's Professional Roadmap
Performance Tester's Professional RoadmapPerformance Tester's Professional Roadmap
Performance Tester's Professional Roadmap
undera
 

Similar to Введение в анализ данных (20)

апрель
апрельапрель
апрель
 
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
 
BigData и Data Science: методы и инструменты
BigData и Data Science: методы и инструменты BigData и Data Science: методы и инструменты
BigData и Data Science: методы и инструменты
 
Лекция №1. Введение. Предмет "Структуры и алгоритмы обработки данных"
Лекция №1. Введение. Предмет "Структуры и алгоритмы обработки данных"Лекция №1. Введение. Предмет "Структуры и алгоритмы обработки данных"
Лекция №1. Введение. Предмет "Структуры и алгоритмы обработки данных"
 
Алгоритмы кластеризации. ч.3
Алгоритмы кластеризации. ч.3Алгоритмы кластеризации. ч.3
Алгоритмы кластеризации. ч.3
 
лекц11
лекц11лекц11
лекц11
 
Анализ данных
Анализ данныхАнализ данных
Анализ данных
 
ACC - конструируем тест-план методом Google
ACC - конструируем тест-план методом GoogleACC - конструируем тест-план методом Google
ACC - конструируем тест-план методом Google
 
Знакомство с проектом
Знакомство с проектомЗнакомство с проектом
Знакомство с проектом
 
Петрова Ксения - Data mining на практике - dmlabs.org
Петрова Ксения - Data mining на практике - dmlabs.orgПетрова Ксения - Data mining на практике - dmlabs.org
Петрова Ксения - Data mining на практике - dmlabs.org
 
Call of Postgres: Advanced Operations (part 4)
Call of Postgres: Advanced Operations (part 4)Call of Postgres: Advanced Operations (part 4)
Call of Postgres: Advanced Operations (part 4)
 
Selenium нетрадиционной ориентации или Тестирование производительности Javasc...
Selenium нетрадиционной ориентации или Тестирование производительности Javasc...Selenium нетрадиционной ориентации или Тестирование производительности Javasc...
Selenium нетрадиционной ориентации или Тестирование производительности Javasc...
 
Мониторинг и отладка MySQL: максимум информации при минимальных потерях / Све...
Мониторинг и отладка MySQL: максимум информации при минимальных потерях / Све...Мониторинг и отладка MySQL: максимум информации при минимальных потерях / Све...
Мониторинг и отладка MySQL: максимум информации при минимальных потерях / Све...
 
Мониторинг и отладка MySQL: максимум информации при минимальных потерях
Мониторинг и отладка MySQL: максимум информации при минимальных потеряхМониторинг и отладка MySQL: максимум информации при минимальных потерях
Мониторинг и отладка MySQL: максимум информации при минимальных потерях
 
Максим Богуславский, Banki.ru, «Как вырастить в себе автоматизатора и разрабо...
Максим Богуславский, Banki.ru, «Как вырастить в себе автоматизатора и разрабо...Максим Богуславский, Banki.ru, «Как вырастить в себе автоматизатора и разрабо...
Максим Богуславский, Banki.ru, «Как вырастить в себе автоматизатора и разрабо...
 
Mail.ru: Как вырастить в себе автоматизатора и разработчика
Mail.ru:  Как вырастить в себе автоматизатора и разработчикаMail.ru:  Как вырастить в себе автоматизатора и разработчика
Mail.ru: Как вырастить в себе автоматизатора и разработчика
 
20120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-0420120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-04
 
Программирование как способ выражения мыслей.
Программирование как способ выражения мыслей. Программирование как способ выражения мыслей.
Программирование как способ выражения мыслей.
 
Performance Tester's Professional Roadmap
Performance Tester's Professional RoadmapPerformance Tester's Professional Roadmap
Performance Tester's Professional Roadmap
 
Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011
Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011
Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011
 

More from Ivan Ignatyev

Организация защищенного доступа к системе
Организация защищенного доступа к системеОрганизация защищенного доступа к системе
Организация защищенного доступа к системе
Ivan Ignatyev
 
Приватность
ПриватностьПриватность
Приватность
Ivan Ignatyev
 
Защищенные каналы связи
Защищенные каналы связиЗащищенные каналы связи
Защищенные каналы связи
Ivan Ignatyev
 
Защита доверия. Цифровые подписи
Защита доверия. Цифровые подписиЗащита доверия. Цифровые подписи
Защита доверия. Цифровые подписи
Ivan Ignatyev
 
Защита от отказов
Защита от отказовЗащита от отказов
Защита от отказов
Ivan Ignatyev
 
Идентификация, Аутентификация, Авторизация
Идентификация, Аутентификация, АвторизацияИдентификация, Аутентификация, Авторизация
Идентификация, Аутентификация, Авторизация
Ivan Ignatyev
 
Криптография
КриптографияКриптография
Криптография
Ivan Ignatyev
 
Стандарт "Общие Критерии": Состав и взгляд на защищаемые объект
Стандарт "Общие Критерии":  Состав и взгляд на защищаемые объектСтандарт "Общие Критерии":  Состав и взгляд на защищаемые объект
Стандарт "Общие Критерии": Состав и взгляд на защищаемые объект
Ivan Ignatyev
 
Стандарт "Общие Критерии" : Состав, методология, требования доверия
Стандарт "Общие Критерии" : Состав, методология, требования доверияСтандарт "Общие Критерии" : Состав, методология, требования доверия
Стандарт "Общие Критерии" : Состав, методология, требования доверия
Ivan Ignatyev
 
Управление безопасностью
Управление безопасностьюУправление безопасностью
Управление безопасностью
Ivan Ignatyev
 
Организация защищенного доступа к данным
Организация защищенного доступа к даннымОрганизация защищенного доступа к данным
Организация защищенного доступа к данным
Ivan Ignatyev
 
Защита информации. Вводная лекция.
Защита информации. Вводная лекция.Защита информации. Вводная лекция.
Защита информации. Вводная лекция.
Ivan Ignatyev
 
Факторный анализ
Факторный анализФакторный анализ
Факторный анализ
Ivan Ignatyev
 
Секвенциальный анализ
Секвенциальный анализСеквенциальный анализ
Секвенциальный анализ
Ivan Ignatyev
 
Алгоритмы кластеризации. ч.1
Алгоритмы кластеризации. ч.1Алгоритмы кластеризации. ч.1
Алгоритмы кластеризации. ч.1
Ivan Ignatyev
 
Алгоритмы кластеризации. ч.2
Алгоритмы кластеризации. ч.2Алгоритмы кластеризации. ч.2
Алгоритмы кластеризации. ч.2
Ivan Ignatyev
 

More from Ivan Ignatyev (20)

Тематические карты на LeafletJS с плагинами.
Тематические карты на LeafletJS с плагинами.Тематические карты на LeafletJS с плагинами.
Тематические карты на LeafletJS с плагинами.
 
Административная информация по практике
Административная информация по практикеАдминистративная информация по практике
Административная информация по практике
 
Вводная лекция по Защите Информации
Вводная лекция по Защите ИнформацииВводная лекция по Защите Информации
Вводная лекция по Защите Информации
 
Вводная лекция. О курсе АД.
Вводная лекция. О курсе АД.Вводная лекция. О курсе АД.
Вводная лекция. О курсе АД.
 
Организация защищенного доступа к системе
Организация защищенного доступа к системеОрганизация защищенного доступа к системе
Организация защищенного доступа к системе
 
Приватность
ПриватностьПриватность
Приватность
 
Защищенные каналы связи
Защищенные каналы связиЗащищенные каналы связи
Защищенные каналы связи
 
Защита доверия. Цифровые подписи
Защита доверия. Цифровые подписиЗащита доверия. Цифровые подписи
Защита доверия. Цифровые подписи
 
Защита от отказов
Защита от отказовЗащита от отказов
Защита от отказов
 
Идентификация, Аутентификация, Авторизация
Идентификация, Аутентификация, АвторизацияИдентификация, Аутентификация, Авторизация
Идентификация, Аутентификация, Авторизация
 
Криптография
КриптографияКриптография
Криптография
 
Стандарт "Общие Критерии": Состав и взгляд на защищаемые объект
Стандарт "Общие Критерии":  Состав и взгляд на защищаемые объектСтандарт "Общие Критерии":  Состав и взгляд на защищаемые объект
Стандарт "Общие Критерии": Состав и взгляд на защищаемые объект
 
Стандарт "Общие Критерии" : Состав, методология, требования доверия
Стандарт "Общие Критерии" : Состав, методология, требования доверияСтандарт "Общие Критерии" : Состав, методология, требования доверия
Стандарт "Общие Критерии" : Состав, методология, требования доверия
 
Управление безопасностью
Управление безопасностьюУправление безопасностью
Управление безопасностью
 
Организация защищенного доступа к данным
Организация защищенного доступа к даннымОрганизация защищенного доступа к данным
Организация защищенного доступа к данным
 
Защита информации. Вводная лекция.
Защита информации. Вводная лекция.Защита информации. Вводная лекция.
Защита информации. Вводная лекция.
 
Факторный анализ
Факторный анализФакторный анализ
Факторный анализ
 
Секвенциальный анализ
Секвенциальный анализСеквенциальный анализ
Секвенциальный анализ
 
Алгоритмы кластеризации. ч.1
Алгоритмы кластеризации. ч.1Алгоритмы кластеризации. ч.1
Алгоритмы кластеризации. ч.1
 
Алгоритмы кластеризации. ч.2
Алгоритмы кластеризации. ч.2Алгоритмы кластеризации. ч.2
Алгоритмы кластеризации. ч.2
 

Введение в анализ данных

  • 1. Лекция №2 Введение в анализ данных 1
  • 2. План лекции ● Основные понятия анализа данных ● Основные подходы анализа данных ● Основные инструменты анализа данных Цель лекции — получить представление о процессе анализа данных и применяемых методиках 2
  • 3. Основы Анализа данных ● Теория вероятности и математическая статистика ● Математический анализ ● Вычислительная математика ● Для тех, кто забыл — khanacademy.org 3
  • 4. Основные понятия ● Атрибут – Зависимая переменная – Независимая переменная ● Объект ● Значение атрибута у объекта ● Измерение 4
  • 5. Шкалы ● Номинальная (=, <>) ● Дихотомическая ● Порядковая (=, <>, >, <) ● Интервальная (=, <>, >, <, +, -) ● Относительная (=, <>, >, <, +, -, *, /) 5
  • 6. Процесс анализа данных ● Постановка задачи ● Сбор данных ● Выдвижение гипотез ● Очистка данных ● Выбор алгоритма анализа ● «Обучение» (Machine Learning) ● Оценка результата ● Применение построенного в результате обучения 6
  • 7. Постановка задачи ● Следует сформулировать, что мы хотим изучить, какие возможные закономерности выявить ● Предварительные «гипотезы» 7
  • 8. Сбор данных ● Из реальности ● При помощи программных инструментов ● Или опросов ● Или наблюдений 8
  • 9. Выдвижение гипотез ● Основываясь на собранных данных ● Их визуализации ● Их структуре 9
  • 10. Очистка данных ● Удаление избыточных ● Проверка независимости ● Корреляционный и факторный анализ 10
  • 11. Выбор алгоритма анализа ● На основании данных ● Исходя из задачи ● Можно несколько, комбинируя (чаще последовательно) 11
  • 12. Обучение ● Алгоритм анализа часто сам данные не анализирует ● Он строит анализатор данных ● Который основан на конкретных данных ● И который как раз доказывает или опровергает гипотезу 12
  • 13. Оценка результата ● Полученный набор правил следует проверить ● Хотя бы визуализацией ● При помощи данных, опять же ● Иногда — на тех же, по которым строили ● Чаще — на независимых (отобранных заранее и не участвовавших в построении) ● Различными методами ● Если качество результата не устраивает — 13 то меняем что-то и заново
  • 14. Применение построенного анализатора ● Его объяснение ● Его визуализация ● Его интерпретация ● Его использование в реальности 14
  • 15. Пример ● Автоводитель (Нейронная сеть) 15
  • 16. Средства анализа данных ● Статистические/математические пакеты ● Среды анализа данных ● Библиотеки анализа данных ● Пакеты анализа данных ● Средства добычи данных ● Средства очистки данных ● Средства хранения данных ● Средства визуализации данных 16
  • 18. Среды анализа данных ● Orange ● Weka ● RapidMiner 18
  • 19. Библиотеки анализа данных ● Xelopes ● DTML ● Waffles ● Apache Mahout 19
  • 20. Пакеты анализа данных ● R ● GNU Octave ● Python + Numpy 20
  • 21. Средства добычи данных ● Пауки – Mechanize – Scrapy – Selenium – ... ● Парсеры – BeautifulSoup – Lxml – …. 21
  • 22. Средства добычи данных ● Пауки – Mechanize – Scrapy – Selenium – ... ● Парсеры – BeautifulSoup – Lxml – …. 22
  • 23. Средства очистки данных ● Парсеры ● Табличные процессоры – Google Refine – LO Calc – MS Excel 23
  • 24. Средства хранения данных ● MS SQL Server ● MySQL Server ● Apache Hadoop 24
  • 25. Средства визуализации ● Gephi ● Tulip ● Google Fusion Tables/ Chart Tools ● Tableau Public ● ManyEyes ● Protovis ● D3.js ● Data.js 25 ● ….