Hadoop presentation

Hadoop
Vladimir Orlov
vorl@codeminders.com

Copyright © 2011 Codeminders <vorl@codeminders.com>

О чем я расскажу?

• О Hadoop в кратце
• Примеры из жизни
• Установка и настройка
• Оптимизация MR-заданий
• Отладка и алгоритмы

Нadoop это:
• MapReduce: JobTracker, TaskTracker
• HDFS: NameNode, DataNode
• Скрипты для управления кластером
• Скрипты для работы с HDFS
• API для написания MR-заданий
• Hadoop-Streaming для не-Java MR
заданий


Зоопарк Нadoop это:
• Hive, Pig – аналоги Sawzall
• HBase – аналог BigTable
• Zookeeper – аналог Chubby
• Mahout – коллекция MR
алгоритмов
• Nutch – open-source кровлер
• Oozie, Azkaban, Hamake, Cascading

Терминология
• Job (задание) – “вся программа” – выполнение Mapper'ов и
Reducer'ов на всем множестве входных данных
• Task (задача) – выполнение Mapper'ов и Reducer'ов на части
входных данных
• Task Attempt (попытка выполнения задачи) – экземпляр
запущенной задачи на определенной машине
• Mapper - map (in_key, in_value) -> (inter_key, inter_value) list
• Reducer - reduce (inter_key, inter_value list) -> (out_key,
out_value) list
• Partitioner – класс, ответственный за распределение пар
ключ/значение м/у reducer'ами
• Input/Output Format – формат входных/выходных данных

Реализация MR заданий
1.Создаем 2 класса, наследующие MapReduceBase и
реализующие интерфейсы Mapper (с вашей map-
функцией) и Reducer (с вашей reduce-функцией)
2.Конфигурируем MapReduce-задание, создав
экземпляр класса JobConf
3.Передаем в JobConf параметры: путь к входному
файлу на HDFS, путь к директории c результатом,
формат входных и выходных данных, класс с map-
функцией, класс с reduce-функцией
4.Вызваем метод JobConf.runJob()
5.Дальше - за вас работает Hadoop

Примеры из жизни

Корпоративный Веб-кровлер
●
Цель - реализация кровлера, собирающего и
индексирующего данные с заданных веб-
сайтов
●
Технологии:
●
Nutch + Hadoop + HDFS – кровлинг и
индексация
●
Lucene + Solr – хранение, распределение
индекса и обработка поисковых запросов
●
Zookeeper – синхронизация м/у
компонентами

Схема Компонентов


Особенности проекта
●
Индексация – средствами Nutch
●
Hadoop кластер на Windows
●
Синхронизация – Zookeeper
●
Ручное распределение индекса. Для обработки
поисковых запросов –
Solr Sharding:


Поиск одинаковых книг
●
Цель - определение книг, не отличающихся по
содержанию среди всех, которые поступают на
fb2pdf.com
●
Технологии:
●
Hadoop + Mahout – кластеризация книг. В
качестве меры расстояния – косинусное
расстояние. Алгоритм кластеризации -
Canopy
●
Hamake – объединение MR-заданий в
процесс

Цепочка MR-заданий


Несколько слов о Hamake...
●
Наблюдение 1: большинство задач по
обработке данных нуждаются в более чем
одном MR-задании.
●
Наблюдение 2: большинство таких заданий
«управляются данными« (data-driven)
●
Hamake – утилита, которая позволяет описать
процесс обработки данных ввиде потока, и
запустить этот процесс на выполнение.
●
Поток представляет собой DAG, где узлы –
данные, ребра – правило изменения данных.

Fold и Foreach

<fold name="FindSimilar"> <foreach name="CalculateTF">
<input> <input>
<file id="TFVector" path="/TF" /> <fileset id="terms" path="/terms" />
</input> </input>
<output> <output>
<include idref="clustersList" path="/clusters"/> <file id="TFVector" path="/TF/${foreach:filename}" />
</output> </output>
<mapreduce jar="${lib}/hadoopJobs.job" <mapreduce jar="${lib}/hadoopJobs.job"
main="com.example.Canopy"> main="com.example.CalculateTF">
... ...
</mapreduce> </mapreduce>
</fold> </foreach>


Запуск процесса в Hamake

hadoop jar hamake-2.0b-3.jar -f hamakefile.xml
>10/05/05 17:28:55 INFO hamake.Main: Using Hadoop 0.xx.x
>10/05/05 17:28:55 INFO hamake.Main: Working dir: file:/home/project/HaMake/src/hamake
>10/05/05 17:28:55 INFO hamake.Main: Reading hamake-file my-first-hamakefile.xml
>10/05/05 17:28:59 INFO hamake.TaskRunner: Starting randomtextwriter
...
>10/05/05 17:29:05 WARN hamake.Hamake: Some of your tasks have called System.exit()
method. This is not recommended behaviour because it will prevent Hamake from launching other
tasks.
>10/05/05 17:29:05 INFO hamake.TaskRunner: Execution of randomtextwriter is completed
>10/05/05 17:29:05 INFO hamake.TaskRunner: Starting wordcount
...
>10/05/05 17:29:10 WARN hamake.Hamake: Some of your tasks have called System.exit()
method. This is not recommended behaviour because it will prevent Hamake from launching other
tasks.
>10/05/05 17:29:10 INFO hamake.TaskRunner: Execution of wordcount is completed

Установка и настройка

Установка Hadoop
• Пользуйтесь дистрибутивами Hadoop :
●
Cloudera's CDH
●
Yahoo Distribution of Hadoop
• Hadoop не работает на Windows (patch
#6767)
• Не используйте RAID
• Для данных в S3, пользуйтесь EMR


Важные параметры
• dfs.block.size <= 128Mb (hdfs-site.xml)
• dfs.datanode.du.reserved – оставляйте место для
системных файлов
• io.file.buffer.size <=64Kb (core-site.xml)
• mapred.child.java.opts – параметры JVM для дочерних
mapper'ов и reducer'ов
• io.sort.mb – количество памяти в Mb, выделяемое на
сортировку
• mapred.(map|reduce).tasks – число должно быть равно
<количеству процессоров - 1>


Тесты для Hadoop
• TestDFSIO – простой тест для HDFS
• Gridmix – группа тестов,
симулирующие «реальную» нагрузку
• RandomWriter + Sort:
hadoop jar hadoop-*-examples.jar randomwriter random-data
hadoop jar hadoop-*-examples.jar sort random-data sorted-data
hadoop jar hadoop-*-test.jar testmapredsort -sortInput random-
data -sortOutput sorted-data


Оптимизация и отладка

Самая важная оптимизация
• Не создавайте объекты без
необходимости
•
Например, ключи и значения в mapper'е и
reducer'е


Почему?
1.Создание объектов - дорогостоящая
операция
2.Создание объектов может приводить к
не очевидным потерям памяти
3.Все, что было создано, должно быть
освобождено сборщиком мусора


Типы данных в Hadoop
Writable Определяет протокол
десериализации. Каждый тип данных
в Hadoop является Writable..

Определяет порядок сортировки. Все
WritableComparable ключи должны быть того же типа (но
не значения).

IntWritable
LongWritable Конкретные классы для различный
типов данных.
Text
…


Классы-обертки
● типы данных в Hadoop являются “обертками” :
• Text: строковый тип данных

• IntWritable: целые числа

• LongWritable: длинные целые числа

• FloatWritable: числа с плавающей точкой

• …

● Почему? Writable определяет формат передачи данных
по сети
● Классы-обертки и их содержимое :
• Важное различие!

• Позволяет повторное использование оберток


Не переопределяйте объекты
Map class Map class
key = new key()
value = new value()

Map method (key, input) Map method (key, input)

key = new key(…) key.set(…)
value = new value(…) value.set(…)
… …
EMIT (key, value) EMIT (key, value)

Не верно! Верно!


Reducer
● Внутри reducer, API предоставляет Вам итератор
поверх значений
• Будте внимательны - это каждый раз тот же самый

объект, заполненный другим содержимым!

protected void reduce(KEYIN key, Iterable<VALUEIN> values, Context context
) throws IOException, InterruptedException {
for(VALUEIN value: values) {
context.write((KEYOUT) key, (VALUEOUT) value);
}
}


WritableComparable
● Между фазами map и reduce: сортировка и перетасовка
• Наивный подход: десериализация ключа

и использование метода compareTo
• например, a.compareTo(b)

• В чем проблема?

● WritableComparator: сравнивайте побайтно
• Избегаем накладных расходов по созданию объекта

• Операция может быть прервана досрочно, как

только порядок устновлен
• Реализуйте для очень быстрой сортировки!

• Пример – org.apache.hadoop.io.Text


Combiner : WordCount
Map(String key, String value):
// key: имя документа
// value: содержимое документа
for each word w in value:
Emit(w, 1);

Reduce(String key, Iterator<Integer> values):
// key: слово, одно и тоже для ввода и ввывода
// values: список счетчиков
int result = 0;
for each v in values:
result += v;
Emit(key, result);


WordCount без Combiner'а

dog 1 cat 1

cat 1 bird 1

dog 1 cat 1

dog 1 dog 1

Sort and Shuffle

dog 1 1 1 1 cat 1 1 1 bird 1


WordCount c Combiner'ом
dog 1 cat 1

cat 1 bird 1

dog 1 cat 1

dog 1 dog 1

Combine Combine
cat 1 bird 1

dog 3 cat 2 dog 1

Sort and Shuffle

dog 3 1 cat 1 2 bird 1

Зачем нужен partitioner
●
При степенном распределении пространства
ключей фаза reduce может
вызываеть задержки
●
Помните подсчет слов -к сожалению, reducer
завяз на подсчете количества слов “the”
●
Почему спекулятивное исполнение не
справляется с этим?
●
Полезен при сортировке

int getPartition(K2 key, V2 value, int numPartitions);

Отладка MR-заданий
●
Программная логика должна быть Hadoop-
независимой
•
Не используйте Hadoop специфические
классы (OutputCollector, Reporter, Writable)
без крайней необходимости
•
Работайте с Hadoop API на интерфейсном
уровне


Последовательность отладки
1.JUnit
2.LocalJobRunner. Недостатки :
•
DistributedCache не работает
•
mapred.reduce.tasks всегда 1
•
абсолютно отдельная ветвь кода…
3.MiniDFSCluster и MiniMRCluster


Литература и вопросы

Дополнительная информация
1. Книга "Hadoop: The Definitive Guide", Tom White,
2009
2. Книга "Data-Intensive Text Processing with
MapReduce" Jimmy Lin, 2010
3. Проект Mahout: http://mahout.apache.org/
4. Проект Hamake: http://code.google.com/p/hamake/
5. Проект Nutch: http://nutch.apache.org/
6. Сайт компании Cloudera: http://www.cloudera.com/
7. Yahoo! Hadoop distribtion:
http://developer.yahoo.com/hadoop/distribution/

Hadoop presentation

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (20)

Ähnlich wie Hadoop presentation

Ähnlich wie Hadoop presentation (20)

Hadoop presentation