Hadoopことはじめ

•Download as PPTX, PDF•

4 likes•1,575 views

Katsunori Kanda

これからはじめるHadoop/Spark発表資料 http://hadoop.connpass.com/event/27345/

Technology

Hadoopことはじめ
〜Hadoopを取り巻く環境とその最新動向〜
2016.03.22 @ これからはじめるHadoop/Spark
Presented By: Katsunori Kanda(@potix2)
CyberAgent Inc.

自己紹介
神田勝規（かんだかつのり）
株式会社サイバーエージェント
アドテクスタジオ基盤開発グループ
サーバーサイドエンジニア(OS/分散システムが専門)
potix2@twitter/github
※ 毎月LispMeetup(shibuya.lisp)を開催してます

今日話したいこと
• Hadoopを使う動機
• Hadoopの全体像
• 最近のトレンド
• デモ

Hadoopを使う動機
• 大量データを苦労せず高速に処理したい
• 一度溜まったデータを動かすにはコストがかかる
• 溜まっているデータをみんなで使いたい

Q.大量データを高速に
処理するには？
A. ディスクをたくさんならべて分散処理する
ディスクの台数分だけスループットが向上する
ログ 10TBディスク
CPU
メモリ
1台の場合 20台に分散させた場合
500GB 500GB…500GB
読み込みに
1GB/s
で約2.8時間
読み込みに
1GB/s
で8.3分

Hadoopのシステムスタック
HDFS(Hadoop Distributed File System)
YARN(Cluster Resource Manager)
Hive/Tez SparkMapReduce
Streaming
(Storm/Flink…)
Others…
UserApplications

HDFS
• Hadoop Distributed File Systemの略
• 複数のサーバーにあるディスクを一つの巨大なディ
スクのように見せてくれる
• 自動でレプリケーションも作ってくれるので対障害
性が高い

YARNの役割
HDFS
AM AM
リソース割り当て
（CPU/Mem/IO）
App1(MapReduce) App2(Spark)
Resource
Manager
単一クラスターで複数の分散アプリケーションが稼働できる

単一クラスターのメリット
• リソースが効率的に使用され稼働率が上がる
• 一つのクラスターだけを運用すればいいので運用コ
ストが低減される
• システム間のデータ移動コストがかからなくなる（
c.f. 複数クラスターではコピーが発生する）

Hadoop上で動く分散アプリ
ケーション
• SQL on Hadoop
• Spark SQL, Hive/Tez, Presto, …
• ストリーミング
• Spark Streaming, Storm, Flink, …
• 機械学習
• Spark ML, SystemML, TensorFlow, …

SQL on Hadoop
• 最近は、MapReduce処理を一から書くことはあま
りない
• SQL(っぽい)言語でデータの抽出や集計処理を書く
ことができる
• Jupyter, Apache Zeppelin, re:dashなどノートブッ
ク環境と合わせて使うと便利

ストリーミング
• 開発が活発に行なわれている。Apacheプロジェク
ト内でもいくつあるのか・・・。
• Storm, Spark, Flink, Apex…
• 比較記事:
https://yahooeng.tumblr.com/post/135321837876/b
enchmarking-streaming-computation-engines-at

これからHadoopを使ってみるなら
• クラウド環境から使いはじめてみるのがよい
• S3やGCSをHDFSを通して使える
• AWSなら、EMR
• GCPなら、Cloud Data Proc

まとめ
• Hadoopは大量データを処理するためのシステム
• HDFS + YARN + 分散アプリケーション
• 用途の異なるアプリが単一クラスターで動く
• 最近はSQLでデータ処理を書けるようになってきた
• これからはじめるならクラウド環境を活用するのが
よい

What's hot

基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入とその取り組みについて-Keigo Suda

Hadoop Conference Japan 2013 Winter オープニングスライドhamaken

Spark MLlibではじめるスケーラブルな機械学習NTT DATA OSS Professional Services

Hadoopの標準GUI HUEの最新情報Cloudera Japan

データ分析に必要なスキルをつけるためのツール～Jupyter notebook、r連携、機械学習からsparkまで～The Japan DataScientist Society

Pythonで入門するApache Spark at PyCon2016Tatsuya Atsumi

ビッグデータ活用を加速する！分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo FallYusukeKuramata

15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-LINE Corp.

Apache Sparkの紹介Ryuji Tamagawa

大規模分散システムの現在 -- GFS, MapReduce, BigTableはどう変化したか？maruyama097

リクルートライフスタイルのデータを支える技術Yu Yamada

Pysparkで始めるデータ分析Tanaka Yuichi

2015年2月26日 dsthHUB 『DataSpiderインターナルプラガブルアーキテクチャで広がる可能性』dstn

WebDB Forum 2012 基調講演資料Recruit Technologies

Yahoo! JAPANのデータ基盤とHadoop #dbts2016Yahoo!デベロッパーネットワーク

Apache cassandraと apache sparkで作るデータ解析プラットフォームKazutaka Tomita

Apache Sparkを使った感情極性分析Tanaka Yuichi

データ分析基盤を支えるエンジニアリングRecruit Lifestyle Co., Ltd.

ApacheSparkを中心としたOSSビッグデータ活用と導入時の検討ポイントTanaka Yuichi

[Azure Deep Dive] Spark と Azure HDInsight によるビッグデータ分析入門 (2017/03/27)Naoki (Neo) SATO

What's hot (20)

基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入とその取り組みについて-

Hadoop Conference Japan 2013 Winter オープニングスライド

Spark MLlibではじめるスケーラブルな機械学習

Hadoopの標準GUI HUEの最新情報

データ分析に必要なスキルをつけるためのツール～Jupyter notebook、r連携、機械学習からsparkまで～

Pythonで入門するApache Spark at PyCon2016

ビッグデータ活用を加速する！分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall

15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-

Apache Sparkの紹介

大規模分散システムの現在 -- GFS, MapReduce, BigTableはどう変化したか？

リクルートライフスタイルのデータを支える技術

Pysparkで始めるデータ分析

2015年2月26日 dsthHUB 『DataSpiderインターナルプラガブルアーキテクチャで広がる可能性』

WebDB Forum 2012 基調講演資料

Yahoo! JAPANのデータ基盤とHadoop #dbts2016

Apache cassandraと apache sparkで作るデータ解析プラットフォーム

Apache Sparkを使った感情極性分析

データ分析基盤を支えるエンジニアリング

ApacheSparkを中心としたOSSビッグデータ活用と導入時の検討ポイント

[Azure Deep Dive] Spark と Azure HDInsight によるビッグデータ分析入門 (2017/03/27)

Viewers also liked

Asakusaではじめるhadoop sparkプログラミングTadatoshi Sekiguchi

20160127三木会 RDB経験者のためのsparkRyuji Tamagawa

MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015Cloudera Japan

ビッグじゃなくても使えるSpark Streamingchibochibo

情報共有から始めるチーム開発とキャリア戦略Takuya Oikawa

Apache SparkについてBrainPad Inc.

Akira shibata at developer summit 2016Akira Shibata

Spark徹底入門 #cwt2015Cloudera Japan

Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...MapR Technologies Japan

Apache Spark チュートリアルK Yamaguchi

MapReduce入門Satoshi Noto

Spark Streamingを活用したシステムの検証結果と設計時のノウハウFuture Of Data Japan

Sparkを活用したレコメンドエンジンのパフォーマンスチューニング＆自動化Nagato Kasaki

Introduction to Hadoop and Spark (before joining the other talk) and An Overv...DataWorks Summit/Hadoop Summit

Apache Spark の紹介（前半：Sparkのキホン）NTT DATA OSS Professional Services

Apache Spark超入門（Hadoop / Spark Conference Japan 2016 講演資料）NTT DATA OSS Professional Services

ちょっと理解に自信がないなという皆さまに贈るHadoop／Sparkのキホン（IBM Datapalooza Tokyo 2016講演資料）hamaken

Spark at ScaleYuta Imai

初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜Tanaka Yuichi

Apache Sparkに手を出してヤケドしないための基本～「Apache Spark入門より」～（デブサミ 2016 講演資料）NTT DATA OSS Professional Services

Viewers also liked (20)

Asakusaではじめるhadoop sparkプログラミング

20160127三木会 RDB経験者のためのspark

MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015

ビッグじゃなくても使えるSpark Streaming

情報共有から始めるチーム開発とキャリア戦略

Apache Sparkについて

Akira shibata at developer summit 2016

Spark徹底入門 #cwt2015

Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...

Apache Spark チュートリアル

MapReduce入門

Spark Streamingを活用したシステムの検証結果と設計時のノウハウ

Sparkを活用したレコメンドエンジンのパフォーマンスチューニング＆自動化

Introduction to Hadoop and Spark (before joining the other talk) and An Overv...

Apache Spark の紹介（前半：Sparkのキホン）

Apache Spark超入門（Hadoop / Spark Conference Japan 2016 講演資料）

ちょっと理解に自信がないなという皆さまに贈るHadoop／Sparkのキホン（IBM Datapalooza Tokyo 2016講演資料）

Spark at Scale

初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜

Apache Sparkに手を出してヤケドしないための基本～「Apache Spark入門より」～（デブサミ 2016 講演資料）

Similar to Hadoopことはじめ

第１回Hadoop関西勉強会参加レポートＹｏｕ＆Ｉ

OSC2014 Tokyo/Spring HadoopShinichi YAMASHITA

分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向（OSC2015 Kansai発表資料）NTT DATA OSS Professional Services

Hadoop - OSC2013 .EnterpriseShinichi YAMASHITA

Hadoop事始めＹｏｕ＆Ｉ

AI・HPC・ビッグデータで利用される分散ファイルシステムを知る日本ヒューレット・パッカード株式会社

ゾウ使いへの第一歩Fumito Ito

A 2-3ゾウ使いへの第一歩 hadoop on azure 編GoAzure

分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向（オープンソースカンファレンス 2015 Tokyo/Spring 講...NTT DATA OSS Professional Services

Hadoop ecosystem NTTDATA osc15tkNTT DATA OSS Professional Services

OSSとクラウドによるコンピューティングモデルの変化Nobuyori Takahashi

Hadoop, NoSQL, GlusterFSの概要日本ヒューレット・パッカード株式会社

JavaOne2013報告会 LT資料 Hadoopの話を聞いてきたTakashi Aoe

Hadoop基盤を知る日本ヒューレット・パッカード株式会社

ATN No.1 MapReduceだけでない!? Hadoopとその仲間たちAdvancedTechNight

【17-E-3】Hadoop：黄色い象使いへの道～「Hadoop徹底入門」より～Developers Summit

HadoopとはHirokazu Yatsunami

今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC EnterpriseYusukeKuramata

sparksql-hive-bench-by-nec-hwx-at-hcj16Yifeng Jiang

40分でわかるHadoop徹底入門（Cloudera World Tokyo 2014 講演資料） hamaken

Similar to Hadoopことはじめ (20)

第１回Hadoop関西勉強会参加レポート

OSC2014 Tokyo/Spring Hadoop

分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向（OSC2015 Kansai発表資料）

Hadoop - OSC2013 .Enterprise

Hadoop事始め

AI・HPC・ビッグデータで利用される分散ファイルシステムを知る

ゾウ使いへの第一歩

A 2-3ゾウ使いへの第一歩 hadoop on azure 編

分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向（オープンソースカンファレンス 2015 Tokyo/Spring 講...

Hadoop ecosystem NTTDATA osc15tk

OSSとクラウドによるコンピューティングモデルの変化

Hadoop, NoSQL, GlusterFSの概要

JavaOne2013報告会 LT資料 Hadoopの話を聞いてきた

Hadoop基盤を知る

ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち

【17-E-3】Hadoop：黄色い象使いへの道～「Hadoop徹底入門」より～

Hadoopとは

今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise

sparksql-hive-bench-by-nec-hwx-at-hcj16

40分でわかるHadoop徹底入門（Cloudera World Tokyo 2014 講演資料）

Recently uploaded

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi

デジタル・フォレンジックの最新動向（2024年4月27日情洛会総会特別講演スライド）UEHARA, Tetsutaro

CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か？akihisamiyanaga1

業務で生成AIを活用したい人のための生成AI入門講座（社外公開版：キンドリルジャパン社内勉強会：2024年4月発表）Hiroshi Tomioka

NewSQLの可用性構成パターン（OCHaCafe Season 8 #4 発表資料）NTT DATA Technology & Innovation

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察～Text-to-MusicとText-To-ImageかつImage-to-Music...博三太田

Recently uploaded (9)

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer

デジタル・フォレンジックの最新動向（2024年4月27日情洛会総会特別講演スライド）

CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か？

業務で生成AIを活用したい人のための生成AI入門講座（社外公開版：キンドリルジャパン社内勉強会：2024年4月発表）

NewSQLの可用性構成パターン（OCHaCafe Season 8 #4 発表資料）

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察～Text-to-MusicとText-To-ImageかつImage-to-Music...