Weitere ähnliche Inhalte
Ähnlich wie Hadoop x spark x 機械学習を利用した実践的活用術 最新 (20)
Mehr von NHN テコラス株式会社 (20)
Hadoop x spark x 機械学習を利用した実践的活用術 最新
- 1. Copyright © NHN Techorus Corp. Page1
2016/10/24
NHNテコラス株式会社 データ研究室
佐藤 哲
趙 漢哲/坂井 俊之
小山 智久
Hadoop × Spark × 機械学習を利用した実践的活用術
- 8. Copyright © NHN Techorus Corp. Page8
中小企業のeコマースの現在
“一元管理による複数店舗展開
が当たり前になってきた”
- 9. Copyright © NHN Techorus Corp. Page9
中小企業のeコマースの現在
“しかし、費用を考えるとできるだけ
自社モールの販売を伸ばしたい”
- 10. Copyright © NHN Techorus Corp. Page10
どうすれば顧客を
自社モールへ導けるのか?
• 考える点
– 既存顧客の離脱防止
– 他モールから自社モールへ誘導
– 新規顧客の誘致
– などなど
- 11. Copyright © NHN Techorus Corp. Page11
どうすれば顧客を
自社モールへ導けるのか?
• 考える点
– 既存顧客の離脱防止
– 他モールから自社モールへ誘導
– 新規顧客の誘致
– などなど
顧客が購入したいと思う商品を
いい条件で提供する
- 12. Copyright © NHN Techorus Corp. Page12
どうすれば顧客を
自社モールへ導けるのか?
顧客が購入したいと思う商品を
いい条件で提供する
レコメンダーを導入しよう!
• 考える点
– 既存顧客の離脱防止
– 他モールから自社モールへ誘導
– 新規顧客の誘致
– などなど
- 14. Copyright © NHN Techorus Corp. Page14
レコメンダー概念図
共通フォマットデータ
会社A
自社モール
会社A
他モール
協調フィルタリング用データの例
DateTime User Item
2016/03/07 21:03:11 user1342 item1
2016/03/07 21:04:34 user2298 item14
学習データ オンライン
テストデータ
デ
ー
タ
取
得
複数モールから
データを収集
- 15. Copyright © NHN Techorus Corp. Page15
学習機
レコメンダー概念図
レ
コ
メ
ン
ダ
ー
学
習
学習・評価データ分離
学習データ 評価データ
モデルパラメター
集合
Regularization
LearningRate
Etc.
学習
評価
モデル
レコメンド
結果
学習データ
最適モデル
モデル
モデル
再学習
最適
パラメター
- 16. Copyright © NHN Techorus Corp. Page16
レコメンダー概念図
オ
ン
ラ
イ
ン
評
価
利用モデル選択
オンライン
テストデータ
最適モデル
レコメンドモデル永久保存空間
その他
会社A-002
会社A-001
評価機
モデル評価
結果比較
オペレーター
- 17. Copyright © NHN Techorus Corp. Page17
レコメンダー概念図
レ
コ
メ
ン
ド
提
供
レコメンド生成機
新規顧客用
既存顧客
トップページ用
既存顧客
商品ページ用
…
レコメンドモデル永久保存空間
その他
会社A-002
会社A-001
- 19. Copyright © NHN Techorus Corp. Page19
協調フィルタリングを利用した
実証実験の概念図
2012 2013 2014 2015
レコメンド
モデル
購買履歴
WEB観覧
履歴
商品の
類似性
1)過去のデータを収集
2)レコメンドモデル
の学習
3)購買可能性が高い
商品をレコメンド
商品
2016
A社さまのご
協力でデータ
を利用させて
いただきました。
- 21. Copyright © NHN Techorus Corp. Page21
新規顧客・商品の増加
0
1
2
3
4
5
6
2006 2007 2008 2009 2010 2011 2012 2013 2014 2015
2006年対比倍率
新規顧客数増加率 新規商品数増加率
新規商品より新規顧客
の増加が目立つ
- 22. Copyright © NHN Techorus Corp. Page22
受注件数の増加(商品単位)
0
2
4
6
8
10
12
14
16
18
20
2013-01
2013-03
2013-05
2013-07
2013-09
2013-11
2014-01
2014-03
2014-05
2014-07
2014-09
2014-11
2015-01
2015-03
2015-05
2015-07
2015-09
2015-11
2016-01
2016-03
2016-05
受注件数
万
消費税増加前
の買占め
- 24. Copyright © NHN Techorus Corp. Page24
• Micro-average of recallを使用
– 顧客毎に最大300個のレコメンドを生成
– 2015年に購買した商品の中で正しく予測された
割合のMicro averageを計算
モデルのカバレッジの確認
顧客ID 商品ID レコメンド成功 レコメンドスコア
User100147 Item98273 False 0.0
User100576 Item98273 True 1.531
User100576 Item23482 True 0.348
User100852 Item74227 False 0.0
性能の上界が
知りたい!
- 25. Copyright © NHN Techorus Corp. Page25
結果分析
商品
顧
客
既存 新規
既
存
新
規
総購買商品:66.15%
レコメンド
成功:39.74%
失敗:60.26%
総購買商品:5.61%
総購買商品:25.00% 総購買商品:3.24%
91.15% 8.85%
71.77%
28.23%
100.00%
既存顧客の購買商
品数の約7.82%
既存商品だけで
は、成功率約
40%
商品よりは顧客の
増加が早い
- 27. Copyright © NHN Techorus Corp. Page27
学習データ量の影響
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0 20 40 60 80 100 120 140
Micro-averageRecall
直近n日分
140日分を学習データとし
て使用しTop 50の商品を
レコメンドする場合
→カバレッジは約10%
- 28. Copyright © NHN Techorus Corp. Page28
今後の計画
1. 新規顧客・商品への対処
2. 顧客・商品属性の活用
3. オンライン学習を利用したリアルタイムレコメンド
モデル更新
- 29. Copyright © NHN Techorus Corp. Page29
Hadoop トライアルサービスについて
NHN Techorusは、Hadoop/Sparkを
とりあえず使ってみたいお客様を
強力に支援いたします。
- 30. Copyright © NHN Techorus Corp. Page30
Hadoop トライアルサービスとは
お客様の
メリット
ご提供
要件
・当社のデータセンターを利用したHadoopホスティング環境を体感して頂くために、
Hortonworksが提供するHDP(Hortonworks Data Platform)を30日間無料で
利用できるトライアルサービスを提供します。
(今後、Vertica SQL on Hadoopをサービス提供予定です。)
はじめ
に
Spark等の利用ニーズが高まる中、導入前の不安を解消するサービスです。
最新Hadoop環境
をすぐ利用可!
トライアル後、本番
環境へ移行可!
・トライアル環境:1ヶ月
・ネットワーク:インターネット回線
・システム構成:ハイスペックサーバ 9台構成
- 31. Copyright © NHN Techorus Corp. Page31
トライアルサービスご利用に関して
超過後の
運用
・申請書
申請書を記載いただきます。IPアドレス、利用約款等の記載があります。
・ご用意するサーバ数
トライアルでご利用頂くサーバを9台用意させて頂きます。
・サーバの再セットアップ費用については、別途ご相談させて下さい。
・100Mbpsを超えるトラフィックについては、ご相談させて下さい。
・運用・監視ついては、弊社フルマネージドホスティングサービスを適用します。
A社トアイアル環境申請書受領
10月
クリーニング作業
11月 12月
効果測定結果を受け採用の場合は
新環境へデータを移行
注文書受領後、10営業日で移行想定
【課金スケジュール例】
B社トライアル環境
A社本番環境
ご利用に
関して
・30日試使用期間超過後、自動的に課金が発生する方式ではありません。
ソフトは期限付きのため停止しますが、試使用インフラ環境は残ります。
- 32. Copyright © NHN Techorus Corp. Page32
トライアルの環境インフラ環境について
・試使用期間(30日間)を超えそうな場合は、ご連絡をお願いします。
トライアルの
インフラ環境
・エンドユーザ様より注文書受領後、10営業日でご利用できます。(ベストエフォート
では、5営業日)個別にご用意させて頂きます。
・別途メモリー追加、CPU追加、HDD追加もご対応させて頂きます。
トライアル環境のシステム構成
サーバタイプ OS サーバモデル CPU CPU_Clock CPU(EA) MEM MEM(EA) HDDType HDD RAID
作業用Client CentOS64Bit HPDL360pGen8V2 E5-2643V2(6Core) 3.5GHz 2 8192 8 SAS(15K) 300GB*8 RAID5(OS)
作業用Client CentOS64Bit HPDL360pGen8V2 E5-2643V2(6Core) 3.5GHz 2 8192 8 SAS(15K) 300GB*8 RAID5(OS)
管理用Client CentOS64Bit HPDL360pGen8V2 E5-2643V2(6Core) 3.5GHz 1 8192 4 SAS(15K) 300GB*3 RAID1(OS)+Backup
Hadoop管理系サーバ CentOS64Bit HPDL360G7 L5630(4Core) 2.13GHz 2 4096 6 SAS(10K) 300GB*3 RAID1(OS)+Backup
Hadoop管理系サーバ CentOS64Bit HPDL360G7 L5630(4Core) 2.13GHz 2 4096 6 SAS(10K) 300GB*3 RAID1(OS)+Backup
Hadoop管理系サーバ CentOS64Bit HPDL360G7 L5630(4Core) 2.13GHz 2 4096 6 SAS(10K) 300GB*3 RAID1(OS)+Backup
HadoopWorkerサーバ CentOS64Bit HPDL360pGen8V2 E5-2643V2(6Core) 3.5GHz 2 8192 16 SAS(15K)
300GB*2
300GB*6
RAID1(OS)
NoRAID(Data)
HadoopWorkerサーバ CentOS64Bit HPDL360pGen8V2 E5-2643V2(6Core) 3.5GHz 2 8192 16 SAS(15K)
300GB*2
300GB*6
RAID1(OS)
NoRAID(Data)
HadoopWorkerサーバ CentOS64Bit HPDL360pGen8V2 E5-2643V2(6Core) 3.5GHz 2 8192 16 SAS(15K)
300GB*2
300GB*6
RAID1(OS)
NoRAID(Data)
- 33. Copyright © NHN Techorus Corp. Page33
システム構成図
Hadoop 管理用サーバ 3台
YARN(RM),
HDFS(NN)HA
Zookeeper
管理用Client 1台
Other master
components
Ambari-
server
MySQL
(Master-slave)
作業用Client 2台
基本
MySQL
(Master-slave)
Ranger
Hadoop workersサーバ 3台
YARN: NodeManagers
HDFS: DataNodes
ハードウェア
ソフトウェア
- 34. Copyright © NHN Techorus Corp. Page34
トライアル~本番までのスケジュール
トライアル
申込提出
申込内容
の
確認
1営業日
トライアル環境
が空いてれば
トライアル
貸し出し
本番環境
提供開始
ポイント
・導入前に、無償トライアルで、ご利用頂き、導入決定前にビジネスの価値を証明。
成果を実感、ご納得頂いてから本番の導入が可能になります。
・お手元にあるトライアル申込書に、もれなくご記入をお願いします。
1ヶ月
10日以内に
トライアル環境の提供
- 35. Copyright © NHN Techorus Corp. Page35
本日はトライアルのデモ環境を会場にご用意しております。
管理ツール Ambari
データ分析ツール Zeppelin