広告配信現場で使うSpark機械学習

広告配信現場で使う
Spark機械学習
株式会社サイバーエージェント井上ゆり

自己紹介>
井上ゆり
株式会社サイバーエージェント
アドテク本部 AMoAd所属
twitter: @iyunoriue
GitHub: x1-
HP: バツイチとインケンのエンジニアブログ
http://x1.inkenkun.com/
2

本日は広告屋らしく、
Apache Sparkを使った
CTR(=Click Through Rate)推定
をご紹介させて頂きます。
3

2014年、Criteo社が
Hashing Trickとロジスティック回帰
を使ったCTR推定を発表しました。
この論文→http://people.csail.mit.edu/romer/papers/TISTRespPredAds.pdf
!
!
今回はこの手法を使います。
4

CTR推定の流れ
Pipeline
5
読み込み
＆
パース
特徴ベクトル
に変換
学習検証
CSVファイル Hashing Trick
Logistic
Regression
spark-csv
Cross
Validator
SQL/DataFrame
Apache Spark
1 2 3 4

使うもの
★ Apache Spark
• SparkSQL & DataFrame ・・・データ操作／加工
• Spark MLlib
• Pipeline ・・・ワークフロー
• HashingTrick ・・・特徴のベクトル化、次元削減
• LogisticRegression ・・・ロジスティック回帰
• CrossValidator ・・・最適モデルの選択
★ databricks/spark-csv ・・・CSVパーサ
6

推定に使うデータ
KaggleのCTR推定コンテストで使われた
テストデータを使います。
https://www.kaggle.com/c/avazu-ctr-prediction/data
!
7

データ構造
8
• id: ad identifier
• click: 0/1 for non-click/click
• hour: YYMMDDHH
• C1 -- anonymized categorical variable
• banner_pos
• site_id
• site_domain
• site_category
• app_id
• app_domain
• app_category
• device_id
• device_ip
• device_model
• device_type
• device_conn_type
• C14-C21 -- anonymized categorical variables

PipelineSQL/DataFrame
Apache Spark
9
読み込み
＆
パース
特徴ベクトル
に変換
学習検証
Logistic
Regression
spark-csv
Cross
Validator
3 4
CSVの読み込み＆パース
21

!
databricks/spark-csvを使ってCSVを読み込みます。
これを使うと、ヘッダーとカラム名が対応した
DataFrameを作ることができます。
こんなかんじ。
10
id click hour C1 banner_pos app_id site_id ...
1 0 2015080106 abc 9 9 5 ...
2 0 2015080106 def 5 10 10 ...
3 1 2015080107 ghi 1 2 2 ...
4 0 2015080107 jkl 0 5 6 ...

11
val rawCsv = sqlContext.read
.format( "com.databricks.spark.csv" )
.option( "header", "true" )
.load( "/var/kaggle-data/train*.gz" )
ソースコードはこんなかんじです。
※scalaを使っています

Apache Spark
12
読み込み
＆
パース
特徴ベクトル
に変換
学習検証
Logistic
Regression
spark-csv
Cross
Validator
3 4
特徴ベクトルに変換
1 2

!
DataFrameに読み込んだCSVは、Hashing Trickにかけ
ロジスティック回帰モデルで訓練するために少し加工
します。
クリックされたかどうかを目的変数(=label)とし、
その他の項目を説明変数(=特徴)とします。
13
id click hour C1 banner_pos app_id site_id ...
1 0 2015080106 abc 9 9 5 ...
2 0 2015080106 def 5 10 10 ...
3 1 2015080107 ghi 1 2 2 ...
4 0 2015080107 jkl 0 5 6 ...
目的変数説明変数

この数値も文字列も含む特徴から
Hashing Trickを使って
特徴ベクトルをつくりたいのですが・・・
14

!
Hashing Trickを行う際に、このままのデータだと
少し困ったことになります。
!
例えば
site_id=10, app_id=10, banner_pos=9, ..
というレコードの特徴は下記のようになるので
(10, 10, 9, ..)
!
site_idを表す10とapp_idを表す10の
区別がなくなってしまいます。
15

!
そこで
site_id=10 → site_id:10
app_id=10 → app_id:10
のように
項目名を値に付与することで特徴として区別します。
!
(10, 10, 9, ..)
↓
(site_id:10, app_id:10, banner_pos:..)
16

17
日付は、時刻部分だけを特徴として使いたいので時刻
を取り出すUDFも作成します。
val f = udf { (v:String, prefix:String ) => s"$prefix:$v" }
!
UDF(=UserDefinedFunction)を作成して
DataFrameを加工します。
!
項目名と値を結合するUDFはこんなかんじです。
val hour = udf { (v:String ) => v slice( 6, 8 ) }

18
val data = rawCsv.select(
$"id",
$"click".cast( DoubleType ).as( "label" ),
array(
f( hour( $"hour" ), lit( "hour" ),
f( $"C1", lit( "C1" ),
f( $"banner_pos", lit( "banner_pos" ),
f( $"site_id", lit( "site_id" ),
f( $"site_domain", lit( "site_domain" ),
f( $"site_category", lit( "site_category" ),
:
f( $"C21", lit( "C21" ) )
).as( "text" )
)
!
先ほどのUDFを使ってDataFrameを加工し、訓練データ
を準備します。

Apache Spark
19
読み込み
＆
パース
特徴ベクトル
に変換
学習検証
Logistic
Regression
spark-csv
Cross
Validator
4
学習
1 2 3

!
訓練データの準備ができたので
Pipelineを使って
HashingTrickによる特徴のベクトル化
〜ロジスティック回帰による確率推定
のフローを組み立てます。
20
学習

!
今回使う
• Hashing Trick
• LogisticRegression
をPipelineStageとしてPipelineに渡します。
21
val hashingTF = new HashingTF()
.setNumFeatures( 1000 )
.setInputCol( "text" )
.setOutputCol( "features" )
!
val lr = new LogisticRegression()
.setMaxIter( 10 )
.setRegParam( 0.1 )
!
val pipeline = new Pipeline().setStages( Array( hashingTF, lr ) )
学習

PipelineStage
!
後は先ほど準備した訓練データをPipelineに
fitさせるだけです。
22
val model = pipeline.fit( train )
PipelineはHashing Trickとロジスティック回帰を
順次実行します。
Pipeline
Hashing
Trick
Logistic
Regression
DataFrame
(site_id:10, app_id:
10,..), (..
学習

!
学習済みのモデルにテストデータを渡すと
probability(確率)がベクトルで出てきます。
probabilityベクトルのインデックス1番目が
clickされる確率を表します。
23
model.transform( test ).select(
$"label",
$"prediction",
v0( $"probability" ).as( "probability0" ),
v1( $"probability" ).as( "probability1" )
).take(10).foreach ( predictPrint )
label:0.0, predict:0.0, v(0):0.8720480148381256, v(1):0.1279519851618744
label:1.0, predict:0.0, v(0):0.7926627870942957, v(1):0.2073372129057043
label:1.0, predict:1.0, v(0):0.4711335790138061, v(1):0.5288664209861939
label:1.0, predict:1.0, v(0):0.4756467107691264, v(1):0.5243532892308737
:
↑probability(1)>0.5の場合に1.0と推定されているのがわかります。
学習
CTR

Apache Spark
24
読み込み
＆
パース
特徴ベクトル
に変換
学習検証
Logistic
Regression
spark-csv
Cross
Validator
検証
1 2 3 4

!
Spark MLlibには、交差検証を使って
モデルに最適なパラメータを選択するための
仕組みがあります。
最後にこれを使って
パラメータのチューニングを行います。
25
検証

先ほどのPipelineをCrossValidatorに渡して
CrossValidatorモデルを作成します。
26
val crossval = new CrossValidator()
.setEstimator( pipeline )
.setEvaluator( new RegressionEvaluator )
検証

検証したいパラメータ・グリッドを作成します。
27
val paramGrid = new ParamGridBuilder()
.addGrid( hashingTF.numFeatures, Array(10, 1000) )
.addGrid( lr.regParam, Array(0.1, 0.001) )
.addGrid( lr.maxIter, Array(10, 100) ).build()
↑この例では2×2×2=8回の試行が行われて
最適パラメータが決定します。
※つまり結構な時間がかかります。
検証

先ほど作成したパラメータ・グリッドと
fold数(訓練データ対テストデータの分割数)を渡して
訓練を開始します。
28
crossval.setEstimatorParamMaps( paramGrid )
crossval.setNumFolds( 3 )
!
val cvModel = crossval.fit( train )
検証

訓練が完了したら最適モデルを取り出して
最適パラメータを確認することができます。
29
val parent = cvModel.bestModel.parent.asInstanceOf[Pipeline]
val bestHT = parent.getStages(0).asInstanceOf[HashingTF]
val bestLR = parent.getStages(1).asInstanceOf[LogisticRegression]
!
println(s"numFeatures: ${bestHT.getNumFeatures}")
println(s"regParam: ${bestLR.getRegParam}")
println(s"maxIter: ${bestLR.getMaxIter}")
numFeatures: 1000
regParam: 0.001
maxIter: 100
このモデルを使って推定もできます。
→動的なパラメータ・チューニングが可能！
検証

ソースコードは下記に公開しています。
https://github.com/x1-/spark-example/blob/master/src/main/
scala/com/inkenkun/x1/spark/examples/ml/HashingTrickLR.scala
30

ご清聴ありがとうございました。

広告配信現場で使うSpark機械学習

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (20)

Ähnlich wie 広告配信現場で使うSpark機械学習

Ähnlich wie 広告配信現場で使うSpark機械学習 (20)

広告配信現場で使うSpark機械学習