SlideShare ist ein Scribd-Unternehmen logo
1 von 14
2次PUCK検定の有効性と実データへの応用
Twitter : @Quasi quant20101
2010/3/18
1Quasi Science
Contents
1 初めに 2
2 2 次 PUCK 検定の方法と適用例 3
2.1 PUCK 検定の有効性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3 2 次 PUCK 検定の実データへの適用 6
A 2 次 PUCK 検定の方法 12
Chapter 1
初めに
本報告書は 2 次 PUCK 検定と実データへの応用をまとめたものである。
本報告書の結論は、2 次ポテンシャルまでを想定した PUCK モデル
P(t + 1) − P(t) = −
d
dp
U(p, t)|p=
P (t)−PM (t)
M−1
+ N(0, σ), (1.1)
U(p, t) =
b(t)
2
p2
, (1.2)
PM (t) =
1
M
M−1∑
k=0
P(t − k). (1.3)
と OU 過程でモデル化した b(t)
b(t + 1) = b(t) + θ1(θ2 − b(t)) + θ3N(0, 1) (1.4)
により発生させた価格に 2 次 PUCK 検定を適用すると、設定する閾値の条件下で、約 99%
が適用可能であることがわかった。さらに、この判定法を 2006/1/3∼2006/7/1(CQG 社
から提供されたデータで、1 分間隔の bestbid) 期間中、円ドルの為替価格似て起用すると、
上記と同様の条件で約 93% 適用可能であることがわかった。
Chapter 2
2次PUCK検定の方法と適用例
ここでは、PUCK 検定が有効に機能するのかを調べる。その概要は、OU 過程 (1.4) 式に
よって生成した b(t) を 2 次ポテンシャルまでを想定した PUCk モデル (1.1) 式に入力して、
PUCK 検定を行うものである。ただし、OU パラメータは 2006/0101/∼2006/06/30 の市
場価格の統計性を再現した
(θ1, θ2, θ3) = (0.029, 0.12, 0.218) (2.1)
、また M=20、σ = 0.02 とした。
さらに、PUCK 検定の概要を述べておく。1
この検定では、
A)b=0 でない場合、(1.1) 式が成立するかどうか
B) 最後に、b=0 の場合を復活させる
、というステップを踏む。そして、A) では、b=0 でない閾値として、決定係数の閾値を
0.029 とした 2
。ここで、強調しておくことは、この検定には次の様な 2 種類の閾値がある
ことである;
1. 決定係数の関する閾値 (Rthreshold と定義、Appendix A の最後の文) => 判定 A) に
対応
2. b=0 に関する閾値 (Probthreshold と定義、Appendix A の最後の文) =>  判定 B) に
対応
2.1 PUCK検定の有効性
PUCK 検定の有効性を知るために、次のような実験を行った。
1. (1.1) 式に M = 20, σ = 0.02 を代入する。そして、b(t) に関しては (θ1, θ2, θ3) =
(0.029, 0.12, 0.218) として最適移動平均を発生させる。発生させたパスは 100000 個
である。
2. 次に、スーパー移動平均を計算し、(1.1) 式に対する決定係数を計算する。ただし、
{P(t + 1) − P(t)} {(P(t) − PM (t))} を順に、非説明変数・説明変数とした。
1
Appnedix A に詳細を記述する。
2
Appendix A を参照のこと。
2.2 結果 4
3. Rthreshold = 0.029、Probthreshold ∈ [0.93, 1.0] として設定する。
4. 設定した閾値に関して夫々2 次 PUCK 検定を行い、PUCK 検定を受託する確率を計
算する
5. 1∼4 を 1000 回繰り返して、PUCK 検定を受託する確率を 1000 個作る。
6. 設定した閾値に関して各々の場合の受託率の平均・標準偏差を 1000 個のデータから
推定する。
2.2 結果
1.00
0.98
0.96
0.94
0.92
Mean
1.000.980.960.94
Threshold
6x10
-3
4
2
0
Stdev
Mean
Stdev
Figure 2.1: 受託確率の平均と標準偏差、左軸 (赤):平均、右軸 (青):標準偏差、水平
軸:Probthreshold。ただし、Rthreshold = 0.029
図 2.1 から、Probthreshold が 0.97∼0.98 の間において急激に受託確率が低くなっている
ことがわかる。この区間を 0.001 刻みの Probthreshold で調べたのが図 2.2 である;
2.2 結果 5
1.00
0.98
0.96
0.94
0.92
Mean
0.9800.9750.970
Threshold
6x10
-3
4
2
0
Stdev
Mean
Stdev
Figure 2.2: 受託確率の平均と標準偏差、左軸 (赤):平均、右軸 (青):標準偏差、水平
軸:Probthreshold。ただし、Rthreshold = 0.029
細かく調べても、受託確率が約 99% から急激に約 94% に減少している。同時に、受託
確率の標準偏差も急激に増加している。これは次のように解釈できると考える。
決定係数、R(t)、を見積もる際、{P(t + 1) − P(t)}、{P(t) − PM (t)} に関して、各々200
個から推定している。さらに、ここでは、5 個づつの Box に分けて平均しているので、結
局 50 個から b(t) を推定していることになる (正確には、両端の 2 個をはずれ値として処
理するので、48 個である)。
問題は、このように R(t) を推定する際、2.1 節のステップ 4 で確実に b(t)=0 の場合が受
託確率に含まれるかという点である。R(t) の推定はデータ数が 48 点で行うので、もし、
48 点のデータの内 1 点が [µ − 3Σ/5, µ + 3Σ/5] に含まれなければ、この時間に関して、2
次 PUCK 検定が棄却される。なぜなら、[µ − 3Σ/5, µ + 3Σ/5] に Probthreshold の点が含ま
れなければ受託されないからである。このことが受託確率が急激に変化している箇所で起
こっていると考えられる。理想的には、2 次 PUCK+OU でモデル化した b(t) で発生させ
た場合、受託確率は 100% になるはずだからである。
以上の実験から、実データに 2 次 PUCK 検定を適用する際、2 種類の閾値の設定は
Rthreshold = 0.029
Probthreshold = 0.97
とした。
Chapter 3
2次PUCK検定の実データへの適用
第 2 章の結果を使って、CQG 社から提供された 2006/1/3∼2006/6/30 の 1 分間隔の円ド
ルの外国為替市場のデータ適用した。その結果、約 93% のデータが 2 次ポテンシャルま
でを想定した PUCK モデルにより記述可能であった。
用いたデータは下図のようになっている;
118
116
114
112
110
Price[USD/JPY]
150x10
3
100500
Time[minute]
Figure 3.1: 円ドルの価格、縦軸:価格、横軸:時間 [分](2006/1/3∼2006/7/1)
図 3 の長方形で囲った時間帯で、価格にトレンド (RegionA)・急激な変化 (RegionB) と思
える価格変動をあらわす時間帯を下図の示す。
7
111.5
111.0
110.5
110.0
109.5
Price[USD/JPY]
133.2x10
3
132.8132.4132.0
Time[minute]
2006/5/11/15:51
~2006/5/12/21:07
Figure 3.2: RegionA、価格にトレンドがあると思われる領域
赤色の時系列が実際の為替価格。青色のプロットが 2 次 PUCK 検定において棄却され
た時間を表す。時系列の表示時間はほぼ 1 日である。1 日の間に、2 円価格が下落してい
るので、価格変動に関して強い下降トレンドがあるとみなせる。
さて、本当にこの時間帯で三次ポテンシャルが観測できているかを調べる。以下の図で
は、番号 1332200∼133300 のポテンシャルを連続的に観測した。観測するポテンシャルは
(M-1) で規格化したものである。RegionA については補足資料 A(pdf の題名は mainfigA)
を参照して下さい。補足資料の中でもきれいに三次ポテンシャルが観測できているものを
1 つあげると、次のようになる;
8
-10x10
-3
-5
0
5
10
U(t)
-100x10
-3
0 100
P(t)-PM(t)
Figure 3.3: 2006/5/12/16:55 に観測したポテンシャル
9
112.5
112.0
111.5
111.0
110.5
110.0
Price[USD/JPY]
141.2x10
3
140.8140.4140.0139.6
Time[minute]
2006/5/19/2:34
~2006/5/20/5:14
Figure 3.4: RegionB、価格に急激な変化があると思われる領域
赤色の時系列が実際の為替価格。青色のプロットが 2 次 PUCK 検定において棄却され
た時間を表す。時系列の表示時間はほぼ 1 日である。大きな価格変動二着目すると、約 30
分で約 0.5 円上昇している。これは、1 日に直すと 24 円上昇することと等しく、短い時間
ではあるがかなり大きな価格変動といえる。
こちらでも同様に、本当にこの時間帯で三次ポテンシャルが観測できているかを調べる。
以下の図では、番号 140425∼140453 のポテンシャルを連続的に観測した。観測するポテ
ンシャルは (M-1) で規格化したものである。RegionB については補足資料 B(pdf の題名は
mainfigB) を参照してください。補足資料の中でもきれいに三次ポテンシャルが観測でき
ているものを 1 つあげると、次のようになる;
10
-3x10
-3
-2
-1
0
1
2
3
U(t)
-100x10
-3
0 100
P(t)-PM(t)
Figure 3.5: 2006/5/19/16:32 に観測したポテンシャル
11
補足資料 A・B から、図 3.3・3.5 のようなポテンシャルが 2 次 PUCK 検定で棄却され
た時間で観測されている。これの事実と第 2 章の結果から、現在用いている 2 次 PUCK
検定にはそれなりに有意義であることが主張できると思います。
Appendix A
2次PUCK検定の方法
まず線形力を想定した PUCK モデルを定義する;
P(t + 1) − P(t) = −
d
dp
U(p, t)|p=
P (t)−PM (t)
M−1
+ f(t) (A.1)
U(p, t) =
b(t)
2
p2
, (A.2)
PM (t) =
1
M
M−1∑
k=0
P(t − k). (A.3)
ただし、P(t) は、最適移動平均を適応し、ノイズを除去した 1 分刻みの価格の時系列であ
る。b(t) はポテンシャル係数と呼ばれる線形力の強さを定量的に表す係数である。また、
f(t) は平均が 0 の正規乱数とする。
次に、{P(t + 1) − P(t)} を被説明変数、{P(t) − PM (t)} を説明変数とし、新たな変数
X(t), Y (t) を次のように定義する;
Y (t) = P(t + 1) − P(t), X(t) = P(t) − PM (t) (A.4)
この新たな変数を用いて (1) 式を変換すると、
Y (t) = −
b(t)
M − 1
X(t) + f(t) (A.5)
となる。この Y と X は単回帰の関係になっており、決定係数、R2
、は次式で定義できる;
R2
=
[
∑
(Xj− < X >)(Yj− < Y >)]2
∑
(Xj− < X >)2
∑
(Yj− < Y >)2
. (A.6)
一般に、決定係数は、その値が高いほど被説明変数と説明変数の直線関係がつよい。従っ
て、2 次 PUCK のポテンシャル係数を推定する際に用いる {X(t), Y (t)} の散布図の決定
係数を求め、直線関係を判定する為に、決定係数に閾値をもうけた。次にその閾値の決定
方法を説明する。
(1)式で b(t)=0の場合の R2
の値を Rthresold とする。この結果を用いて、Σ(f(t)の標準偏差)
とすると、b(t)=0 ならば、P(t+1) - P(t) は 97% 以上、[µ − 3Σ, µ + 3Σ]、(µ=E[P(t+1)-
P(t)])、の範囲に存在しなければならない。また、ポテンシャルを推定際、、x の値の小さ
い順から 5 点ずつの平均値を用いて b(t) を推定している事を考慮すると P(t+1) - P(t) は
99% 以上、[µ − 3Σ/5, µ + 3Σ/5] の範囲に存在しなければならない。 まとめると、下の
ようになる;
13
1. R2
> Rthresold ならば、2 次 PUCK モデルが有効であるとする。
2. R2
≤ Rthresold であっても、P(t+1) - P(t) が 97% 以上、[µ − 3Σ/5, µ + 3Σ/5] の範囲
に存在すれば、2 次 PUCK モデルが有効であるとする。
用いたデータにおいて、Rthresold = 0.029 であった。

Weitere ähnliche Inhalte

Was ist angesagt?

「サラミ法」に隠れた危険:出版の量ではなく質を重視する
「サラミ法」に隠れた危険:出版の量ではなく質を重視する「サラミ法」に隠れた危険:出版の量ではなく質を重視する
「サラミ法」に隠れた危険:出版の量ではなく質を重視する英文校正エディテージ
 
セミパラメトリック推論の基礎
セミパラメトリック推論の基礎セミパラメトリック推論の基礎
セミパラメトリック推論の基礎Daisuke Yoneoka
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章Shuyo Nakatani
 
相関係数は傾きに影響される
相関係数は傾きに影響される相関係数は傾きに影響される
相関係数は傾きに影響されるMitsuo Shimohata
 
ベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-oldベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-oldNaoki Hayashi
 
ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎Tomoshige Nakamura
 
統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)Kota Mori
 
GLMM in interventional study at Require 23, 20151219
GLMM in interventional study at Require 23, 20151219GLMM in interventional study at Require 23, 20151219
GLMM in interventional study at Require 23, 20151219Shuhei Ichikawa
 
Fast Unbalanced Optimal Transport on a Tree
Fast Unbalanced Optimal Transport on a TreeFast Unbalanced Optimal Transport on a Tree
Fast Unbalanced Optimal Transport on a Treejoisino
 
MCMCで研究報告
MCMCで研究報告MCMCで研究報告
MCMCで研究報告Masaru Tokuoka
 
[研究室論文紹介用スライド] Adversarial Contrastive Estimation
[研究室論文紹介用スライド] Adversarial Contrastive Estimation[研究室論文紹介用スライド] Adversarial Contrastive Estimation
[研究室論文紹介用スライド] Adversarial Contrastive EstimationMakoto Takenaka
 
計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)Shota Yasui
 
統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践id774
 
GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論Koichiro Gibo
 
『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定
『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定
『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定Y-h Taguchi
 
統計的学習の基礎_3章
統計的学習の基礎_3章統計的学習の基礎_3章
統計的学習の基礎_3章Shoichi Taguchi
 

Was ist angesagt? (20)

「サラミ法」に隠れた危険:出版の量ではなく質を重視する
「サラミ法」に隠れた危険:出版の量ではなく質を重視する「サラミ法」に隠れた危険:出版の量ではなく質を重視する
「サラミ法」に隠れた危険:出版の量ではなく質を重視する
 
セミパラメトリック推論の基礎
セミパラメトリック推論の基礎セミパラメトリック推論の基礎
セミパラメトリック推論の基礎
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章
 
Stanでガウス過程
Stanでガウス過程Stanでガウス過程
Stanでガウス過程
 
相関係数は傾きに影響される
相関係数は傾きに影響される相関係数は傾きに影響される
相関係数は傾きに影響される
 
Semi-Supervised SVM
Semi-Supervised SVMSemi-Supervised SVM
Semi-Supervised SVM
 
ベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-oldベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-old
 
階層ベイズとWAIC
階層ベイズとWAIC階層ベイズとWAIC
階層ベイズとWAIC
 
ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎
 
統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)
 
GLMM in interventional study at Require 23, 20151219
GLMM in interventional study at Require 23, 20151219GLMM in interventional study at Require 23, 20151219
GLMM in interventional study at Require 23, 20151219
 
Fast Unbalanced Optimal Transport on a Tree
Fast Unbalanced Optimal Transport on a TreeFast Unbalanced Optimal Transport on a Tree
Fast Unbalanced Optimal Transport on a Tree
 
MCMCで研究報告
MCMCで研究報告MCMCで研究報告
MCMCで研究報告
 
PRMLrevenge_3.3
PRMLrevenge_3.3PRMLrevenge_3.3
PRMLrevenge_3.3
 
[研究室論文紹介用スライド] Adversarial Contrastive Estimation
[研究室論文紹介用スライド] Adversarial Contrastive Estimation[研究室論文紹介用スライド] Adversarial Contrastive Estimation
[研究室論文紹介用スライド] Adversarial Contrastive Estimation
 
計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)
 
統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践
 
GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論
 
『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定
『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定
『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定
 
統計的学習の基礎_3章
統計的学習の基礎_3章統計的学習の基礎_3章
統計的学習の基礎_3章
 

Mehr von Takanori Nakai

Sentence-State LSTM for Text Representation
Sentence-State LSTM for Text RepresentationSentence-State LSTM for Text Representation
Sentence-State LSTM for Text RepresentationTakanori Nakai
 
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...Takanori Nakai
 
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @DenaICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @DenaTakanori Nakai
 
Note : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methodsNote : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methodsTakanori Nakai
 
Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...Takanori Nakai
 
GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例Takanori Nakai
 
Learning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional RepresentationsLearning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional RepresentationsTakanori Nakai
 
Preference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and InferencePreference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and InferenceTakanori Nakai
 
高次元データの統計:スパース正則化の近似誤差と推定誤差
高次元データの統計:スパース正則化の近似誤差と推定誤差高次元データの統計:スパース正則化の近似誤差と推定誤差
高次元データの統計:スパース正則化の近似誤差と推定誤差Takanori Nakai
 
Analysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled DataAnalysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled DataTakanori Nakai
 
Positive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews DetectionPositive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews DetectionTakanori Nakai
 
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...Takanori Nakai
 
Similarity component analysis
Similarity component analysisSimilarity component analysis
Similarity component analysisTakanori Nakai
 
Query driven context aware recommendation
Query driven context aware recommendationQuery driven context aware recommendation
Query driven context aware recommendationTakanori Nakai
 
Unsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpediaUnsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpediaTakanori Nakai
 
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...Takanori Nakai
 
金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出Takanori Nakai
 
Topic discovery through data dependent and random projections
Topic discovery through data dependent and random projectionsTopic discovery through data dependent and random projections
Topic discovery through data dependent and random projectionsTakanori Nakai
 

Mehr von Takanori Nakai (18)

Sentence-State LSTM for Text Representation
Sentence-State LSTM for Text RepresentationSentence-State LSTM for Text Representation
Sentence-State LSTM for Text Representation
 
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
 
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @DenaICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
 
Note : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methodsNote : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methods
 
Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...
 
GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例
 
Learning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional RepresentationsLearning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional Representations
 
Preference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and InferencePreference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and Inference
 
高次元データの統計:スパース正則化の近似誤差と推定誤差
高次元データの統計:スパース正則化の近似誤差と推定誤差高次元データの統計:スパース正則化の近似誤差と推定誤差
高次元データの統計:スパース正則化の近似誤差と推定誤差
 
Analysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled DataAnalysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled Data
 
Positive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews DetectionPositive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews Detection
 
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
 
Similarity component analysis
Similarity component analysisSimilarity component analysis
Similarity component analysis
 
Query driven context aware recommendation
Query driven context aware recommendationQuery driven context aware recommendation
Query driven context aware recommendation
 
Unsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpediaUnsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpedia
 
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
 
金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出
 
Topic discovery through data dependent and random projections
Topic discovery through data dependent and random projectionsTopic discovery through data dependent and random projections
Topic discovery through data dependent and random projections
 

PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ

  • 2. Contents 1 初めに 2 2 2 次 PUCK 検定の方法と適用例 3 2.1 PUCK 検定の有効性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2 結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 3 2 次 PUCK 検定の実データへの適用 6 A 2 次 PUCK 検定の方法 12
  • 3. Chapter 1 初めに 本報告書は 2 次 PUCK 検定と実データへの応用をまとめたものである。 本報告書の結論は、2 次ポテンシャルまでを想定した PUCK モデル P(t + 1) − P(t) = − d dp U(p, t)|p= P (t)−PM (t) M−1 + N(0, σ), (1.1) U(p, t) = b(t) 2 p2 , (1.2) PM (t) = 1 M M−1∑ k=0 P(t − k). (1.3) と OU 過程でモデル化した b(t) b(t + 1) = b(t) + θ1(θ2 − b(t)) + θ3N(0, 1) (1.4) により発生させた価格に 2 次 PUCK 検定を適用すると、設定する閾値の条件下で、約 99% が適用可能であることがわかった。さらに、この判定法を 2006/1/3∼2006/7/1(CQG 社 から提供されたデータで、1 分間隔の bestbid) 期間中、円ドルの為替価格似て起用すると、 上記と同様の条件で約 93% 適用可能であることがわかった。
  • 4. Chapter 2 2次PUCK検定の方法と適用例 ここでは、PUCK 検定が有効に機能するのかを調べる。その概要は、OU 過程 (1.4) 式に よって生成した b(t) を 2 次ポテンシャルまでを想定した PUCk モデル (1.1) 式に入力して、 PUCK 検定を行うものである。ただし、OU パラメータは 2006/0101/∼2006/06/30 の市 場価格の統計性を再現した (θ1, θ2, θ3) = (0.029, 0.12, 0.218) (2.1) 、また M=20、σ = 0.02 とした。 さらに、PUCK 検定の概要を述べておく。1 この検定では、 A)b=0 でない場合、(1.1) 式が成立するかどうか B) 最後に、b=0 の場合を復活させる 、というステップを踏む。そして、A) では、b=0 でない閾値として、決定係数の閾値を 0.029 とした 2 。ここで、強調しておくことは、この検定には次の様な 2 種類の閾値がある ことである; 1. 決定係数の関する閾値 (Rthreshold と定義、Appendix A の最後の文) => 判定 A) に 対応 2. b=0 に関する閾値 (Probthreshold と定義、Appendix A の最後の文) =>  判定 B) に 対応 2.1 PUCK検定の有効性 PUCK 検定の有効性を知るために、次のような実験を行った。 1. (1.1) 式に M = 20, σ = 0.02 を代入する。そして、b(t) に関しては (θ1, θ2, θ3) = (0.029, 0.12, 0.218) として最適移動平均を発生させる。発生させたパスは 100000 個 である。 2. 次に、スーパー移動平均を計算し、(1.1) 式に対する決定係数を計算する。ただし、 {P(t + 1) − P(t)} {(P(t) − PM (t))} を順に、非説明変数・説明変数とした。 1 Appnedix A に詳細を記述する。 2 Appendix A を参照のこと。
  • 5. 2.2 結果 4 3. Rthreshold = 0.029、Probthreshold ∈ [0.93, 1.0] として設定する。 4. 設定した閾値に関して夫々2 次 PUCK 検定を行い、PUCK 検定を受託する確率を計 算する 5. 1∼4 を 1000 回繰り返して、PUCK 検定を受託する確率を 1000 個作る。 6. 設定した閾値に関して各々の場合の受託率の平均・標準偏差を 1000 個のデータから 推定する。 2.2 結果 1.00 0.98 0.96 0.94 0.92 Mean 1.000.980.960.94 Threshold 6x10 -3 4 2 0 Stdev Mean Stdev Figure 2.1: 受託確率の平均と標準偏差、左軸 (赤):平均、右軸 (青):標準偏差、水平 軸:Probthreshold。ただし、Rthreshold = 0.029 図 2.1 から、Probthreshold が 0.97∼0.98 の間において急激に受託確率が低くなっている ことがわかる。この区間を 0.001 刻みの Probthreshold で調べたのが図 2.2 である;
  • 6. 2.2 結果 5 1.00 0.98 0.96 0.94 0.92 Mean 0.9800.9750.970 Threshold 6x10 -3 4 2 0 Stdev Mean Stdev Figure 2.2: 受託確率の平均と標準偏差、左軸 (赤):平均、右軸 (青):標準偏差、水平 軸:Probthreshold。ただし、Rthreshold = 0.029 細かく調べても、受託確率が約 99% から急激に約 94% に減少している。同時に、受託 確率の標準偏差も急激に増加している。これは次のように解釈できると考える。 決定係数、R(t)、を見積もる際、{P(t + 1) − P(t)}、{P(t) − PM (t)} に関して、各々200 個から推定している。さらに、ここでは、5 個づつの Box に分けて平均しているので、結 局 50 個から b(t) を推定していることになる (正確には、両端の 2 個をはずれ値として処 理するので、48 個である)。 問題は、このように R(t) を推定する際、2.1 節のステップ 4 で確実に b(t)=0 の場合が受 託確率に含まれるかという点である。R(t) の推定はデータ数が 48 点で行うので、もし、 48 点のデータの内 1 点が [µ − 3Σ/5, µ + 3Σ/5] に含まれなければ、この時間に関して、2 次 PUCK 検定が棄却される。なぜなら、[µ − 3Σ/5, µ + 3Σ/5] に Probthreshold の点が含ま れなければ受託されないからである。このことが受託確率が急激に変化している箇所で起 こっていると考えられる。理想的には、2 次 PUCK+OU でモデル化した b(t) で発生させ た場合、受託確率は 100% になるはずだからである。 以上の実験から、実データに 2 次 PUCK 検定を適用する際、2 種類の閾値の設定は Rthreshold = 0.029 Probthreshold = 0.97 とした。
  • 7. Chapter 3 2次PUCK検定の実データへの適用 第 2 章の結果を使って、CQG 社から提供された 2006/1/3∼2006/6/30 の 1 分間隔の円ド ルの外国為替市場のデータ適用した。その結果、約 93% のデータが 2 次ポテンシャルま でを想定した PUCK モデルにより記述可能であった。 用いたデータは下図のようになっている; 118 116 114 112 110 Price[USD/JPY] 150x10 3 100500 Time[minute] Figure 3.1: 円ドルの価格、縦軸:価格、横軸:時間 [分](2006/1/3∼2006/7/1) 図 3 の長方形で囲った時間帯で、価格にトレンド (RegionA)・急激な変化 (RegionB) と思 える価格変動をあらわす時間帯を下図の示す。
  • 8. 7 111.5 111.0 110.5 110.0 109.5 Price[USD/JPY] 133.2x10 3 132.8132.4132.0 Time[minute] 2006/5/11/15:51 ~2006/5/12/21:07 Figure 3.2: RegionA、価格にトレンドがあると思われる領域 赤色の時系列が実際の為替価格。青色のプロットが 2 次 PUCK 検定において棄却され た時間を表す。時系列の表示時間はほぼ 1 日である。1 日の間に、2 円価格が下落してい るので、価格変動に関して強い下降トレンドがあるとみなせる。 さて、本当にこの時間帯で三次ポテンシャルが観測できているかを調べる。以下の図で は、番号 1332200∼133300 のポテンシャルを連続的に観測した。観測するポテンシャルは (M-1) で規格化したものである。RegionA については補足資料 A(pdf の題名は mainfigA) を参照して下さい。補足資料の中でもきれいに三次ポテンシャルが観測できているものを 1 つあげると、次のようになる;
  • 9. 8 -10x10 -3 -5 0 5 10 U(t) -100x10 -3 0 100 P(t)-PM(t) Figure 3.3: 2006/5/12/16:55 に観測したポテンシャル
  • 10. 9 112.5 112.0 111.5 111.0 110.5 110.0 Price[USD/JPY] 141.2x10 3 140.8140.4140.0139.6 Time[minute] 2006/5/19/2:34 ~2006/5/20/5:14 Figure 3.4: RegionB、価格に急激な変化があると思われる領域 赤色の時系列が実際の為替価格。青色のプロットが 2 次 PUCK 検定において棄却され た時間を表す。時系列の表示時間はほぼ 1 日である。大きな価格変動二着目すると、約 30 分で約 0.5 円上昇している。これは、1 日に直すと 24 円上昇することと等しく、短い時間 ではあるがかなり大きな価格変動といえる。 こちらでも同様に、本当にこの時間帯で三次ポテンシャルが観測できているかを調べる。 以下の図では、番号 140425∼140453 のポテンシャルを連続的に観測した。観測するポテ ンシャルは (M-1) で規格化したものである。RegionB については補足資料 B(pdf の題名は mainfigB) を参照してください。補足資料の中でもきれいに三次ポテンシャルが観測でき ているものを 1 つあげると、次のようになる;
  • 11. 10 -3x10 -3 -2 -1 0 1 2 3 U(t) -100x10 -3 0 100 P(t)-PM(t) Figure 3.5: 2006/5/19/16:32 に観測したポテンシャル
  • 12. 11 補足資料 A・B から、図 3.3・3.5 のようなポテンシャルが 2 次 PUCK 検定で棄却され た時間で観測されている。これの事実と第 2 章の結果から、現在用いている 2 次 PUCK 検定にはそれなりに有意義であることが主張できると思います。
  • 13. Appendix A 2次PUCK検定の方法 まず線形力を想定した PUCK モデルを定義する; P(t + 1) − P(t) = − d dp U(p, t)|p= P (t)−PM (t) M−1 + f(t) (A.1) U(p, t) = b(t) 2 p2 , (A.2) PM (t) = 1 M M−1∑ k=0 P(t − k). (A.3) ただし、P(t) は、最適移動平均を適応し、ノイズを除去した 1 分刻みの価格の時系列であ る。b(t) はポテンシャル係数と呼ばれる線形力の強さを定量的に表す係数である。また、 f(t) は平均が 0 の正規乱数とする。 次に、{P(t + 1) − P(t)} を被説明変数、{P(t) − PM (t)} を説明変数とし、新たな変数 X(t), Y (t) を次のように定義する; Y (t) = P(t + 1) − P(t), X(t) = P(t) − PM (t) (A.4) この新たな変数を用いて (1) 式を変換すると、 Y (t) = − b(t) M − 1 X(t) + f(t) (A.5) となる。この Y と X は単回帰の関係になっており、決定係数、R2 、は次式で定義できる; R2 = [ ∑ (Xj− < X >)(Yj− < Y >)]2 ∑ (Xj− < X >)2 ∑ (Yj− < Y >)2 . (A.6) 一般に、決定係数は、その値が高いほど被説明変数と説明変数の直線関係がつよい。従っ て、2 次 PUCK のポテンシャル係数を推定する際に用いる {X(t), Y (t)} の散布図の決定 係数を求め、直線関係を判定する為に、決定係数に閾値をもうけた。次にその閾値の決定 方法を説明する。 (1)式で b(t)=0の場合の R2 の値を Rthresold とする。この結果を用いて、Σ(f(t)の標準偏差) とすると、b(t)=0 ならば、P(t+1) - P(t) は 97% 以上、[µ − 3Σ, µ + 3Σ]、(µ=E[P(t+1)- P(t)])、の範囲に存在しなければならない。また、ポテンシャルを推定際、、x の値の小さ い順から 5 点ずつの平均値を用いて b(t) を推定している事を考慮すると P(t+1) - P(t) は 99% 以上、[µ − 3Σ/5, µ + 3Σ/5] の範囲に存在しなければならない。 まとめると、下の ようになる;
  • 14. 13 1. R2 > Rthresold ならば、2 次 PUCK モデルが有効であるとする。 2. R2 ≤ Rthresold であっても、P(t+1) - P(t) が 97% 以上、[µ − 3Σ/5, µ + 3Σ/5] の範囲 に存在すれば、2 次 PUCK モデルが有効であるとする。 用いたデータにおいて、Rthresold = 0.029 であった。