金融情報における時系列分析
- 15. 15
Tweetsからの特徴量抽出
J. Bollen;H. Mao;X.-J. Zeng. http://arxiv.org/abs/1010.3003, 2010
• 2008年2月28日~11月28日の 9,853,498 tweets (約1千万)
– ユーザ数 2.7百万
– 3.2万tweets/1日
• 心的状態を明言しているtweetsだけを分析
– “i feel”,”i am feeling”, “i’m feeling”, “i dont feel”, “I’m”, “I am”,
“makes me” を含む
• Google-Profile of Mood States (GPOMS)指数(日次)を抽出
– 気分プロフィール検査(POMS)@心理学の6尺度がベース
• 「友好的な」「不機嫌な」「活発な」「限界ギリギリの」「パニック状態の」
等の72表現の質問紙調査
• 平穏、警戒、確信、活気、善意、幸福
– POMSの72表現に関連する964語の辞書とのマッチ
• Google(2006)の4,5-gram共起語(25億語)を使用
- 17. 17
平穏 警戒 確信 活気 善意 幸福
ダウ平均株価(DJIA)との関係性
J. Bollen;H. Mao;X.-J. Zeng. http://arxiv.org/abs/1010.3003, 2010
• GPOMS指数とDJNAとのGranger因果性検定
– 2008年2月28日~11月3日
– 「平穏」が2-5日後のDJNA
との因果性があった
• Self-organizing Fuzzy Neural Network(SOFNN)による
予測モデル
– 訓練: 2008年2月28日~11月28日
テスト: 2008年12月1日~19日
– 方向性の予測: 86.7%
– DJIAだけでも73.3%
tDJIA
1tDJIA
2tDJIA
3tDJIA
1t平穏
2t平穏
3t平穏
- 24. 板情報のデータマイニング
• 従来の市場分析 = 株価変動の分析
– 取引結果のみを利用
• 膨大な注文記録からの市場分析
– 情報量が増加
– より詳細な分析が可能
売気
配
気配
値
買気
配
1300 981
6300 980
6100 979
977 1700
976 1300
975 1400
注文記録投資家心理 株価
- 28. 注文数変化量の算出
注文数変化量は注文の規模を表す
売注文 価格 買注文
60 1,700
20 1,600
40 1,500
1,400 20
1,300 10
1,200 50
売注文 価格 買注文
62 1,700
20 1,600
10 1,500
1,400 10
1,300 10
1,200 150
買い注文+100
売り注文+2
買い注文+30
売り注文+10
- 39. 実験結果
• 識別問題
• 結果
– 識別問題Ⅰ → 識別率0.863
– 識別問題Ⅱ → 識別率0.737
特殊時間帯 平常時間帯
識別問題Ⅰ 9:00~9:30 10:00~10:30
識別問題Ⅱ 14:30~15:00 13:30~14:00
特殊時間帯と通常時間帯の判別が可能
→本手法の判別能力が示された
- 40. 市場変化の分析
• 2008年 – サブプライムローン問題を
きっかけとする世界的不況
• リーマンショックは予測できなかったのか?
• 仮説:
リーマンショックの前から市場はそれまで
とは異なる状態にあった
- 44. その他の手法
HV 区間A 区間B 区間C
区間A - 0.524 0.548
区間B 0.524 - 0.571
区間C 0.548 0.571 -
GARCH 区間A 区間B 区間C
区間A - 0.548 0.571
区間B 0.548 - 0.595
区間C 0.571 0.595 -
- 46. 参考分析(1)
• 不況前 – 不況直後
• 不況前 – 不況の半年後
55
2008/10 2008/11
2006/04 1.000 1.000
2006/05 1.000 0.986
2009/02 2009/03
2006/04 0.974 0.958
2006/05 0.949 0.903
- 47. 参考分析(2)
• 不況直後 – 不況の半年後
• 同一期間内識別(比較実験)
56
2009/02 2009/03
2008/10 0.941 0.935
2008/11 0.806 0.909
2006/04 – 2006/05 0.613
2008/10 – 2008/11 0.781
2009/02 – 2009/03 0.543
- 53. 板情報
売り注文
株数(株)
気配値(円)
買い注文
株数(株)
…
150,000 130
50,000 129
128 70,000
127 200,000
…
価格、出来高
(数KB/1日)
板情報
(東証FLEX
Historical)
(数MB/1日)
売り注文
株数(株)
気配値(円)
買い注文
株数(株)
…200,000 123
40,000 122
121 40,000
120 140,000
…
売り注文
株数(株)
気配値(円)
買い注文
株数(株)
…
490,000 175
250,000 174
173 70,000
172 100,000
…
2012/4/10 10:21:30.79 2012/6/15 14:01:10.21 2013/1/25 9:54:10.84
価格や出来高より、高度な分析ができる
- 54. 分析の流れ(全体像)
売り注文
株数(株)
気配値
(円)
買い注文
株数(株)
…
150,000 101
50,000 100
99 70,000
98 200,000
…
板情報
売り注文
株数(株)
気配値
(円)
買い注文
株数(株)
…
150,000 101
50,000 100
99 70,000
98 200,000
…
売り注文
株数(株)
気配値
(円)
買い注文
株数(株)
…
150,000 101
50,000 100
99 70,000
98 200,000
…
売り注文
株数(株)
気配値
(円)
買い注文
株数(株)
…
150,000 101
50,000 100
99 70,000
98 200,000
…
売り注文
株数(株)
気配値
(円)
買い注文
株数(株)
…
150,000 101
50,000 100
99 70,000
98 200,000
…
売り注文
株数(株)
気配値
(円)
買い注文
株数(株)
…
150,000 101
50,000 100
99 70,000
98 200,000
…
増資発表
時間
学習期間
100営業日
入力期間
10営業日
(参考文献)梅岡利光, 鳥海不二夫, 平山高嗣, 榎堀優, 石井健一郎, 間瀬健二,
「板情報を用いた株式市場の状態変化の分析」, 第37回JAFEE大会(2012)
発表前のこの期間の
注文状況の特異性を検証
学習特徴
ベクトル
(8次元)
- 55. 特徴ベクトルの作成
売り注文
株数(株)
気配値(円)
買い注文
株数(株)
…
150,000 130
50,000 129
128 70,000
127 200,000
…
板情報(FLEXデータ)
A+
A2
A1
A0 B1
B0
B2
B-
8次元の特徴ベクトル
30分毎に1つ(1日12個)
各位置での
注文量
A+ A2 A1 A0 B0 B1 B2 B-
{ 0 0 1,000 0 0 0 0 0 }
{ 0 0 0 0 500 0 0 0 }
:
:
{ 0 0 0 0 1,000 0 0 0 }
30分間
30分間の合計
{3,500 8,000 14,000 28,000 30,000 21,000 9,500 6,300}
対数を取り正規化
- 56. 分析の流れ(全体像)
売り注文
株数(株)
気配値
(円)
買い注文
株数(株)
…
150,000 101
50,000 100
99 70,000
98 200,000
…
板情報
売り注文
株数(株)
気配値
(円)
買い注文
株数(株)
…
150,000 101
50,000 100
99 70,000
98 200,000
…
売り注文
株数(株)
気配値
(円)
買い注文
株数(株)
…
150,000 101
50,000 100
99 70,000
98 200,000
…
売り注文
株数(株)
気配値
(円)
買い注文
株数(株)
…
150,000 101
50,000 100
99 70,000
98 200,000
…
売り注文
株数(株)
気配値
(円)
買い注文
株数(株)
…
150,000 101
50,000 100
99 70,000
98 200,000
…
売り注文
株数(株)
気配値
(円)
買い注文
株数(株)
…
150,000 101
50,000 100
99 70,000
98 200,000
…
増資発表
時間
学習期間
100営業日
入力期間
10営業日
(参考文献)梅岡利光, 鳥海不二夫, 平山高嗣, 榎堀優, 石井健一郎, 間瀬健二,
「板情報を用いた株式市場の状態変化の分析」, 第37回JAFEE大会(2012)
学習特徴
ベクトル
(8次元)
12個/日×100日
= 1,200個のデータ
- 57. 分析の流れ(全体像)
売り注文
株数(株)
気配値
(円)
買い注文
株数(株)
…
150,000 101
50,000 100
99 70,000
98 200,000
…
板情報
売り注文
株数(株)
気配値
(円)
買い注文
株数(株)
…
150,000 101
50,000 100
99 70,000
98 200,000
…
売り注文
株数(株)
気配値
(円)
買い注文
株数(株)
…
150,000 101
50,000 100
99 70,000
98 200,000
…
売り注文
株数(株)
気配値
(円)
買い注文
株数(株)
…
150,000 101
50,000 100
99 70,000
98 200,000
…
売り注文
株数(株)
気配値
(円)
買い注文
株数(株)
…
150,000 101
50,000 100
99 70,000
98 200,000
…
売り注文
株数(株)
気配値
(円)
買い注文
株数(株)
…
150,000 101
50,000 100
99 70,000
98 200,000
…
増資発表
時間
学習期間
100営業日
入力期間
10営業日
(参考文献)梅岡利光, 鳥海不二夫, 平山高嗣, 榎堀優, 石井健一郎, 間瀬健二,
「板情報を用いた株式市場の状態変化の分析」, 第37回JAFEE大会(2012)
学習特徴
ベクトル
(8次元)
混合
ガウスモデル
- 58. 混合ガウス分布
=ガウス分布の線形重ね合わせ
𝑝 𝒙 =
𝑘=1
𝐾
𝜋 𝑘 𝑁 𝒙|𝝁 𝑘, 𝚺 𝑘
ガウス分布:𝑁 𝒙|𝝁, 𝚺 =
1
2𝜋 𝑑/2 𝚺 1/2
exp −
1
2
𝒙 − 𝝁 𝑇
𝚺−1
𝒙 − 𝝁
1
2
1
2
1
2
• 𝝅 :混合率
• 𝝁 : クラスタ中心
• 𝚺 : 分散共分散行列
• K :クラスタ数
パラメータ推定
1. k-means++アルゴリズム
2. EMアルゴリズム
3. BICによる評価
- 59. 分析の流れ(全体像)
売り注文
株数(株)
気配値
(円)
買い注文
株数(株)
…
150,000 101
50,000 100
99 70,000
98 200,000
…
板情報
売り注文
株数(株)
気配値
(円)
買い注文
株数(株)
…
150,000 101
50,000 100
99 70,000
98 200,000
…
売り注文
株数(株)
気配値
(円)
買い注文
株数(株)
…
150,000 101
50,000 100
99 70,000
98 200,000
…
売り注文
株数(株)
気配値
(円)
買い注文
株数(株)
…
150,000 101
50,000 100
99 70,000
98 200,000
…
売り注文
株数(株)
気配値
(円)
買い注文
株数(株)
…
150,000 101
50,000 100
99 70,000
98 200,000
…
売り注文
株数(株)
気配値
(円)
買い注文
株数(株)
…
150,000 101
50,000 100
99 70,000
98 200,000
…
増資発表
時間
学習期間
100営業日
入力期間
10営業日
(参考文献)梅岡利光, 鳥海不二夫, 平山高嗣, 榎堀優, 石井健一郎, 間瀬健二,
「板情報を用いた株式市場の状態変化の分析」, 第37回JAFEE大会(2012)
学習特徴
ベクトル
(8次元)
混合
ガウスモデル
- 60. 分析の流れ(全体像)
売り注文
株数(株)
気配値
(円)
買い注文
株数(株)
…
150,000 101
50,000 100
99 70,000
98 200,000
…
板情報
売り注文
株数(株)
気配値
(円)
買い注文
株数(株)
…
150,000 101
50,000 100
99 70,000
98 200,000
…
売り注文
株数(株)
気配値
(円)
買い注文
株数(株)
…
150,000 101
50,000 100
99 70,000
98 200,000
…
売り注文
株数(株)
気配値
(円)
買い注文
株数(株)
…
150,000 101
50,000 100
99 70,000
98 200,000
…
売り注文
株数(株)
気配値
(円)
買い注文
株数(株)
…
150,000 101
50,000 100
99 70,000
98 200,000
…
売り注文
株数(株)
気配値
(円)
買い注文
株数(株)
…
150,000 101
50,000 100
99 70,000
98 200,000
…
増資発表
時間
学習期間
100営業日
入力期間
10営業日
(参考文献)梅岡利光, 鳥海不二夫, 平山高嗣, 榎堀優, 石井健一郎, 間瀬健二,
「板情報を用いた株式市場の状態変化の分析」, 第37回JAFEE大会(2012)
学習特徴
ベクトル
(8次元)
入力特徴
ベクトル
(8次元)
12個/日×10日
= 120個のデータ
不適合データ
不適合度
混合
ガウスモデル
- 65. 実験2(通常の増資銘柄の分析)
実験2で得られた 𝜃𝑖𝑛𝑐 = 𝜃 + 0.5𝜎 という閾値で判定し、
増資公表前の注文状況が特異/非特異と判定された銘柄の数
特異 非特異
実験1の結果 4 0
通常の増資銘柄 2 2
通常の増資銘柄と比べても、分析対象銘柄の方が
増資公表前10営業日の注文状況の
特異性が高いことを確認
Hinweis der Redaktion
- まず背景です.
現在,100年に一度と言われる程の不況が世界中を襲っています.
このような状況下で,新たなアプローチによって金融市場を分析する試みが期待されています.
その1つに,人工市場研究があります.
人工市場研究では,コンピュータ上に人工的な市場を構成し,
市場取引のシミュレーションを行います.
そして,シミュレーション結果を分析し,
市場における新たな事実を発見することが目的となります.
- ではまず,板について説明します.
板はここに示した様な表の形式をしています.
この表は,現時点で売買成立に至っていない注文の
残っている株数をまとめたものです.
例えばこの図ですと,1,500円に対する売り注文が40株,
1,400円に対する買い注文が20株残っている,という具合です.
板に表示されている値は,注文が出される度に変化します.
新たに出された注文が売買成立できなければ,
そのまま板に追加されます.
売買成立したならば,
その取引相手の注文は,板に残っていたものから選ばれたわけですから,
その注文が売買成立となり,板から削除されます.
このように,板は,注文が出される度に変化していく,
リアルタイムな情報です.
- しかし,人工市場研究には1つの問題があります.
それが,現実との関連付け問題です.
これに対し,既存の人工市場研究では,価格に注目し,
人工市場で実市場の価格変動を再現できたという根拠をもって
関連付けを行ってきました.
しかし,価格変動を再現できたというだけで,十分に現実と関連付けられているかは
疑問が残ります.
特に,市場参加者の構成など,人工市場を構成する際に恣意性が存在する部分に対して,
再現性を評価する必要があると考えられます.
そこで本研究では,
市場の動きを観測して得たデータを分析し,
複数のデータ間の類似性を評価する手法を提案します.
本手法では,価格変動ではなく,“板”というものを分析に用います.
後で詳しく説明しますが,板には市場参加者の構成に関する情報が含まれており,
これに注目します.
- 本研究では,リアルタイムに変化する板を,
一定間隔で観測することにより,
板の標本化を行います.
そして,標本化によって得られたデータ列を板情報とし,
板情報を基に分析を行います.
- ではここから,提案手法の説明に移ります.
提案手法の流れはこの図のようになります.
このように,板情報を,段階的に変形していくことによって,
最終的には時系列モデルを作成します.
<クリック>
ではまず,板情報から特徴ベクトルを生成する,
特徴抽出について説明します.
ここで市場参加者の構成を反映した特徴を抽出する事が
提案手法のポイントとなります.
- 特徴抽出は,注文数変化量というものに注目して行います.
そこで,まず注文数変化量を求めます.
右の表が,現時点で観測された板で,
左の表が,その1つ前に観測された板とします.
<クリック>
この2つを比べると,矢印で示したように
注文数が変化しています.
これらの変化が,どのような注文によって発生したものであるかは,
<クリック>
このように,板情報のみを用いて推定することができ,
これを注文数変化量とします.
注文数変化量は,トレーダーが出した注文の規模を表していると言えます.
注文の規模は,市場参加者の種類,
-例えば機関投資家やデイトレーダーなど-
によって異なるものであるため,
注文数変化量に注目することで,市場参加者の構成を反映した分析が
できると考えられます.
- それでは,注文数変化量を用いて,特徴ベクトルを生成します.
本手法では,どのような規模の注文が何回出されたか,という値を
特徴量とします.
まず,板情報を,価格変動が発生した時点で区切り,
価格変動が発生してから,次に価格変動が発生するまでの間を1つの
まとまりとします.
そして,そのまとまりの中で,
注文の規模毎に,その規模の注文が何回出されたかをカウントし,
1秒あたりの値に正規化をすることで,特徴量とします.
例えば,あるまとまりが10秒間であり,この間に,
小規模買い注文が14回,中規模買い注文が5回・・・というようにカウントされたとします.
これらの値を10で割ることにより時間正規化し,1.4,0.5・・・という値が得られます.
これを順にならべて,生成されたベクトルxを特徴ベクトルとします.
- では次に,特徴ベクトルから時系列モデルを作成するまでについて説明します.
- まず特徴ベクトルに対してクラスタリングを行い,
ベクトル量子化をします.
これにより,連続値を持つベクトルから,
B,A,Cといった,有限種類のシンボルに変換します.
こうして生成されたシンボルの系列を学習させることにより,
HMM-Hidden Markov Models-を作成します.
- 提案手法の有効性を評価する実験を行いました.
実験は,実市場を観測して得た板情報を用いて行いました.
銘柄は日経225先物で,45日分のデータです.
提案手法の有効性を確認するために,
実市場の動きが特殊である時間帯を
提案手法を用いて検出することができるかを確認しました.
ここでは,取引開始直後や取引終了直前を,特殊な時間帯としました.
これらの時間帯の特殊性は既に確認されています.
特殊時間帯クラスと平常時間帯クラスの
2クラス識別問題を定義し,
提案手法を用いて識別した結果を評価するという手法を採りました.
45日分のデータを取得したので,
1日分のデータをテスト用,残りを学習用とする,45重交差検証法を用いました.
- 識別手順はこのようになります.
緑色で表した部分が学習です.
学習データから,特殊時間帯に当たる部分の系列と,
平常時間帯に当たる系列を切り出し,
それぞれのクラスに対応するHMM
-特殊時間帯HMMと平常時間帯HMM-を作成しました.
そして,紫色で表した部分が識別になります.
テストデータも,いずれかの時間帯に当たる部分の系列とし,
2つのHMMそれぞれに対する類似度を計算しました.
そして,類似度の高いHMMに対応するクラスを識別結果としました.
- ここに示したように,
取引開始時を検出する,識別問題Ⅰと,
取引終了時を検出する,識別問題Ⅱについて,識別率を求めました.
実験の結果,識別問題Ⅰで86.3%,識別問題Ⅱで73.7%という
識別率を得ました.
また,識別に失敗した日の市場を分析したところ,
識別に失敗した日は,特殊な出来高の値を示していることが
確認されました.
これらの結果から,提案手法は,市場が特殊な時間帯を
検出できていると考えられます.
- まとめます.
本研究では,市場の類似性を評価する手法を提案しました.
提案手法は,板情報から注文の規模に関する情報を抽出して
時系列分析を行うものです.
提案手法の有効性を評価する実験を行いました.
実験の結果,提案手法は市場の特殊性を検出できていることがわかりました.
- 有意な特異性
- 内部者取引があった銘柄の、公表前の特異性に関する検証はいくつかあるが、今までは価格や出来高
・TOPIXより有意に価格が下落
・ファクターモデルでのリターンより価格が下落
- 板情報→価格や出来高より上流→情報量が圧倒的に多い
→高度な分析
なお東証FLEXを利用
板の説明は省く!
- 目標は増資発表前10営業日の、その前100営業日の板と比べた特異性を検出すること
アニメ:板から特徴ベクトルを抽出
- 売り買いそれぞれ、第1、2気配値、それ以上(以下)、にラベリング
ラベルごとに、30分ごとに差分を取ることで注文を抽出
対数で正規化
- 次元を2つ取り出して
アニメ:2つのクラスタ
- 特徴ベクトルの集まりを混合ガウスモデルという確率モデルでモデル化
- だいたいこの辺に点が集まってるというのを確率で
- ガウス分布の線形重ね合わせ、
パラメータ推定にはこの3つ(さくっと)
- 入力期間からも同様にFVを抽出、GMMと比較
アニメ:不適合な点
アニメ:入力FVがどれくらいGMMと当てはまりが悪いかを不適合度という指標で評価
不適合度が高い=GMMとの当てはまりが悪い
=学習100日の注文状況と入力10日のそれが異なる
=入力期間の特異性が高いと判断
- あるFVをGMMに適合とするか、不適合とするかの基準
MD=1次元で言う標準偏差を多次元に拡張させたもの
例えば、閾値を4σと設定(それ以上離れたものを不適合)
- アニメ:内部者取引のあった銘柄において注文状況の特異性を検出できた
でも不適合度がどれだけ高ければ、入力期間の状況が特異だったと言えばいいのか
例えばaは大きく離れているが、cはそうでもない
- 実験1と同様に、同業種他社と比較
実験2で得られた閾値で判定すると・・・
それを表にまとめたのが