Weitere ähnliche Inhalte Ähnlich wie サイバー脅威インテリジェンスに基づく検知指標学習とその応用 by 谷口 剛 (20) サイバー脅威インテリジェンスに基づく検知指標学習とその応用 by 谷口 剛1. Copyright 2017 FUJITSU SYSTEM INTEGRATION LABORATORIES LIMITED
サイバー脅威インテリジェンスに基づく
検知指標学習とその応用
~ 大量の脅威情報から宝探し ~
0
CODE BLUE Day0 – 特別トラック
サイバー犯罪対策トラック
(2017 年 11 月 8 日)
富士通システム統合研究所
FUJITSU SYSTEM INTEGRATION LABORATORIES LTD.
谷口 剛
Tsuyoshi TANIGUCHI
4. 従来の CTI: テキストによる共有
Copyright 2017 FUJITSU SYSTEM INTEGRATION LABORATORIES LIMITED
○○というサイバー攻撃では,
△△という攻撃者の関与が強く疑われる.
攻撃手法としては□□というマルウェアを使い,
IP xx.xx.xx.xx で C&C サーバとの通信が観測.
3
5. これからの CTI: 機械可読
Copyright 2017 FUJITSU SYSTEM INTEGRATION LABORATORIES LIMITED
<タグ 攻撃名> ○○ </ 攻撃名>
<タグ 攻撃者> △△ </攻撃者>
<タグ 攻撃手法> □□ </攻撃手法>
<タグ IP > xx.xx.xx.xx </ IP >
4
6. STIX (Structured Threat Information eXpression) 形式
CTI の標準の
1 つ
8 つの情報群
からなる
Copyright 2017 FUJITSU SYSTEM INTEGRATION LABORATORIES LIMITED
IPA 脅威情報構造化記述形式STIX概説 https://www.ipa.go.jp/security/vuln/STIX.html
5
7. 取り組む課題
大量の CTI に分析者が溺れてしまう
AIS (Automated Indicator Sharing) による
CTI の共有促進
大量の CTI はゴミになりかねない
Copyright 2017 FUJITSU SYSTEM INTEGRATION LABORATORIES LIMITED6
8. モチベーション
大量の CTI (ゴミ) の中から
攻撃者のことがわかる
特別な CTI (宝物) をみつけ
分析者の手助けをしたい
Copyright 2017 FUJITSU SYSTEM INTEGRATION LABORATORIES LIMITED7
10. 検知指標 (indicators)
CTI の要素で攻撃を検知するための指標
検知指標のタイプ
IP アドレス ←今回の対象
ドメイン ←今回の対象
ホスト
E-mail
URL
ハッシュ: MD5, SHA1, SHA256, PEHASH, IMPHASH
…
Copyright 2017 FUJITSU SYSTEM INTEGRATION LABORATORIES LIMITED
• IP xxx.xxx.xxx.xxx
• IP yyy.yyy.yyy.yyy
• IP zzz.zzz.zzz.zzz
未識別(新規)
継続利用
使い回し
9
13. 検知指標学習結果の使い方 イメージ
Copyright 2017 FUJITSU SYSTEM INTEGRATION LABORATORIES LIMITED
リアルタイム系
CTI ソース
ブラックリスト
(検知リスト)
分析系 CTI ソース
ほとんどの場合,すぐに消滅
するものの,対処は必要
CTI プラットフォーム
特別な IP やドメイン
大量の(未認識の)
リアルタイム検知指標
別対処,さらなる
分析へ
検知指標 DB
12
17. 実例1 (1/2):スパムメール
Copyright 2017 FUJITSU SYSTEM INTEGRATION LABORATORIES LIMITED
Hi xxxxxx,
Congratulations!
You have access to your free
trading cash!
The money is sitting and waiting
in your account now.
Access Here Now
Thanks again
Dennis Mcclain
http://sectorservices[.]com[.]br/
components/com_tz_portfolio/v
iews/gallery/tmpl/
187.17.111[.]105
DNS
16
19. 実例2 (1/2):Kelihos ボットネット
Copyright 2017 FUJITSU SYSTEM INTEGRATION LABORATORIES LIMITED
1 月 2 月 3 月 4 月 5 月 6 月 7 月 8 月 9 月 10 月 11 月 12 月
2015 年 Kelihos ボットネットの検知指標 (IP アドレス)の生存期間
11 (/ 39,937) 個
が 46 週以上
97.5% が 4 週
以内に消滅
xx.xx.xx.41: 4/13 - 4/14
xx.xx.xx.42: 3/16
xx.xx.xx.46: 3/28 - 6/19
xx.xx.xx.47: 3/8 - 3/13
xx.xx.xx.48: 5/21 - 5/22
xx.xx.xx.51: 5/1 - 6/14
18
22. 実例4 (1/2):悪性活動に潜在的に利用されうる IP アドレ
ス監視
Copyright 2017 FUJITSU SYSTEM INTEGRATION LABORATORIES LIMITED
2014 at
present
2015 2016
GameOverZeus
Sality
CryptoWall
Tinba
DGA
21
23. 実例4 (2/2):パッシブ DNS サービスによる検証
Passive Total by RiskIQ
Copyright 2017 FUJITSU SYSTEM INTEGRATION LABORATORIES LIMITED
CTI による学習期間
ロッキースパム
(2016 年 6 月)
4 (3rd) →
19 (4th) →
209 (5th)
398 (20th) →
573 (21st) →
584 (22nd)
22
26. CTI (の検知指標)は偏ったデータの集合
CTI の検知指標の学習で困ったこと:偏りだらけ
機械学習では学習データの統計情報を未来にも同様に仮定するが...
特定のマルウェア(キャンペーン)に依存した CTI の量の偏り
Ex. WannaCry, Petya, Bad Rabbit
検知指標の質の偏り
ほとんどが新規(未識別) or 一部の大量の CTI と関連する検知指標
攻撃の質の偏り(違い)
ボットネット (ばらまき,無差別系) or APT (標的型)
Copyright 2017 FUJITSU SYSTEM INTEGRATION LABORATORIES LIMITED25
28. 検知指標学習の構成
Copyright 2017 FUJITSU SYSTEM INTEGRATION LABORATORIES LIMITED
CTI データソース1
サブグループ 1 サブグループ 2 サブグループ i⋯
前処理
検知指標学習
検知指標 DB
CTI データソース2 CTI データソース3
27
29. 前処理
基本的には STIX
形式を想定し,
XML パーサを利用
Copyright 2017 FUJITSU SYSTEM INTEGRATION LABORATORIES LIMITED
<stix:STIX_Package …>
<stix:STIX_Header>
…
</stix:STIX_Header>
<stix:Observables…>
…
<cybox:Title> IP addresses </cybox:Title>
…
<AddressObj:Address_Value> xxx.xxx.xxx.xxx </AddressObj:Address_Value>
…
<cybox:Title>Cerber IP addresses </cybox:Title>
…
<AddressObj:Address_Value> yyy.yyy.yyy.yyy </AddressObj:Address_Value>
…
</stix:Observables>
<stix:STIX_TTPs>
…
<ttp:Title> … </ttp:Title>
…
</stix:STIX_TTPs>
<stix:Campaigns>
…
<campaign:Title> Campaign1 </campaign:Title>
…
</stix:Campaigns>
…
28
30. CTI のサブグループ化
Copyright 2017 FUJITSU SYSTEM INTEGRATION LABORATORIES LIMITED
• IP 1-1
• IP 1-2
• Domain 1-1
• ⋯
Subgroup1 - GOZ
CTI データソース1
前処理
CTI データソース2 CTI データソース3
• IP 2-1
• IP 2-2
• Domain 2-1
• ⋯
⋯
• IP i-1
• IP i-2
• Domain i-1
• ⋯
時系列
• IP 1-1
• IP 1-2
• Domain 1-1
• ⋯
Subgroup2 - Upatre
• IP 2-1
• IP 2-2
• Domain 2-1
• ⋯
⋯
• IP i-1
• IP i-2
• Domain i-1
• ⋯
時系列
• IP 1-1
• IP 1-2
• Domain 1-1
• ⋯
Subgroup3 - Kelihos
• IP 2-1
• IP 2-2
• Domain 2-1
• ⋯
⋯
• IP i-1
• IP i-2
• Domain i-1
• ⋯
時系列
• IP 1-1
• IP 1-2
• Domain 1-1
• ⋯
Subgroup4 - Pony
• IP 2-1
• IP 2-2
• Domain 2-1
• ⋯
⋯
• IP i-1
• IP i-2
• Domain i-1
• ⋯
時系列
GameOverZeus, Upatre, Kelihos, Pony, Locky, Domain Generation Algorithm, Dridex, DyreTrojan,
Cryptowall, Sality, Tinba, Torrent, KOL, Madness, APT28, APT10, Fallout, Lazarus, WannaCry, Petya
29
32. 実例2 (1/2):Kelihos ボットネット
Copyright 2017 FUJITSU SYSTEM INTEGRATION LABORATORIES LIMITED
1 月 2 月 3 月 4 月 5 月 6 月 7 月 8 月 9 月 10 月 11 月 12 月
2015 年 Kelihos ボットネットの検知指標 (IP アドレス)の生存期間
11 (/ 39,937) 個
が 46 週以上
97.5% が 4 週
以内に消滅
xx.xx.xx.41: 4/13 - 4/14
xx.xx.xx.42: 3/16
xx.xx.xx.46: 3/28 - 6/19
xx.xx.xx.47: 3/8 - 3/13
xx.xx.xx.48: 5/21 - 5/22
xx.xx.xx.51: 5/1 - 6/14
31
33. 検知指標の重みづけ
複数のサブグループ間で IP アドレスとドメインを比較
Contrast Set Mining [Bay et.al 2001]
Emerging Patterns [Dong and Li 1999]
Copyright 2017 FUJITSU SYSTEM INTEGRATION LABORATORIES LIMITED
itemset A
32
DB 1 DB 2
同定可能
itemset A
出現なし
IP,ドメイン
マルウェア,
キャンペーン
34. 複数マルウェアで使い回される IP アドレス
99% 以上:単独のサブグループ
1% 未満: 複数のサブグループ
Copyright 2017 FUJITSU SYSTEM INTEGRATION LABORATORIES LIMITED
456 / 58048:
0.79%
33
Hinweis der Redaktion 0 この講演では,サイバー脅威インテリジェンスを CTI というワードで説明していく予定.
脅威インテリジェンス,脅威情報,Threat Intelligence ともいう.
基本的な共有方法で,人間が読むことを想定し,pdf やメールで共有.
この絵自体はあまり説明しない予定です.
次のスライドへつなげるために,indicators: 攻撃を検知するための指標,を説明.
世界的な標準により,機械可読が普及していくと考えている. CTI は情報共有の性質から共有自体がされるのか懐疑的な意見もあったが,
DHS の AIS により,現在大量の IP アドレス等が共有される時代になっている. 「検知指標」の英語表現は STIX 形式の表現に従って「indicator」でお願いします ・攻撃者が攻撃インフラの使い方に痕跡を残す(残ってしまう)場合がある
・ある攻撃者が愛用している IP アドレス
・ある攻撃者は検知を気にせずに攻撃インフラを使用
・どうしても一定数は URL をふんでしまう
・あるいは,攻撃インフラ構築のコストの節約のため,あえて同じインフラを使い続ける
・攻撃者の残した痕跡は CTI 上の検知指標に表れる
・【通常】特定のマルウェアやキャンペーンを識別するために利用
・自社で感染したマルウェアの C&C サーバへの通信を検知
・外から自社への怪しい通信を検知
・攻撃のトレンドをウォッチするために利用
・必ずしも自社で観測された情報である必要はない
・リアルタイムに流れてくる検知指標の選別
・ほとんどは未識別で,過去のインテリジェンスと無関係
・一部の著名なマルウェア(キャンペーン)の検知指標が流れてくることがあり,選別するための仕組みが必要
ふりかえり
ここまで説明してきた内容を聴衆に確認します
実際に受信したスパムメール 重要なのは,IP などを入力にして,プラットフォームを使って CTI を検索して CTI のレポートを確認して…
の前に,過去のどのような悪性活動とかかわっていたか,すぐに判別できること
CTI や IP アドレスの数が多くなってくると,大きな差が生まれる
深堀する必要があるとわかれば,そこからじっくり分析をはじめればよい 2010 年に発見された Kelihos は,ピーク時に 42,000 台の端末を感染させた強力なボットネット
「Levashov はホットネット 『Kelihos』 の主犯格として逮捕された」 という情報が英語圏の数多くのメディアで取り上げられる (4/10)
「ボットネット運営者? トランプを当選させた男? 悪名高きロシア人サイバー犯罪者がバルセロナで逮捕される」 より
・上記のような説明を口頭で簡単にする予定
ここで説明したいのは,ボットネット活動の中でほとんどの IP アドレスが使い捨てられる中で,
11個の IP は1年近く活動に使われ続けたこと
この IP は攻撃者の傾向がより表れている可能性が高い
図中の期間は,CTI から生存期間を評価した IP アドレスに対して,
パッシブDNSサービスで悪性ドメインが登録されていた期間を示している
悪性ドメインは早い場合で1日で消滅
Kelihos ボットネットの検知指標 (IP アドレス)のヒストグラム
横軸は生存期間(生存週),縦軸は検知指標の数
前スライドの 11 個の 1 年近く生存した IP は右はじの 24 週以上に相当し,
統計上は外れ値や異常値と判定されかねない IP であっても,
攻撃者傾向が強く表れている可能性が高い IP として注目する 1つ1つの検知指標の学習をした後に,
特定のマルウェアやキャンペーンで検知指標を集約すると,
攻撃の傾向が表れる場合がある
前スライドと同じ内容のヒストグラムで,別のマルウェアの例
横軸と縦軸も同じ
GOZ では95%が1週で消滅する使い捨てタイプ
Upatre では 25%が半年以上利用される長寿命タイプ
ボットネット (GOZ) とダウンローダ (Upatre)は,分析しなくてもある程度攻撃インフラの使い方は予測できるものの,
明らかになった攻撃傾向を基にして,新規に検知指標を受信したときに,
その検知指標がどの程度使われそうか,推測することが可能となる
攻撃者の傾向が表れている特別な検知指標による先回り防御について検討中の内容について紹介.
この例では,2014 年から 2015 年にかけて,複数のマルウェアの CTI に出現した IP アドレスについて紹介.
四角は具体的な IP アドレス (今回はデータを利用させてもらっているベンダーに配慮して値は出さない)
四角の中の色付きのエリアはその IP が CTI に出現したことを表す
この IP のように,過去複数のマルウェアの活動で観察されてきた IP は,
またほかの活動でも観察される可能性があるのでは,と監視する.
ちなみに,この資料を作成している段階で,
FireEye のあるアナリストの分析で明らかになったことによると,
この IP は2014年あたりには既にシンクホールになっていたと推定され,
直接攻撃インフラに利用されていたわけではなさそうだが,
様々な悪性活動に反応する IP となっていた模様.
前のスライドにおいて説明した IP アドレスに関連づいているドメインの数を
パッシブDNSサービスである PassiveTotal を利用して検証.
左は各四半期の最終日の登録ドメイン数をプロットしたもの.
右は2016年の6月の日別の登録ドメイン数をプロットしたもの.
2015年までの学習で明らかにできていた IP を
2016年に監視できていたとしたら,
2016年6月のロッキースパムによる初動をとらえることができていた
ふりかえり
ここまで説明してきた内容を聴衆に確認します 大体書いてある通りに,情報を補足しながら話します. 大体書いてある通りに,情報を補足しながら話します.
全ての攻撃に共通する性質はなく,局所のデータ集合に限定した性質を積み重ねる類の問題
サブグループ:特定のマルウェアやキャンペーンに関する CTI に含まれる IP ・ドメインの集合
宝が見つかりやすいように,宝のありかにある程度あたりをつける 宝のありかにあたりをつけるアプローチ 前のスライドの結果として,再掲
既に説明している結果なので,ほとんど説明しません. コントラストセットマイニングの考え方を検知指標に応用 前のスライドの結果として,再掲
既に説明している結果なので,ほとんど説明しません.