サイバー脅威インテリジェンスに基づく検知指標学習とその応用 by 谷口剛

Copyright 2017 FUJITSU SYSTEM INTEGRATION LABORATORIES LIMITED
サイバー脅威インテリジェンスに基づく
検知指標学習とその応用
～大量の脅威情報から宝探し～
0
CODE BLUE Day0 – 特別トラック
サイバー犯罪対策トラック
（2017 年 11 月 8 日）
富士通システム統合研究所
FUJITSU SYSTEM INTEGRATION LABORATORIES LTD.
谷口剛
Tsuyoshi TANIGUCHI

大量の脅威情報に眠る宝物
Copyright 2017 FUJITSU SYSTEM INTEGRATION LABORATORIES LIMITED1

サイバー脅威インテリジェンス
Cyber Threat Intelligence: CTI
特定の脅威に関する知識を共有す
る目的でまとめたレポート

従来の CTI: テキストによる共有
○○というサイバー攻撃では，
△△という攻撃者の関与が強く疑われる．
攻撃手法としては□□というマルウェアを使い，
IP xx.xx.xx.xx で C&C サーバとの通信が観測．
3

これからの CTI: 機械可読
<タグ攻撃名> ○○ </ 攻撃名>
<タグ攻撃者> △△ </攻撃者>
<タグ攻撃手法> □□ </攻撃手法>
<タグ IP > xx.xx.xx.xx </ IP >
4

STIX (Structured Threat Information eXpression) 形式
 CTI の標準の
1 つ
 8 つの情報群
からなる
IPA 脅威情報構造化記述形式STIX概説 https://www.ipa.go.jp/security/vuln/STIX.html
5

取り組む課題
大量の CTI に分析者が溺れてしまう
AIS (Automated Indicator Sharing) による
CTI の共有促進
大量の CTI はゴミになりかねない

モチベーション
大量の CTI (ゴミ) の中から
攻撃者のことがわかる
特別な CTI (宝物) をみつけ
分析者の手助けをしたい

脅威情報からの宝探しイメージ
リアルタイム系
CTI ソースその他
分析系 CTI ソース
CTI プラットフォーム
宝物（特別な CTI）
8

検知指標 (indicators)
 CTI の要素で攻撃を検知するための指標
 検知指標のタイプ
 IP アドレス ←今回の対象
 ドメイン ←今回の対象
 ホスト
 E-mail
 URL
 ハッシュ: MD5, SHA1, SHA256, PEHASH, IMPHASH
 …
• IP xxx.xxx.xxx.xxx
• IP yyy.yyy.yyy.yyy
• IP zzz.zzz.zzz.zzz
未識別（新規）
継続利用
使い回し
9

ほとんどの検知指標 (攻撃インフラ) は使い捨て
80% >
使い捨て
本研究ではこちらに注目
10

本研究における仮説
攻撃者の残した痕跡は CTI 上の検知指標に表れる
以下の 3 種類の検知指標の区別
使い捨て
長寿命
使い回し

検知指標学習結果の使い方イメージ
リアルタイム系
CTI ソース
ブラックリスト
(検知リスト)
分析系 CTI ソース
ほとんどの場合，すぐに消滅
するものの，対処は必要
CTI プラットフォーム
特別な IP やドメイン
大量の（未認識の）
リアルタイム検知指標
別対処，さらなる
分析へ
検知指標 DB
12

CTI に基づく検知指標学習予告
ディープラーニングやクラスタリングの話
ではございません

1.大量の脅威情報に眠る宝物
CTI
STIX
ゴミ
宝物

宝箱の中身

実例１ (1/2)：スパムメール
Hi xxxxxx,
Congratulations!
You have access to your free
trading cash!
The money is sitting and waiting
in your account now.
Access Here Now
Thanks again
Dennis Mcclain
http://sectorservices[.]com[.]br/
components/com_tz_portfolio/v
iews/gallery/tmpl/
187.17.111[.]105
DNS
16

検知指標 DB
実例１ (2/2)：検知指標学習の利用
187.17.111[.]105
17

実例２ (1/2)：Kelihos ボットネット
1 月 2 月 3 月 4 月 5 月 6 月 7 月 8 月 9 月 10 月 11 月 12 月
2015 年 Kelihos ボットネットの検知指標 (IP アドレス)の生存期間
11 (/ 39,937) 個
が 46 週以上
97.5% が 4 週
以内に消滅
xx.xx.xx.41: 4/13 - 4/14
xx.xx.xx.42: 3/16
xx.xx.xx.46: 3/28 - 6/19
xx.xx.xx.47: 3/8 - 3/13
xx.xx.xx.48: 5/21 - 5/22
xx.xx.xx.51: 5/1 - 6/14
18

宝物が埋もれてる
19

実例３：攻撃傾向推定
長寿命タイプ → ダウンローダ使い捨てタイプ → ボットネット，DGA 等
20

実例４ (1/2)：悪性活動に潜在的に利用されうる IP アドレ
ス監視
2014 at
present
2015 2016
GameOverZeus
Sality
CryptoWall
Tinba
DGA
21

実例４ (2/2)：パッシブ DNS サービスによる検証
 Passive Total by RiskIQ
CTI による学習期間
ロッキースパム
(2016 年 6 月)
4 (3rd) →
19 (4th) →
209 (5th)
398 (20th) →
573 (21st) →
584 (22nd)
22

2. 宝箱の中身
長寿命検知指標
攻撃の傾向
先回り防御

宝探しのやり方

CTI （の検知指標）は偏ったデータの集合
 CTI の検知指標の学習で困ったこと：偏りだらけ
 機械学習では学習データの統計情報を未来にも同様に仮定するが．．．
 特定のマルウェア（キャンペーン）に依存した CTI の量の偏り
 Ex. WannaCry, Petya, Bad Rabbit
 検知指標の質の偏り
 ほとんどが新規（未識別） or 一部の大量の CTI と関連する検知指標
 攻撃の質の偏り（違い）
 ボットネット (ばらまき，無差別系) or APT (標的型)

検知指標学習
一般的なアルゴリズムをそのまま適用するだけではダメ
多数派：使い捨て
急上昇：ボットネット等で大量の使い捨て
分類識別：ほとんどの検知指標はマルウェアを同定可能
宝探し：レアなパターン（宝物）をあぶりだす問題に帰着
全ての CTI を対象に闇雲に宝探しをしても宝は見つか
らない

検知指標学習の構成
CTI データソース１
サブグループ 1 サブグループ 2 サブグループ i⋯
前処理
検知指標学習
検知指標 DB
CTI データソース２ CTI データソース３
27

前処理
基本的には STIX
形式を想定し，
XML パーサを利用
<stix:STIX_Package …>
<stix:STIX_Header>
…
</stix:STIX_Header>
<stix:Observables…>
…
<cybox:Title> IP addresses </cybox:Title>
…
<AddressObj:Address_Value> xxx.xxx.xxx.xxx </AddressObj:Address_Value>
…
<cybox:Title>Cerber IP addresses </cybox:Title>
…
<AddressObj:Address_Value> yyy.yyy.yyy.yyy </AddressObj:Address_Value>
…
</stix:Observables>
<stix:STIX_TTPs>
…
<ttp:Title> … </ttp:Title>
…
</stix:STIX_TTPs>
<stix:Campaigns>
…
<campaign:Title> Campaign1 </campaign:Title>
…
</stix:Campaigns>
…
28

CTI のサブグループ化
• IP 1-1
• IP 1-2
• Domain 1-1
• ⋯
Subgroup1 - GOZ
CTI データソース１
前処理
CTI データソース２ CTI データソース３
• IP 2-1
• IP 2-2
• Domain 2-1
• ⋯
⋯
• IP i-1
• IP i-2
• Domain i-1
• ⋯
時系列
• IP 1-1
• IP 1-2
• Domain 1-1
• ⋯
Subgroup2 - Upatre
• IP 2-1
• IP 2-2
• Domain 2-1
• ⋯
⋯
• IP i-1
• IP i-2
• Domain i-1
• ⋯
時系列
• IP 1-1
• IP 1-2
• Domain 1-1
• ⋯
Subgroup3 - Kelihos
• IP 2-1
• IP 2-2
• Domain 2-1
• ⋯
⋯
• IP i-1
• IP i-2
• Domain i-1
• ⋯
時系列
• IP 1-1
• IP 1-2
• Domain 1-1
• ⋯
Subgroup4 - Pony
• IP 2-1
• IP 2-2
• Domain 2-1
• ⋯
⋯
• IP i-1
• IP i-2
• Domain i-1
• ⋯
時系列
 GameOverZeus, Upatre, Kelihos, Pony, Locky, Domain Generation Algorithm, Dridex, DyreTrojan,
Cryptowall, Sality, Tinba, Torrent, KOL, Madness, APT28, APT10, Fallout, Lazarus, WannaCry, Petya
29

検知指標生存期間学習
CTI における検知指標としてどの程度の期間記述され続けるか
• IP 1
• IP 2
CTI at 2/1 CTI at 2/8 CTI at 2/15 CTI at 2/22
特定のマルウェアに関する CTI
• IP 1
• IP 3
• IP 1
• IP 4
• IP 1
30

1 月 2 月 3 月 4 月 5 月 6 月 7 月 8 月 9 月 10 月 11 月 12 月
2015 年 Kelihos ボットネットの検知指標 (IP アドレス)の生存期間
11 (/ 39,937) 個
が 46 週以上
97.5% が 4 週
以内に消滅
xx.xx.xx.41: 4/13 - 4/14
xx.xx.xx.42: 3/16
xx.xx.xx.46: 3/28 - 6/19
xx.xx.xx.47: 3/8 - 3/13
xx.xx.xx.48: 5/21 - 5/22
xx.xx.xx.51: 5/1 - 6/14
31

検知指標の重みづけ
 複数のサブグループ間で IP アドレスとドメインを比較
 Contrast Set Mining [Bay et.al 2001]
 Emerging Patterns [Dong and Li 1999]
itemset A
32
DB 1 DB 2
同定可能
itemset A
出現なし
IP，ドメイン
マルウェア，
キャンペーン

複数マルウェアで使い回される IP アドレス
 99% 以上：単独のサブグループ
 1% 未満: 複数のサブグループ
456 / 58048:
0.79%
33

ユースケース３ (1/2)：悪性活動に潜在的に利用されうる
IP アドレス監視
2014 at
present
2015 2016
GameOverZeus
Sality
CryptoWall
Tinba
DGA
34

まとめ
1. CTI には宝物が眠っている
2. 宝探しには有能なガイドが必
要だ

サイバー脅威インテリジェンスに基づく検知指標学習とその応用 by 谷口剛

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie サイバー脅威インテリジェンスに基づく検知指標学習とその応用 by 谷口剛

Ähnlich wie サイバー脅威インテリジェンスに基づく検知指標学習とその応用 by 谷口剛 (20)

Mehr von CODE BLUE

Mehr von CODE BLUE (20)