Paper Introduction "RankCompete:Simultaneous ranking and clustering of information networks"

RankCompete:
Simultaneous ranking and clustering
of information networks
[Neurocomputing (2012)]
Liangliang Caod, Xin Jinb, Zhijun Yinb , AndreyDel Pozoa,
Jiebo Luoc, Jiawei Hanb, Thomas S.Huangaa
aBeckman Institute and Coordinated Science Laboratory, University of Illinois at Urbana-Champaign, USA
bDepartment of Computer Science, University of Illinois at Urbana-Champaign, USA
cKodak Research Laboratories, Rochester, USA
dIBM T. J. Watson Research Center, USA
筑波大学大学院システム情報工学研究科
北川・天笠データ工学研究室
山崎耕太郎
1
Paper Introduction

目次
• 背景
• 提案手法
• 実験
- 書誌ネットワークに対する実験
- 視覚情報ネットワークに対する実験
• 結論
2

グラフ
3
ノード（頂点）とエッジ（辺）で構成される代表的なデータ構造の一つ
例 ) 学会-著者ネットワーク
著者学会論文を
出版したor された共著関係

クラスタリングとランキング
VLDBI
PODSI
SIGIR
ECIR
JCDL
SIGMOD
ICDT
EDBT
ECDL
TREC
学会著者
VLDBI
PODSI
SIGIR
ECIR JCDL
SIGMOD
ICDT
EDBT
ECDL TREC
SIGMOD
VLDBI
EDBT
SIGIR
PODSI
TREC
ECIR
ICDT
JCDL
ECDL
1
2
3
4
5
6
7
8
9
10
ランキング
クラスタリング
4

5
𝑇 =
1
2
1
4
0
1
2
1
2
1
2
0
1
4
1
2
, 𝑝 =
1
2
,
1
2
, 0
𝑇
𝑝 = 1,0,0 𝑇
𝟏
𝟐
𝟏
𝟐
①
②
③
ページの重要性をランダムウォーカー𝒑によって反復的に更新
関連研究：PageRank
T … 遷移行列

ページの重要性をランダムウォーカー𝒑によって反復的に更新
関連研究：PageRank
6
𝑇 =
1
2
1
4
0
1
2
1
2
1
2
0
1
4
1
2
,
𝑝 =
3
8
,
1
2
,
1
8
𝑇
𝟏
𝟒
𝟏
𝟒
𝟏
𝟐
𝟏
𝟐
𝟏
𝟐
𝑝 =
1
2
,
1
2
, 0
𝑇
𝑝 = 1,0,0 𝑇
①
②
③
T … 遷移行列

関連研究: RankClus [Sun et al., EDBT’09]
7
VLDBI
PODSI
SIGIR
ECIR
JCDL
SIGMOD VLDBI
SIGMOD
SIGIR PODS
ECIR
JCDL
クラスタ数 2
クラスタリング
ランキング
学会
1 SIGMOD
2 VLDB
3 SIGIR
学会
1 ECIR
2 JCDL
3 PODS
学会
1 SIGMOD
2 VLDB
3 PODS
学会
1 SIGIR
2 JCDL
3 ECIR
収束ランキング関数
VLDBI
SIGMOD
PODS
ECIR
JCDL
SIGIR
• 目的
- グラフに対してランキングとクラスタリングを同時に行う
• アプローチ
- K個の初期クラスタを与え、クラスタに対する各K次元のランキング
を行う。そして新たな特徴ベクトルを作りクラスタリングを行う。

提案手法: RankCompete
VLDBI
PODSI
SIGIR
ECIR
JCDL
SIGMOD
• 目的
• アプローチ
- グラフ内で複数のランダムウォーカーを用いてランキング、
クラスタリングに利用する

提案手法: Rankcompete
9
VLDBI
PODSI
SIGIR
ECIR
JCDL
SIGMOD
VLDBI
PODSI
SIGIR
ECIR
JCDL
SIGMOD
VLDBI
PODSI
SIGIR
ECIR
JCDL
SIGMOD
• 目的
• アプローチ

目次
• 背景
• 提案手法
• 実験
• 結論
10

問題設定: Information Network
Subject Type Attribute Type
学会-著者ネットワーク学会著者、論文タイトル、キーワード
視覚情報ネットワーク画像ローカルパッチ、タグ、メタデータ
Subject TypeとAttribute Typeのノードを持つグラフ
 Subject typeノードに対してランキング、クラスタリングを行う
例）
11

問題設定: ランダムウォークスコア
• ランダムウォークスコア: 𝒑 𝒌 𝒖
 K番目のランダムウォーカーがノードuに遷移する確率。
 ただし 𝒖=𝟏
𝑵
𝒑 𝒌 𝒖 = 𝟏
• スコア更新式
• ただし𝐓(𝐮, 𝐯) =
𝐒 𝐮,𝐯
𝒗′ 𝑺(𝒖,𝒗′)
12
𝑇 =
1
2
1
4
0
1
2
1
2
1
3
0
1
4
2
3
𝑝1 = 1,0,0 𝑇
𝑝2 = 0,0,1 𝑇
𝑝1 =
1
2
,
1
2
, 0
𝑇
𝑝2 = 0,
1
3
,
2
3
𝑇
Compet
e
𝟏
𝟐
𝟏
𝟐
𝟐
𝟑
𝟏
𝟑

問題設定: Competing
ランダムウォークスコア: {𝒑 𝒌} 𝟏 ≤ 𝒌 ≤ 𝑲 について
以下の制約を満たす
13
𝑝1 = 1,0,0 𝑇
𝑝2 = 0,0,1 𝑇
𝑝1 =
1
2
,
1
2
, 0
𝑇
𝑝2 = 0,
1
3
,
2
3
𝑇
Compet
e
𝟏
𝟐
𝟏
𝟐
𝟐
𝟑
𝟏
𝟑
𝒑 𝒌 𝒖 = 𝟎 𝒊𝒇 𝒌 ≠ 𝒂𝒓𝒈 𝒎𝒂𝒙 𝒌 𝒑 𝒌(𝒖)
𝟏
𝟐
𝟏
𝟐
𝟐
𝟑
0 𝑝1 =
1
2
,
1
2
, 0
𝑇
𝑝2 = 0, 𝟎,
2
3
𝑇

• 目的
• アプローチ
RankCompete
14

提案手法: 概要
Competing step
収束判定
初期化
Walking step
初期ノードの選択
ランダムウォーク
競合の処理
反復 or 収束
15

入力と出力
Competing step
収束判定
OUTPUT:
初期化
Walking step
INPUT：クラスタ数K
𝒑 ∈ ℝ 𝑵∗𝑲 ,
ランダムウォークスコアとクラスタインデックス 16

初期化
• K個のsubject nodesの選択
ランダムウォーカーの出発点
初期スコアは1とする
Competing step
収束判定
OUTPUT
初期化
Walking step
INPUT
17

Walking Step
スコアベクトル 𝒑 𝒌 の更新
Competing step
収束判定
OUTPUT
初期化
Walking step
INPUT
18

Competing Step
• 競合の処理
• 正規化
Competing step
収束判定
OUTPUT
初期化
Walking step
INPUT
19

収束判定
Ｐの収束
or
反復回数が事前設定数を超える
Competing step
収束判定
OUTPUT
初期化
Walking step
INPUT
20

目次
• 背景
• 提案手法
• 実験
• 結論
21

書誌ネットワークに対する実験
• データセット
- 書誌データ: DBLP, Cora
• 比較手法
- Normalized cut(NC)
- NetPLSA
- RankClus
- iTopicModel
• クラスタリング評価指標
- NMI（ Normalized Mutual Information）
22

書誌データ
- DBLP
- Cora
Type Subject Attribute
ノード学会著者
ノード数 20 28,702
備考 4つの分野(DM,DB,ML,IR)に関連する学会 Subjectタイプのいずれかの学会に論
文を出した著者
Type Subject Attribute
ノードクラスラベル論文とその引用リスト
ノード数 70 19,396
備考論文間で引用関係があればエッジを張
る
23

階層型クラスタリング結果
25
対象データ：DBLPデータセット

ランキング結果
• 対象データ
- DBLPデータ
• 比較手法
- PageRank
26

視覚情報ネットワークに対する実験
- Kodak consumer データセット
17のフォトコレクションと1,394のフォト
• 比較手法
- Normalized Cut (NC)
- Spectral clustering (SC)
• 評価指標
- NMI
Ground truthはフォトを撮った人が設定
27

クラスタリング精度
28
• 対象データセット
• Kodak consumer データセット
• 比較手法
• Normalized cut
• Spectral clustering

実験結果
29
代表画像クラスタ

目次
• 背景
• 提案手法
• 実験
• 結論
30

結論
• RankCompete
- 情報ネットワークに対して複数のランダムウォー
カーを用いることでランキングとクラスタリングを
同時に行うことを実現した。
• 実験結果
- 書誌ネットワーク、視覚情報ネットワークに対して
実験を行い有効であることを確認した
• 今後の課題
- より大きなネットワークに対する適用を可能にする
31

Paper Introduction "RankCompete:Simultaneous ranking and clustering of information networks"

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (15)

Ähnlich wie Paper Introduction "RankCompete:Simultaneous ranking and clustering of information networks"

Ähnlich wie Paper Introduction "RankCompete:Simultaneous ranking and clustering of information networks" (20)