SlideShare ist ein Scribd-Unternehmen logo
1 von 31
RankCompete:
Simultaneous ranking and clustering
of information networks
[Neurocomputing (2012)]
Liangliang Caod, Xin Jinb, Zhijun Yinb , AndreyDel Pozoa,
Jiebo Luoc, Jiawei Hanb, Thomas S.Huangaa
aBeckman Institute and Coordinated Science Laboratory, University of Illinois at Urbana-Champaign, USA
bDepartment of Computer Science, University of Illinois at Urbana-Champaign, USA
cKodak Research Laboratories, Rochester, USA
dIBM T. J. Watson Research Center, USA
筑波大学 大学院 システム情報工学研究科
北川・天笠 データ工学研究室
山崎 耕太郎
1
Paper Introduction
目次
• 背景
• 提案手法
• 実験
- 書誌ネットワークに対する実験
- 視覚情報ネットワークに対する実験
• 結論
2
グラフ
3
ノード(頂点)とエッジ(辺)で構成される代表的なデータ構造の一つ
例 ) 学会-著者ネットワーク
著者学会 論文を
出版したor された 共著関係
クラスタリングとランキング
VLDBI
PODSI
SIGIR
ECIR
JCDL
SIGMOD
ICDT
EDBT
ECDL
TREC
学会 著者
VLDBI
PODSI
SIGIR
ECIR JCDL
SIGMOD
ICDT
EDBT
ECDL TREC
SIGMOD
VLDBI
EDBT
SIGIR
PODSI
TREC
ECIR
ICDT
JCDL
ECDL
1
2
3
4
5
6
7
8
9
10
ランキング
クラスタリング
4
5
𝑇 =
1
2
1
4
0
1
2
1
2
1
2
0
1
4
1
2
, 𝑝 =
1
2
,
1
2
, 0
𝑇
𝑝 = 1,0,0 𝑇
𝟏
𝟐
𝟏
𝟐
①
②
③
ページの重要性をランダムウォーカー𝒑によって反復的に更新
関連研究:PageRank
T … 遷移行列
ページの重要性をランダムウォーカー𝒑によって反復的に更新
関連研究:PageRank
6
𝑇 =
1
2
1
4
0
1
2
1
2
1
2
0
1
4
1
2
,
𝑝 =
3
8
,
1
2
,
1
8
𝑇
𝟏
𝟒
𝟏
𝟒
𝟏
𝟐
𝟏
𝟐
𝟏
𝟐
𝑝 =
1
2
,
1
2
, 0
𝑇
𝑝 = 1,0,0 𝑇
①
②
③
T … 遷移行列
関連研究: RankClus [Sun et al., EDBT’09]
7
VLDBI
PODSI
SIGIR
ECIR
JCDL
SIGMOD VLDBI
SIGMOD
SIGIR PODS
ECIR
JCDL
クラスタ数 2
クラスタリング
ランキング
学会
1 SIGMOD
2 VLDB
3 SIGIR
学会
1 ECIR
2 JCDL
3 PODS
学会
1 SIGMOD
2 VLDB
3 PODS
学会
1 SIGIR
2 JCDL
3 ECIR
収束ランキング関数
VLDBI
SIGMOD
PODS
ECIR
JCDL
SIGIR
• 目的
- グラフに対してランキングとクラスタリングを同時に行う
• アプローチ
- K個の初期クラスタを与え、クラスタに対する各K次元のランキング
を行う。そして新たな特徴ベクトルを作りクラスタリングを行う。
提案手法: RankCompete
VLDBI
PODSI
SIGIR
ECIR
JCDL
SIGMOD
• 目的
- グラフに対してランキングとクラスタリングを同時に行う
• アプローチ
- グラフ内で複数のランダムウォーカーを用いてランキング、
クラスタリングに利用する
提案手法: Rankcompete
9
VLDBI
PODSI
SIGIR
ECIR
JCDL
SIGMOD
VLDBI
PODSI
SIGIR
ECIR
JCDL
SIGMOD
VLDBI
PODSI
SIGIR
ECIR
JCDL
SIGMOD
• 目的
- グラフに対してランキングとクラスタリングを同時に行う
• アプローチ
- グラフ内で複数のランダムウォーカーを用いてランキング、
クラスタリングに利用する
目次
• 背景
• 提案手法
• 実験
- 書誌ネットワークに対する実験
- 視覚情報ネットワークに対する実験
• 結論
10
問題設定: Information Network
Subject Type Attribute Type
学会-著者ネットワーク 学会 著者、論文タイトル、キーワード
視覚情報ネットワーク 画像 ローカルパッチ、タグ、メタデータ
Subject TypeとAttribute Typeのノードを持つグラフ
 Subject typeノードに対してランキング、クラスタリングを行う
例)
11
問題設定: ランダムウォークスコア
• ランダムウォークスコア: 𝒑 𝒌 𝒖
 K番目のランダムウォーカーがノードuに遷移する確率。
 ただし 𝒖=𝟏
𝑵
𝒑 𝒌 𝒖 = 𝟏
• スコア更新式
• ただし𝐓(𝐮, 𝐯) =
𝐒 𝐮,𝐯
𝒗′ 𝑺(𝒖,𝒗′)
12
𝑇 =
1
2
1
4
0
1
2
1
2
1
3
0
1
4
2
3
𝑝1 = 1,0,0 𝑇
𝑝2 = 0,0,1 𝑇
𝑝1 =
1
2
,
1
2
, 0
𝑇
𝑝2 = 0,
1
3
,
2
3
𝑇
Compet
e
𝟏
𝟐
𝟏
𝟐
𝟐
𝟑
𝟏
𝟑
問題設定: Competing
ランダムウォークスコア: {𝒑 𝒌} 𝟏 ≤ 𝒌 ≤ 𝑲 について
以下の制約を満たす
13
𝑝1 = 1,0,0 𝑇
𝑝2 = 0,0,1 𝑇
𝑝1 =
1
2
,
1
2
, 0
𝑇
𝑝2 = 0,
1
3
,
2
3
𝑇
Compet
e
𝟏
𝟐
𝟏
𝟐
𝟐
𝟑
𝟏
𝟑
𝒑 𝒌 𝒖 = 𝟎 𝒊𝒇 𝒌 ≠ 𝒂𝒓𝒈 𝒎𝒂𝒙 𝒌 𝒑 𝒌(𝒖)
𝟏
𝟐
𝟏
𝟐
𝟐
𝟑
0 𝑝1 =
1
2
,
1
2
, 0
𝑇
𝑝2 = 0, 𝟎,
2
3
𝑇
• 目的
- グラフに対してランキングとクラスタリングを同時に行う
• アプローチ
- グラフ内で複数のランダムウォーカーを用いてランキング、
クラスタリングに利用する
RankCompete
14
提案手法: 概要
Competing step
収束判定
初期化
Walking step
初期ノードの選択
ランダムウォーク
競合の処理
反復 or 収束
15
入力と出力
Competing step
収束判定
OUTPUT:
初期化
Walking step
INPUT: クラスタ数K
𝒑 ∈ ℝ 𝑵∗𝑲 ,
ランダムウォークスコアとクラスタインデックス 16
初期化
• K個のsubject nodesの選択
ランダムウォーカーの出発点
初期スコアは1とする
Competing step
収束判定
OUTPUT
初期化
Walking step
INPUT
17
Walking Step
スコアベクトル 𝒑 𝒌 の更新
Competing step
収束判定
OUTPUT
初期化
Walking step
INPUT
18
Competing Step
• 競合の処理
• 正規化
Competing step
収束判定
OUTPUT
初期化
Walking step
INPUT
19
収束判定
Pの収束
or
反復回数が事前設定数を超える
Competing step
収束判定
OUTPUT
初期化
Walking step
INPUT
20
目次
• 背景
• 提案手法
• 実験
- 書誌ネットワークに対する実験
- 視覚情報ネットワークに対する実験
• 結論
21
書誌ネットワークに対する実験
• データセット
- 書誌データ: DBLP, Cora
• 比較手法
- Normalized cut(NC)
- NetPLSA
- RankClus
- iTopicModel
• クラスタリング評価指標
- NMI( Normalized Mutual Information)
22
書誌データ
• データセット
- DBLP
- Cora
Type Subject Attribute
ノード 学会 著者
ノード数 20 28,702
備考 4つの分野(DM,DB,ML,IR)に関連する学会 Subjectタイプのいずれかの学会に論
文を出した著者
Type Subject Attribute
ノード クラスラベル 論文とその引用リスト
ノード数 70 19,396
備考 論文間で引用関係があればエッジを張
る
23
精度
• Cora
• DBLP
24
階層型クラスタリング結果
25
対象データ:DBLPデータセット
ランキング結果
• 対象データ
- DBLPデータ
• 比較手法
- PageRank
26
視覚情報ネットワークに対する実験
• データセット
- Kodak consumer データセット
17のフォトコレクションと1,394のフォト
• 比較手法
- Normalized Cut (NC)
- Spectral clustering (SC)
• 評価指標
- NMI
Ground truthはフォトを撮った人が設定
27
クラスタリング精度
28
• 対象データセット
• Kodak consumer データセット
• 比較手法
• Normalized cut
• Spectral clustering
実験結果
29
代表画像クラスタ
目次
• 背景
• 提案手法
• 実験
- 書誌ネットワークに対する実験
- 視覚情報ネットワークに対する実験
• 結論
30
結論
• RankCompete
- 情報ネットワークに対して複数のランダムウォー
カーを用いることでランキングとクラスタリングを
同時に行うことを実現した。
• 実験結果
- 書誌ネットワーク、視覚情報ネットワークに対して
実験を行い有効であることを確認した
• 今後の課題
- より大きなネットワークに対する適用を可能にする
31

Weitere ähnliche Inhalte

Was ist angesagt?

『逆転オセロニア』における運用効率化支援 〜デッキログのデータマイニング〜
『逆転オセロニア』における運用効率化支援  〜デッキログのデータマイニング〜『逆転オセロニア』における運用効率化支援  〜デッキログのデータマイニング〜
『逆転オセロニア』における運用効率化支援 〜デッキログのデータマイニング〜
DeNA
 
normalized online learning
normalized online learningnormalized online learning
normalized online learning
shima o
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
Shuyo Nakatani
 

Was ist angesagt? (15)

データ解析12 k平均法
データ解析12 k平均法データ解析12 k平均法
データ解析12 k平均法
 
Statistical machine learning forecasting methods concerns and ways forward
Statistical machine learning forecasting methods concerns and ways forwardStatistical machine learning forecasting methods concerns and ways forward
Statistical machine learning forecasting methods concerns and ways forward
 
20190725 taguchi decision_tree_for_pubshare
20190725 taguchi decision_tree_for_pubshare20190725 taguchi decision_tree_for_pubshare
20190725 taguchi decision_tree_for_pubshare
 
『逆転オセロニア』における運用効率化支援 〜デッキログのデータマイニング〜
『逆転オセロニア』における運用効率化支援  〜デッキログのデータマイニング〜『逆転オセロニア』における運用効率化支援  〜デッキログのデータマイニング〜
『逆転オセロニア』における運用効率化支援 〜デッキログのデータマイニング〜
 
データ解析1 ベクトルの復習
データ解析1 ベクトルの復習データ解析1 ベクトルの復習
データ解析1 ベクトルの復習
 
人工知能10 サポートベクトルマシン
人工知能10 サポートベクトルマシン人工知能10 サポートベクトルマシン
人工知能10 サポートベクトルマシン
 
Automated ML (Azure) で始める機械学習の民主化
Automated ML (Azure) で始める機械学習の民主化Automated ML (Azure) で始める機械学習の民主化
Automated ML (Azure) で始める機械学習の民主化
 
normalized online learning
normalized online learningnormalized online learning
normalized online learning
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
Pythonによる機械学習
Pythonによる機械学習Pythonによる機械学習
Pythonによる機械学習
 
A3C解説
A3C解説A3C解説
A3C解説
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
NL20161222invited
NL20161222invitedNL20161222invited
NL20161222invited
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
 
Pythonによる機械学習入門 ~Deep Learningに挑戦~
Pythonによる機械学習入門 ~Deep Learningに挑戦~Pythonによる機械学習入門 ~Deep Learningに挑戦~
Pythonによる機械学習入門 ~Deep Learningに挑戦~
 

Ähnlich wie Paper Introduction "RankCompete: Simultaneous ranking and clustering of information networks"

能動学習による多関係データセットの構築(IBIS2015 博士課程招待講演)
能動学習による多関係データセットの構築(IBIS2015 博士課程招待講演)能動学習による多関係データセットの構築(IBIS2015 博士課程招待講演)
能動学習による多関係データセットの構築(IBIS2015 博士課程招待講演)
Hiroshi Kajino
 
Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習
Preferred Networks
 

Ähnlich wie Paper Introduction "RankCompete: Simultaneous ranking and clustering of information networks" (20)

Top-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender SystemTop-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender System
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
 
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
 
第64回情報科学談話会(滝沢 寛之 准教授)
第64回情報科学談話会(滝沢 寛之 准教授) 第64回情報科学談話会(滝沢 寛之 准教授)
第64回情報科学談話会(滝沢 寛之 准教授)
 
検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法
検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法
検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法
 
Road damge ai
Road damge aiRoad damge ai
Road damge ai
 
コンピューターの整列処理におけるデータ操作の時間的共起分析
コンピューターの整列処理におけるデータ操作の時間的共起分析コンピューターの整列処理におけるデータ操作の時間的共起分析
コンピューターの整列処理におけるデータ操作の時間的共起分析
 
SIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to RankSIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to Rank
 
能動学習による多関係データセットの構築
能動学習による多関係データセットの構築能動学習による多関係データセットの構築
能動学習による多関係データセットの構築
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
アイテム分散表現の階層化・集約演算に基づくセッションベース推薦システム
アイテム分散表現の階層化・集約演算に基づくセッションベース推薦システムアイテム分散表現の階層化・集約演算に基づくセッションベース推薦システム
アイテム分散表現の階層化・集約演算に基づくセッションベース推薦システム
 
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
 
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
 
Long-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向についてLong-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向について
 
各言語の k-means 比較
各言語の k-means 比較各言語の k-means 比較
各言語の k-means 比較
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 
能動学習による多関係データセットの構築(IBIS2015 博士課程招待講演)
能動学習による多関係データセットの構築(IBIS2015 博士課程招待講演)能動学習による多関係データセットの構築(IBIS2015 博士課程招待講演)
能動学習による多関係データセットの構築(IBIS2015 博士課程招待講演)
 
Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習
 
Python 機械学習プログラミング データ分析ライブラリー解説編
Python 機械学習プログラミング データ分析ライブラリー解説編Python 機械学習プログラミング データ分析ライブラリー解説編
Python 機械学習プログラミング データ分析ライブラリー解説編
 
Wssit slide
Wssit slideWssit slide
Wssit slide
 

Paper Introduction "RankCompete: Simultaneous ranking and clustering of information networks"

Hinweis der Redaktion

  1. WWW10にポスター発表されたもの 2012にジャーナル
  2. グラフ構造として表されます。
  3. rankingu 例わるい
  4. このような問題を解決する手法に RankClusがあります RankCLusグラフデータに対してランキング、クラスタチングを組み合わせた手法です 実際に先程のネットワークに対しRankClusを適用する例を考えます。 このようにグラフで表現される時、クラスタリング、ランキングを繰り返し処理を行います。 例えばこの図のクラスタのようにDB学会の中にIR学会が混ざっているクラスタがあった時、ランキング結果はクラスタの分野でない学会に対しては低くなってしまいます。 RankClusではこのランキング結果を用いよりノードが正しいクラスタに高いランク値を持つ良いクラスタになるように学会を再びクラスタリングし、そしてそのクラスタリング結果を基によりよいランキングを導出します。 クラスタが収束するまでこの反復処理を行い、結果としてRankClusはノード自動的に正しいクラスタで適切なランキングを得られます。 === どれくらいクリアに説明できるか おかしな問題、つながりがカタコト なにを最適化してえいるかわからない。 どうやってランキング計算してる ランククラスの有用性 目的ゴールを明示的に
  5. パッチ対象画像を部分的に切り出したもののこと。
  6. 図必須 突っ込まれそう
  7. 図必須 突っ込まれそう
  8. 複数のランダム・ウォーカーだけでクラスタリングとランキング 遷移確率?が なんでうまい具合でランキングクラスタリングが実現できるか。
  9. 数うめる
  10. Tが重要 インダイレクトな確率行列
  11. Kodak Dataset http://www.ifp.illinois.edu/~cao4/papers/MM08_propagation.pdf shift特徴量