Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
2012/12/06 PFI セミナー  大規模ネットワークの性質と   先端グラフアルゴリズム                 秋葉 拓哉 / @iwiwi
自己紹介秋葉 拓哉 / @iwiwi• 所属:東大 CS M2 (今井研) → DC1 (来年)• PFI:インターン (2009) → バイト (夜研等)• 元プログラミングコンテスト中毒者  – TopCoder レーティング:3180  ...
現実世界のグラフを対象とした研究                                                      複雑ネットワーク理論                                          ...
今日の内容    1. 現実世界のネットワークの性質            次数分布,平均距離,三角形,…   2. それを活用したグラフアルゴリズム        理論系        実験系        • 近接中心性    • 最短路 ...
現実世界のネットワークにおける特徴量と性質                  4
対象となるネットワーク紹介するような性質を持っていることが多い現実世界のネットワーク:•   ソーシャルネットワーク•   ウェブグラフ•   コンピュータネットワーク•   生物情報学のネットワーク• ……※それらのネットワークが常にこうだと...
対象となるネットワーク            こういうやつ                                                      こうじゃないやつ                   共著ネットワーク    ...
1. 次数分布 (Power Law, Scale Free) 次数分布:冪乗則 (Power Law) に従う                           −𝛾                𝑝(𝑘) ∝ 𝑘 • 𝑘:次数 • 𝑝(𝑘...
1. 次数分布 (Power Law, Scale Free) 冪乗則 • 人の収入とかも冪乗則らしい • 正規分布とかと違い,ちょー大きな値が存在する   – 一部の人がすごくお金持ち,大半の人は平均以下   – ネットワークでも,凄く次数が...
1. 次数分布 (Power Law, Scale Free)          ウェブグラフの累積次数分布               う,うーん……                                  9
2. 距離 (Small World) 平均距離:短い • 距離:二頂点の間の最短路の長さ                          s   t • 平均:全二頂点対 短いとは:𝑂 log 𝑛 である,ランダムに繋ぎ変えても有意に小さく...
2. 距離 (Small World) 実際の人間を通した実験 • 1960 年代,ミルグラム 「平均距離 6 だー!!!」   – 手紙を転送して貰って目的の人物に届ける   – 現代では,破棄の考慮や始点に疑問の声 • 2002 年,ワッツ...
3. クラスター係数 (Small World) クラスター係数:大きい                  三角形の個数     クラスター係数 𝐶 =                 三頂点の組の個数 大きいとは:同じスケールのランダムに作る...
他にもいっぱい特徴量 & 性質•   次数相関,結合次数分布 (JDD)•   中心性:次数,近接,媒介,固有ベクトル,…•   モチーフ•   コミュニティ構造•   極大クリーク分布•   サイクル分布•   固有値• ……        ...
4. 木っぽさ 遠目に見るとなんか木っぽい,という主張がしばしば行わ れている 1. Shavitt, Tankel. Hyperbolic embedding of internet graph for distance    estimat...
4. 木っぽさ        AS のネットワーク (BGP log)                                                              共著ネットワーク  [http://www.cis...
4. 木っぽさ 関係する実験                             次数上位 数% の頂点 (Core) を                             削除 →連結成分はばらばらに                ...
4. 木っぽさ 木っぽさを測るのは進行中の課題? [Sullivan+,MMDS’12] • 𝛿-hyperbolicity [Gromov,’87]    – 幾何的な指標                 [Sullivan+,MMDS’12...
ネットワークの性質を活用したグラフアルゴリズム                 18
話すこと1. 理論方面 i. 近接中心性の近似 ii. コンパクトルーティング iii. 支配集合問題の近似2. 実用方面 i. 密部分グラフ列挙 ii. グラフ可視化 iii. 最短経路クエリ
1. 近接中心性の近似 (Small World)                       𝑁 近接中心性 𝑐 𝑢 =             𝑑 𝐺 𝑢,𝑣                   𝑣 (全頂点からの距離の平均の逆数) • 真...
2. コンパクトルーティングコンパクトルーティング• 各頂点に情報を蓄えておく• ある頂点に居て,ある頂点に行きたい.次どこに進め  ば? をその頂点にある情報だけで計算する• 移動距離は最短距離に近いほど望ましいコンピュータネットワークにおけ...
2. コンパクトルーティングA Compact Routing Scheme and ApproximateDistance Oracle for Power-law Graphs[Chen+, TALG’09]• 現実のネットワークでは一般的...
3. 支配集合問題の近似Structural and Algorithmic Aspects of MassiveSocial Networks[Eubank+,SODA’04]• CL-model というモデルに言及• このモデルの上で, 1...
4. 密部分グラフ列挙密に接続しあっている頂点集合を知りたい• 𝑫𝑵-graph [Wang+,VLDB’11]• 𝒌-truss [Cohen,’08][Wang+,VLDB’12]古典的な密頂点集合のモデルは,次数・距離(𝑘-core, q...
4. 密部分グラフ列挙 𝒌-core [Seidman,’83]各頂点の次数 𝑘 以上になるような部分グラフ𝒌-truss [Cohen,’08][Wang+,VLDB’12]各辺が 𝑘 − 2 個の三角形に含まれるような部分グラフ(それぞれ,...
5. 可視化 LGL: Large Graph Layout [Adai+’04] http://lgl.sourceforge.net/ 数十万頂点のタンパク質ネットワークを可視化する目的 最もスケールする公開ソフトウェアの 1 つ (sfd...
5. 可視化 1. 基本はバネモデル          バネモデルは古典的ながら実は未だに最前線っぽい                      (計算の効率化などの工夫は行われている) 辺があるところは                    ...
6. 最短経路クエリ:厳密木分解に基づく最短路クエリ[Wei,SIGMOD’10][Akiba+,EDBT’12]• ヒューリスティクスで木分解   – Fringe (Tendril) 部分がうまく分解される   – Core 部分は諦める ...
6. 最短経路クエリ:近似ランドマークを用いた推定[Potamias+,CIKM’09]等             s      t• 頂点集合 𝐿:ランドマーク• 𝑑 𝐺 𝑙, 𝑣 (𝑙 ∈ 𝐿, 𝑣 ∈ 𝑉)を前計算• クエリ 𝑠, 𝑡 に...
まとめ(話したこと)• ネットワークの性質  – 次数分布,平均距離,クラスター係数  – 木っぽさ• それを活用したアルゴリズム  – 理論系:中心性,ルーティング,支配集合  – 実装系:密部分グラフ,可視化,最短路      ありがとうご...
Nächste SlideShare
Wird geladen in …5
×

大規模ネットワークの性質と先端グラフアルゴリズム

19.419 Aufrufe

Veröffentlicht am

Veröffentlicht in: Technologie
  • Als Erste(r) kommentieren

大規模ネットワークの性質と先端グラフアルゴリズム

  1. 1. 2012/12/06 PFI セミナー 大規模ネットワークの性質と 先端グラフアルゴリズム 秋葉 拓哉 / @iwiwi
  2. 2. 自己紹介秋葉 拓哉 / @iwiwi• 所属:東大 CS M2 (今井研) → DC1 (来年)• PFI:インターン (2009) → バイト (夜研等)• 元プログラミングコンテスト中毒者 – TopCoder レーティング:3180 (世界で 12 位)• 研究:大規模グラフのアルゴリズム – 最短経路クエリ,コミュニティ検出,…… 1
  3. 3. 現実世界のグラフを対象とした研究 複雑ネットワーク理論 (物理系) ウェブ系 データマイニング系 (WWW, WSDM, …) (KDD, SDM, ICDM, …) ・モデル化 ・コミュニティ検出 ・コミュニティ検出 データベース系 ・リンク予測 (SIGMOD, VLDB, ICDE, …) ・グラフクエリ処理 生物情報系 ネットワーク系 ・接続性 (INFOCOM, SIGCOMM, …) ・最適化 ハイパフォーマンス系 実験系アルゴリズム 理論系アルゴリズム (SC, ISC, …) (ALENEX, ESA, SEA, …) (STOC, FOCS, SODA, …)・並列分散グラフアルゴリズム・Graph 500! グラフ描画系・最近は中心性等も [Frasca+,SC’12] (GD, …) 2
  4. 4. 今日の内容 1. 現実世界のネットワークの性質 次数分布,平均距離,三角形,… 2. それを活用したグラフアルゴリズム 理論系 実験系 • 近接中心性 • 最短路 • ルーティング • 密部分グラフ • 支配集合問題 • 可視化 3
  5. 5. 現実世界のネットワークにおける特徴量と性質 4
  6. 6. 対象となるネットワーク紹介するような性質を持っていることが多い現実世界のネットワーク:• ソーシャルネットワーク• ウェブグラフ• コンピュータネットワーク• 生物情報学のネットワーク• ……※それらのネットワークが常にこうだと言っているわけではないです※張り付けている実験結果は,自分がよく対象にするネットワーク達に偏っているかもしれません(ソーシャル・ウェブ) 5
  7. 7. 対象となるネットワーク こういうやつ こうじゃないやつ 共著ネットワーク 道路ネットワーク(アメリカ) [http://www.cise.ufl.edu/research/sparse/matrices/SNAP/ca-GrQc.html] 6
  8. 8. 1. 次数分布 (Power Law, Scale Free) 次数分布:冪乗則 (Power Law) に従う −𝛾 𝑝(𝑘) ∝ 𝑘 • 𝑘:次数 • 𝑝(𝑘):次数が 𝑘 の頂点の割合 • 𝛾:定数 (べき指数) – 典型的には 2 < 𝛾 < 3 両対数でプロットすると 直線っぽくなる (累積でプロットしたほうが良い) [Mislove+’09,Fig.2] 7
  9. 9. 1. 次数分布 (Power Law, Scale Free) 冪乗則 • 人の収入とかも冪乗則らしい • 正規分布とかと違い,ちょー大きな値が存在する – 一部の人がすごくお金持ち,大半の人は平均以下 – ネットワークでも,凄く次数が高い頂点がちらほらある 次数が冪乗則に従っているか? 1. 雑:両対数でそれっぽくなっているか 2. 真面目:統計モデルで 𝛾 を推定,検定 低い次数の部分では従わないことが多い アルゴリズム的には,凄い次数が大きい頂点がちょっとある,とかそ ういうぐらいの事実が重要な気がする 8
  10. 10. 1. 次数分布 (Power Law, Scale Free) ウェブグラフの累積次数分布 う,うーん…… 9
  11. 11. 2. 距離 (Small World) 平均距離:短い • 距離:二頂点の間の最短路の長さ s t • 平均:全二頂点対 短いとは:𝑂 log 𝑛 である,ランダムに繋ぎ変えても有意に小さくならない等 距離の分布の例 [Potamias+,CIKM’09,Fig.2] 10
  12. 12. 2. 距離 (Small World) 実際の人間を通した実験 • 1960 年代,ミルグラム 「平均距離 6 だー!!!」 – 手紙を転送して貰って目的の人物に届ける – 現代では,破棄の考慮や始点に疑問の声 • 2002 年,ワッツ 「似たような感じだったー!!!」 – 電子メール – 始点の数や位置,破棄を今度は考慮しているらしい コンピュータによるネットワークの解析 • カジュアルに計算されてる(やっぱ小さい) • 2011 年,Backstrom (Facebook社) 「4.74 だー!!!」 – Facebook のネットワーク (721 M users / 69 B links) – [Backstorm+’11] http://arxiv.org/pdf/1111.4570v3.pdf 11
  13. 13. 3. クラスター係数 (Small World) クラスター係数:大きい 三角形の個数 クラスター係数 𝐶 = 三頂点の組の個数 大きいとは:同じスケールのランダムに作るグラフより有意に大きい • 友達と友達は友達 • 局所性のようなものがある スモールワールド性: 小さい平均距離と大きいクラスター係数 (距離だけで言うこともある) ↑やべぇ 12
  14. 14. 他にもいっぱい特徴量 & 性質• 次数相関,結合次数分布 (JDD)• 中心性:次数,近接,媒介,固有ベクトル,…• モチーフ• コミュニティ構造• 極大クリーク分布• サイクル分布• 固有値• …… 13
  15. 15. 4. 木っぽさ 遠目に見るとなんか木っぽい,という主張がしばしば行わ れている 1. Shavitt, Tankel. Hyperbolic embedding of internet graph for distance estimation and overlay construction. IEEE/ACM Trans. Netw. 16, 1 (2008). 2. Melnik, Hackett, Porter, Mucha, Gleeson. The Unreasonable Effectiveness of Tree-Based Theory for Networks with Clustering. Physical Review E, Vol. 83, No. 3 (2010). 3. Gupta, Shankar, Li, Muthukrishnan, Iftode. Finding Hierarchy in Directed Online Social Networks. WWW (2011). 「インターネットは,超繋がった core + 周りの tendril だ.パスは基本的に,tendril→core→tendril だ.」 (1 つめの文献から引用&和訳) 14
  16. 16. 4. 木っぽさ AS のネットワーク (BGP log) 共著ネットワーク [http://www.cise.ufl.edu/research/sparse/matrices/SNAP/as-735.html] [http://www.cise.ufl.edu/research/sparse/matrices/SNAP/ca-GrQc.html] うーん,確かに?? 15
  17. 17. 4. 木っぽさ 関係する実験 次数上位 数% の頂点 (Core) を 削除 →連結成分はばらばらに (ハブの存在的な話とも関係) [Mislove+,IMC’07,Fig.7] 次数の低い部分 (Fringe) では クラスター性が非常に高い [Mislove+,IMC’07,Fig.9] ( Core-Fringe 構造と呼ばれたりもしている) 16
  18. 18. 4. 木っぽさ 木っぽさを測るのは進行中の課題? [Sullivan+,MMDS’12] • 𝛿-hyperbolicity [Gromov,’87] – 幾何的な指標 [Sullivan+,MMDS’12,P.8] – 双極空間に(距離の意味で)埋め込めたらツリー,を拡張 – 𝑂 𝑛4 かかってしまう → サンプリング等 • Tree-width (木幅) [Robertson,’84] – 組合せ的な指標 – 厳密計算は NP-Hard – Core 部分はあまり木っぽくはない,元の定義のままでは,この 部分に完全に引きずられてしまい意味を成さない 17
  19. 19. ネットワークの性質を活用したグラフアルゴリズム 18
  20. 20. 話すこと1. 理論方面 i. 近接中心性の近似 ii. コンパクトルーティング iii. 支配集合問題の近似2. 実用方面 i. 密部分グラフ列挙 ii. グラフ可視化 iii. 最短経路クエリ
  21. 21. 1. 近接中心性の近似 (Small World) 𝑁 近接中心性 𝑐 𝑢 = 𝑑 𝐺 𝑢,𝑣 𝑣 (全頂点からの距離の平均の逆数) • 真面目に求めると,全頂点から BFS • 𝑂 𝑛𝑚 は無理 • 頂点集合をランダムサンプル → BFS Small World なら嬉しい [Eppstein+,SODA’01] log 𝑛 • Θ 個の頂点を選ぶと 𝜖2 • 1 − 𝑜(1) の確率で逆数での誤差が 𝜖Δ 未満 (Δ は直径) 20
  22. 22. 2. コンパクトルーティングコンパクトルーティング• 各頂点に情報を蓄えておく• ある頂点に居て,ある頂点に行きたい.次どこに進め ば? をその頂点にある情報だけで計算する• 移動距離は最短距離に近いほど望ましいコンピュータネットワークにおけるパケットの輸送みたいな感じの問題(ネットワークが静的でいいのかとかそういうツッコミはある) 21
  23. 23. 2. コンパクトルーティングA Compact Routing Scheme and ApproximateDistance Oracle for Power-law Graphs[Chen+, TALG’09]• 現実のネットワークでは一般的な理論的結果よりも良い 結果が出ている• Power Law を入れて解析したら,良い結果が出た• 理論と実世界のギャップを埋めた!(という主張)• 実際には FDRG というモデルを仮定し解析 (クラスター性などはおそらく一切ない)• 解析が長く,どう効いてるのかはすぐにはわからぬ 22
  24. 24. 3. 支配集合問題の近似Structural and Algorithmic Aspects of MassiveSocial Networks[Eubank+,SODA’04]• CL-model というモデルに言及• このモデルの上で, 1 − 𝜖 -支配集合問題 (=NP-Hard) が貪欲アルゴリズムで 1 + 𝑜(1) 近似できると主張• 次数の高いものをとるだけちなみに,Power law の任意のグラフという制限下では色々な問題がNP-Hard のままで,近似可能性もあまり向上しない[Shen+,COCOA’12] 23
  25. 25. 4. 密部分グラフ列挙密に接続しあっている頂点集合を知りたい• 𝑫𝑵-graph [Wang+,VLDB’11]• 𝒌-truss [Cohen,’08][Wang+,VLDB’12]古典的な密頂点集合のモデルは,次数・距離(𝑘-core, quasi-clique, 𝑘-plex, 𝑛-clique, …)→ あんまり接続してなくても 1 つにされちゃう防止するため,三角形で制約を行う新しいモデル 次数≧5,距離≦3 だ…手強い… → こういうのを分断できる 24
  26. 26. 4. 密部分グラフ列挙 𝒌-core [Seidman,’83]各頂点の次数 𝑘 以上になるような部分グラフ𝒌-truss [Cohen,’08][Wang+,VLDB’12]各辺が 𝑘 − 2 個の三角形に含まれるような部分グラフ(それぞれ,部分グラフ内での次数・個数,ということに注意) 𝒌-core 全頂点次数≧5 より,全体で 5-core. 𝒌-truss 真ん中の辺は三角形 0 個より,分断. 両側は 6-truss. 𝑘-truss は 𝑂 𝑚1.5 ですべての 𝑘 に関して列挙できる (三角形列挙の計算量と一致) 25
  27. 27. 5. 可視化 LGL: Large Graph Layout [Adai+’04] http://lgl.sourceforge.net/ 数十万頂点のタンパク質ネットワークを可視化する目的 最もスケールする公開ソフトウェアの 1 つ (sfdpのほうが凄い?) [Adai+’04, Fig.4] “インターネット地図” [www.opte.org] 26
  28. 28. 5. 可視化 1. 基本はバネモデル バネモデルは古典的ながら実は未だに最前線っぽい (計算の効率化などの工夫は行われている) 辺があるところは 辺が無いところは 引力(バネ;フックの法則) 斥力(クーロン力) (LGL は斥力はバケット法で適当に処理) ただし,スケールさせるため, 2. 最小全域木を作り,中央から配置 (木っぽさを活用している?) [Adai+’04, Fig.1] 27
  29. 29. 6. 最短経路クエリ:厳密木分解に基づく最短路クエリ[Wei,SIGMOD’10][Akiba+,EDBT’12]• ヒューリスティクスで木分解 – Fringe (Tendril) 部分がうまく分解される – Core 部分は諦める (Relaxed Tree-Decomposition)• 最短路行列を各バッグに対して前計算• クエリには LCA まで DP して答えるtree-like fringes を活用している 28
  30. 30. 6. 最短経路クエリ:近似ランドマークを用いた推定[Potamias+,CIKM’09]等 s t• 頂点集合 𝐿:ランドマーク• 𝑑 𝐺 𝑙, 𝑣 (𝑙 ∈ 𝐿, 𝑣 ∈ 𝑉)を前計算• クエリ 𝑠, 𝑡 には,以下を答える – min 𝑑 𝐺 𝑠, 𝑙 + 𝑑 𝐺 (𝑙, 𝑡) 𝑙∈𝐿 – すなわち,ランドマークを経由した距離の最小値ランドマークに,中心的な頂点を選ぶようにすると,平均誤差は驚くほど小さくなるtendril→core→tendril なので,かなりそれらを通るから 29
  31. 31. まとめ(話したこと)• ネットワークの性質 – 次数分布,平均距離,クラスター係数 – 木っぽさ• それを活用したアルゴリズム – 理論系:中心性,ルーティング,支配集合 – 実装系:密部分グラフ,可視化,最短路 ありがとうございました (・__________・)/またね 30

×