SlideShare ist ein Scribd-Unternehmen logo
1 von 24
Downloaden Sie, um offline zu lesen
Hierarchical Metadata-Aware Document
Categorization under Weak Supervision
(WSDM 2021)
ARISE analytics 近藤 真暉
©2022 ARISE analytics Reserved.
論文URL:https://arxiv.org/abs/2010.13556
特に注釈ない限り、画像は論文からの引用です
論文概要
©2022 ARISE analytics Reserved. 1
階層ラベル向け弱教師あり学習を行うHimeCatとData Augmentationの提案
Hierarchical Label Classficationとは
©2022 ARISE analytics Reserved. 2
[1] Hierarchical multi-label news article classification with distributed semantic model based features(IJAII 2019)
カテゴリ間の関係を考慮し、階層的なタグ付与を行うタスク
階層的なタグ構造は、ディレクトリをはじめWebニュースのカテゴリや文書カテゴリ等広いドメ
インで活用されており活用可能性が広い
Hierarchial Label Classficationで用いられるラベルの例[1]
実応用に向けた既存研究の課題
©2022 ARISE analytics Reserved. 3
① Webドキュメントに付与されたメタデータを活用できていない
- メタデータを活用し、潜在的なラベル補足情報として活用したい
② メタデータがあっても、大規模な学習データが必要である
- 階層ラベルを手動でアノテーションするのは負荷が大きいため、可能な限り少ないサンプ
ルで学習できるようにしたい
これら問題を解決するため、以下を提案
- ①階層ラベル向け弱教師あり学習を行うHimeCat
- ② Data Augmentation
本研究の貢献
©2022 ARISE analytics Reserved. 4
本論文では、階層ラベル向け弱教師あり学習を行うHimeCatを提案
- 主な貢献
- メタデータと階層ラベルを用いた埋め込み表現を実現する方法
- 少数サンプルでも学習効果が得られるData Augmentation
- メタデータ、階層ラベル、Data Augmentationのすべてが性能向上に影響を与えるこ
とを確認
本研究で扱うデータ構造
©2022 ARISE analytics Reserved. 5
- 文書:テキスト、メタデータ、階層ラベルを保有する文書
- テキスト:文書のすべてのテキストフィールド
- メタデータ:文書が保有するメタデータ。複数存在するケースもある
- 階層ラベル:木構造で表現されたラベル。ノード集合はカテゴリを表す。
ArXivにおけるデータ構造の例
前提知識:vMF分布
©2022 ARISE analytics Reserved. 6
画像引用:機械学習プロフェッショナルシリーズ「異常検知と変化検知」
[1] Von mises-fisher loss for training sequence to sequence models with continuous outputs (ICLR 2019)
[2] Spherical text embedding. (NeurIPS 2019)
- フォンミーゼス・フィッシャー(vMF)分布
- 方向データ(単位球面)における確率分布のこと
- 方向データ:単位ベクトルのように方向にだけ意味があるデータ(大きさに意味は持たない)
- 単位球面の表面に方向データがマッピングされるイメージ
- vMF分布を使う利点
- 類似タスクである階層的クラスタリングやテキストシーケンス生成で有効性が示されている[1]
- 球面空間における埋め込み表現の学習は、類似性をより良く捉えることができる[2]
- Semantic Similarity Search/Document Classificationのタスクで有効性が示されている
全体アーキテクチャ
©2022 ARISE analytics Reserved. 7
- A Hierarchical Generative Process
- 階層ラベルを確率的に生成するプロセス
- Joint Representation Learning
- ラベル、メタデータ、テキスト(文書・単語)の埋め込み表現をまとめて学習するプロセス
- Hierarchical Data Augmentation
- 階層ラベルを保有する学習データを増やすプロセス
- Hierarchical Classifier Training
- 埋め込み表現をもとに、階層ラベルに対応したテキスト分類器を学習するプロセス
メタデータを活用
した弱教師あり
学習
少数サンプルでの
効率的な学習
A Hierarchical Generative Process
©2022 ARISE analytics Reserved. 8
- 階層ラベルを確率的に生成するプロセス
① Patent Label to Child Label
- 条件付確率を基に、親ラベルから
子ラベルを推定
- vMF分布におけるRootの埋め込
み特徴を決定し、子ラベルの埋め
込み特徴を末端まで数珠繋ぎで
生成
② Label and Metadata to Doc
- メタデータとラベル情報を用い、単
位球面への文書の埋め込みを実
施
- ラベルやメタデータが存在しない場
合は、条件付確率を用いる(弱
教師あり学習特有の問題設定)
- ドキュメントの埋め込み表現は以
下の式で表現可能
③ Doc to Word
- ①と同様に、文書から単語の出現
確率(埋め込み特徴)を出力
A Hierarchical Generative Processにおける条件付確率の出力
©2022 ARISE analytics Reserved. 9
- 親ラベルから子ラベルを推定
- 親ラベルの埋め込み特徴 lp を基にした子ラベルの埋め込み特徴lcの生成確率 p(lc |
lp) を以下のように指定(ソフトマックス関数ベース)
- ここで、lcは連続的な埋め込み空間における任意の点である必要
- そのため、 も連続分布でなければならない
- しかし、ソフトマックス関数は有限の候補から離散的な選択をするためNG
- vMF分布を適用することで、以下のように書き換えられる
- ② Label and Metadata to Doc / ③ Doc to Word も同様にvMF分布を用い
て処理できる
Joint Representation Learning
©2022 ARISE analytics Reserved. 10
[1] Knowledge graph embedding: A survey of approaches and applications(TKDE29 2017)
ラベル、メタデータ、テキスト(文書・単語)の埋め込み表現をまとめて学習
Step1:ラベルの階層情報をモデル化
- 親子ラベルペア(lc,lp)が与えられたとき、
を最大化するのが目標
- ナレッジグラフの埋め込み手法[1]をベースに、マージン
を導入したランキング学習を実施
Step2:メタデータとコーパスの統計情報をモデル化
- 文書dに対するコーパスの情報(word w, ラベル
ld)とメタデータMdが与えられたとき、
を最大化するのが目的
- Step1同様ランキング学習を行う
pos neg
ROOTから
子ラベルを選択
ラベルペアが与えられ
たとき、負の学習サン
プルl’pを選択
ランキング学習:
正サンプルと負サンプルが与えられたとき、
スコアが正>負となるように学習する手法
今回はペアワイズ法を使っている
pos
neg
※ 本研究ではネガティブサンプル数を5組と設定
リーマン勾配法を用いた最適化
©2022 ARISE analytics Reserved. 11
[1] Spherical text embedding (NeurIPS 2019)
を解くように学習
ただし今回はすべての埋め込み特徴が球面上に存在するため、ユークリッド空間を前提とし
て定義された最適化手法は好ましくない
双曲線埋め込み/球面埋め込みの既存研究[1]ではリーマン勾配法を用いているため、そ
れに合わせる
ユークリッド勾配法に対して変換を行うことで、リーマン勾配
法として扱える
リーマン勾配法 ユークリッド勾配法
変換した後は、この式を用いて重み更新すればよい
球面上におけるリーマン勾配法の適用例[1]
ユークリッド勾配法∇f(x)は左図も右図も同じ距離を示してしまう
リーマン勾配法で用いているコサイン距離dcosは異なる距離を示すことが可能
球面上ではリーマン勾配法を用いるほうが好ましい
Hierarchical Data Augmentation
©2022 ARISE analytics Reserved. 12
[1] Knowledge graph embedding: A survey of approaches and applications(TKDE29 2017)
少数データでも学習できることを目指し、Data Augmentationで増強する
Step1:合成ドキュメントd*の埋め込み表現を生成
- Hierarchial Generaticve Processの②を流用
ラベルlとメタデータMdがあれば、事後
確率でd*を生成可能
ただし、ラベル情報しか保有しないた
めメタデータは空集合として扱う
結果として であり下の式に
置き換えられる
Hierarchical Data Augmentation
©2022 ARISE analytics Reserved. 13
[1] Von mises-fisher loss for training sequence to sequence models with continuous outputs (ICLR 2019)
少数データでも学習できることを目指し、Data Augmentationで増強する
Step2:合成ドキュメントd*の単語列w*1,...を生成
- 合成ドキュメントd*から事後確率を出力するが、
を用いた単純な出力ではうまくいかない
- 語彙Vを導入し、[1]で用いられている手法を応用する
- 生成された埋め込み特徴w*がd*の近傍に存在す
るような制約をかける
- 結果、離散的なSoftmax関数に収束する
wordがdocの近くに埋め込まれるようにする
ここはよくわからん
Hierarchical Data Augmentation
©2022 ARISE analytics Reserved. 14
[1] Von mises-fisher loss for training sequence to sequence models with continuous outputs (ICLR 2019)
少数データでも学習できることを目指し、Data Augmentationで増強する
Step3:合成ドキュメントd*の集合D*を生成
- Step1,2をβ回繰り返し、ラベルに対応した集合D*を生
成
Hierarchical Data Augmentation
©2022 ARISE analytics Reserved. 15
[1] Von mises-fisher loss for training sequence to sequence models with continuous outputs (ICLR 2019)
少数データでも学習できることを目指し、Data Augmentationで増強する
Step4:節点からの子ラベル生成
- 節点は合成ドキュメントd*を生成しないかわりに、子ラベ
ルを生成する
- 節点l が与えられたとき、lを起点とする部分木T_l を条
件付確率で生成
- ラベルの埋め込みはすでに学習済みなので、条件付確率
で生成された部分木からラベルを取り出すことで、
Step1~3を実施でき同様に合成ドキュメントd*の集合
D*を生成可能
節点l
部分木 T_l
木 T
Hierarchical Classifier Training
©2022 ARISE analytics Reserved. 16
[1] Convolutional Neural Networks for Sentence Classification(EMNLP 2014)
各リーフ(ノード)/ 節点に対し、フラットなテキスト分類器で分類
今回はモデルのアーキテクチャが提案の趣旨ではないため、シンプルなKim-CNN[1]を利用
Kim-CNN[1]の概要
オリジナルでは入力層に単語を入力するが、今回は埋め込み特徴を入力
実験
©2022 ARISE analytics Reserved. 17
3種類のデータセットで評価
ベースライン
- 教師あり:HierSVM (SVMベース)
- 弱教師あり:WeSHClass(LSTMベース),PCEM, HiGitClass, MetaCat
- 埋め込み:MetaPath2Vec(GNN), PointCare (GNN), Pretrained BERT
評価指標
- Micro/Macro F1 Score をLeaf/Ovarallごとに算出
実験結果
©2022 ARISE analytics Reserved. 18
3つのデータセットにおいて、比較対象であるベースラインを有意に上回った
- HiGitClass/MetaCatよりも性能が高く、ラベル階層を考慮することの有効性を示唆
- MetaPath2VecとPointCareはメタデータとラベル階層の埋め込みに有効といわれるが、
JointしてもHimeCatほど性能が上がらない
- メタデータやラベル階層を考慮していないため、BERTは充分な性能を発揮できていない
より詳細な分析 – 何が特に効いたか?
©2022 ARISE analytics Reserved. 19
アプローチが異なるアーキテクチャを適用し、何が有効だったかを確認
- データセットのラベル階層が深い(github)ほどHimeCatとNo-Hierarchyの差は大
- メタデータを利用することの優位性が確認された。特にラベル階層よりも効果が大きい
- メタデータのほうが情報量が多いため?
- メタデータの種類に限らず、すべてのメタデータが性能向上に寄与
ふつうのMimeCAT
階層情報なし
メタデータすべてなし
メタデータのうち一部なし
より詳細な分析 – パラメタ比較
©2022 ARISE analytics Reserved. 20
埋め込み特徴の次元数と、合成データの件数を変えて比較
- 埋め込み次元p は100-200程度がよい
- 合成データを加えることで大きな性能向上
- ただし500件でサチる
より詳細な分析 – 埋め込み結果の可視化
©2022 ARISE analytics Reserved. 21
埋め込み特徴をT-SNEで可視化し、木構造で接続
- サブツリーの子カテゴリは親カテゴリの周りに埋め込まれている
- サブツリーどうしでも、お互いの関係が考慮された埋め込みになっている
- (b)においてq-fin(Quantitative Finance)はcs(Computer Science)よりもmathに近い
まとめ
©2022 ARISE analytics Reserved. 22
本論文では、階層ラベル向け弱教師あり学習を行うHimeCatを提案
- 主な貢献
- メタデータと階層ラベルを用いた埋め込み表現を実現する方法
- 少数サンプルでも学習効果が得られるData Augmentation
- メタデータ、階層ラベル、Data Augmentationのすべてが性能向上に影響を与えるこ
とを確認
Best Partner for innovation, Best Creator for the future.

Weitere ähnliche Inhalte

Mehr von ARISE analytics

【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...ARISE analytics
 
【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptxARISE analytics
 
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptxARISE analytics
 
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptxARISE analytics
 
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical PrecipiceARISE analytics
 
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)ARISE analytics
 
【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov Reward【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov RewardARISE analytics
 
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...ARISE analytics
 
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on ManifoldsARISE analytics
 
Counterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイCounterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイARISE analytics
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual FeaturesARISE analytics
 
【論文読み会】Self-Attention Generative Adversarial Networks
【論文読み会】Self-Attention Generative  Adversarial Networks【論文読み会】Self-Attention Generative  Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial NetworksARISE analytics
 
【論文読み会】Universal Language Model Fine-tuning for Text Classification
【論文読み会】Universal Language Model Fine-tuning for Text Classification【論文読み会】Universal Language Model Fine-tuning for Text Classification
【論文読み会】Universal Language Model Fine-tuning for Text ClassificationARISE analytics
 

Mehr von ARISE analytics (13)

【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
 
【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx
 
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
 
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
 
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
 
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
 
【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov Reward【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov Reward
 
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
 
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
 
Counterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイCounterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイ
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
【論文読み会】Self-Attention Generative Adversarial Networks
【論文読み会】Self-Attention Generative  Adversarial Networks【論文読み会】Self-Attention Generative  Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial Networks
 
【論文読み会】Universal Language Model Fine-tuning for Text Classification
【論文読み会】Universal Language Model Fine-tuning for Text Classification【論文読み会】Universal Language Model Fine-tuning for Text Classification
【論文読み会】Universal Language Model Fine-tuning for Text Classification
 

Kürzlich hochgeladen

知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 

Kürzlich hochgeladen (11)

知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 

Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (WSDM 2021)​

  • 1. Hierarchical Metadata-Aware Document Categorization under Weak Supervision (WSDM 2021) ARISE analytics 近藤 真暉 ©2022 ARISE analytics Reserved. 論文URL:https://arxiv.org/abs/2010.13556 特に注釈ない限り、画像は論文からの引用です
  • 2. 論文概要 ©2022 ARISE analytics Reserved. 1 階層ラベル向け弱教師あり学習を行うHimeCatとData Augmentationの提案
  • 3. Hierarchical Label Classficationとは ©2022 ARISE analytics Reserved. 2 [1] Hierarchical multi-label news article classification with distributed semantic model based features(IJAII 2019) カテゴリ間の関係を考慮し、階層的なタグ付与を行うタスク 階層的なタグ構造は、ディレクトリをはじめWebニュースのカテゴリや文書カテゴリ等広いドメ インで活用されており活用可能性が広い Hierarchial Label Classficationで用いられるラベルの例[1]
  • 4. 実応用に向けた既存研究の課題 ©2022 ARISE analytics Reserved. 3 ① Webドキュメントに付与されたメタデータを活用できていない - メタデータを活用し、潜在的なラベル補足情報として活用したい ② メタデータがあっても、大規模な学習データが必要である - 階層ラベルを手動でアノテーションするのは負荷が大きいため、可能な限り少ないサンプ ルで学習できるようにしたい これら問題を解決するため、以下を提案 - ①階層ラベル向け弱教師あり学習を行うHimeCat - ② Data Augmentation
  • 5. 本研究の貢献 ©2022 ARISE analytics Reserved. 4 本論文では、階層ラベル向け弱教師あり学習を行うHimeCatを提案 - 主な貢献 - メタデータと階層ラベルを用いた埋め込み表現を実現する方法 - 少数サンプルでも学習効果が得られるData Augmentation - メタデータ、階層ラベル、Data Augmentationのすべてが性能向上に影響を与えるこ とを確認
  • 6. 本研究で扱うデータ構造 ©2022 ARISE analytics Reserved. 5 - 文書:テキスト、メタデータ、階層ラベルを保有する文書 - テキスト:文書のすべてのテキストフィールド - メタデータ:文書が保有するメタデータ。複数存在するケースもある - 階層ラベル:木構造で表現されたラベル。ノード集合はカテゴリを表す。 ArXivにおけるデータ構造の例
  • 7. 前提知識:vMF分布 ©2022 ARISE analytics Reserved. 6 画像引用:機械学習プロフェッショナルシリーズ「異常検知と変化検知」 [1] Von mises-fisher loss for training sequence to sequence models with continuous outputs (ICLR 2019) [2] Spherical text embedding. (NeurIPS 2019) - フォンミーゼス・フィッシャー(vMF)分布 - 方向データ(単位球面)における確率分布のこと - 方向データ:単位ベクトルのように方向にだけ意味があるデータ(大きさに意味は持たない) - 単位球面の表面に方向データがマッピングされるイメージ - vMF分布を使う利点 - 類似タスクである階層的クラスタリングやテキストシーケンス生成で有効性が示されている[1] - 球面空間における埋め込み表現の学習は、類似性をより良く捉えることができる[2] - Semantic Similarity Search/Document Classificationのタスクで有効性が示されている
  • 8. 全体アーキテクチャ ©2022 ARISE analytics Reserved. 7 - A Hierarchical Generative Process - 階層ラベルを確率的に生成するプロセス - Joint Representation Learning - ラベル、メタデータ、テキスト(文書・単語)の埋め込み表現をまとめて学習するプロセス - Hierarchical Data Augmentation - 階層ラベルを保有する学習データを増やすプロセス - Hierarchical Classifier Training - 埋め込み表現をもとに、階層ラベルに対応したテキスト分類器を学習するプロセス メタデータを活用 した弱教師あり 学習 少数サンプルでの 効率的な学習
  • 9. A Hierarchical Generative Process ©2022 ARISE analytics Reserved. 8 - 階層ラベルを確率的に生成するプロセス ① Patent Label to Child Label - 条件付確率を基に、親ラベルから 子ラベルを推定 - vMF分布におけるRootの埋め込 み特徴を決定し、子ラベルの埋め 込み特徴を末端まで数珠繋ぎで 生成 ② Label and Metadata to Doc - メタデータとラベル情報を用い、単 位球面への文書の埋め込みを実 施 - ラベルやメタデータが存在しない場 合は、条件付確率を用いる(弱 教師あり学習特有の問題設定) - ドキュメントの埋め込み表現は以 下の式で表現可能 ③ Doc to Word - ①と同様に、文書から単語の出現 確率(埋め込み特徴)を出力
  • 10. A Hierarchical Generative Processにおける条件付確率の出力 ©2022 ARISE analytics Reserved. 9 - 親ラベルから子ラベルを推定 - 親ラベルの埋め込み特徴 lp を基にした子ラベルの埋め込み特徴lcの生成確率 p(lc | lp) を以下のように指定(ソフトマックス関数ベース) - ここで、lcは連続的な埋め込み空間における任意の点である必要 - そのため、 も連続分布でなければならない - しかし、ソフトマックス関数は有限の候補から離散的な選択をするためNG - vMF分布を適用することで、以下のように書き換えられる - ② Label and Metadata to Doc / ③ Doc to Word も同様にvMF分布を用い て処理できる
  • 11. Joint Representation Learning ©2022 ARISE analytics Reserved. 10 [1] Knowledge graph embedding: A survey of approaches and applications(TKDE29 2017) ラベル、メタデータ、テキスト(文書・単語)の埋め込み表現をまとめて学習 Step1:ラベルの階層情報をモデル化 - 親子ラベルペア(lc,lp)が与えられたとき、 を最大化するのが目標 - ナレッジグラフの埋め込み手法[1]をベースに、マージン を導入したランキング学習を実施 Step2:メタデータとコーパスの統計情報をモデル化 - 文書dに対するコーパスの情報(word w, ラベル ld)とメタデータMdが与えられたとき、 を最大化するのが目的 - Step1同様ランキング学習を行う pos neg ROOTから 子ラベルを選択 ラベルペアが与えられ たとき、負の学習サン プルl’pを選択 ランキング学習: 正サンプルと負サンプルが与えられたとき、 スコアが正>負となるように学習する手法 今回はペアワイズ法を使っている pos neg ※ 本研究ではネガティブサンプル数を5組と設定
  • 12. リーマン勾配法を用いた最適化 ©2022 ARISE analytics Reserved. 11 [1] Spherical text embedding (NeurIPS 2019) を解くように学習 ただし今回はすべての埋め込み特徴が球面上に存在するため、ユークリッド空間を前提とし て定義された最適化手法は好ましくない 双曲線埋め込み/球面埋め込みの既存研究[1]ではリーマン勾配法を用いているため、そ れに合わせる ユークリッド勾配法に対して変換を行うことで、リーマン勾配 法として扱える リーマン勾配法 ユークリッド勾配法 変換した後は、この式を用いて重み更新すればよい 球面上におけるリーマン勾配法の適用例[1] ユークリッド勾配法∇f(x)は左図も右図も同じ距離を示してしまう リーマン勾配法で用いているコサイン距離dcosは異なる距離を示すことが可能 球面上ではリーマン勾配法を用いるほうが好ましい
  • 13. Hierarchical Data Augmentation ©2022 ARISE analytics Reserved. 12 [1] Knowledge graph embedding: A survey of approaches and applications(TKDE29 2017) 少数データでも学習できることを目指し、Data Augmentationで増強する Step1:合成ドキュメントd*の埋め込み表現を生成 - Hierarchial Generaticve Processの②を流用 ラベルlとメタデータMdがあれば、事後 確率でd*を生成可能 ただし、ラベル情報しか保有しないた めメタデータは空集合として扱う 結果として であり下の式に 置き換えられる
  • 14. Hierarchical Data Augmentation ©2022 ARISE analytics Reserved. 13 [1] Von mises-fisher loss for training sequence to sequence models with continuous outputs (ICLR 2019) 少数データでも学習できることを目指し、Data Augmentationで増強する Step2:合成ドキュメントd*の単語列w*1,...を生成 - 合成ドキュメントd*から事後確率を出力するが、 を用いた単純な出力ではうまくいかない - 語彙Vを導入し、[1]で用いられている手法を応用する - 生成された埋め込み特徴w*がd*の近傍に存在す るような制約をかける - 結果、離散的なSoftmax関数に収束する wordがdocの近くに埋め込まれるようにする ここはよくわからん
  • 15. Hierarchical Data Augmentation ©2022 ARISE analytics Reserved. 14 [1] Von mises-fisher loss for training sequence to sequence models with continuous outputs (ICLR 2019) 少数データでも学習できることを目指し、Data Augmentationで増強する Step3:合成ドキュメントd*の集合D*を生成 - Step1,2をβ回繰り返し、ラベルに対応した集合D*を生 成
  • 16. Hierarchical Data Augmentation ©2022 ARISE analytics Reserved. 15 [1] Von mises-fisher loss for training sequence to sequence models with continuous outputs (ICLR 2019) 少数データでも学習できることを目指し、Data Augmentationで増強する Step4:節点からの子ラベル生成 - 節点は合成ドキュメントd*を生成しないかわりに、子ラベ ルを生成する - 節点l が与えられたとき、lを起点とする部分木T_l を条 件付確率で生成 - ラベルの埋め込みはすでに学習済みなので、条件付確率 で生成された部分木からラベルを取り出すことで、 Step1~3を実施でき同様に合成ドキュメントd*の集合 D*を生成可能 節点l 部分木 T_l 木 T
  • 17. Hierarchical Classifier Training ©2022 ARISE analytics Reserved. 16 [1] Convolutional Neural Networks for Sentence Classification(EMNLP 2014) 各リーフ(ノード)/ 節点に対し、フラットなテキスト分類器で分類 今回はモデルのアーキテクチャが提案の趣旨ではないため、シンプルなKim-CNN[1]を利用 Kim-CNN[1]の概要 オリジナルでは入力層に単語を入力するが、今回は埋め込み特徴を入力
  • 18. 実験 ©2022 ARISE analytics Reserved. 17 3種類のデータセットで評価 ベースライン - 教師あり:HierSVM (SVMベース) - 弱教師あり:WeSHClass(LSTMベース),PCEM, HiGitClass, MetaCat - 埋め込み:MetaPath2Vec(GNN), PointCare (GNN), Pretrained BERT 評価指標 - Micro/Macro F1 Score をLeaf/Ovarallごとに算出
  • 19. 実験結果 ©2022 ARISE analytics Reserved. 18 3つのデータセットにおいて、比較対象であるベースラインを有意に上回った - HiGitClass/MetaCatよりも性能が高く、ラベル階層を考慮することの有効性を示唆 - MetaPath2VecとPointCareはメタデータとラベル階層の埋め込みに有効といわれるが、 JointしてもHimeCatほど性能が上がらない - メタデータやラベル階層を考慮していないため、BERTは充分な性能を発揮できていない
  • 20. より詳細な分析 – 何が特に効いたか? ©2022 ARISE analytics Reserved. 19 アプローチが異なるアーキテクチャを適用し、何が有効だったかを確認 - データセットのラベル階層が深い(github)ほどHimeCatとNo-Hierarchyの差は大 - メタデータを利用することの優位性が確認された。特にラベル階層よりも効果が大きい - メタデータのほうが情報量が多いため? - メタデータの種類に限らず、すべてのメタデータが性能向上に寄与 ふつうのMimeCAT 階層情報なし メタデータすべてなし メタデータのうち一部なし
  • 21. より詳細な分析 – パラメタ比較 ©2022 ARISE analytics Reserved. 20 埋め込み特徴の次元数と、合成データの件数を変えて比較 - 埋め込み次元p は100-200程度がよい - 合成データを加えることで大きな性能向上 - ただし500件でサチる
  • 22. より詳細な分析 – 埋め込み結果の可視化 ©2022 ARISE analytics Reserved. 21 埋め込み特徴をT-SNEで可視化し、木構造で接続 - サブツリーの子カテゴリは親カテゴリの周りに埋め込まれている - サブツリーどうしでも、お互いの関係が考慮された埋め込みになっている - (b)においてq-fin(Quantitative Finance)はcs(Computer Science)よりもmathに近い
  • 23. まとめ ©2022 ARISE analytics Reserved. 22 本論文では、階層ラベル向け弱教師あり学習を行うHimeCatを提案 - 主な貢献 - メタデータと階層ラベルを用いた埋め込み表現を実現する方法 - 少数サンプルでも学習効果が得られるData Augmentation - メタデータ、階層ラベル、Data Augmentationのすべてが性能向上に影響を与えるこ とを確認
  • 24. Best Partner for innovation, Best Creator for the future.