SlideShare ist ein Scribd-Unternehmen logo
1 von 9
Downloaden Sie, um offline zu lesen
Jaccard係数の計算式(2)
仮に1950年代~2000年代までの文書をデータとし
て扱うとします。この場合に、どの程度、語Aが80
年代に特徴的なのかを計算するJaccard係数の式は、
次のようになります。
「80年代」でなおかつ「語Aを含む」文書の数
「80年代」か「語Aを含む」か1方でも当てはまる文書の数
図解にするとより分かりやすく→
80年代の文書 語Aを含む文書
(a) 「80年代」でなおかつ「語Aを含む」文書
80年代の文書 語Aを含む文書
(b) 「80年代」か「語Aを含む」か1方でも当てはまる文書
80年代の文書 語Aを含む文書
(a) 「80年代」でなおかつ「語Aを含む」文書
(b)の中での(a)の割合 = (a)÷(b) がJaccard係数!
80年代の文書 語Aを含む文書
(a) 「80年代」でなおかつ「語Aを含む」文書
(b) 「80年代」か「語Aを含む」か1方でも当てはまる文書
もし単純に数をかぞえると?
語Cを含む文書
• 単純に80年代の語をかぞえると、80年代だけでなく、
どの年代にも多く出てくる語Cが上位に。
• Jaccard係数では、割合を見るので語Cは下位になり、
「80年代ならでは」の語が上位に
80年代の文書
それでも、ある程度は数も必要
語Dを含む文書
• 語Dはほぼ80年代にだけ登場するが、数が少なく
「80年代を代表する/80年代の特徴」とは言えない
• Jaccard係数では割合を見るので語Dも下位に
→ 語CやDを取り除きつつ共起語を探すのがJaccard係数
80年代の文書
どちらにも合致しない文書は無視
• 一部の係数は、(c) どちらにも合致しない文書がたく
さんあると、係数が大きくなる
• 計量テキスト分析では、(c)の文書は常に大量に存在
するので、(c)を無視するJaccard係数を採用
80年代の文書 語Bを含む文書
すべての文書
(c) 80年代でもなく語Bも含まない文書
ところで「文書」ってなに?
• 設定を変えなければ(デフォルトでは)
– Excel・CSVデータの場合は、1つのセルが1つの「文書」
– テキストデータの場合は、1つの段落(改行で区切れられ
た部分)が1つの「文書」
• 分析時に「集計単位」の設定を「文」に変更すれば、
1つの文を1つの「文書」と見なせる
• KH CoderではH1からH5による見出しを加えることで、
節・章・部など様々な単位での分析が可能

Weitere ähnliche Inhalte

Was ist angesagt?

質的変数の相関・因子分析
質的変数の相関・因子分析質的変数の相関・因子分析
質的変数の相関・因子分析Mitsuo Shimohata
 
StanとRでベイズ統計モデリング読書会 Chapter 7(7.6-7.9) 回帰分析の悩みどころ ~統計の力で歌うまになりたい~
StanとRでベイズ統計モデリング読書会 Chapter 7(7.6-7.9) 回帰分析の悩みどころ ~統計の力で歌うまになりたい~StanとRでベイズ統計モデリング読書会 Chapter 7(7.6-7.9) 回帰分析の悩みどころ ~統計の力で歌うまになりたい~
StanとRでベイズ統計モデリング読書会 Chapter 7(7.6-7.9) 回帰分析の悩みどころ ~統計の力で歌うまになりたい~nocchi_airport
 
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章nocchi_airport
 
これからの仮説検証・モデル評価
これからの仮説検証・モデル評価これからの仮説検証・モデル評価
これからの仮説検証・モデル評価daiki hojo
 
21世紀の手法対決 (MIC vs HSIC)
21世紀の手法対決 (MIC vs HSIC)21世紀の手法対決 (MIC vs HSIC)
21世紀の手法対決 (MIC vs HSIC)Toru Imai
 
Rでコンジョイント分析
Rでコンジョイント分析Rでコンジョイント分析
Rでコンジョイント分析osamu morimoto
 
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由takehikoihayashi
 
スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)Hidetoshi Matsui
 
Rパッケージ“KFAS”を使った時系列データの解析方法
Rパッケージ“KFAS”を使った時系列データの解析方法Rパッケージ“KFAS”を使った時系列データの解析方法
Rパッケージ“KFAS”を使った時系列データの解析方法Hiroki Itô
 
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデルMasashi Komori
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?hoxo_m
 
大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法Shunji Umetani
 
5分でわかるベイズ確率
5分でわかるベイズ確率5分でわかるベイズ確率
5分でわかるベイズ確率hoxo_m
 
明日から読める無作為化比較試験: 行動療法研究に求められる統計学
明日から読める無作為化比較試験: 行動療法研究に求められる統計学明日から読める無作為化比較試験: 行動療法研究に求められる統計学
明日から読める無作為化比較試験: 行動療法研究に求められる統計学Yasuyuki Okumura
 
ベイジアンネットワーク入門
ベイジアンネットワーク入門ベイジアンネットワーク入門
ベイジアンネットワーク入門Keisuke OTAKI
 
ベイズ主義による研究の報告方法
ベイズ主義による研究の報告方法ベイズ主義による研究の報告方法
ベイズ主義による研究の報告方法Masaru Tokuoka
 

Was ist angesagt? (20)

質的変数の相関・因子分析
質的変数の相関・因子分析質的変数の相関・因子分析
質的変数の相関・因子分析
 
Stan超初心者入門
Stan超初心者入門Stan超初心者入門
Stan超初心者入門
 
StanとRでベイズ統計モデリング読書会 Chapter 7(7.6-7.9) 回帰分析の悩みどころ ~統計の力で歌うまになりたい~
StanとRでベイズ統計モデリング読書会 Chapter 7(7.6-7.9) 回帰分析の悩みどころ ~統計の力で歌うまになりたい~StanとRでベイズ統計モデリング読書会 Chapter 7(7.6-7.9) 回帰分析の悩みどころ ~統計の力で歌うまになりたい~
StanとRでベイズ統計モデリング読書会 Chapter 7(7.6-7.9) 回帰分析の悩みどころ ~統計の力で歌うまになりたい~
 
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
 
これからの仮説検証・モデル評価
これからの仮説検証・モデル評価これからの仮説検証・モデル評価
これからの仮説検証・モデル評価
 
21世紀の手法対決 (MIC vs HSIC)
21世紀の手法対決 (MIC vs HSIC)21世紀の手法対決 (MIC vs HSIC)
21世紀の手法対決 (MIC vs HSIC)
 
Stanでガウス過程
Stanでガウス過程Stanでガウス過程
Stanでガウス過程
 
Rでコンジョイント分析
Rでコンジョイント分析Rでコンジョイント分析
Rでコンジョイント分析
 
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
 
スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)
 
Rパッケージ“KFAS”を使った時系列データの解析方法
Rパッケージ“KFAS”を使った時系列データの解析方法Rパッケージ“KFAS”を使った時系列データの解析方法
Rパッケージ“KFAS”を使った時系列データの解析方法
 
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
 
Rで学ぶロバスト推定
Rで学ぶロバスト推定Rで学ぶロバスト推定
Rで学ぶロバスト推定
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
 
大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法
 
5分でわかるベイズ確率
5分でわかるベイズ確率5分でわかるベイズ確率
5分でわかるベイズ確率
 
WAICとWBICのご紹介
WAICとWBICのご紹介WAICとWBICのご紹介
WAICとWBICのご紹介
 
明日から読める無作為化比較試験: 行動療法研究に求められる統計学
明日から読める無作為化比較試験: 行動療法研究に求められる統計学明日から読める無作為化比較試験: 行動療法研究に求められる統計学
明日から読める無作為化比較試験: 行動療法研究に求められる統計学
 
ベイジアンネットワーク入門
ベイジアンネットワーク入門ベイジアンネットワーク入門
ベイジアンネットワーク入門
 
ベイズ主義による研究の報告方法
ベイズ主義による研究の報告方法ベイズ主義による研究の報告方法
ベイズ主義による研究の報告方法
 

Mehr von khcoder

KH Coder 3 チュートリアル(スライド版)
KH Coder 3 チュートリアル(スライド版)KH Coder 3 チュートリアル(スライド版)
KH Coder 3 チュートリアル(スライド版)khcoder
 
【旧版】KH Coder 3 チュートリアル(スライド版)
【旧版】KH Coder 3 チュートリアル(スライド版)【旧版】KH Coder 3 チュートリアル(スライド版)
【旧版】KH Coder 3 チュートリアル(スライド版)khcoder
 
Quick Start Tutorial of KH Coder 3
Quick Start Tutorial of KH Coder 3Quick Start Tutorial of KH Coder 3
Quick Start Tutorial of KH Coder 3khcoder
 
[OUTDATED] Quick Start Tutorial of KH Coder 3
[OUTDATED] Quick Start Tutorial of KH Coder 3[OUTDATED] Quick Start Tutorial of KH Coder 3
[OUTDATED] Quick Start Tutorial of KH Coder 3khcoder
 
フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st
フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41stフリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st
フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41stkhcoder
 
KH Coder 2 チュートリアル(スライド版)
KH Coder 2 チュートリアル(スライド版)KH Coder 2 チュートリアル(スライド版)
KH Coder 2 チュートリアル(スライド版)khcoder
 
Executing SQL Queries and Making Plugins
Executing SQL Queries and Making PluginsExecuting SQL Queries and Making Plugins
Executing SQL Queries and Making Pluginskhcoder
 
Example of Using R #1: Exporting the Result of Correspondence Analysis
Example of Using R #1: Exporting the Result of Correspondence AnalysisExample of Using R #1: Exporting the Result of Correspondence Analysis
Example of Using R #1: Exporting the Result of Correspondence Analysiskhcoder
 
Quick Start Tutorial of KH Coder 2: Quantitative Content Analysis or Text Min...
Quick Start Tutorial of KH Coder 2: Quantitative Content Analysis or Text Min...Quick Start Tutorial of KH Coder 2: Quantitative Content Analysis or Text Min...
Quick Start Tutorial of KH Coder 2: Quantitative Content Analysis or Text Min...khcoder
 
Rファイルの保存と活用1―KH Coderによる対応分析の結果のエクスポートと活用―
Rファイルの保存と活用1―KH Coderによる対応分析の結果のエクスポートと活用―Rファイルの保存と活用1―KH Coderによる対応分析の結果のエクスポートと活用―
Rファイルの保存と活用1―KH Coderによる対応分析の結果のエクスポートと活用―khcoder
 

Mehr von khcoder (10)

KH Coder 3 チュートリアル(スライド版)
KH Coder 3 チュートリアル(スライド版)KH Coder 3 チュートリアル(スライド版)
KH Coder 3 チュートリアル(スライド版)
 
【旧版】KH Coder 3 チュートリアル(スライド版)
【旧版】KH Coder 3 チュートリアル(スライド版)【旧版】KH Coder 3 チュートリアル(スライド版)
【旧版】KH Coder 3 チュートリアル(スライド版)
 
Quick Start Tutorial of KH Coder 3
Quick Start Tutorial of KH Coder 3Quick Start Tutorial of KH Coder 3
Quick Start Tutorial of KH Coder 3
 
[OUTDATED] Quick Start Tutorial of KH Coder 3
[OUTDATED] Quick Start Tutorial of KH Coder 3[OUTDATED] Quick Start Tutorial of KH Coder 3
[OUTDATED] Quick Start Tutorial of KH Coder 3
 
フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st
フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41stフリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st
フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st
 
KH Coder 2 チュートリアル(スライド版)
KH Coder 2 チュートリアル(スライド版)KH Coder 2 チュートリアル(スライド版)
KH Coder 2 チュートリアル(スライド版)
 
Executing SQL Queries and Making Plugins
Executing SQL Queries and Making PluginsExecuting SQL Queries and Making Plugins
Executing SQL Queries and Making Plugins
 
Example of Using R #1: Exporting the Result of Correspondence Analysis
Example of Using R #1: Exporting the Result of Correspondence AnalysisExample of Using R #1: Exporting the Result of Correspondence Analysis
Example of Using R #1: Exporting the Result of Correspondence Analysis
 
Quick Start Tutorial of KH Coder 2: Quantitative Content Analysis or Text Min...
Quick Start Tutorial of KH Coder 2: Quantitative Content Analysis or Text Min...Quick Start Tutorial of KH Coder 2: Quantitative Content Analysis or Text Min...
Quick Start Tutorial of KH Coder 2: Quantitative Content Analysis or Text Min...
 
Rファイルの保存と活用1―KH Coderによる対応分析の結果のエクスポートと活用―
Rファイルの保存と活用1―KH Coderによる対応分析の結果のエクスポートと活用―Rファイルの保存と活用1―KH Coderによる対応分析の結果のエクスポートと活用―
Rファイルの保存と活用1―KH Coderによる対応分析の結果のエクスポートと活用―
 

Jaccard係数の計算式と特徴(2)