SlideShare ist ein Scribd-Unternehmen logo
1 von 15
Downloaden Sie, um offline zu lesen
記事分類における
教師データおよびモデルの管理
大曽根 圭輔(Gunosy Inc.)
2016年 3月 18日
2©Gunosy Inc.
● おおそね けいすけ (@dr_paradi)
● 博士 (工学)
専門はソフトコンピュ−ティング (ファジィ、ニューロ)
● 11月からデータ分析チーム
● 2015年11月入社
● プライベートでE2D3というアプリ作ってます
自己紹介
http://e2d3.org/ja/
3©Gunosy Inc.
● Excel 70%
● PowerPoint 15%
● JavaScript 7%
● R 5%
● Python (Django) 3%
使用するツール群の変化 (昔)
4©Gunosy Inc.
● Python 80%
● Excel 17%
● JavaScript 3%
使用するツール群の変化 (今)
5©Gunosy Inc.
● 記事カテゴリ分類について
○ 教師データの選択、管理が重要
● 今後取り組みたい課題
○ より柔軟な分類を可能にするスキーマ設計
○ 複数のアルゴリズムの選択可能性
サマリ
6©Gunosy Inc.
Gunosyのシステム
記
事
収
集
ユーザ
同一記事判定
ユーザ属性の推定
カテゴリ分類
リアルタイム記事
評価システム
7©Gunosy Inc.
Gunosyのシステム
記
事
収
集
ユーザ
同一記事判定
ユーザ属性の推定
カテゴリ分類
リアルタイム記事
評価システム
8©Gunosy Inc.
● 記事に対してどのカテゴリにあたるかを判定
● 教師あり多クラス分類問題
● 教師データが必要
● カテゴリ分類には(Bag of Words)を利用しているた
め、ある程度のボリュームが必要
カテゴリ分類器課題
記事 カテゴリ
日本代表のhogehogeが2試合ぶりゴール スポーツ
fugafuga味のpiyopiyoが新発売!! グルメ
9©Gunosy Inc.
政治
カテゴリ分類器
記事 カテゴリ分類器
経済
スポーツ
グルメ
形態素解析
10©Gunosy Inc.
教師データ管理: 課題
● 記事 <-> カテゴリの紐付けがされたデータの取得
○ 教師データ
○ メディアごとに紐付ける?
■ e.g. hogehogeスポーツ => スポーツ
○ メディアごとにばらつきも
○ 人手の教師データが必要
11©Gunosy Inc.
● クラウドソーシングで記事にカテゴリを振り分けても
らう
● 教師データのひとかたまりに対して2人に評価をし
てもらい分類が同じになったものを教師データとし
て利用 (※)
教師データ取得
※『クラウドソーシングと機械学習』 鹿島 久嗣 梶野 洸 人工知能学会誌 27(4), 381-388, 2012-07-01
12©Gunosy Inc.
● 流行語に対応するため最新であればよいわけでは
ない
● 言葉の出現には周期性がある
e.g. 冬には”フィギュア”がスポーツ記事に出現
e.g. 冬にはプロ野球には”都市”の名前が出現
● 一年を通じて学習しないと新しい記事に適応できな
いことも
=> ある程度の期間が必要
教師データ管理
13©Gunosy Inc.
● バルサ問題、天王山問題
● カテゴリ分類には(Bag of Words)を利用しているた
め、特定のカテゴリで出る単語は誤判定してしまう
-> アルゴリズムの改善機会あり
● 現在は記事とカテゴリが1対1対応
カテゴリ分類器: 課題
14©Gunosy Inc.
● 記事カテゴリ分類について
○ 教師データの選択、管理が重要
● 今後取り組みたい課題
○ より柔軟な分類を可能にするスキーマ設計
○ 複数のアルゴリズムの選択可能性
まとめ
15©Gunosy Inc.
● Gunosyではデータ分析エンジニアを募集していま
す!
● Webエンジニアをやっていて分析をやってみたい方
はぜひ!
募集

Weitere ähnliche Inhalte

Was ist angesagt?

『アジャイルデータサイエンス』1章 理論
『アジャイルデータサイエンス』1章 理論 『アジャイルデータサイエンス』1章 理論
『アジャイルデータサイエンス』1章 理論
Hisao Soyama
 
『アジャイルデータサイエンス』2章 データ
『アジャイルデータサイエンス』2章 データ『アジャイルデータサイエンス』2章 データ
『アジャイルデータサイエンス』2章 データ
Hisao Soyama
 

Was ist angesagt? (14)

研究室勉強会資料「データ分析チュートリアル」
研究室勉強会資料「データ分析チュートリアル」研究室勉強会資料「データ分析チュートリアル」
研究室勉強会資料「データ分析チュートリアル」
 
『アジャイルデータサイエンス』1章 理論
『アジャイルデータサイエンス』1章 理論 『アジャイルデータサイエンス』1章 理論
『アジャイルデータサイエンス』1章 理論
 
『アジャイルデータサイエンス』2章 データ
『アジャイルデータサイエンス』2章 データ『アジャイルデータサイエンス』2章 データ
『アジャイルデータサイエンス』2章 データ
 
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
 
PyData.Tokyo Hackathon#2 TensorFlow
PyData.Tokyo Hackathon#2 TensorFlowPyData.Tokyo Hackathon#2 TensorFlow
PyData.Tokyo Hackathon#2 TensorFlow
 
2018/8/6トレLABO3_AIの学び方・使い方
2018/8/6トレLABO3_AIの学び方・使い方2018/8/6トレLABO3_AIの学び方・使い方
2018/8/6トレLABO3_AIの学び方・使い方
 
[自己PR]12/23 エンジニア"1on1"面談会
[自己PR]12/23 エンジニア"1on1"面談会[自己PR]12/23 エンジニア"1on1"面談会
[自己PR]12/23 エンジニア"1on1"面談会
 
tokyo_webmining_no51
tokyo_webmining_no51tokyo_webmining_no51
tokyo_webmining_no51
 
AttnGAN
AttnGANAttnGAN
AttnGAN
 
PyData Tokyo Tutorial & Hackathon #1
PyData Tokyo Tutorial & Hackathon #1PyData Tokyo Tutorial & Hackathon #1
PyData Tokyo Tutorial & Hackathon #1
 
20160225 interspace system_summary
20160225 interspace system_summary20160225 interspace system_summary
20160225 interspace system_summary
 
MonotaRO のデータ活用と基盤の過去、現在、未来
MonotaRO のデータ活用と基盤の過去、現在、未来 MonotaRO のデータ活用と基盤の過去、現在、未来
MonotaRO のデータ活用と基盤の過去、現在、未来
 
Social GAME における AI 活用事例 [第 4 回 Google Cloud INSIDE Games & Apps]
Social GAME における AI 活用事例 [第 4 回 Google Cloud INSIDE Games & Apps] Social GAME における AI 活用事例 [第 4 回 Google Cloud INSIDE Games & Apps]
Social GAME における AI 活用事例 [第 4 回 Google Cloud INSIDE Games & Apps]
 
Unsupervised learning of object landmarks by factorized spatial embeddings
Unsupervised learning of object landmarks by factorized spatial embeddingsUnsupervised learning of object landmarks by factorized spatial embeddings
Unsupervised learning of object landmarks by factorized spatial embeddings
 

Andere mochten auch

Andere mochten auch (14)

マイクロサービスとABテスト
マイクロサービスとABテストマイクロサービスとABテスト
マイクロサービスとABテスト
 
Gdmc v11 presentation
Gdmc v11 presentationGdmc v11 presentation
Gdmc v11 presentation
 
Gunosyデータマイニング研究会 #118 これからの強化学習
Gunosyデータマイニング研究会 #118 これからの強化学習Gunosyデータマイニング研究会 #118 これからの強化学習
Gunosyデータマイニング研究会 #118 これからの強化学習
 
機械学習で大事なことをミニGunosyをつくって学んだ╭( ・ㅂ・)و ̑̑ 
機械学習で大事なことをミニGunosyをつくって学んだ╭( ・ㅂ・)و ̑̑ 機械学習で大事なことをミニGunosyをつくって学んだ╭( ・ㅂ・)و ̑̑ 
機械学習で大事なことをミニGunosyをつくって学んだ╭( ・ㅂ・)و ̑̑ 
 
A/B Testing at Pinterest: Building a Culture of Experimentation
A/B Testing at Pinterest: Building a Culture of Experimentation A/B Testing at Pinterest: Building a Culture of Experimentation
A/B Testing at Pinterest: Building a Culture of Experimentation
 
あなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LT
あなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LTあなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LT
あなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LT
 
マイクロサービスバックエンドAPIのためのRESTとgRPC
マイクロサービスバックエンドAPIのためのRESTとgRPCマイクロサービスバックエンドAPIのためのRESTとgRPC
マイクロサービスバックエンドAPIのためのRESTとgRPC
 
Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechApache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentech
 
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
 
#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計
 
爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話
 
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと
 
WebDB Forum 2016 gunosy
WebDB Forum 2016 gunosyWebDB Forum 2016 gunosy
WebDB Forum 2016 gunosy
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
 

Ähnlich wie 記事分類における教師データおよびモデルの管理

妄想で覚えるデザインパターン
妄想で覚えるデザインパターン妄想で覚えるデザインパターン
妄想で覚えるデザインパターン
yumi_chappy
 
第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる
第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる
第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる
Atsushi Hayakawa
 

Ähnlich wie 記事分類における教師データおよびモデルの管理 (19)

20180730 ds womens
20180730 ds womens20180730 ds womens
20180730 ds womens
 
TensorFlowを使ってテキストをクラス分類してみたら精度96.8%の分類器を簡単に得ることができた話
TensorFlowを使ってテキストをクラス分類してみたら精度96.8%の分類器を簡単に得ることができた話TensorFlowを使ってテキストをクラス分類してみたら精度96.8%の分類器を簡単に得ることができた話
TensorFlowを使ってテキストをクラス分類してみたら精度96.8%の分類器を簡単に得ることができた話
 
AINOW活用事例(という名のゴマすり)
AINOW活用事例(という名のゴマすり)AINOW活用事例(という名のゴマすり)
AINOW活用事例(という名のゴマすり)
 
データ分析チームを組成して3ヶ月で学んだこと
データ分析チームを組成して3ヶ月で学んだことデータ分析チームを組成して3ヶ月で学んだこと
データ分析チームを組成して3ヶ月で学んだこと
 
経験ゼロのWeb企業が機械学習に取り組んだ話
経験ゼロのWeb企業が機械学習に取り組んだ話経験ゼロのWeb企業が機械学習に取り組んだ話
経験ゼロのWeb企業が機械学習に取り組んだ話
 
新卒採用を、まっとうに ー面接者への通信簿ー
新卒採用を、まっとうに ー面接者への通信簿ー新卒採用を、まっとうに ー面接者への通信簿ー
新卒採用を、まっとうに ー面接者への通信簿ー
 
Gunosyにおけるパーソナライズシステム
GunosyにおけるパーソナライズシステムGunosyにおけるパーソナライズシステム
Gunosyにおけるパーソナライズシステム
 
[Gree] グリーのソーシャルゲームにおける機械学習活用事例
[Gree] グリーのソーシャルゲームにおける機械学習活用事例[Gree] グリーのソーシャルゲームにおける機械学習活用事例
[Gree] グリーのソーシャルゲームにおける機械学習活用事例
 
Gunosyにおける仮説検証とABテスト
Gunosyにおける仮説検証とABテストGunosyにおける仮説検証とABテスト
Gunosyにおける仮説検証とABテスト
 
自然言語処理紹介(就職編)
自然言語処理紹介(就職編)自然言語処理紹介(就職編)
自然言語処理紹介(就職編)
 
妄想で覚えるデザインパターン
妄想で覚えるデザインパターン妄想で覚えるデザインパターン
妄想で覚えるデザインパターン
 
[Gree] Dialogflowを利用したチャットボット導入事例
[Gree] Dialogflowを利用したチャットボット導入事例[Gree] Dialogflowを利用したチャットボット導入事例
[Gree] Dialogflowを利用したチャットボット導入事例
 
東大生向けデータ解析講座 第1回 2017/12/27
東大生向けデータ解析講座 第1回 2017/12/27東大生向けデータ解析講座 第1回 2017/12/27
東大生向けデータ解析講座 第1回 2017/12/27
 
02 20170311presentation inoueeri
02 20170311presentation inoueeri02 20170311presentation inoueeri
02 20170311presentation inoueeri
 
Kaggle の Titanic チュートリアルに挑戦した話
Kaggle の Titanic チュートリアルに挑戦した話Kaggle の Titanic チュートリアルに挑戦した話
Kaggle の Titanic チュートリアルに挑戦した話
 
Tableau data science_20190627_distribute
Tableau data science_20190627_distributeTableau data science_20190627_distribute
Tableau data science_20190627_distribute
 
カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録
 
第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる
第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる
第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる
 
ノンコーディングでやってみよう!Logic Appsのすゝめ
ノンコーディングでやってみよう!Logic Appsのすゝめノンコーディングでやってみよう!Logic Appsのすゝめ
ノンコーディングでやってみよう!Logic Appsのすゝめ
 

Mehr von 圭輔 大曽根

5分で分かった気になるリーンスタートアップ(用語編)
5分で分かった気になるリーンスタートアップ(用語編)5分で分かった気になるリーンスタートアップ(用語編)
5分で分かった気になるリーンスタートアップ(用語編)
圭輔 大曽根
 

Mehr von 圭輔 大曽根 (6)

累計DL数3,600万のアプリを成長させ続けるためのピボット
累計DL数3,600万のアプリを成長させ続けるためのピボット累計DL数3,600万のアプリを成長させ続けるためのピボット
累計DL数3,600万のアプリを成長させ続けるためのピボット
 
2015/08/24 第15回 HTML5+JS 勉強会【TechBuzz】資料「HTML5とデータ可視化とExcel」
2015/08/24 第15回 HTML5+JS 勉強会【TechBuzz】資料「HTML5とデータ可視化とExcel」 2015/08/24 第15回 HTML5+JS 勉強会【TechBuzz】資料「HTML5とデータ可視化とExcel」
2015/08/24 第15回 HTML5+JS 勉強会【TechBuzz】資料「HTML5とデータ可視化とExcel」
 
d3jsハンズオン @E2D3ハッカソン
d3jsハンズオン @E2D3ハッカソンd3jsハンズオン @E2D3ハッカソン
d3jsハンズオン @E2D3ハッカソン
 
第一回チキチキ秋のデータサイエンスアイデアソン&ハッカソン』開催報告会 アプリ名: 守備視え〜る
第一回チキチキ秋のデータサイエンスアイデアソン&ハッカソン』開催報告会 アプリ名: 守備視え〜る第一回チキチキ秋のデータサイエンスアイデアソン&ハッカソン』開催報告会 アプリ名: 守備視え〜る
第一回チキチキ秋のデータサイエンスアイデアソン&ハッカソン』開催報告会 アプリ名: 守備視え〜る
 
5分で分かった気になるリーンスタートアップ(用語編)
5分で分かった気になるリーンスタートアップ(用語編)5分で分かった気になるリーンスタートアップ(用語編)
5分で分かった気になるリーンスタートアップ(用語編)
 
HTML5を用いたセマンティックな文書作成【TechBuzz】第8回HTML5開発技術勉強会 〜先行事例紹介/交流会〜
HTML5を用いたセマンティックな文書作成【TechBuzz】第8回HTML5開発技術勉強会 〜先行事例紹介/交流会〜HTML5を用いたセマンティックな文書作成【TechBuzz】第8回HTML5開発技術勉強会 〜先行事例紹介/交流会〜
HTML5を用いたセマンティックな文書作成【TechBuzz】第8回HTML5開発技術勉強会 〜先行事例紹介/交流会〜
 

Kürzlich hochgeladen

Kürzlich hochgeladen (7)

Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 

記事分類における教師データおよびモデルの管理