Suche senden
Hochladen
クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜
•
33 gefällt mir
•
10,899 views
Takeshi Arabiki
Folgen
第 10 回 YANS シンポジウムの発表資料です
Weniger lesen
Mehr lesen
Ingenieurwesen
Melden
Teilen
Melden
Teilen
1 von 31
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
CTF for ビギナーズ バイナリ講習資料
CTF for ビギナーズ バイナリ講習資料
SECCON Beginners
Surveyから始まる研究者への道 - Stand on the shoulders of giants -
Surveyから始まる研究者への道 - Stand on the shoulders of giants -
諒介 荒木
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門
Tatsuya Tojima
固有表現抽出と適用例のご紹介
固有表現抽出と適用例のご紹介
Core Concept Technologies
DockerコンテナでGitを使う
DockerコンテナでGitを使う
Kazuhiro Suga
Pythonの理解を試みる 〜バイトコードインタプリタを作成する〜
Pythonの理解を試みる 〜バイトコードインタプリタを作成する〜
Preferred Networks
最適化超入門
最適化超入門
Takami Sato
プログラミングコンテストでの動的計画法
プログラミングコンテストでの動的計画法
Takuya Akiba
Empfohlen
CTF for ビギナーズ バイナリ講習資料
CTF for ビギナーズ バイナリ講習資料
SECCON Beginners
Surveyから始まる研究者への道 - Stand on the shoulders of giants -
Surveyから始まる研究者への道 - Stand on the shoulders of giants -
諒介 荒木
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門
Tatsuya Tojima
固有表現抽出と適用例のご紹介
固有表現抽出と適用例のご紹介
Core Concept Technologies
DockerコンテナでGitを使う
DockerコンテナでGitを使う
Kazuhiro Suga
Pythonの理解を試みる 〜バイトコードインタプリタを作成する〜
Pythonの理解を試みる 〜バイトコードインタプリタを作成する〜
Preferred Networks
最適化超入門
最適化超入門
Takami Sato
プログラミングコンテストでの動的計画法
プログラミングコンテストでの動的計画法
Takuya Akiba
画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ
Takahiro Kubo
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
Hirokatsu Kataoka
研究分野をサーベイする
研究分野をサーベイする
Takayuki Itoh
研究効率化Tips Ver.2
研究効率化Tips Ver.2
cvpaper. challenge
位置データもPythonで!!!
位置データもPythonで!!!
hide ogawa
Brochure TurtleBot3(A4)
Brochure TurtleBot3(A4)
ROBOTIS Japan
文献調査をどのように行うべきか?
文献調査をどのように行うべきか?
Yuichi Goto
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
Preferred Networks
目grep入門 +解説
目grep入門 +解説
murachue
2019年度チュートリアルBPE
2019年度チュートリアルBPE
広樹 本間
CTF for ビギナーズ ネットワーク講習資料
CTF for ビギナーズ ネットワーク講習資料
SECCON Beginners
[DL輪読会]Attention Is All You Need
[DL輪読会]Attention Is All You Need
Deep Learning JP
WebAssemblyのWeb以外のことぜんぶ話す
WebAssemblyのWeb以外のことぜんぶ話す
Takaya Saeki
東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」
東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」
Hitomi Yanaka
先端技術とメディア表現1 #FTMA15
先端技術とメディア表現1 #FTMA15
Yoichi Ochiai
オントロジーとは?
オントロジーとは?
Kouji Kozaki
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
Hiroyuki Masuda
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
Yahoo!デベロッパーネットワーク
明日使えないすごいビット演算
明日使えないすごいビット演算
京大 マイコンクラブ
開発の心得
開発の心得
Takeshi Arabiki
Introduction to Japanese Morphological Analysis
Introduction to Japanese Morphological Analysis
Takeshi Arabiki
Weitere ähnliche Inhalte
Was ist angesagt?
画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ
Takahiro Kubo
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
Hirokatsu Kataoka
研究分野をサーベイする
研究分野をサーベイする
Takayuki Itoh
研究効率化Tips Ver.2
研究効率化Tips Ver.2
cvpaper. challenge
位置データもPythonで!!!
位置データもPythonで!!!
hide ogawa
Brochure TurtleBot3(A4)
Brochure TurtleBot3(A4)
ROBOTIS Japan
文献調査をどのように行うべきか?
文献調査をどのように行うべきか?
Yuichi Goto
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
Preferred Networks
目grep入門 +解説
目grep入門 +解説
murachue
2019年度チュートリアルBPE
2019年度チュートリアルBPE
広樹 本間
CTF for ビギナーズ ネットワーク講習資料
CTF for ビギナーズ ネットワーク講習資料
SECCON Beginners
[DL輪読会]Attention Is All You Need
[DL輪読会]Attention Is All You Need
Deep Learning JP
WebAssemblyのWeb以外のことぜんぶ話す
WebAssemblyのWeb以外のことぜんぶ話す
Takaya Saeki
東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」
東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」
Hitomi Yanaka
先端技術とメディア表現1 #FTMA15
先端技術とメディア表現1 #FTMA15
Yoichi Ochiai
オントロジーとは?
オントロジーとは?
Kouji Kozaki
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
Hiroyuki Masuda
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
Yahoo!デベロッパーネットワーク
明日使えないすごいビット演算
明日使えないすごいビット演算
京大 マイコンクラブ
Was ist angesagt?
(20)
画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
研究分野をサーベイする
研究分野をサーベイする
研究効率化Tips Ver.2
研究効率化Tips Ver.2
位置データもPythonで!!!
位置データもPythonで!!!
Brochure TurtleBot3(A4)
Brochure TurtleBot3(A4)
文献調査をどのように行うべきか?
文献調査をどのように行うべきか?
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
目grep入門 +解説
目grep入門 +解説
2019年度チュートリアルBPE
2019年度チュートリアルBPE
CTF for ビギナーズ ネットワーク講習資料
CTF for ビギナーズ ネットワーク講習資料
[DL輪読会]Attention Is All You Need
[DL輪読会]Attention Is All You Need
WebAssemblyのWeb以外のことぜんぶ話す
WebAssemblyのWeb以外のことぜんぶ話す
東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」
東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」
先端技術とメディア表現1 #FTMA15
先端技術とメディア表現1 #FTMA15
オントロジーとは?
オントロジーとは?
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
明日使えないすごいビット演算
明日使えないすごいビット演算
Mehr von Takeshi Arabiki
開発の心得
開発の心得
Takeshi Arabiki
Introduction to Japanese Morphological Analysis
Introduction to Japanese Morphological Analysis
Takeshi Arabiki
R による文書分類入門
R による文書分類入門
Takeshi Arabiki
Rのデータ構造とメモリ管理
Rのデータ構造とメモリ管理
Takeshi Arabiki
HTML5 Canvas で学ぶアフィン変換
HTML5 Canvas で学ぶアフィン変換
Takeshi Arabiki
Introduction to Favmemo for Immature Engineers
Introduction to Favmemo for Immature Engineers
Takeshi Arabiki
Rのスコープとフレームと環境と
Rのスコープとフレームと環境と
Takeshi Arabiki
twitteRで快適Rライフ!
twitteRで快適Rライフ!
Takeshi Arabiki
RではじめるTwitter解析
RではじめるTwitter解析
Takeshi Arabiki
R版Getopt::Longを作ってみた
R版Getopt::Longを作ってみた
Takeshi Arabiki
Rデータフレーム自由自在
Rデータフレーム自由自在
Takeshi Arabiki
HMM, MEMM, CRF メモ
HMM, MEMM, CRF メモ
Takeshi Arabiki
文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜
文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜
Takeshi Arabiki
Rデバッグあれこれ
Rデバッグあれこれ
Takeshi Arabiki
はじめてのまっぷりでゅ〜す
はじめてのまっぷりでゅ〜す
Takeshi Arabiki
TwitterのデータをRであれこれ
TwitterのデータをRであれこれ
Takeshi Arabiki
Twitterのデータを取得する準備
Twitterのデータを取得する準備
Takeshi Arabiki
Mehr von Takeshi Arabiki
(17)
開発の心得
開発の心得
Introduction to Japanese Morphological Analysis
Introduction to Japanese Morphological Analysis
R による文書分類入門
R による文書分類入門
Rのデータ構造とメモリ管理
Rのデータ構造とメモリ管理
HTML5 Canvas で学ぶアフィン変換
HTML5 Canvas で学ぶアフィン変換
Introduction to Favmemo for Immature Engineers
Introduction to Favmemo for Immature Engineers
Rのスコープとフレームと環境と
Rのスコープとフレームと環境と
twitteRで快適Rライフ!
twitteRで快適Rライフ!
RではじめるTwitter解析
RではじめるTwitter解析
R版Getopt::Longを作ってみた
R版Getopt::Longを作ってみた
Rデータフレーム自由自在
Rデータフレーム自由自在
HMM, MEMM, CRF メモ
HMM, MEMM, CRF メモ
文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜
文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜
Rデバッグあれこれ
Rデバッグあれこれ
はじめてのまっぷりでゅ〜す
はじめてのまっぷりでゅ〜す
TwitterのデータをRであれこれ
TwitterのデータをRであれこれ
Twitterのデータを取得する準備
Twitterのデータを取得する準備
クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜
1.
クックパッド特売情報 における自然言語処理 ∼固有表現抽出を利用した検索システム∼ YANS 第 10
回シンポジウム (2015/09/05 ) クックパッド株式会社 買物情報事業部 Takeshi Arabiki (@a_bicky)
2.
お話しすること •ものをつくること •ものを動かすこと •現実の問題を知ること •足りない技術を生み出すこと
3.
お話しすること •ものをつくること •ものを動かすこと •現実の問題を知ること •足りない技術を生み出すこと
4.
クックパッド特売情報
5.
6.
•いわゆるチラシサービスの一種 •店舗さんが商品情報を投稿 クックパッド特売情報
7.
商品検索の使いどころ
8.
商品検索の使いどころ
9.
•各ユーザに限定すると商品数が少ない ‣ e.g. 登録している店舗の商品 ‣
1件しかヒットしないことがよくある •ユーザが意図的に検索するわけではない ‣ より適合率(精度)が求められる 特殊な検索事情
10.
商品検索の 初期の課題
11.
投稿された商品名 キーワード たまねぎドレッシング フルーツゼリー みかん たまねぎ ドレッシング フルーツ ゼリー みかん 形態素単位のインデキシング
12.
投稿された商品名 キーワード たまねぎドレッシング フルーツゼリー みかん たまねぎ ドレッシング フルーツ ゼリー みかん 形態素単位のインデキシング形態素単位のインデキシング 「たまねぎ」を使ったレシピに掲出 「みかん」を使ったレシピに掲出
13.
固有表現抽出を利用した 検索システム
14.
投稿された商品名 キーワード 固有表現単位のインデキシング たまねぎドレッシング 商品名 フルーツゼリー みかん 味商品名 たまねぎドレッシング フルーツゼリー みかん:TASTE
15.
固有表現抽出を使うメリット •適合率が上がる •正規表現と違って文字列全体を考慮できる •似たパターンの未知データにも対応可能
16.
固有表現抽出の方法 •MeCab+IPAdic による形態素解析と正規化 ‣ コストを商品名に最適化 ‣
辞書に代表表記の情報も登録 •CRFsuite による固有表現抽出 ‣ 形態素解析した結果を素性に利用 ‣ タグとして商品名、味、産地 etc.
17.
% mecab -d
dic 薄切り 薄切り 名詞,サ変接続,*,*,*,*,薄切り,ウスギリ,ウスギリ EOS 薄切 薄切 名詞,サ変接続,*,*,*,*,薄切,ウスギリ,ウスギリ,薄切り,薄切り,ウスギリ EOS 形態素解析結果と代表表記
18.
学習データの作成
19.
商品検索の 現在の課題
20.
商品名の形態素解析の難しさ •かつおたたき •ロース肉薄切り •名詞の間にある接頭詞・名詞接尾 ‣ e.g.「徳用焼き餃子」「生姜焼き徳用」
21.
商品名の形態素解析の難しさ •かつおたたき → かつ/お/たたき •ロース肉薄切り → ロース/肉薄/切り •名詞の間にある接頭詞・名詞接尾 ‣ e.g.「徳用焼き餃子」「生姜焼き徳用」
22.
知識ベースの構築 •同義語 ‣ 「パクチー」と「コリアンダー」 •一般名と品種・商品名 ‣ 「じゃがいも」と「メークイン」 •原料 ‣
「卵黄」と「卵」
23.
商品検索クエリの最適化 •材料は「豚肉」だけど「豚肉薄切り」かも ‣ 「豚肉ブロック」は掲出させたくない •材料名のクレンジング ‣ 材料名の括弧の中身は必要かどうか ‣
e.g.(薄切り)、(あれば)
24.
課題は たくさん
25.
最も深刻 な問題
26.
人手不足
27.
ブレークスルー
28.
http://www.nii.ac.jp/dsc/idr/cookpad/cookpad.html
29.
お話しすること •ものをつくること •ものを動かすこと •現実の問題を知ること •足りない技術を生み出すこと
30.
•ものをつくること •ものを動かすこと •現実の問題を知ること •足りない技術を生み出すこと
31.
自然言語処理で 世界中の食卓に 笑顔を!
Jetzt herunterladen