Weitere ähnliche Inhalte
Ähnlich wie 20180718Eightニュースフィード活性化のための自然言語処理の取り組み (20)
Mehr von Kanji Takahashi (20)
Kürzlich hochgeladen (10)
20180718Eightニュースフィード活性化のための自然言語処理の取り組み
- 25. API GatewayとLambdaを使ったAPI開発について詳細は
- 手前味噌ですが、Sansanのブログに記載しています
- Techの道も一歩から(https://jp.corp-sansan.com/blog/tech-no-michi)
- 第6回「API GatewayとAWS Lambda PythonでAPI開発」Vol. 1:API GatewayとAWS Lambdaを知る
- 第7回「API GatewayとAWS Lambda PythonでAPI開発」Vol. 2:ローカルでの開発環境構築
- 第8回「API GatewayとAWS Lambda PythonでAPI開発」Vol. 3:エラー処理
- 第9回「API GatewayとAWS Lambda PythonでAPI開発」Vol. 4:デプロイ
24
- 34. ExtractContent3を作った
- pip install extractcontent3 でインストールできるように
33
from extractcontent3 import ExtractContent
extractor = ExtractContent()
extractor.set_default({"threshold":50})
extractor.analyse(open("index.html").read())
text, title = extractor.as_text()
- オリジナル版およびFork元作者に圧倒的感謝m(_ _)m
https://github.com/kanjirz50/python-extractcontent3
- 39. アルゴリズムの検討
- 現在の要件
- 超特急で作る
- AWS Lambdaでサーバーレス
- 何がよさそうか?
- 超特急なため、学習データが用意できない
- 辞書ベースだと動作速度などはMeCabに依存(高速)
- ルールベースの戦略
- 形態素解析辞書に企業名を固有名詞+独自ラベルを付与し追加
- 形態素解析結果から、独自ラベルに該当する企業名を抽出
38
データ
手法問題設定
+時間
- 41. 辞書整備
- 企業名辞書を作る
- スコアは「名詞-固有名詞-組織」でそれっぽいものを決め打ち
- EX_ORGという企業名属性を末尾に追加し、ルールベースで抽出
- とにかく企業名を追加すれば解決するかに思われた…
40
f"{company_name},1292,1292,5000,名詞,固有名詞,組織,*,*,*,{company_name},{reading},EX_ORG"
- 42. 企業名は無限大 Part 1
- 一般名詞として存在する企業名が候補として頻出
- 世界
- ログイン
- アプリ
- している
- 毎日
- いったん、ブラックリストを作成して対策
- 説明しやすい
41
- 44. 企業名は無限大 Part 3
- 網羅しきれない名前や表記ゆれ
- アップルジャパン
- マネーフォワード
- SONY
- スバル
- 作業者にアノテートしてもらえる枠組みを作り、追加
- 簡単なWebアプリケーション+スプレッドシート
- スプレッドシート最強←アノテートを依頼しやすい
43
- 48. 今後やりたいこと
- 企業抽出の高度化に係り受け情報を利用する
- 「Sansan -> 発表した」を素性にする
47
Sansan(東京・渋谷)は10日、個人向けの名刺管理アプリ「Eight(エイト)」を使って、
女優の綾瀬はるかさんが出演するTBSのドラマとPR活動で協力すると発表した。
- 候補返却ではなく確信度の高いものを出して、一発確定させたい
- データの作成が必要そう
- 「Sansan」と「名刺」が共起すると、名刺管理のSansan
- 50. Creating a resource from everyday business
encounters and transforming
the way the world works.
ビジネスの出会いを
資産に変え、
働き方を革新する