SlideShare ist ein Scribd-Unternehmen logo
1 von 50
Downloaden Sie, um offline zu lesen
言語処理学会へ
遊びに行ったよ!
~不自然言語処理へのお誘い~
自己紹介
●   金融機関で金融工学の研究員
●   大学院でテキストマイニングを学ぶ
●   言語処理を用いてコミュニケーションの活性化を図
    りたい!
●   toilet_lunch, todesking達とすき焼きしてたら、い
    つの間にかテキストマイニング勉強会発足してた




                                          2
本発表の目的
1.学会で得た最新の情報の中で、実務に使えそうな
  内容・レベルのものを紹介
 •   新しいサービス提案の切っ掛けに
 •   実践のプロセスを学ぶ
2.不自然言語処理へのお誘い




                           3
学会へ遊びに行こう!
●   専門の学生か、GとかYとかIとか、ごく一部の企業
    に所属していないと、最新技術動向は掴めない
●   学会に行けば、最新の情報がわんさか手に入る!
●
    すごい人達と知り合いになって、仕事して貰ったり
    仕事貰ったりする!
●   自分の疑問点や手法について議論できる!
●   学会参加費はそんなに高くないよ!
●   そうは言っても中々敷居が高く感じられるので、ま
    ずはテキストマイニングマスター達のブログで
    キャッチアップしよう
                           4
必ずチェックすべき10のブログ
1. コーパスいぢり(langstat)
2. あらびき日記(a_bicky)
3. 睡眠不足?(sleepy_yoshi)
4.EchizenBlog-Zwei(echizen_tm)
5.Overlasting::Life(overlast)
6. おとうさんの解析日記(isseing333)
7. はやしのブログ(phosphor_m)
8.nokunoの日記(nokuno)
9. ぬいぐるみライフ(仮)(mickey24)
10.Mi manca qualche giovedi`(shuyo)
                                      5
発表論文目次
1.Webからの飲食店舗の評判情報抽出
2.Wikipediaのカテゴリ階層を利用したTwitterユーザのカテ
  ゴライズ
3. 大規模Web情報分析のための分析対象ページの段階的
   選択
4. マイクロブログの分析に基づくユーザの嗜好とタイミングを
   考慮した情報推薦手法の提案
5. 不自然言語処理コンテスト第一回開催報告
6. 文頭固定法による効率的な回文生成
7. 顔文字情報と分の評価表現の関連性についての一考察
                                       6
Webからの飲食店舗の評判情報抽出
                高尾美代子他

●   目的
    ●
        適当にブログ等をクロールしても評判情報を得難い
    ●   効率的な評判情報抽出の手法を提案しよう!




                                  7
既存の評判情報抽出とその問題点
●   手順
    1. 店舗名を含むテキストを取得する
    2. テキストから評価部分を抽出
    3. 抽出した評価情報から店舗の評判を得る
●   問題点
    ●
        評価部分を抽出することが難しい
    ●
        全テキスト参照すると評価と関係無いノイズが増える
    ●
        逆に抽出部分が狭すぎると、評価を得られない
●
    上手く評価部分のテキストだけ抽出したい!
                                   8
本稿の提案
●   評判情報を得やすいページとそうでないページに
    分類することで、より良い評判情報抽出が可能に
    なる
●   評判情報を得やすいページに分析対象を絞ろう
●   テキストのどの部分を参照すれば、評判情報を得
    やすいのかを調べよう




                             9
実験の手法と手順
1.共起表現抽出範囲, 素性選択をパラメタとする
2.各パラメタごとに、対象ページが評判情報を含むか
  否かを判定した分類精度を出す
 ●   Yahoo!検索APIを用い、評判情報を含む/含まないペー
     ジ100件ずつ用意
 ●   分析ツール:SVMLight
3.各パラメタの抽出結果を比較し、最適な組合わせ
  を得る


                                 10
効果的な共起表現抽出範囲
●
    なぜ評判分析で共起表現を抽出するか
    ●   評価を表す単語は店舗名の周辺に集中しているから
●   抽出範囲18パターン
    ●   店舗名の前方/後方/前後の3パターン
    ●   2~7単語の6パターン
●   結果
    ●   平均精度:後方83.3%, 前後60%, 前方57%
    ●   評価は店舗名の後方に集中する
    ●   共起語数は4~6単語が最適
    ●   3以下は評判情報を含み難く、7以上はノイズが多い     11
効果的な素性パターン
●   品詞パターン
     1. 動詞+形容詞
     2. 動詞+助動詞
     3. 形容詞+助動詞
     4. 形容詞+助詞+動詞
     5. 名詞+助詞+形容詞
     6. 名詞+助詞+動詞
     7. 形態素nグラム
     8. 単語nグラム
●
    結果は店舗によってまちまち
●   平均して7, 8の精度が比較的高い
                        12
まとめ
●   評判分析をするには、適切な評価情報を含んだ
    ページの取得が必要
●   評価は店舗名の後方4~6単語に集中する
●
    評判分析をする際、本研究を参考にして評価情報
    を取得してみよう!




                            13
Wikipediaのカテゴリ階層を利用した
   Twitterユーザのカテゴライズ
             放地宏佳他
背景
●   Twitterのカテゴリは8種類と少なすぎる
●   情報抽出する際、適切なカテゴライズは有用




                             14
提案手法
●   前提
    ●   Wikipediaのカテゴライズを使おう
    ●   適切なカテゴライズは日々のメンテナンスが必要であ
        り、高コスト。Wikipediaのカテゴライズを流用して自動
        化出来れば非常に有用である

●
    手順
    ●   ツイートから各ユーザの特徴語抽出
    ●   Wikipediaから特徴カテゴリ抽出

                                         15
特徴語とは
●   ユーザが用いる頻度高い単語≠ユーザの特徴語
●   頻度の高い単語は皆も使っているモノが多い
●   特徴語とは、比較的他と比べてそのユーザだけが
    用いる頻度高い単語




                         16
特徴語抽出
1.各ツイートの正規化(@username, RT・QT文,
  URL, ハッシュタグの除去)
2.Wikipediaの記事名と一致する語を抽出し、出現回
  数とする
3.2で得られた語をツイートに含むユーザ総数を出現
  頻度とする
4.出現回数>2, 1/出現頻度>0.5%を満たす語を特徴
  語とする


                                 17
特徴カテゴリ集合抽出
●   各特徴語の最上位カテゴリまでのパス集合を取得
●   全特徴語のパス集合から共通カテゴリを取得
●   共通カテゴリを割り当てられたユーザの総数を出
    現頻度とする
●   最上位カテゴリから共通カテゴリまでの距離をパス
    の大きさとする
●   パスの大きさ/同一共通カテゴリの数>2, 1/出現頻
    度>0.005を満たす共通カテゴリを特徴カテゴリとす
    る

                             18
パス集合
特徴語がネコとハムスターの場合の共通カテゴリ




                     19
評価実験
●   ランダムに選択した20ユーザ、各ユーザの最大発
    言数2000とする
●   特徴カテゴリがそのユーザのカテゴリとして適切か
    人手で判断
●   実験結果




                          20
結果の考察
●   「スポーツ」「コンピュータ」などは直感的なツイート
    が多くわかりやすい
●   「物理」「心理学」など専門用語が日常用語と被る
    カテゴリは判別しづらい
    ●
        「反射」「振動」を多用する人は音響の人かも?
●   reply, RT, 実況は特徴が掴みづらい




                                 21
まとめ
●   カテゴライズを行う場合、replyやRT、実況などのツ
    イートを削除する必要が有る
●   専門用語と日常用語を切り分ける手法が必要
●
    自動化が適用できるカテゴリとそうでないカテゴリ
    の選別が必要




                              22
大規模Web情報分析のための
        分析対象ページの段階的選択
                 赤峯享他
●   目的と背景
    ●
        情報分析の処理は重いため、処理をかける前に不要な
        ページを対象から外したい
    ●   Webには低品質のページが多い
    ●   通常の検索では検索結果上位の高品質なページしか
        見ないためあまり意識されないが、クローラを回すとゴ
        ミばかり集めてしまう




                                23
選択の方針:質の高いページとは
●   テキスト情報が豊富なページ
    ●
        人気のあるページ≠テキスト情報が豊富なページ
    ●   絵画・動画サイトではテキスト情報少ない
    ●   ページランクの高いページとテキストマイニングにテキ
        するページは異なる
●   多様な発信者/サイトを含むページ集合




                                    24
ページの選択
●   フィルタリングでスパム、ミラーページを対象から除
    外
●   ページランクや高品質ページに出やすい特定単語
    の出現頻度などの属性を用いた重み付きサンプリ
    ング
●   サイト単位でページの品質を考える。同一サイトの
    ページの品質は似ているため、低品質なページを
    含むサイトを丸ごと対象から除外



                           25
ページ選択に利用する属性




               26
まとめ
●   Webから収集した10億ページを、先程のフィルタリ
    ングなどにかけて1億ページまで分析対象を絞るこ
    とに成功した
●   ランダムサンプリングしたものより分析精度は高い




                            27
マイクロブログの分析に基づく
    ユーザの嗜好とタイミングを考慮した
       情報推薦手法の提案
                  向井 友宏他

●
    目的
    ●   twitterのリアルタイム性を利用し、ユーザに最適なタイ
        ミングで情報推薦を行いたい




                                        28
提案手法
●   各ユーザのRTの名詞からユーザのプロファイルを
    作成する
●   プロファイルを用いてクラスタリングを行う
    ●   Wikipediaのカテゴリ情報を利用し、類似した嗜好の
        ユーザをクラスタリングする
    ●   {サッカー|フットサル}文字列は違うが嗜好は似ている
●   最適なタイミング発見のため、バーストを用いる



                                       29
バーストとは
●   時系列における投稿数の急激な変化
●   バースト判定値Bの評価式




                       30
評価実験準備
●   2010年度日本シリーズのロッテファン524人20万
    以上のツイートを収集。11/7分を訓練に利用
●   極性評価の準備
    ●
        極性評価用の手がかり語を人手で収集
    ●   P:ポジティブ語数、N:ネガティブ語数とする
    ●   ポジティブバースト:P/(P+N) > 0.7
    ●   ネガティブバースト:N/(P+N) > 0.7



                                  31
バーストの検出
●   ヒューリスティックに以下のパラメタを利用
    ●   X=3, Y=30
    ●   閾値α=0.2
●   バースト区間
    ●   判定値Bがαを超え、再びαを下回るまでの区間




                                 32
商品とユーザとのマッチング
●   楽天商品データ1000件の各商品説明から特徴語
    を抽出
●   各商品の特徴語とユーザカテゴリをマッチング
    ●
        スポーツクラスタにはサッカー商品を薦めるなど




                                 33
まとめ
●   最適な商品を推薦するだけではなく、バーストを利
    用して、最適な推薦のタイミングまで考えよう!
●   結果は正直かなり悪かった
    ●   RT数が少なくて学習が不十分
    ●
        カテゴリに即した商品がないことも
    ●
        噺・落語クラスタに何薦めればいいの?
    ●   Wikipediaのカテゴリと楽天のカテゴリのミスマッチ




                                       34
総評・雑感
●   Wikipediaを利用してコーパス作成、カテゴライズ
    するのが流行している
●   twitter特有のソーシャル性、即時性を使おう
●   これらは各データに階層構造やタグなど、高品質
    なメタデータが人手で付与されている
●   しかし、実際の利用は困難っぽい。BOWは無理。
    ゼロ照応解析、共参照解析、談話解析等が必要
●   FOBOSやpLSAを学部生が使ってる…

                                  35
不自然言語処理とは
●   そもそも「自然言語処理」の言う自然とは?
●   「MeCabで分析できる言語=自然言語」
●   そんなもの自然言語じゃない!
●   実際の言語は誤字、脱字、略字、隠語、顔文字、
    絵文字、AA、数式・化学式、等々が溢れている!
●   従来のテキストマイニングでは、顔文字などはゴミ
    として除去していた
●
    顔文字にこそ書き手の思いが宿っているのでは?
●   顔文字等を有効活用するのが次世代マイニング
                              36
不自然言語処理コンテスト
●   baiduの「不自然言語」専門の言語処理コンテスト
●   なぜか発生するスイカ割り
●   参加してLT賞頂きました
●
    コンテスト受賞作と言語処理学会の不自然言語
    セッションで発表された論文を紹介します
●   不自然言語処理を楽しもう!




                                37
Soramegraph
●   概要
    ●   Twitter上で,「○○を××に空目した」というような,類似
        した単語を「空目」したことをつぶやくことがある.この関
        係をグラフ化して可視化するツール

●
    制作動機
    ●
        空目し易い紛らわしい単語を把握し,誤解を避けたり,
        あえて誤解を狙ったコミュニケーションを補助する.ま
        た,Tweet を可視化することにより,自分と感性の近い
        人を発見することもできる

                                      38
デモ
●   http://aaatxt-gae.appspot.com/soramegraph




                                                39
誤字ェネレータ
●
    概要
    ●   文字列を入力すると,その一部が「誤字」すなわち類似
        した文字に置き換わるウェブアプリケーション

●   制作動機
    ●
        誤字によって意味が喪失するさまを視覚化する




                                40
デモ
●   http://goji.polog.org/




                                  41
感情のこもった返答テンプレ生成君
●   概要
    ●   返信先のメッセージと自分のそっけないメッセージを入
        力とすると,そっけなくないメッセージのテンプレを生成
        してくれるツール

●   製作動機
    ●   テンションの高いメールを返すのが面倒である.




                                     42
デモ
●   http://tokuota.ddo.jp/extext/




                                    43
ケンリブッジ大学
●   概要
    ●
        入力文字列を,人間には読めるが,検索エンジンには
        認識しづらい「ケンブッリジ大学難読化」画像に変換す
        る.

●   作成動機
    ●
        検索エンジン等に拾われたくない文章をブログや掲示
        板に投稿するため.



                                    44
ケンブリッジ大学コピペ
こんちにはみさなんおんげきですか? わしたはげんきです.
このぶんょしうはいりぎすのケブンッリジだがいくの
けゅきんうのけっかにんんげはもじをにしんきするとき
そのさしいょとさいごのもさじえあいてっれば
じばんゅんはめくちちゃゃでもちんゃとよめるというけゅきんう
にもづいとてわざともじのじんばゅんをいかれえてあまりす.
どでうす? ちんゃとよゃちめうでしょ?




                            45
文頭固定法による効率的な回文生成
            鈴木啓輔他

●   回文候補生成法:折り返し固定法と文頭固定法




                            46
速度比較実験とその考察
       文節数   折り返し固定法      文頭固定法
        3      21:41        0:42
        4    198日 20:34   17日 14:10


●
    シード文節から出現する初期状態数が少ない
●   不足文字列の短い初期状態が出現しにくい
●   回文を使って面白いキャッチコピーを作ろう!



                                      47
顔文字情報と文の評価表現の
    関連性についての一考察
                村上浩司他

1.顔文字は周辺言語的要素を持つ
2.顔文字単体の極性だけではなく、文脈把握が大切
3.(^^;), (; ;)などは回答者によって快・不快バラバラ
4.極性が異なるのに同じ顔文字が使われる事も
5.クラス分類ではなく、複数の感情軸を併せ持つ
6.自身は意味を持たず、強調、緩衝材としての顔文
  字利用
   –   飲み会来るなよ~(^^)←冗談だと示している

                                48
もっと不自然言語で遊ぼう!
●   どんなとき不自然言語を使う?
    ●
        仲の良い人同士だと砕けた表現や隠語使いやすい
    ●   他の人より頻繁に不自然言語を用いて会話する相手=
        仲が良いのでは?ソーシャルネットワーク抽出出来る
    ●   不自然言語の利用度合いが親密さを表すかも
●   顔文字は非言語的な情報まで伝達出来るかも
●
    誤字・脱字から精神状態などを読み取れるかも
●   誤った語の使い方から年齢等が推定できるかも
●   やってみよう!!!
                               49
終わりに:学会での関根先生の言葉
           (楽天&ニューヨーク大学)

●   不自然言語処理こそ真の自然言語処理であり、超
    自然言語処理と改名すべき!
●   10年前の技術が今も楽天で有効活用されてる、学
    会で盛り上がったネタなんて使われない。TF-IDF
    とかまだまだ現役。いかに高度な技術使うかより、
    いかにノイズを削減するかの工夫が必要
●   すごい研究をしようとするのではなく,事業に役に
    立つ研究をしよう


                            50

Weitere ähnliche Inhalte

Was ist angesagt?

猫でも分かる3人称視点VRコンテンツ
猫でも分かる3人称視点VRコンテンツ猫でも分かる3人称視点VRコンテンツ
猫でも分かる3人称視点VRコンテンツpafuhana 1213
 
カメラ位置姿勢とビュー行列
カメラ位置姿勢とビュー行列カメラ位置姿勢とビュー行列
カメラ位置姿勢とビュー行列Shohei Mori
 
ディープラーニングの最新動向
ディープラーニングの最新動向ディープラーニングの最新動向
ディープラーニングの最新動向Preferred Networks
 
Multi-agent actor-critic for mixed cooperative-competitive environmentsの紹介
Multi-agent actor-critic for mixed cooperative-competitive environmentsの紹介Multi-agent actor-critic for mixed cooperative-competitive environmentsの紹介
Multi-agent actor-critic for mixed cooperative-competitive environmentsの紹介Yusuke Nakata
 
いまさら聞けない!CUDA高速化入門
いまさら聞けない!CUDA高速化入門いまさら聞けない!CUDA高速化入門
いまさら聞けない!CUDA高速化入門Fixstars Corporation
 
【Unity道場スペシャル 2017大阪】クォータニオン完全マスター
【Unity道場スペシャル 2017大阪】クォータニオン完全マスター【Unity道場スペシャル 2017大阪】クォータニオン完全マスター
【Unity道場スペシャル 2017大阪】クォータニオン完全マスターUnity Technologies Japan K.K.
 
Kashiwa.R#1 画像解析とパターン認識における R の利用
Kashiwa.R#1 画像解析とパターン認識における R の利用Kashiwa.R#1 画像解析とパターン認識における R の利用
Kashiwa.R#1 画像解析とパターン認識における R の利用nmaro
 
Stand alone self attention in vision models
Stand alone self attention in vision modelsStand alone self attention in vision models
Stand alone self attention in vision modelsharmonylab
 
なぜなにリアルタイムレンダリング
なぜなにリアルタイムレンダリングなぜなにリアルタイムレンダリング
なぜなにリアルタイムレンダリングSatoshi Kodaira
 
コールバックと戦う話
コールバックと戦う話コールバックと戦う話
コールバックと戦う話torisoup
 
生成系ニューラルネットワークまとめ Summary of Generative Neural Network
生成系ニューラルネットワークまとめ Summary of  Generative Neural Network生成系ニューラルネットワークまとめ Summary of  Generative Neural Network
生成系ニューラルネットワークまとめ Summary of Generative Neural NetworkYouichiro Miyake
 
Mediation in R's lavaan package
Mediation in R's lavaan packageMediation in R's lavaan package
Mediation in R's lavaan packageGeorge Mount
 
カード収集ゲームにおけるPlayFabの使い方
カード収集ゲームにおけるPlayFabの使い方カード収集ゲームにおけるPlayFabの使い方
カード収集ゲームにおけるPlayFabの使い方Daisuke Masubuchi
 
AlphaGo の論文を読んで (MIJS 分科会資料 2016/11/08)
AlphaGo の論文を読んで (MIJS 分科会資料 2016/11/08)AlphaGo の論文を読んで (MIJS 分科会資料 2016/11/08)
AlphaGo の論文を読んで (MIJS 分科会資料 2016/11/08)Akihiro HATANAKA
 
SSII2020 [O3-01] Extreme 3D センシング
SSII2020 [O3-01]  Extreme 3D センシングSSII2020 [O3-01]  Extreme 3D センシング
SSII2020 [O3-01] Extreme 3D センシングSSII
 
質的変数の相関・因子分析
質的変数の相関・因子分析質的変数の相関・因子分析
質的変数の相関・因子分析Mitsuo Shimohata
 
Unityではじめるオープンワールド制作 エンジニア編
Unityではじめるオープンワールド制作 エンジニア編Unityではじめるオープンワールド制作 エンジニア編
Unityではじめるオープンワールド制作 エンジニア編Unity Technologies Japan K.K.
 
[DL輪読会]Stereo Magnification: Learning view synthesis using multiplane images, +α
[DL輪読会]Stereo Magnification: Learning view synthesis using multiplane images, +α[DL輪読会]Stereo Magnification: Learning view synthesis using multiplane images, +α
[DL輪読会]Stereo Magnification: Learning view synthesis using multiplane images, +αDeep Learning JP
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜Jun Okumura
 

Was ist angesagt? (20)

猫でも分かる3人称視点VRコンテンツ
猫でも分かる3人称視点VRコンテンツ猫でも分かる3人称視点VRコンテンツ
猫でも分かる3人称視点VRコンテンツ
 
カメラ位置姿勢とビュー行列
カメラ位置姿勢とビュー行列カメラ位置姿勢とビュー行列
カメラ位置姿勢とビュー行列
 
ディープラーニングの最新動向
ディープラーニングの最新動向ディープラーニングの最新動向
ディープラーニングの最新動向
 
Multi-agent actor-critic for mixed cooperative-competitive environmentsの紹介
Multi-agent actor-critic for mixed cooperative-competitive environmentsの紹介Multi-agent actor-critic for mixed cooperative-competitive environmentsの紹介
Multi-agent actor-critic for mixed cooperative-competitive environmentsの紹介
 
いまさら聞けない!CUDA高速化入門
いまさら聞けない!CUDA高速化入門いまさら聞けない!CUDA高速化入門
いまさら聞けない!CUDA高速化入門
 
【Unity道場スペシャル 2017大阪】クォータニオン完全マスター
【Unity道場スペシャル 2017大阪】クォータニオン完全マスター【Unity道場スペシャル 2017大阪】クォータニオン完全マスター
【Unity道場スペシャル 2017大阪】クォータニオン完全マスター
 
Kashiwa.R#1 画像解析とパターン認識における R の利用
Kashiwa.R#1 画像解析とパターン認識における R の利用Kashiwa.R#1 画像解析とパターン認識における R の利用
Kashiwa.R#1 画像解析とパターン認識における R の利用
 
Stand alone self attention in vision models
Stand alone self attention in vision modelsStand alone self attention in vision models
Stand alone self attention in vision models
 
なぜなにリアルタイムレンダリング
なぜなにリアルタイムレンダリングなぜなにリアルタイムレンダリング
なぜなにリアルタイムレンダリング
 
コールバックと戦う話
コールバックと戦う話コールバックと戦う話
コールバックと戦う話
 
生成系ニューラルネットワークまとめ Summary of Generative Neural Network
生成系ニューラルネットワークまとめ Summary of  Generative Neural Network生成系ニューラルネットワークまとめ Summary of  Generative Neural Network
生成系ニューラルネットワークまとめ Summary of Generative Neural Network
 
Voxelizaition with GPU
Voxelizaition with GPUVoxelizaition with GPU
Voxelizaition with GPU
 
Mediation in R's lavaan package
Mediation in R's lavaan packageMediation in R's lavaan package
Mediation in R's lavaan package
 
カード収集ゲームにおけるPlayFabの使い方
カード収集ゲームにおけるPlayFabの使い方カード収集ゲームにおけるPlayFabの使い方
カード収集ゲームにおけるPlayFabの使い方
 
AlphaGo の論文を読んで (MIJS 分科会資料 2016/11/08)
AlphaGo の論文を読んで (MIJS 分科会資料 2016/11/08)AlphaGo の論文を読んで (MIJS 分科会資料 2016/11/08)
AlphaGo の論文を読んで (MIJS 分科会資料 2016/11/08)
 
SSII2020 [O3-01] Extreme 3D センシング
SSII2020 [O3-01]  Extreme 3D センシングSSII2020 [O3-01]  Extreme 3D センシング
SSII2020 [O3-01] Extreme 3D センシング
 
質的変数の相関・因子分析
質的変数の相関・因子分析質的変数の相関・因子分析
質的変数の相関・因子分析
 
Unityではじめるオープンワールド制作 エンジニア編
Unityではじめるオープンワールド制作 エンジニア編Unityではじめるオープンワールド制作 エンジニア編
Unityではじめるオープンワールド制作 エンジニア編
 
[DL輪読会]Stereo Magnification: Learning view synthesis using multiplane images, +α
[DL輪読会]Stereo Magnification: Learning view synthesis using multiplane images, +α[DL輪読会]Stereo Magnification: Learning view synthesis using multiplane images, +α
[DL輪読会]Stereo Magnification: Learning view synthesis using multiplane images, +α
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 

Andere mochten auch

テキストマイニングのイメージと実際
テキストマイニングのイメージと実際テキストマイニングのイメージと実際
テキストマイニングのイメージと実際antibayesian 俺がS式だ
 
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションantibayesian 俺がS式だ
 
データ・テキストマイニング
データ・テキストマイニングデータ・テキストマイニング
データ・テキストマイニングHiroshi Ono
 
20130916第3回テキストマイニングシンポジウム資料(浅野)
20130916第3回テキストマイニングシンポジウム資料(浅野)20130916第3回テキストマイニングシンポジウム資料(浅野)
20130916第3回テキストマイニングシンポジウム資料(浅野)Hirosuke Asano
 
書籍『シグナル&ノイズ』解説
書籍『シグナル&ノイズ』解説書籍『シグナル&ノイズ』解説
書籍『シグナル&ノイズ』解説Hirosuke Asano
 
Open Source Data Mining - Data Mining Cup 2007
Open Source Data Mining - Data Mining Cup 2007Open Source Data Mining - Data Mining Cup 2007
Open Source Data Mining - Data Mining Cup 2007Christian Schieder
 
素人がTF-IDFでキーワード抽出をやってみた
素人がTF-IDFでキーワード抽出をやってみた素人がTF-IDFでキーワード抽出をやってみた
素人がTF-IDFでキーワード抽出をやってみたsmzkng
 
感情分析で株価を予測して おこづかい稼ぎ 日経版
感情分析で株価を予測して おこづかい稼ぎ 日経版感情分析で株価を予測して おこづかい稼ぎ 日経版
感情分析で株価を予測して おこづかい稼ぎ 日経版saito_hirokazu
 
Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127kan_yukiko
 
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析Shintaro Takemura
 
推薦システムになにができるのか - Techcompass
推薦システムになにができるのか - Techcompass推薦システムになにができるのか - Techcompass
推薦システムになにができるのか - TechcompassYoshifumi Seki
 
勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング
勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング
勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニングMasahiro Yamaguchi
 
RでTwitterテキストマイニング
RでTwitterテキストマイニングRでTwitterテキストマイニング
RでTwitterテキストマイニングYudai Shinbo
 
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』The Japan DataScientist Society
 
RではじめるTwitter解析
RではじめるTwitter解析RではじめるTwitter解析
RではじめるTwitter解析Takeshi Arabiki
 

Andere mochten auch (20)

テキストマイニングのイメージと実際
テキストマイニングのイメージと実際テキストマイニングのイメージと実際
テキストマイニングのイメージと実際
 
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
 
SPSSで簡単テキストマイニング
SPSSで簡単テキストマイニングSPSSで簡単テキストマイニング
SPSSで簡単テキストマイニング
 
ガチャとは心の所作
ガチャとは心の所作ガチャとは心の所作
ガチャとは心の所作
 
データ・テキストマイニング
データ・テキストマイニングデータ・テキストマイニング
データ・テキストマイニング
 
20130916第3回テキストマイニングシンポジウム資料(浅野)
20130916第3回テキストマイニングシンポジウム資料(浅野)20130916第3回テキストマイニングシンポジウム資料(浅野)
20130916第3回テキストマイニングシンポジウム資料(浅野)
 
書籍『シグナル&ノイズ』解説
書籍『シグナル&ノイズ』解説書籍『シグナル&ノイズ』解説
書籍『シグナル&ノイズ』解説
 
Open Source Data Mining - Data Mining Cup 2007
Open Source Data Mining - Data Mining Cup 2007Open Source Data Mining - Data Mining Cup 2007
Open Source Data Mining - Data Mining Cup 2007
 
素人がTF-IDFでキーワード抽出をやってみた
素人がTF-IDFでキーワード抽出をやってみた素人がTF-IDFでキーワード抽出をやってみた
素人がTF-IDFでキーワード抽出をやってみた
 
神の言語による自然言語処理
神の言語による自然言語処理神の言語による自然言語処理
神の言語による自然言語処理
 
感情分析で株価を予測して おこづかい稼ぎ 日経版
感情分析で株価を予測して おこづかい稼ぎ 日経版感情分析で株価を予測して おこづかい稼ぎ 日経版
感情分析で株価を予測して おこづかい稼ぎ 日経版
 
Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127
 
チームラボ忘年会
チームラボ忘年会チームラボ忘年会
チームラボ忘年会
 
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
 
推薦システムになにができるのか - Techcompass
推薦システムになにができるのか - Techcompass推薦システムになにができるのか - Techcompass
推薦システムになにができるのか - Techcompass
 
勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング
勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング
勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング
 
全文検索入門
全文検索入門全文検索入門
全文検索入門
 
RでTwitterテキストマイニング
RでTwitterテキストマイニングRでTwitterテキストマイニング
RでTwitterテキストマイニング
 
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
 
RではじめるTwitter解析
RではじめるTwitter解析RではじめるTwitter解析
RではじめるTwitter解析
 

Ähnlich wie 言語処理学会へ遊びに行ったよ

Twitter User Recommendation
Twitter User RecommendationTwitter User Recommendation
Twitter User RecommendationTakuto Kimura
 
ギズモード・ジャパンのつくり方
ギズモード・ジャパンのつくり方ギズモード・ジャパンのつくり方
ギズモード・ジャパンのつくり方Six Apart KK
 
セルフブランディングのためのブログ記事の書き方
セルフブランディングのためのブログ記事の書き方セルフブランディングのためのブログ記事の書き方
セルフブランディングのためのブログ記事の書き方Shoe-g Ueyama
 
MAごころを、君に - GA4勉強会 #6 GA4の探索を
MAごころを、君に - GA4勉強会 #6 GA4の探索をMAごころを、君に - GA4勉強会 #6 GA4の探索を
MAごころを、君に - GA4勉強会 #6 GA4の探索をWebpla LLC.
 
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」Shuji Morisaki
 
110613 ブームリサーチご案内資料
110613 ブームリサーチご案内資料110613 ブームリサーチご案内資料
110613 ブームリサーチご案内資料Kohei Yoneda
 
110613 ブームリサーチご案内資料
110613 ブームリサーチご案内資料110613 ブームリサーチご案内資料
110613 ブームリサーチご案内資料Kohei Yoneda
 
アイデアを塩漬けにしない-世界中の人に手伝ってもらう方法-
アイデアを塩漬けにしない-世界中の人に手伝ってもらう方法-アイデアを塩漬けにしない-世界中の人に手伝ってもらう方法-
アイデアを塩漬けにしない-世界中の人に手伝ってもらう方法-nishio
 
WWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and MiningWWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and Miningcyberagent
 
The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)
The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)
The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)Kosetsu Tsukuda
 
サイトサーチアナリティクスとは
サイトサーチアナリティクスとはサイトサーチアナリティクスとは
サイトサーチアナリティクスとはMakoto Shimizu
 
サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27Kensuke Mitsuzawa
 
「いいコード」をみんなで書こう!
「いいコード」をみんなで書こう!「いいコード」をみんなで書こう!
「いいコード」をみんなで書こう!tq_ed
 
早めに知っておきたかったドキュメント執筆のあれこれ
早めに知っておきたかったドキュメント執筆のあれこれ早めに知っておきたかったドキュメント執筆のあれこれ
早めに知っておきたかったドキュメント執筆のあれこれm_seko
 
リレーショナルデータベースとの上手な付き合い方 long version
リレーショナルデータベースとの上手な付き合い方 long version リレーショナルデータベースとの上手な付き合い方 long version
リレーショナルデータベースとの上手な付き合い方 long version Mikiya Okuno
 
ニューノーマルな働き方!?Teams投稿をセンチメント分析!
ニューノーマルな働き方!?Teams投稿をセンチメント分析!ニューノーマルな働き方!?Teams投稿をセンチメント分析!
ニューノーマルな働き方!?Teams投稿をセンチメント分析!Tsukasa Kato
 
プロトタイプとワークフロー Prototype and Workflow
プロトタイプとワークフロー Prototype and Workflowプロトタイプとワークフロー Prototype and Workflow
プロトタイプとワークフロー Prototype and Workflowatmarkit
 

Ähnlich wie 言語処理学会へ遊びに行ったよ (20)

Twitter User Recommendation
Twitter User RecommendationTwitter User Recommendation
Twitter User Recommendation
 
ギズモード・ジャパンのつくり方
ギズモード・ジャパンのつくり方ギズモード・ジャパンのつくり方
ギズモード・ジャパンのつくり方
 
セルフブランディングのためのブログ記事の書き方
セルフブランディングのためのブログ記事の書き方セルフブランディングのためのブログ記事の書き方
セルフブランディングのためのブログ記事の書き方
 
MAごころを、君に - GA4勉強会 #6 GA4の探索を
MAごころを、君に - GA4勉強会 #6 GA4の探索をMAごころを、君に - GA4勉強会 #6 GA4の探索を
MAごころを、君に - GA4勉強会 #6 GA4の探索を
 
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
 
110613 ブームリサーチご案内資料
110613 ブームリサーチご案内資料110613 ブームリサーチご案内資料
110613 ブームリサーチご案内資料
 
110613 ブームリサーチご案内資料
110613 ブームリサーチご案内資料110613 ブームリサーチご案内資料
110613 ブームリサーチご案内資料
 
アイデアを塩漬けにしない-世界中の人に手伝ってもらう方法-
アイデアを塩漬けにしない-世界中の人に手伝ってもらう方法-アイデアを塩漬けにしない-世界中の人に手伝ってもらう方法-
アイデアを塩漬けにしない-世界中の人に手伝ってもらう方法-
 
WWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and MiningWWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and Mining
 
The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)
The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)
The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)
 
サイトサーチアナリティクスとは
サイトサーチアナリティクスとはサイトサーチアナリティクスとは
サイトサーチアナリティクスとは
 
Webdirection
WebdirectionWebdirection
Webdirection
 
UX流Web解析
UX流Web解析UX流Web解析
UX流Web解析
 
サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27
 
最終報告会
最終報告会最終報告会
最終報告会
 
「いいコード」をみんなで書こう!
「いいコード」をみんなで書こう!「いいコード」をみんなで書こう!
「いいコード」をみんなで書こう!
 
早めに知っておきたかったドキュメント執筆のあれこれ
早めに知っておきたかったドキュメント執筆のあれこれ早めに知っておきたかったドキュメント執筆のあれこれ
早めに知っておきたかったドキュメント執筆のあれこれ
 
リレーショナルデータベースとの上手な付き合い方 long version
リレーショナルデータベースとの上手な付き合い方 long version リレーショナルデータベースとの上手な付き合い方 long version
リレーショナルデータベースとの上手な付き合い方 long version
 
ニューノーマルな働き方!?Teams投稿をセンチメント分析!
ニューノーマルな働き方!?Teams投稿をセンチメント分析!ニューノーマルな働き方!?Teams投稿をセンチメント分析!
ニューノーマルな働き方!?Teams投稿をセンチメント分析!
 
プロトタイプとワークフロー Prototype and Workflow
プロトタイプとワークフロー Prototype and Workflowプロトタイプとワークフロー Prototype and Workflow
プロトタイプとワークフロー Prototype and Workflow
 

Kürzlich hochgeladen

TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 

Kürzlich hochgeladen (9)

TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 

言語処理学会へ遊びに行ったよ

  • 2. 自己紹介 ● 金融機関で金融工学の研究員 ● 大学院でテキストマイニングを学ぶ ● 言語処理を用いてコミュニケーションの活性化を図 りたい! ● toilet_lunch, todesking達とすき焼きしてたら、い つの間にかテキストマイニング勉強会発足してた 2
  • 3. 本発表の目的 1.学会で得た最新の情報の中で、実務に使えそうな 内容・レベルのものを紹介 • 新しいサービス提案の切っ掛けに • 実践のプロセスを学ぶ 2.不自然言語処理へのお誘い 3
  • 4. 学会へ遊びに行こう! ● 専門の学生か、GとかYとかIとか、ごく一部の企業 に所属していないと、最新技術動向は掴めない ● 学会に行けば、最新の情報がわんさか手に入る! ● すごい人達と知り合いになって、仕事して貰ったり 仕事貰ったりする! ● 自分の疑問点や手法について議論できる! ● 学会参加費はそんなに高くないよ! ● そうは言っても中々敷居が高く感じられるので、ま ずはテキストマイニングマスター達のブログで キャッチアップしよう 4
  • 5. 必ずチェックすべき10のブログ 1. コーパスいぢり(langstat) 2. あらびき日記(a_bicky) 3. 睡眠不足?(sleepy_yoshi) 4.EchizenBlog-Zwei(echizen_tm) 5.Overlasting::Life(overlast) 6. おとうさんの解析日記(isseing333) 7. はやしのブログ(phosphor_m) 8.nokunoの日記(nokuno) 9. ぬいぐるみライフ(仮)(mickey24) 10.Mi manca qualche giovedi`(shuyo) 5
  • 6. 発表論文目次 1.Webからの飲食店舗の評判情報抽出 2.Wikipediaのカテゴリ階層を利用したTwitterユーザのカテ ゴライズ 3. 大規模Web情報分析のための分析対象ページの段階的 選択 4. マイクロブログの分析に基づくユーザの嗜好とタイミングを 考慮した情報推薦手法の提案 5. 不自然言語処理コンテスト第一回開催報告 6. 文頭固定法による効率的な回文生成 7. 顔文字情報と分の評価表現の関連性についての一考察 6
  • 7. Webからの飲食店舗の評判情報抽出 高尾美代子他 ● 目的 ● 適当にブログ等をクロールしても評判情報を得難い ● 効率的な評判情報抽出の手法を提案しよう! 7
  • 8. 既存の評判情報抽出とその問題点 ● 手順 1. 店舗名を含むテキストを取得する 2. テキストから評価部分を抽出 3. 抽出した評価情報から店舗の評判を得る ● 問題点 ● 評価部分を抽出することが難しい ● 全テキスト参照すると評価と関係無いノイズが増える ● 逆に抽出部分が狭すぎると、評価を得られない ● 上手く評価部分のテキストだけ抽出したい! 8
  • 9. 本稿の提案 ● 評判情報を得やすいページとそうでないページに 分類することで、より良い評判情報抽出が可能に なる ● 評判情報を得やすいページに分析対象を絞ろう ● テキストのどの部分を参照すれば、評判情報を得 やすいのかを調べよう 9
  • 10. 実験の手法と手順 1.共起表現抽出範囲, 素性選択をパラメタとする 2.各パラメタごとに、対象ページが評判情報を含むか 否かを判定した分類精度を出す ● Yahoo!検索APIを用い、評判情報を含む/含まないペー ジ100件ずつ用意 ● 分析ツール:SVMLight 3.各パラメタの抽出結果を比較し、最適な組合わせ を得る 10
  • 11. 効果的な共起表現抽出範囲 ● なぜ評判分析で共起表現を抽出するか ● 評価を表す単語は店舗名の周辺に集中しているから ● 抽出範囲18パターン ● 店舗名の前方/後方/前後の3パターン ● 2~7単語の6パターン ● 結果 ● 平均精度:後方83.3%, 前後60%, 前方57% ● 評価は店舗名の後方に集中する ● 共起語数は4~6単語が最適 ● 3以下は評判情報を含み難く、7以上はノイズが多い 11
  • 12. 効果的な素性パターン ● 品詞パターン 1. 動詞+形容詞 2. 動詞+助動詞 3. 形容詞+助動詞 4. 形容詞+助詞+動詞 5. 名詞+助詞+形容詞 6. 名詞+助詞+動詞 7. 形態素nグラム 8. 単語nグラム ● 結果は店舗によってまちまち ● 平均して7, 8の精度が比較的高い 12
  • 13. まとめ ● 評判分析をするには、適切な評価情報を含んだ ページの取得が必要 ● 評価は店舗名の後方4~6単語に集中する ● 評判分析をする際、本研究を参考にして評価情報 を取得してみよう! 13
  • 14. Wikipediaのカテゴリ階層を利用した Twitterユーザのカテゴライズ 放地宏佳他 背景 ● Twitterのカテゴリは8種類と少なすぎる ● 情報抽出する際、適切なカテゴライズは有用 14
  • 15. 提案手法 ● 前提 ● Wikipediaのカテゴライズを使おう ● 適切なカテゴライズは日々のメンテナンスが必要であ り、高コスト。Wikipediaのカテゴライズを流用して自動 化出来れば非常に有用である ● 手順 ● ツイートから各ユーザの特徴語抽出 ● Wikipediaから特徴カテゴリ抽出 15
  • 16. 特徴語とは ● ユーザが用いる頻度高い単語≠ユーザの特徴語 ● 頻度の高い単語は皆も使っているモノが多い ● 特徴語とは、比較的他と比べてそのユーザだけが 用いる頻度高い単語 16
  • 17. 特徴語抽出 1.各ツイートの正規化(@username, RT・QT文, URL, ハッシュタグの除去) 2.Wikipediaの記事名と一致する語を抽出し、出現回 数とする 3.2で得られた語をツイートに含むユーザ総数を出現 頻度とする 4.出現回数>2, 1/出現頻度>0.5%を満たす語を特徴 語とする 17
  • 18. 特徴カテゴリ集合抽出 ● 各特徴語の最上位カテゴリまでのパス集合を取得 ● 全特徴語のパス集合から共通カテゴリを取得 ● 共通カテゴリを割り当てられたユーザの総数を出 現頻度とする ● 最上位カテゴリから共通カテゴリまでの距離をパス の大きさとする ● パスの大きさ/同一共通カテゴリの数>2, 1/出現頻 度>0.005を満たす共通カテゴリを特徴カテゴリとす る 18
  • 20. 評価実験 ● ランダムに選択した20ユーザ、各ユーザの最大発 言数2000とする ● 特徴カテゴリがそのユーザのカテゴリとして適切か 人手で判断 ● 実験結果 20
  • 21. 結果の考察 ● 「スポーツ」「コンピュータ」などは直感的なツイート が多くわかりやすい ● 「物理」「心理学」など専門用語が日常用語と被る カテゴリは判別しづらい ● 「反射」「振動」を多用する人は音響の人かも? ● reply, RT, 実況は特徴が掴みづらい 21
  • 22. まとめ ● カテゴライズを行う場合、replyやRT、実況などのツ イートを削除する必要が有る ● 専門用語と日常用語を切り分ける手法が必要 ● 自動化が適用できるカテゴリとそうでないカテゴリ の選別が必要 22
  • 23. 大規模Web情報分析のための 分析対象ページの段階的選択 赤峯享他 ● 目的と背景 ● 情報分析の処理は重いため、処理をかける前に不要な ページを対象から外したい ● Webには低品質のページが多い ● 通常の検索では検索結果上位の高品質なページしか 見ないためあまり意識されないが、クローラを回すとゴ ミばかり集めてしまう 23
  • 24. 選択の方針:質の高いページとは ● テキスト情報が豊富なページ ● 人気のあるページ≠テキスト情報が豊富なページ ● 絵画・動画サイトではテキスト情報少ない ● ページランクの高いページとテキストマイニングにテキ するページは異なる ● 多様な発信者/サイトを含むページ集合 24
  • 25. ページの選択 ● フィルタリングでスパム、ミラーページを対象から除 外 ● ページランクや高品質ページに出やすい特定単語 の出現頻度などの属性を用いた重み付きサンプリ ング ● サイト単位でページの品質を考える。同一サイトの ページの品質は似ているため、低品質なページを 含むサイトを丸ごと対象から除外 25
  • 27. まとめ ● Webから収集した10億ページを、先程のフィルタリ ングなどにかけて1億ページまで分析対象を絞るこ とに成功した ● ランダムサンプリングしたものより分析精度は高い 27
  • 28. マイクロブログの分析に基づく ユーザの嗜好とタイミングを考慮した 情報推薦手法の提案 向井 友宏他 ● 目的 ● twitterのリアルタイム性を利用し、ユーザに最適なタイ ミングで情報推薦を行いたい 28
  • 29. 提案手法 ● 各ユーザのRTの名詞からユーザのプロファイルを 作成する ● プロファイルを用いてクラスタリングを行う ● Wikipediaのカテゴリ情報を利用し、類似した嗜好の ユーザをクラスタリングする ● {サッカー|フットサル}文字列は違うが嗜好は似ている ● 最適なタイミング発見のため、バーストを用いる 29
  • 30. バーストとは ● 時系列における投稿数の急激な変化 ● バースト判定値Bの評価式 30
  • 31. 評価実験準備 ● 2010年度日本シリーズのロッテファン524人20万 以上のツイートを収集。11/7分を訓練に利用 ● 極性評価の準備 ● 極性評価用の手がかり語を人手で収集 ● P:ポジティブ語数、N:ネガティブ語数とする ● ポジティブバースト:P/(P+N) > 0.7 ● ネガティブバースト:N/(P+N) > 0.7 31
  • 32. バーストの検出 ● ヒューリスティックに以下のパラメタを利用 ● X=3, Y=30 ● 閾値α=0.2 ● バースト区間 ● 判定値Bがαを超え、再びαを下回るまでの区間 32
  • 33. 商品とユーザとのマッチング ● 楽天商品データ1000件の各商品説明から特徴語 を抽出 ● 各商品の特徴語とユーザカテゴリをマッチング ● スポーツクラスタにはサッカー商品を薦めるなど 33
  • 34. まとめ ● 最適な商品を推薦するだけではなく、バーストを利 用して、最適な推薦のタイミングまで考えよう! ● 結果は正直かなり悪かった ● RT数が少なくて学習が不十分 ● カテゴリに即した商品がないことも ● 噺・落語クラスタに何薦めればいいの? ● Wikipediaのカテゴリと楽天のカテゴリのミスマッチ 34
  • 35. 総評・雑感 ● Wikipediaを利用してコーパス作成、カテゴライズ するのが流行している ● twitter特有のソーシャル性、即時性を使おう ● これらは各データに階層構造やタグなど、高品質 なメタデータが人手で付与されている ● しかし、実際の利用は困難っぽい。BOWは無理。 ゼロ照応解析、共参照解析、談話解析等が必要 ● FOBOSやpLSAを学部生が使ってる… 35
  • 36. 不自然言語処理とは ● そもそも「自然言語処理」の言う自然とは? ● 「MeCabで分析できる言語=自然言語」 ● そんなもの自然言語じゃない! ● 実際の言語は誤字、脱字、略字、隠語、顔文字、 絵文字、AA、数式・化学式、等々が溢れている! ● 従来のテキストマイニングでは、顔文字などはゴミ として除去していた ● 顔文字にこそ書き手の思いが宿っているのでは? ● 顔文字等を有効活用するのが次世代マイニング 36
  • 37. 不自然言語処理コンテスト ● baiduの「不自然言語」専門の言語処理コンテスト ● なぜか発生するスイカ割り ● 参加してLT賞頂きました ● コンテスト受賞作と言語処理学会の不自然言語 セッションで発表された論文を紹介します ● 不自然言語処理を楽しもう! 37
  • 38. Soramegraph ● 概要 ● Twitter上で,「○○を××に空目した」というような,類似 した単語を「空目」したことをつぶやくことがある.この関 係をグラフ化して可視化するツール ● 制作動機 ● 空目し易い紛らわしい単語を把握し,誤解を避けたり, あえて誤解を狙ったコミュニケーションを補助する.ま た,Tweet を可視化することにより,自分と感性の近い 人を発見することもできる 38
  • 39. デモ ● http://aaatxt-gae.appspot.com/soramegraph 39
  • 40. 誤字ェネレータ ● 概要 ● 文字列を入力すると,その一部が「誤字」すなわち類似 した文字に置き換わるウェブアプリケーション ● 制作動機 ● 誤字によって意味が喪失するさまを視覚化する 40
  • 41. デモ ● http://goji.polog.org/ 41
  • 42. 感情のこもった返答テンプレ生成君 ● 概要 ● 返信先のメッセージと自分のそっけないメッセージを入 力とすると,そっけなくないメッセージのテンプレを生成 してくれるツール ● 製作動機 ● テンションの高いメールを返すのが面倒である. 42
  • 43. デモ ● http://tokuota.ddo.jp/extext/ 43
  • 44. ケンリブッジ大学 ● 概要 ● 入力文字列を,人間には読めるが,検索エンジンには 認識しづらい「ケンブッリジ大学難読化」画像に変換す る. ● 作成動機 ● 検索エンジン等に拾われたくない文章をブログや掲示 板に投稿するため. 44
  • 46. 文頭固定法による効率的な回文生成 鈴木啓輔他 ● 回文候補生成法:折り返し固定法と文頭固定法 46
  • 47. 速度比較実験とその考察 文節数 折り返し固定法 文頭固定法 3 21:41 0:42 4 198日 20:34 17日 14:10 ● シード文節から出現する初期状態数が少ない ● 不足文字列の短い初期状態が出現しにくい ● 回文を使って面白いキャッチコピーを作ろう! 47
  • 48. 顔文字情報と文の評価表現の 関連性についての一考察 村上浩司他 1.顔文字は周辺言語的要素を持つ 2.顔文字単体の極性だけではなく、文脈把握が大切 3.(^^;), (; ;)などは回答者によって快・不快バラバラ 4.極性が異なるのに同じ顔文字が使われる事も 5.クラス分類ではなく、複数の感情軸を併せ持つ 6.自身は意味を持たず、強調、緩衝材としての顔文 字利用 – 飲み会来るなよ~(^^)←冗談だと示している 48
  • 49. もっと不自然言語で遊ぼう! ● どんなとき不自然言語を使う? ● 仲の良い人同士だと砕けた表現や隠語使いやすい ● 他の人より頻繁に不自然言語を用いて会話する相手= 仲が良いのでは?ソーシャルネットワーク抽出出来る ● 不自然言語の利用度合いが親密さを表すかも ● 顔文字は非言語的な情報まで伝達出来るかも ● 誤字・脱字から精神状態などを読み取れるかも ● 誤った語の使い方から年齢等が推定できるかも ● やってみよう!!! 49
  • 50. 終わりに:学会での関根先生の言葉 (楽天&ニューヨーク大学) ● 不自然言語処理こそ真の自然言語処理であり、超 自然言語処理と改名すべき! ● 10年前の技術が今も楽天で有効活用されてる、学 会で盛り上がったネタなんて使われない。TF-IDF とかまだまだ現役。いかに高度な技術使うかより、 いかにノイズを削減するかの工夫が必要 ● すごい研究をしようとするのではなく,事業に役に 立つ研究をしよう 50