SlideShare ist ein Scribd-Unternehmen logo
1 von 20
Downloaden Sie, um offline zu lesen
Customer Review Data
  at Rakuten Ichiba

 Rakuten Institute of Technology
           Rakuten, Inc.
    http://rit.rakuten.co.jp/rdr/index.html
                                              1
Rakuten Data Release




Open Innovation
Contribute to the academia by releasing data
Obtain new ideas from various point of views




                                               2
Rakuten Data Release

• Released in 2010
   –   Ichiba product data (about 50 million products)
   –   Travel facility data (11,468 facilities)
   –   Travel customer review data (350,000 reviews)
   –   Gora facility data (1,669 golf facilities)
   –   Gora customer review data (320,000 reviews)
• Released in 2011
   – Customer review data (16 million reviews)



           http://rit.rakuten.co.jp/rdr/index.html
                                                         3
Current Status

• Acquisition
   – Open to universities and public research organizations
   – Applied and acquired via NII and ALAGIN
       • Affiliation, position, research purpose are required




• Application and Publication
   – 62 applications from universities and public research
     organizations (October 11, 2011)
   – 14 papers has been written (April 19, 2011)
   – 10 poster presentation at Rakuten Data Challenge
     (the 3rd Rakuten R&D Symposium, 2010)


                                                                4
Customer Review at Rakuten Ichiba




                              Write Shop review




                             Write product review




                                                  5
Data Specification

• Collected period
   – Jan 2010 ~ Dec 2010
• Data Size
  # of reviews # of product page # of unique user # of shops   # of genres
  16,606,181       3,855,021       2,872,874       39,885       30,879

• Additional information
   – Can be obtained by Rakuten API
        •   http://webservice.rakuten.co.jp/api/
        •   Genre ID
        •   Product Ranking
        •   …



                                                                             6
Data Format
Field Name         Field in Japanese   Value type
User id            投稿者ID               Integer   (Masked)
Price              商品価額                Integer
Buy_flag           購入                  0:購入していない|1:購入済
rating             評価ポイント              1|2|3|4|5
Open_flag          公開有無                0:プロフィル公開|1:プロフィル非公開
Age                年齢                  Integer
Gender             性別                  0:Male | 1:Female | 2: Unknown
Use                商品の使いみち             イベント|おもたせ・ギフト|ビジネス|プレゼント| 実用品・普段使い|
                                       趣味
Object code        商品を使う人              家族へ|仕事関係へ|子供へ|自分用|女性(彼女、妻)へ|親戚へ|
                                       男性(彼、夫)へ|友人へ
Frequency          購入した回数              初めて|リピート
Genre id           商品ジャンルID            Integer
Product name       商品名                 String
Product page URL   商品URL               String
Shop name          店舗名                 String
Review title       レビュータイトル            String
Review contents    レビュー内容              String
                                                                          7
Registered time    レビュー登録日時            yyyy-mm-dd h:m:s
Review vs. Reviewers, Products, Shops



Review - Reviewer          Review - Shop         Review - Product




             All distributions obey power-law
          Some abnormal distributions appeared

                                                                8
Review vs. Rating



Rating   # of Review     %
  1       280,337       1.69%
  2       315,617       1.90%
  3      1,373,792      8.27%
  4      5,007,154     30.15%
  5      9,629,281     57.99%
Total    16,606,181    100.00%




            60% of reviews have a rating of 5
  (Same as Amazon.com review [Jindal and Liu, WSDM08])
                                                         9
Reviewers vs. Users
                  Reviewers                                   Ichiba Users
         unknown
           0%
                              male                            female
Gender

                              39%                              33%
            female                                                            male
             61%                                                              67%
                                          Distribution of
                                        Reviewers and users
          50's     60's~          ~20's
                                           are different                        ~20's
                                                          60's~
          8%        3%            3%                                             7%
                                                           6%
                              20's                 50's
                              22%                  12%                         20's
Ages




           40's                                                                25%
           24%                                             40's
                                                           20%
                           30's                                        30's
                           40%                                         30%
                                                                                        10
Open Problem: Aspect Extraction

Extract comments on various aspects from one review

 程よい硬さでしっかりしていて安定感あり寝心地良いです.
  よい硬さでしっかりしていて安定感あり寝心地良いです.
               安定感あり寝心地良いです
 迅速に配送して いた点 満足してます
       して頂       してます.
 迅速に配送して頂いた点も満足してます.




 程よい硬さでしっかりしていて安定感
  よい硬さでしっかりしていて安定感
             いて             迅速に配送して頂いた点
                            迅速に配送して頂いた点も
                                  して
 あり寝心地良
   寝心地良いです
 あり寝心地良いです                  満足してます
                            満足してます

     Comment on the item    Comment on the shop


                                                      11
Open Problem: Word Sense Disambiguation

Categorize the same word into various categories

 以前グレーとオートミール
       オートミールを
       オートミール                 オートミール
 購入して部屋着&防寒によさ
 そうだったので、ブラックをリピ              グレー         Color
 しました。                        ブラック


 あさごはん、ひるごはんに
                              オートミール
 薄切りにしたりんごとレーズン、              レーズン
 牛乳、はちみつとオートミール
          オートミール                          Food
 をボールに入れて、レンジで数               牛乳
 分。
                              はちみつ

                                                   12
Open Problem: Causality Extraction

Find reasons of purchase and customer satisfaction
みなさんのおすすめを読んでこち
らに決めました。三番目の子供                みなさんのおすすめを読
                              みなさんのおすすめを読んで
ではじめてネットで購入してみまし
た。                              Purchase reason



安価なので、購入しましたが…底                   底は 2つ折り
は2つ折りにされて跡がついたま                      跡
ま、角はポロボロにはげていて、しわ                 角はポロボロ
による生地の浮きが目立ち…赤い                     ペンのしみ
                                  赤いペンのしみ
ペンのしみもあります
                              Dissatisfaction reason

                                                       13
Open problem: Quality Evaluation

     Evaluate quality of reviews and reviewers
                      Time elapsed                         レビューをみて
                                                           買いましたが

Product     Review                   Product     Review    レビューをみて
                                                            購入しました

                                                          レビューが良かっ
                                 High quality review        たので購入




               Reviewer 1                              Reviewer 2

Product1   生地がさくさくしてとても               Product1     おいしかったです。
           おいしかったです。
                                      Product2     おいしかったです。
           甘すぎず、子とものため
Product2
           にもよさそうでした                  Product3     おいしかったです。
 Highly credible reviewer               Lowly credible reviewer
                                                                     14
Challenges



          Scalability for various services
 Big      Scalability for distributed servers


          Robustness to ambiguous expression
Messy     Robustness to noisy data


          Sensitivity to context
Diverse   Sensitivity to time


                                                15
Thank you!
   For more information of Rakuten research
Please join R&D Symposium & Tech-Conference
               2011.11.19 (SAT)


       http://rit.rakuten.co.jp/conf/rrds4/




       http://tech.rakuten.co.jp/rtc2011/
                                              16
17
Reviewers

                    1200000                          Unknown
                                                     Female
                    1000000
                                                     Male
Number of Reviews




                    800000

                    600000

                    400000

                    200000

                         0
                              ~20   20    30   40     50~
                                         AGE




                                                               18
User Behavior Analysis

       Analyze purchase-review behavior model

User , Product     Purchase               Review

User , Product      Review            Purchase


User , Product      Review


User , Product     Purchase


                                                   19
Open Problem: Review Credibility
      Evaluate credibility of reviews and reviewers
  Highly credible Review           Lowly credible Review

黒とナチュラルブラウンを購入しました。            こういうのって、なんだかとってもお
ケースも保管に便利そうだし商品は長す             得感ありますよね。
ぎず短すぎず使いやすい感じです。

 Contains much information       Contains little information

                 User1                       User2
 Product1   生地がさくさくしててとて       Product1   おいしかったです。
            もおいしかったです。
                               Product2   おいしかったです。
            甘すぎず、子とものため
 Product2   にもよさそうでした          Product3   おいしかったです。
 Various reviews by one user     Same reviews by one user
                                                               20

Weitere ähnliche Inhalte

Mehr von Rakuten Group, Inc.

Mehr von Rakuten Group, Inc. (20)

コードレビュー改善のためにJenkinsとIntelliJ IDEAのプラグインを自作してみた話
コードレビュー改善のためにJenkinsとIntelliJ IDEAのプラグインを自作してみた話コードレビュー改善のためにJenkinsとIntelliJ IDEAのプラグインを自作してみた話
コードレビュー改善のためにJenkinsとIntelliJ IDEAのプラグインを自作してみた話
 
楽天における安全な秘匿情報管理への道のり
楽天における安全な秘匿情報管理への道のり楽天における安全な秘匿情報管理への道のり
楽天における安全な秘匿情報管理への道のり
 
What Makes Software Green?
What Makes Software Green?What Makes Software Green?
What Makes Software Green?
 
Simple and Effective Knowledge-Driven Query Expansion for QA-Based Product At...
Simple and Effective Knowledge-Driven Query Expansion for QA-Based Product At...Simple and Effective Knowledge-Driven Query Expansion for QA-Based Product At...
Simple and Effective Knowledge-Driven Query Expansion for QA-Based Product At...
 
DataSkillCultureを浸透させる楽天の取り組み
DataSkillCultureを浸透させる楽天の取り組みDataSkillCultureを浸透させる楽天の取り組み
DataSkillCultureを浸透させる楽天の取り組み
 
大規模なリアルタイム監視の導入と展開
大規模なリアルタイム監視の導入と展開大規模なリアルタイム監視の導入と展開
大規模なリアルタイム監視の導入と展開
 
楽天における大規模データベースの運用
楽天における大規模データベースの運用楽天における大規模データベースの運用
楽天における大規模データベースの運用
 
楽天サービスを支えるネットワークインフラストラクチャー
楽天サービスを支えるネットワークインフラストラクチャー楽天サービスを支えるネットワークインフラストラクチャー
楽天サービスを支えるネットワークインフラストラクチャー
 
楽天の規模とクラウドプラットフォーム統括部の役割
楽天の規模とクラウドプラットフォーム統括部の役割楽天の規模とクラウドプラットフォーム統括部の役割
楽天の規模とクラウドプラットフォーム統括部の役割
 
Rakuten Services and Infrastructure Team.pdf
Rakuten Services and Infrastructure Team.pdfRakuten Services and Infrastructure Team.pdf
Rakuten Services and Infrastructure Team.pdf
 
The Data Platform Administration Handling the 100 PB.pdf
The Data Platform Administration Handling the 100 PB.pdfThe Data Platform Administration Handling the 100 PB.pdf
The Data Platform Administration Handling the 100 PB.pdf
 
Supporting Internal Customers as Technical Account Managers.pdf
Supporting Internal Customers as Technical Account Managers.pdfSupporting Internal Customers as Technical Account Managers.pdf
Supporting Internal Customers as Technical Account Managers.pdf
 
Making Cloud Native CI_CD Services.pdf
Making Cloud Native CI_CD Services.pdfMaking Cloud Native CI_CD Services.pdf
Making Cloud Native CI_CD Services.pdf
 
How We Defined Our Own Cloud.pdf
How We Defined Our Own Cloud.pdfHow We Defined Our Own Cloud.pdf
How We Defined Our Own Cloud.pdf
 
Travel & Leisure Platform Department's tech info
Travel & Leisure Platform Department's tech infoTravel & Leisure Platform Department's tech info
Travel & Leisure Platform Department's tech info
 
Travel & Leisure Platform Department's tech info
Travel & Leisure Platform Department's tech infoTravel & Leisure Platform Department's tech info
Travel & Leisure Platform Department's tech info
 
OWASPTop10_Introduction
OWASPTop10_IntroductionOWASPTop10_Introduction
OWASPTop10_Introduction
 
Introduction of GORA API Group technology
Introduction of GORA API Group technologyIntroduction of GORA API Group technology
Introduction of GORA API Group technology
 
100PBを越えるデータプラットフォームの実情
100PBを越えるデータプラットフォームの実情100PBを越えるデータプラットフォームの実情
100PBを越えるデータプラットフォームの実情
 
社内エンジニアを支えるテクニカルアカウントマネージャー
社内エンジニアを支えるテクニカルアカウントマネージャー社内エンジニアを支えるテクニカルアカウントマネージャー
社内エンジニアを支えるテクニカルアカウントマネージャー
 

Kürzlich hochgeladen

Kürzlich hochgeladen (12)

新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 

Customer Review data at Rakuten Ichiba

  • 1. Customer Review Data at Rakuten Ichiba Rakuten Institute of Technology Rakuten, Inc. http://rit.rakuten.co.jp/rdr/index.html 1
  • 2. Rakuten Data Release Open Innovation Contribute to the academia by releasing data Obtain new ideas from various point of views 2
  • 3. Rakuten Data Release • Released in 2010 – Ichiba product data (about 50 million products) – Travel facility data (11,468 facilities) – Travel customer review data (350,000 reviews) – Gora facility data (1,669 golf facilities) – Gora customer review data (320,000 reviews) • Released in 2011 – Customer review data (16 million reviews) http://rit.rakuten.co.jp/rdr/index.html 3
  • 4. Current Status • Acquisition – Open to universities and public research organizations – Applied and acquired via NII and ALAGIN • Affiliation, position, research purpose are required • Application and Publication – 62 applications from universities and public research organizations (October 11, 2011) – 14 papers has been written (April 19, 2011) – 10 poster presentation at Rakuten Data Challenge (the 3rd Rakuten R&D Symposium, 2010) 4
  • 5. Customer Review at Rakuten Ichiba Write Shop review Write product review 5
  • 6. Data Specification • Collected period – Jan 2010 ~ Dec 2010 • Data Size # of reviews # of product page # of unique user # of shops # of genres 16,606,181 3,855,021 2,872,874 39,885 30,879 • Additional information – Can be obtained by Rakuten API • http://webservice.rakuten.co.jp/api/ • Genre ID • Product Ranking • … 6
  • 7. Data Format Field Name Field in Japanese Value type User id 投稿者ID Integer (Masked) Price 商品価額 Integer Buy_flag 購入 0:購入していない|1:購入済 rating 評価ポイント 1|2|3|4|5 Open_flag 公開有無 0:プロフィル公開|1:プロフィル非公開 Age 年齢 Integer Gender 性別 0:Male | 1:Female | 2: Unknown Use 商品の使いみち イベント|おもたせ・ギフト|ビジネス|プレゼント| 実用品・普段使い| 趣味 Object code 商品を使う人 家族へ|仕事関係へ|子供へ|自分用|女性(彼女、妻)へ|親戚へ| 男性(彼、夫)へ|友人へ Frequency 購入した回数 初めて|リピート Genre id 商品ジャンルID Integer Product name 商品名 String Product page URL 商品URL String Shop name 店舗名 String Review title レビュータイトル String Review contents レビュー内容 String 7 Registered time レビュー登録日時 yyyy-mm-dd h:m:s
  • 8. Review vs. Reviewers, Products, Shops Review - Reviewer Review - Shop Review - Product All distributions obey power-law Some abnormal distributions appeared 8
  • 9. Review vs. Rating Rating # of Review % 1 280,337 1.69% 2 315,617 1.90% 3 1,373,792 8.27% 4 5,007,154 30.15% 5 9,629,281 57.99% Total 16,606,181 100.00% 60% of reviews have a rating of 5 (Same as Amazon.com review [Jindal and Liu, WSDM08]) 9
  • 10. Reviewers vs. Users Reviewers Ichiba Users unknown 0% male female Gender 39% 33% female male 61% 67% Distribution of Reviewers and users 50's 60's~ ~20's are different ~20's 60's~ 8% 3% 3% 7% 6% 20's 50's 22% 12% 20's Ages 40's 25% 24% 40's 20% 30's 30's 40% 30% 10
  • 11. Open Problem: Aspect Extraction Extract comments on various aspects from one review 程よい硬さでしっかりしていて安定感あり寝心地良いです. よい硬さでしっかりしていて安定感あり寝心地良いです. 安定感あり寝心地良いです 迅速に配送して いた点 満足してます して頂 してます. 迅速に配送して頂いた点も満足してます. 程よい硬さでしっかりしていて安定感 よい硬さでしっかりしていて安定感 いて 迅速に配送して頂いた点 迅速に配送して頂いた点も して あり寝心地良 寝心地良いです あり寝心地良いです 満足してます 満足してます Comment on the item Comment on the shop 11
  • 12. Open Problem: Word Sense Disambiguation Categorize the same word into various categories 以前グレーとオートミール オートミールを オートミール オートミール 購入して部屋着&防寒によさ そうだったので、ブラックをリピ グレー Color しました。 ブラック あさごはん、ひるごはんに オートミール 薄切りにしたりんごとレーズン、 レーズン 牛乳、はちみつとオートミール オートミール Food をボールに入れて、レンジで数 牛乳 分。 はちみつ 12
  • 13. Open Problem: Causality Extraction Find reasons of purchase and customer satisfaction みなさんのおすすめを読んでこち らに決めました。三番目の子供 みなさんのおすすめを読 みなさんのおすすめを読んで ではじめてネットで購入してみまし た。 Purchase reason 安価なので、購入しましたが…底 底は 2つ折り は2つ折りにされて跡がついたま 跡 ま、角はポロボロにはげていて、しわ 角はポロボロ による生地の浮きが目立ち…赤い ペンのしみ 赤いペンのしみ ペンのしみもあります Dissatisfaction reason 13
  • 14. Open problem: Quality Evaluation Evaluate quality of reviews and reviewers Time elapsed レビューをみて 買いましたが Product Review Product Review レビューをみて 購入しました レビューが良かっ High quality review たので購入 Reviewer 1 Reviewer 2 Product1 生地がさくさくしてとても Product1 おいしかったです。 おいしかったです。 Product2 おいしかったです。 甘すぎず、子とものため Product2 にもよさそうでした Product3 おいしかったです。 Highly credible reviewer Lowly credible reviewer 14
  • 15. Challenges Scalability for various services Big Scalability for distributed servers Robustness to ambiguous expression Messy Robustness to noisy data Sensitivity to context Diverse Sensitivity to time 15
  • 16. Thank you! For more information of Rakuten research Please join R&D Symposium & Tech-Conference 2011.11.19 (SAT) http://rit.rakuten.co.jp/conf/rrds4/ http://tech.rakuten.co.jp/rtc2011/ 16
  • 17. 17
  • 18. Reviewers 1200000 Unknown Female 1000000 Male Number of Reviews 800000 600000 400000 200000 0 ~20 20 30 40 50~ AGE 18
  • 19. User Behavior Analysis Analyze purchase-review behavior model User , Product Purchase Review User , Product Review Purchase User , Product Review User , Product Purchase 19
  • 20. Open Problem: Review Credibility Evaluate credibility of reviews and reviewers Highly credible Review Lowly credible Review 黒とナチュラルブラウンを購入しました。 こういうのって、なんだかとってもお ケースも保管に便利そうだし商品は長す 得感ありますよね。 ぎず短すぎず使いやすい感じです。 Contains much information Contains little information User1 User2 Product1 生地がさくさくしててとて Product1 おいしかったです。 もおいしかったです。 Product2 おいしかったです。 甘すぎず、子とものため Product2 にもよさそうでした Product3 おいしかったです。 Various reviews by one user Same reviews by one user 20