SlideShare ist ein Scribd-Unternehmen logo
1 von 20
マーケティング向け大規模ログ解析事例紹介
Large-Scale Log Analysis for the Marketing



                             NTTコミュニケーションズ株式会社
                            先端IPアーキテクチャセンタ 原 謙治
                                       2011年9月26日




                         Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.
Who am I?
NTTコミュニケーションズ 先端IPアーキテクチャセンタ
Net Marketing Analysis & DB Technology担当
原 謙治

                                           先端IPアーキテクチャセンタは
    CUSTOMER                               技術/サービス開発を担当
    RETENTION
      [顧客との       運用・保守
    信頼関係の維持]
                                 技術開発
                                                   クラウドサービス
                                                   開発の事例を紹介
                                       CREATION
                                     [技術/サービス開発]



          設計・構築                  サービス開発


    DELIVERY
  [宣伝/営業/デリバリ]

                  営業       事業企画・推進




                       スタッフ

                       SUPPORT
                   [現場をサポート]                                  1
BizCITY: Cloud Service provided by
         NTT Communications

              ICTアウトソーシング                        大規模データストア                大規模データ解析
Bizホスティング         Bizメール       SaaSアプリケーション         Bizストレージ             Bizマーケティング
  仮想サーバ       大容量Webメール                                大容量                 マルチレイヤマーケティング
                               CRM/SFA 等
ホスティングサービス     スケジューラ等                              ファイルサーバ                  ソリューション
                                                                                 ネット
                                                                               マーケティング



                      データセンタ間高速バックボーン
                           セキュアコネクティビティ
                                                            Fire Wall                    Internet
Global
NW                  VPNサービス                             Internet/IP電話網

         ギャランティ
                    バースト

                            ベストエフォート


                                        高速モバイル     モバイルシンクライアント
                                         アクセス      セキュアリモートアクセス

                                               PCリモートアクセス         携帯リモートアクセス   ユビキタスIP電話
 海外拠点              国内拠点
                                                                           ユビキタスオフィス

                                                                                                    2
Big Datas in BizCITY
            Bizストレージ          Bizマーケティング
               大容量              マルチレイヤマーケティング
             ファイルサーバ                ソリューション
                                   ネット
                                 マーケティング




データの用途     ストア用大規模データ         解析用大規模データ

          ⾼セキュリティ・大容量の
                           ユーザ⾏動ログからマーケティング
サービスの特⻑   ストレージを提供することで
                            情報を抽出して企業活動を支援
            運用コストを削減

大規模分散処理   Bizストレージに保存した     各種ログデータ、CGMデータの
 対象領域        データの分散処理           大規模分散処理



                            Hadoopクラスタを利用して
               連携も視野      各種大規模データの分散処理を実現




                                                 3
Hadoop in Biz Marketing
“Buzz Finder” supports marketing activity using             “Web access Analysis” visualizes
customers’ feedbacks in social media.                       internet-users’ behaviors.
大規模CGMデータを解析してクチコミ情報を抽出                                     大規模Webアクセスログを解析して
                                  マーケティング担当様
                                                            ユーザ⾏動情報を抽出
                                 自社ブランドの     企業メッセージが正しく
                                  評判を分析      ユーザに伝わっているか?

                                  広告宣伝担当様

                                 広告・宣伝後の     広告宣伝の効果はどう
    書き込み
                                  評判を分析      か?
    検索利用
                  データクロール
           Blog                   広報・総務担当様
                                  自社名当の      ネット上で自社の悪評
                                  評判を分析      が流れていないか?


                                  商品開発担当様

                                 自社/他社商品の    自社商品の改善ポイン
                                  評判を比較      ト、
                                             差別化ポイントは何
                                             か?




                                                                PaaS型サービスへ向けた
                            データ規模増大への対応
                                                               運用コスト削減のための⾼速化



                                     Hadoopを利用
                                      Hadoopを利用

                                                                                               4
Hadoop in BuzzFinder
                                  Map                        Map
 PostgreSQL               HDFS               HDFS                       HDFS      PostgreSQL


                        CGM                                ワード抽出      抽出Word
CGM DB
(Twitter,
              Import    データ
                                          関連語抽出                        関連語
Blogなど)                              CGM
                                 日本語 解析
                  PostgreSQL             ポジネガ語抽出                      ポジネガ語 export 抽出DB
                                  解析 データ
               キーワード辞書                   位置情報抽出                       位置情報

 リッチインデクシング技術*を                                           検索Index作成   検索Index
   利用して日本語解析
                                           Reduce



                       HDFS                  PostgreSQL

                抽出ワード集計
                                                                      処理の特徴
                 関連語集計
集計                                export     集計DB           1レコードあたりのデータが大きい
               ポジネガ分布集計                                     レコード数が少ない(数百万/日)
                位置分布集計                                      Map処理が中⼼←大部分が日本語解析


                                             *リッチインデクシング技術: NTT研究所が開発した日本語解析技術
                                                                                               5
Results of BuzzFinder(1/3)
キーワード「震災」「原発」のトレンド分析結果(6月〜8月のTweet)




            福島第一原発から
            大量の⽩煙が噴出
            95,271ツイート




              毎月11日は震災についての話題が増える




    ここ3ヶ月でも減少の傾向は⾒られない。(まだまだホットなキーワード)
    トピック毎のソーシャルメディア上での反応のリニアな変化を確認

                                         6
Results of BuzzFinder(2/3)
   「原発」に関する地域特性(1週間)




基本的には⼈⼝分布に比例する。
被災地および節電の影響がある関東からの発信が多いことがわかる。(ブログ分析でもほぼ同様の結果)

                                                  7
Results of BuzzFinder(3/3)

    「原発」に関するポジネガの変化




2011年8月末                    2011年4月末

    原発に関する評判は震災直後よりもわずかであるが悪化している。
    ポジネガは一般的にはポジが多い(7割から8割)
    ネガ発言が5割超の危険領域。




                                       8
Hadoop in Biz Marketing
“Buzz Finder” supports marketing activity using             “Web access Analysis” visualizes
customers’ feedbacks in social media.                       internet-users’ behaviors.
大規模CGMデータを解析してクチコミ情報を抽出                                     大規模Webアクセスログを解析して
                                  マーケティング担当様
                                                            ユーザ⾏動情報を抽出
                                 自社ブランドの     企業メッセージが正しく
                                  評判を分析      ユーザに伝わっているか?

                                  広告宣伝担当様

                                 広告・宣伝後の     広告宣伝の効果はどう
    書き込み
                                  評判を分析      か?
    検索利用
              データクロール

                                  広報・総務担当様
                                  自社名当の      ネット上で自社の悪評
                                  評判を分析      が流れていないか?


                                  商品開発担当様

                                 自社/他社商品の    自社商品の改善ポイン
                                  評判を比較      ト、
                                             差別化ポイントは何
                                             か?




                                                                PaaS型サービスへ向けた
                        データ規模増大への対応
                                                               運用コスト削減のための⾼速化



                                     Hadoopを利用
                                      Hadoopを利用

                                                                                               9
Hadoop in Web Access Analysis
         Map&Reduce               Map     Reduce   Map&Reduce
  HDFS                 HDFS                                      HDFS        PostgreSQL


                      セッション       関連
アクセスログ セッション                     サイト      集計                     関連
         分類            データ                                      サイト export
                                  抽出               JOIN
                                                                 集計
                                        サイト情報

                                  サイト間のアクセス相関集計データ                           集計DB
           Map          Reduce
  HDFS

                      サイト毎
クリックログ サイト分類 ランディング ランディング                                 export
             クエリ集計   クエリ集計

                                 ランディングクエリの頻度集計データ

                                 処理の特徴

          1レコードあたりのデータが小さい
          レコード数が多い(数千万/日)
          Reduce処理が頻発←Shuffleコストが⾼い

                                                                                      10
Fast Map-Reduce for PaaS Services
アクセス解析やマーケティング解析を⾏う上で
Shuffleコストが大きくなるため大量のマシンが必要

            Shuffleコストを下げてマシン数を削減するために
            Map/Reduceの典型的な処理を⾼速化

通常のHadoop Cluster
                            ⾼速なHadoop Cluster


                    マシン数                        典型的なMap/Reduce処理として
                    を削減
                                                マーケティングの集計処理

                                                と

                                                アクセス解析のOLAP処理
                    速度が同等                       (多数のjoinがある処理)

                                                の⾼速化を実施



                                                                 11
Strategies for Shuffle Cost Reduction

 “Map Multi-Reduce”* reduces shuffle costs of map-reduce operations.

   Record Reduce
    MapタスクにおいてReduceを事前実⾏し中間データを削減

   Local Reduce
    同一ノードのMap出⼒結果をReduceしてShuffle対象データを削減




 “PJoin”** reduces the shuffle costs in join processing

   Join with Semi-Join View
    複数の分析処理で共通的なシャッフル処理を事前処理して分析処理時のコストを削減




              *, ** “Map Multi-Reduce”および“PJoin”はNTT研究所が開発したMapReduce⾼速化技術




                                                                         12
Map Multi-Reduce/Record Reduce

        MapタスクにおいてReduceを事前実⾏し中間データを削減




通常のMapReduce
⼊⼒データ      Map 関数            MapOutputBuffer     sort&spill   Spill files   mergeParts   出⼒データ



Record reduce 利用       record reduce を事前実⾏

                    Record
⼊⼒データ     Map 関数               MapOutputBuffer   sort&spill   Spill files   mergeParts   出⼒データ
                    reduce


                                                                                                 13
Map Multi-Reduce/Local Reduce

           同一ノードのMap出⼒結果をReduceしてShuffle対象データを削減
                                                                                         マシン

                                               User                                      プロセス
                                             Program               fork
                             fork
    Local Reduce タスク                         fork                                        ファイル
                                    assign                    assign
                                    map        Master
                                                              reduce
                                                    assign
Input Data                                          local reduce
 Split 0           worker
                                                worker
 Split 1           worker                                                                Output
                                                                                worker
                                                                                         File 0
 Split 2           worker
                                                worker
                                                                                         Output
 Split 3           worker                                                       worker
                                                                                         File 1

 Split 4           worker                       worker                    remote read,
                            local                                         sort
           read             write
                       Webアクセスログ解析のクリックログ集計処理で
                  Record ReduceとLocal Reduceにより2.2倍の速度向上を確認
                                                                                                  14
PJoin/Join with Semi-Join View

                テーブルの事前シャッフル実⾏,準結合中間データの事前⽣成
                mapper で準結合処理後に,reducer で残処理を実⾏

 DFS read
 shuffle                            siteinfo a                  mapper

                                    siteinfo b                  accesses       reducer
                                                  siteinfo_
                                                 accesses 1     processing
   siteinfo         hash(x)                                         +         Joining with
                                                                                siteinfo


                                        …
                                                                  準結合
                                                 accesses 1
  サイト毎の                             siteinfo z
   詳細情報
siteinfo primary key &                            siteinfo a
foreign key(accesses primary key)
                                     siteinfo_




                                                                     …




                                                                                   …
                                    accesses 1




                                                      …
                    hash(y)
                                                                accesses
                                    accesses 1    siteinfo_     processing
                                                 accesses n         +         Joining with
                                        …




  accesses          hash(y)                                                     siteinfo
                                                                  準結合
                                     siteinfo_    accesses n
 アクセスログ                             accesses n

      Pre-computation                              siteinfo z
                                                                    Query execution
                                    accesses n


                                                                                             15
Results of PJoin

1TBのアクセスログ処理でPjoinの速度性能を検証

                                   Hiveで処理した50台と本技術を適用した20台が
                                   同等の性能であることを確認


                             Pjoin マシン台数バリエーション 選択率低
                                                                                                    実⾏したHiveQL

          6
                                                                                    insert overwrite table q1_result
                                                                                    select
          5
                                                                                      count(distinct s_sessionseqid)
          4                                                                         from clckstrm c
処理時間(分)




          3                                                                           join page p
                                                                                        on
          2
                                                                                         c.c_pageseqid = p.p_pageseqid
          1                                                                              and p.p_url like '%blog.goo.ne.jp%'

          0                                                                           join session_info s
              20            25          30          35        40          45   50
                                                                                        on
                                                マシン台数
                                                                                         s.s_clckstrmseqid = c.c_clckstrmseqid
                   6. pjoin -> distinct -> pjoin案        7. pjoin -> rsjoin案
                   HIVE50台最速                                                             and s.s_referer like '%原辰徳%';


                                                                                                                                 16
Our Hadoop Cluster
設備や効果測定の観点で下記のような環境を整備                        80

                                              70

                                          処
• 各種検証が出来る設備を整備                                                 10台目でWAN越え
                                              60

                                          理   50


  – 40台250コア程度の分散処理環境を整備                  時   40

                                          間   30

  – 広域WANを越えた環境                               20



  – ラック間はLACPを利用してスループットを確保
                                              10

                                              0
                                                   0   5   10   15   20   25   30



              Hadoop Cluster(250コア程度)                      マシン台数
         1(
      ラック LOC1)              2(
                          ラック LOC1)
                                          ラック 3
                                          (LOC2)




               ・・・          ・・・


  Namenode

                     LACPにより            広域WAN(50km)
                     4GBの帯域を確保

                                                                                    17
Summary
• NTTコミュニケーションズが提供するクラウドサービスBizCITY

• BizCITYで提供するBizマーケティングにおけるHadoop利用
   – BuzzFinderでのクチコミ解析
   – Webアクセスログ解析

• 集計・JOIN処理の⾼速化による運用コスト削減

• リモート構成のHadoopクラスタ検証結果




                                       18
Contacts
• 発表者: 原 謙治 @haracane, kenji.hara@ntt.com

• BizCITY: http://www.ntt.com/bizcity/
   – Bizストレージ: http://www.ntt.com/bizstorage/
   – Bizマーケティング http://www.ntt.com/marketing/




                                                19

Weitere ähnliche Inhalte

Was ist angesagt?

Hybrid Sourcing Service [evelink] by CSK Serviceware
Hybrid Sourcing Service [evelink] by CSK ServicewareHybrid Sourcing Service [evelink] by CSK Serviceware
Hybrid Sourcing Service [evelink] by CSK Serviceware
Intelligence, Ltd.
 
クラウド研究会 20120712 BaaS
クラウド研究会 20120712 BaaSクラウド研究会 20120712 BaaS
クラウド研究会 20120712 BaaS
Nobuhiro Sue
 
20120302 第4回iocj info_scoop_sfdc連携紹介
20120302 第4回iocj info_scoop_sfdc連携紹介20120302 第4回iocj info_scoop_sfdc連携紹介
20120302 第4回iocj info_scoop_sfdc連携紹介
infoScoop
 
セミナー「クラウド時代におけるシステムデザイン」桑原里恵
セミナー「クラウド時代におけるシステムデザイン」桑原里恵セミナー「クラウド時代におけるシステムデザイン」桑原里恵
セミナー「クラウド時代におけるシステムデザイン」桑原里恵
Sapporo Sparkle k.k.
 
大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術
Yahoo!デベロッパーネットワーク
 

Was ist angesagt? (20)

Hybrid Sourcing Service [evelink] by CSK Serviceware
Hybrid Sourcing Service [evelink] by CSK ServicewareHybrid Sourcing Service [evelink] by CSK Serviceware
Hybrid Sourcing Service [evelink] by CSK Serviceware
 
ハイブリッドソーシング 「evelink」 ご紹介資料
ハイブリッドソーシング 「evelink」 ご紹介資料ハイブリッドソーシング 「evelink」 ご紹介資料
ハイブリッドソーシング 「evelink」 ご紹介資料
 
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
 
クラウドがもたらすパラダイムシフト
クラウドがもたらすパラダイムシフトクラウドがもたらすパラダイムシフト
クラウドがもたらすパラダイムシフト
 
避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題
 
ビジネスリテラシーとしての統計 ビッグデータと統計の活用
ビジネスリテラシーとしての統計 ビッグデータと統計の活用ビジネスリテラシーとしての統計 ビッグデータと統計の活用
ビジネスリテラシーとしての統計 ビッグデータと統計の活用
 
LiBRA 04.2021 / Cloud
LiBRA 04.2021 / CloudLiBRA 04.2021 / Cloud
LiBRA 04.2021 / Cloud
 
クラウド研究会 20120712 BaaS
クラウド研究会 20120712 BaaSクラウド研究会 20120712 BaaS
クラウド研究会 20120712 BaaS
 
【3時間で学ぶ! スモールサクセス型 『カスタマージャーニー分析』】 slideshare公開用
【3時間で学ぶ! スモールサクセス型『カスタマージャーニー分析』】 slideshare公開用【3時間で学ぶ! スモールサクセス型『カスタマージャーニー分析』】 slideshare公開用
【3時間で学ぶ! スモールサクセス型 『カスタマージャーニー分析』】 slideshare公開用
 
20120302 第4回iocj info_scoop_sfdc連携紹介
20120302 第4回iocj info_scoop_sfdc連携紹介20120302 第4回iocj info_scoop_sfdc連携紹介
20120302 第4回iocj info_scoop_sfdc連携紹介
 
SIビジネスのデジタル・トランスフォーメーション
SIビジネスのデジタル・トランスフォーメーションSIビジネスのデジタル・トランスフォーメーション
SIビジネスのデジタル・トランスフォーメーション
 
Azure IoT/AI最前線
Azure IoT/AI最前線Azure IoT/AI最前線
Azure IoT/AI最前線
 
セミナー「クラウド時代におけるシステムデザイン」桑原里恵
セミナー「クラウド時代におけるシステムデザイン」桑原里恵セミナー「クラウド時代におけるシステムデザイン」桑原里恵
セミナー「クラウド時代におけるシステムデザイン」桑原里恵
 
ファイル共有から始めるエンタープライズ・コンテンツ管理
ファイル共有から始めるエンタープライズ・コンテンツ管理ファイル共有から始めるエンタープライズ・コンテンツ管理
ファイル共有から始めるエンタープライズ・コンテンツ管理
 
クラウド座談会資料
クラウド座談会資料クラウド座談会資料
クラウド座談会資料
 
『個客』 視点の行動分析がウェブビジネスを変える!
『個客』 視点の行動分析がウェブビジネスを変える!『個客』 視点の行動分析がウェブビジネスを変える!
『個客』 視点の行動分析がウェブビジネスを変える!
 
ネット通販向けレコメンドシステム提供サービスについて
ネット通販向けレコメンドシステム提供サービスについてネット通販向けレコメンドシステム提供サービスについて
ネット通販向けレコメンドシステム提供サービスについて
 
テクマトリックスCRM2012"『ソーシャルCRM最前線』ここまで来た!CRMの進化!"講演資料
テクマトリックスCRM2012"『ソーシャルCRM最前線』ここまで来た!CRMの進化!"講演資料テクマトリックスCRM2012"『ソーシャルCRM最前線』ここまで来た!CRMの進化!"講演資料
テクマトリックスCRM2012"『ソーシャルCRM最前線』ここまで来た!CRMの進化!"講演資料
 
JPC2016: PUP-03: クラウドパートナーシップを加速! 大きく拡大するCSPプログラムアップデート!
JPC2016: PUP-03: クラウドパートナーシップを加速! 大きく拡大するCSPプログラムアップデート!JPC2016: PUP-03: クラウドパートナーシップを加速! 大きく拡大するCSPプログラムアップデート!
JPC2016: PUP-03: クラウドパートナーシップを加速! 大きく拡大するCSPプログラムアップデート!
 
大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術
 

Andere mochten auch

【Interop tokyo 2014】 IoE 時代を支えるシスコ最新ネットワーク技術とクラウド プラットフォーム
【Interop tokyo 2014】 IoE 時代を支えるシスコ最新ネットワーク技術とクラウド プラットフォーム 【Interop tokyo 2014】 IoE 時代を支えるシスコ最新ネットワーク技術とクラウド プラットフォーム
【Interop tokyo 2014】 IoE 時代を支えるシスコ最新ネットワーク技術とクラウド プラットフォーム
シスコシステムズ合同会社
 
0227 グロースハックセミナー
0227 グロースハックセミナー0227 グロースハックセミナー
0227 グロースハックセミナー
拓 築山
 
Androidアプリマーケティング 失敗/成功例
Androidアプリマーケティング失敗/成功例 Androidアプリマーケティング失敗/成功例
Androidアプリマーケティング 失敗/成功例
Kenya Kawamura
 

Andere mochten auch (20)

顧客感動創造スマホアプリ制作ツール「iPost」機能説明資料
顧客感動創造スマホアプリ制作ツール「iPost」機能説明資料顧客感動創造スマホアプリ制作ツール「iPost」機能説明資料
顧客感動創造スマホアプリ制作ツール「iPost」機能説明資料
 
UtaiNotify
UtaiNotifyUtaiNotify
UtaiNotify
 
【Interop tokyo 2014】 IoE 時代を支えるシスコ最新ネットワーク技術とクラウド プラットフォーム
【Interop tokyo 2014】 IoE 時代を支えるシスコ最新ネットワーク技術とクラウド プラットフォーム 【Interop tokyo 2014】 IoE 時代を支えるシスコ最新ネットワーク技術とクラウド プラットフォーム
【Interop tokyo 2014】 IoE 時代を支えるシスコ最新ネットワーク技術とクラウド プラットフォーム
 
App marketing accengage
App marketing   accengageApp marketing   accengage
App marketing accengage
 
0227 グロースハックセミナー
0227 グロースハックセミナー0227 グロースハックセミナー
0227 グロースハックセミナー
 
Experis Introduction - JP
Experis Introduction - JPExperis Introduction - JP
Experis Introduction - JP
 
Unity勉強会 / ライトニングトーク - ゲーム開発書籍紹介
Unity勉強会 / ライトニングトーク - ゲーム開発書籍紹介Unity勉強会 / ライトニングトーク - ゲーム開発書籍紹介
Unity勉強会 / ライトニングトーク - ゲーム開発書籍紹介
 
グロースハック勉強会 Retention攻略法
グロースハック勉強会 Retention攻略法グロースハック勉強会 Retention攻略法
グロースハック勉強会 Retention攻略法
 
PushMaker iBeacon位置連携ソリューション
PushMaker iBeacon位置連携ソリューションPushMaker iBeacon位置連携ソリューション
PushMaker iBeacon位置連携ソリューション
 
Androidアプリマーケティング 失敗/成功例
Androidアプリマーケティング失敗/成功例 Androidアプリマーケティング失敗/成功例
Androidアプリマーケティング 失敗/成功例
 
グロースハッカーになろう
グロースハッカーになろうグロースハッカーになろう
グロースハッカーになろう
 
【Unity】appC cloudを使ってゲームアプリにDAUがアップするPUSH通知とリーダーボード機能を入れよう
【Unity】appC cloudを使ってゲームアプリにDAUがアップするPUSH通知とリーダーボード機能を入れよう【Unity】appC cloudを使ってゲームアプリにDAUがアップするPUSH通知とリーダーボード機能を入れよう
【Unity】appC cloudを使ってゲームアプリにDAUがアップするPUSH通知とリーダーボード機能を入れよう
 
Growth Push 運用マニュアル
Growth Push 運用マニュアルGrowth Push 運用マニュアル
Growth Push 運用マニュアル
 
[18-A-1] ハッカー中心の企業文化を日本で根付かせる
[18-A-1] ハッカー中心の企業文化を日本で根付かせる[18-A-1] ハッカー中心の企業文化を日本で根付かせる
[18-A-1] ハッカー中心の企業文化を日本で根付かせる
 
ウェブサービスのAARRR
ウェブサービスのAARRRウェブサービスのAARRR
ウェブサービスのAARRR
 
マーケジンDMPセミナー final 0528
マーケジンDMPセミナー final 0528マーケジンDMPセミナー final 0528
マーケジンDMPセミナー final 0528
 
[Service worker] プッシュ通知の使い方
[Service worker] プッシュ通知の使い方[Service worker] プッシュ通知の使い方
[Service worker] プッシュ通知の使い方
 
Swiftアプリにプッシュ通知を組み込もう!
Swiftアプリにプッシュ通知を組み込もう!Swiftアプリにプッシュ通知を組み込もう!
Swiftアプリにプッシュ通知を組み込もう!
 
広告費0円で10万DLさせたグロースハック
広告費0円で10万DLさせたグロースハック広告費0円で10万DLさせたグロースハック
広告費0円で10万DLさせたグロースハック
 
【ランサーズ】 DevOpsで実現するグロースハック
【ランサーズ】 DevOpsで実現するグロースハック【ランサーズ】 DevOpsで実現するグロースハック
【ランサーズ】 DevOpsで実現するグロースハック
 

Ähnlich wie Hadoop Conference Japan 2011 Fall: マーケティング向け大規模ログ解析事例紹介

基調講演「データのグループウェア化」
基調講演「データのグループウェア化」基調講演「データのグループウェア化」
基調講演「データのグループウェア化」
Cybozucommunity
 
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
de:code 2017
 
AD-MAC (Marketing Consolidation Service)
AD-MAC (Marketing Consolidation Service)AD-MAC (Marketing Consolidation Service)
AD-MAC (Marketing Consolidation Service)
Digital Intelligence Inc.
 

Ähnlich wie Hadoop Conference Japan 2011 Fall: マーケティング向け大規模ログ解析事例紹介 (20)

マーケティング向け大規模ログ解析事例紹介
マーケティング向け大規模ログ解析事例紹介マーケティング向け大規模ログ解析事例紹介
マーケティング向け大規模ログ解析事例紹介
 
基調講演「データのグループウェア化」
基調講演「データのグループウェア化」基調講演「データのグループウェア化」
基調講演「データのグループウェア化」
 
ERPのデータをフロントシステムでどう活かすか
ERPのデータをフロントシステムでどう活かすかERPのデータをフロントシステムでどう活かすか
ERPのデータをフロントシステムでどう活かすか
 
Part 4: Power Platform 概説 (製造リファレンス・アーキテクチャ勉強会)
Part 4: Power Platform 概説 (製造リファレンス・アーキテクチャ勉強会)Part 4: Power Platform 概説 (製造リファレンス・アーキテクチャ勉強会)
Part 4: Power Platform 概説 (製造リファレンス・アーキテクチャ勉強会)
 
Accelerate Migration to the Cloud using Data Virtualization
Accelerate Migration to the Cloud using Data VirtualizationAccelerate Migration to the Cloud using Data Virtualization
Accelerate Migration to the Cloud using Data Virtualization
 
Microsoft の深層学習への取り組み
Microsoft の深層学習への取り組みMicrosoft の深層学習への取り組み
Microsoft の深層学習への取り組み
 
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
 
Cloud Native and Agile Approach
Cloud Native and Agile ApproachCloud Native and Agile Approach
Cloud Native and Agile Approach
 
S01 t3 data_engineer
S01 t3 data_engineerS01 t3 data_engineer
S01 t3 data_engineer
 
プライベートクラウドの動向とIT業へのインパクト(インタリオセミナー072409)最終版
プライベートクラウドの動向とIT業へのインパクト(インタリオセミナー072409)最終版プライベートクラウドの動向とIT業へのインパクト(インタリオセミナー072409)最終版
プライベートクラウドの動向とIT業へのインパクト(インタリオセミナー072409)最終版
 
MicrosoftによるAIビジネスへの取組み
MicrosoftによるAIビジネスへの取組みMicrosoftによるAIビジネスへの取組み
MicrosoftによるAIビジネスへの取組み
 
Hadoopカンファレンス2013
Hadoopカンファレンス2013Hadoopカンファレンス2013
Hadoopカンファレンス2013
 
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
 
Smart Store Map
Smart Store MapSmart Store Map
Smart Store Map
 
Data x AI x API で考えるビジネスインフラ
Data x AI x API で考えるビジネスインフラData x AI x API で考えるビジネスインフラ
Data x AI x API で考えるビジネスインフラ
 
お客様事例紹介 アウディジャパン販売様
お客様事例紹介 アウディジャパン販売様お客様事例紹介 アウディジャパン販売様
お客様事例紹介 アウディジャパン販売様
 
楽天エンジニアライフ
楽天エンジニアライフ楽天エンジニアライフ
楽天エンジニアライフ
 
複雑なデータ統合もスッキリ!Stambiaによる次世代のデータ連携
複雑なデータ統合もスッキリ!Stambiaによる次世代のデータ連携複雑なデータ統合もスッキリ!Stambiaによる次世代のデータ連携
複雑なデータ統合もスッキリ!Stambiaによる次世代のデータ連携
 
企業向けmBaaS「AppPot」を使ったサーバー開発なしの高速モバイルアプリ開発
企業向けmBaaS「AppPot」を使ったサーバー開発なしの高速モバイルアプリ開発企業向けmBaaS「AppPot」を使ったサーバー開発なしの高速モバイルアプリ開発
企業向けmBaaS「AppPot」を使ったサーバー開発なしの高速モバイルアプリ開発
 
AD-MAC (Marketing Consolidation Service)
AD-MAC (Marketing Consolidation Service)AD-MAC (Marketing Consolidation Service)
AD-MAC (Marketing Consolidation Service)
 

Hadoop Conference Japan 2011 Fall: マーケティング向け大規模ログ解析事例紹介

  • 1. マーケティング向け大規模ログ解析事例紹介 Large-Scale Log Analysis for the Marketing NTTコミュニケーションズ株式会社 先端IPアーキテクチャセンタ 原 謙治 2011年9月26日 Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.
  • 2. Who am I? NTTコミュニケーションズ 先端IPアーキテクチャセンタ Net Marketing Analysis & DB Technology担当 原 謙治 先端IPアーキテクチャセンタは CUSTOMER 技術/サービス開発を担当 RETENTION [顧客との 運用・保守 信頼関係の維持] 技術開発 クラウドサービス 開発の事例を紹介 CREATION [技術/サービス開発] 設計・構築 サービス開発 DELIVERY [宣伝/営業/デリバリ] 営業 事業企画・推進 スタッフ SUPPORT [現場をサポート] 1
  • 3. BizCITY: Cloud Service provided by NTT Communications ICTアウトソーシング 大規模データストア 大規模データ解析 Bizホスティング Bizメール SaaSアプリケーション Bizストレージ Bizマーケティング 仮想サーバ 大容量Webメール 大容量 マルチレイヤマーケティング CRM/SFA 等 ホスティングサービス スケジューラ等 ファイルサーバ ソリューション ネット マーケティング データセンタ間高速バックボーン セキュアコネクティビティ Fire Wall Internet Global NW VPNサービス Internet/IP電話網 ギャランティ バースト ベストエフォート 高速モバイル モバイルシンクライアント アクセス セキュアリモートアクセス PCリモートアクセス 携帯リモートアクセス ユビキタスIP電話 海外拠点 国内拠点 ユビキタスオフィス 2
  • 4. Big Datas in BizCITY Bizストレージ Bizマーケティング 大容量 マルチレイヤマーケティング ファイルサーバ ソリューション ネット マーケティング データの用途 ストア用大規模データ 解析用大規模データ ⾼セキュリティ・大容量の ユーザ⾏動ログからマーケティング サービスの特⻑ ストレージを提供することで 情報を抽出して企業活動を支援 運用コストを削減 大規模分散処理 Bizストレージに保存した 各種ログデータ、CGMデータの 対象領域 データの分散処理 大規模分散処理 Hadoopクラスタを利用して 連携も視野 各種大規模データの分散処理を実現 3
  • 5. Hadoop in Biz Marketing “Buzz Finder” supports marketing activity using “Web access Analysis” visualizes customers’ feedbacks in social media. internet-users’ behaviors. 大規模CGMデータを解析してクチコミ情報を抽出 大規模Webアクセスログを解析して マーケティング担当様 ユーザ⾏動情報を抽出 自社ブランドの 企業メッセージが正しく 評判を分析 ユーザに伝わっているか? 広告宣伝担当様 広告・宣伝後の 広告宣伝の効果はどう 書き込み 評判を分析 か? 検索利用 データクロール Blog 広報・総務担当様 自社名当の ネット上で自社の悪評 評判を分析 が流れていないか? 商品開発担当様 自社/他社商品の 自社商品の改善ポイン 評判を比較 ト、 差別化ポイントは何 か? PaaS型サービスへ向けた データ規模増大への対応 運用コスト削減のための⾼速化 Hadoopを利用 Hadoopを利用 4
  • 6. Hadoop in BuzzFinder Map Map PostgreSQL HDFS HDFS HDFS PostgreSQL CGM ワード抽出 抽出Word CGM DB (Twitter, Import データ 関連語抽出 関連語 Blogなど) CGM 日本語 解析 PostgreSQL ポジネガ語抽出 ポジネガ語 export 抽出DB 解析 データ キーワード辞書 位置情報抽出 位置情報 リッチインデクシング技術*を 検索Index作成 検索Index 利用して日本語解析 Reduce HDFS PostgreSQL 抽出ワード集計 処理の特徴 関連語集計 集計 export 集計DB 1レコードあたりのデータが大きい ポジネガ分布集計 レコード数が少ない(数百万/日) 位置分布集計 Map処理が中⼼←大部分が日本語解析 *リッチインデクシング技術: NTT研究所が開発した日本語解析技術 5
  • 7. Results of BuzzFinder(1/3) キーワード「震災」「原発」のトレンド分析結果(6月〜8月のTweet) 福島第一原発から 大量の⽩煙が噴出 95,271ツイート 毎月11日は震災についての話題が増える ここ3ヶ月でも減少の傾向は⾒られない。(まだまだホットなキーワード) トピック毎のソーシャルメディア上での反応のリニアな変化を確認 6
  • 8. Results of BuzzFinder(2/3) 「原発」に関する地域特性(1週間) 基本的には⼈⼝分布に比例する。 被災地および節電の影響がある関東からの発信が多いことがわかる。(ブログ分析でもほぼ同様の結果) 7
  • 9. Results of BuzzFinder(3/3) 「原発」に関するポジネガの変化 2011年8月末 2011年4月末 原発に関する評判は震災直後よりもわずかであるが悪化している。 ポジネガは一般的にはポジが多い(7割から8割) ネガ発言が5割超の危険領域。 8
  • 10. Hadoop in Biz Marketing “Buzz Finder” supports marketing activity using “Web access Analysis” visualizes customers’ feedbacks in social media. internet-users’ behaviors. 大規模CGMデータを解析してクチコミ情報を抽出 大規模Webアクセスログを解析して マーケティング担当様 ユーザ⾏動情報を抽出 自社ブランドの 企業メッセージが正しく 評判を分析 ユーザに伝わっているか? 広告宣伝担当様 広告・宣伝後の 広告宣伝の効果はどう 書き込み 評判を分析 か? 検索利用 データクロール 広報・総務担当様 自社名当の ネット上で自社の悪評 評判を分析 が流れていないか? 商品開発担当様 自社/他社商品の 自社商品の改善ポイン 評判を比較 ト、 差別化ポイントは何 か? PaaS型サービスへ向けた データ規模増大への対応 運用コスト削減のための⾼速化 Hadoopを利用 Hadoopを利用 9
  • 11. Hadoop in Web Access Analysis Map&Reduce Map Reduce Map&Reduce HDFS HDFS HDFS PostgreSQL セッション 関連 アクセスログ セッション サイト 集計 関連 分類 データ サイト export 抽出 JOIN 集計 サイト情報 サイト間のアクセス相関集計データ 集計DB Map Reduce HDFS サイト毎 クリックログ サイト分類 ランディング ランディング export クエリ集計 クエリ集計 ランディングクエリの頻度集計データ 処理の特徴 1レコードあたりのデータが小さい レコード数が多い(数千万/日) Reduce処理が頻発←Shuffleコストが⾼い 10
  • 12. Fast Map-Reduce for PaaS Services アクセス解析やマーケティング解析を⾏う上で Shuffleコストが大きくなるため大量のマシンが必要 Shuffleコストを下げてマシン数を削減するために Map/Reduceの典型的な処理を⾼速化 通常のHadoop Cluster ⾼速なHadoop Cluster マシン数 典型的なMap/Reduce処理として を削減 マーケティングの集計処理 と アクセス解析のOLAP処理 速度が同等 (多数のjoinがある処理) の⾼速化を実施 11
  • 13. Strategies for Shuffle Cost Reduction “Map Multi-Reduce”* reduces shuffle costs of map-reduce operations. Record Reduce MapタスクにおいてReduceを事前実⾏し中間データを削減 Local Reduce 同一ノードのMap出⼒結果をReduceしてShuffle対象データを削減 “PJoin”** reduces the shuffle costs in join processing Join with Semi-Join View 複数の分析処理で共通的なシャッフル処理を事前処理して分析処理時のコストを削減 *, ** “Map Multi-Reduce”および“PJoin”はNTT研究所が開発したMapReduce⾼速化技術 12
  • 14. Map Multi-Reduce/Record Reduce MapタスクにおいてReduceを事前実⾏し中間データを削減 通常のMapReduce ⼊⼒データ Map 関数 MapOutputBuffer sort&spill Spill files mergeParts 出⼒データ Record reduce 利用 record reduce を事前実⾏ Record ⼊⼒データ Map 関数 MapOutputBuffer sort&spill Spill files mergeParts 出⼒データ reduce 13
  • 15. Map Multi-Reduce/Local Reduce 同一ノードのMap出⼒結果をReduceしてShuffle対象データを削減 マシン User プロセス Program fork fork Local Reduce タスク fork ファイル assign assign map Master reduce assign Input Data local reduce Split 0 worker worker Split 1 worker Output worker File 0 Split 2 worker worker Output Split 3 worker worker File 1 Split 4 worker worker remote read, local sort read write Webアクセスログ解析のクリックログ集計処理で Record ReduceとLocal Reduceにより2.2倍の速度向上を確認 14
  • 16. PJoin/Join with Semi-Join View テーブルの事前シャッフル実⾏,準結合中間データの事前⽣成 mapper で準結合処理後に,reducer で残処理を実⾏ DFS read shuffle siteinfo a mapper siteinfo b accesses reducer siteinfo_ accesses 1 processing siteinfo hash(x) + Joining with siteinfo … 準結合 accesses 1 サイト毎の siteinfo z 詳細情報 siteinfo primary key & siteinfo a foreign key(accesses primary key) siteinfo_ … … accesses 1 … hash(y) accesses accesses 1 siteinfo_ processing accesses n + Joining with … accesses hash(y) siteinfo 準結合 siteinfo_ accesses n アクセスログ accesses n Pre-computation siteinfo z Query execution accesses n 15
  • 17. Results of PJoin 1TBのアクセスログ処理でPjoinの速度性能を検証 Hiveで処理した50台と本技術を適用した20台が 同等の性能であることを確認 Pjoin マシン台数バリエーション 選択率低 実⾏したHiveQL 6 insert overwrite table q1_result select 5 count(distinct s_sessionseqid) 4 from clckstrm c 処理時間(分) 3 join page p on 2 c.c_pageseqid = p.p_pageseqid 1 and p.p_url like '%blog.goo.ne.jp%' 0 join session_info s 20 25 30 35 40 45 50 on マシン台数 s.s_clckstrmseqid = c.c_clckstrmseqid 6. pjoin -> distinct -> pjoin案 7. pjoin -> rsjoin案 HIVE50台最速 and s.s_referer like '%原辰徳%'; 16
  • 18. Our Hadoop Cluster 設備や効果測定の観点で下記のような環境を整備 80 70 処 • 各種検証が出来る設備を整備 10台目でWAN越え 60 理 50 – 40台250コア程度の分散処理環境を整備 時 40 間 30 – 広域WANを越えた環境 20 – ラック間はLACPを利用してスループットを確保 10 0 0 5 10 15 20 25 30 Hadoop Cluster(250コア程度) マシン台数 1( ラック LOC1) 2( ラック LOC1) ラック 3 (LOC2) ・・・ ・・・ Namenode LACPにより 広域WAN(50km) 4GBの帯域を確保 17
  • 19. Summary • NTTコミュニケーションズが提供するクラウドサービスBizCITY • BizCITYで提供するBizマーケティングにおけるHadoop利用 – BuzzFinderでのクチコミ解析 – Webアクセスログ解析 • 集計・JOIN処理の⾼速化による運用コスト削減 • リモート構成のHadoopクラスタ検証結果 18
  • 20. Contacts • 発表者: 原 謙治 @haracane, kenji.hara@ntt.com • BizCITY: http://www.ntt.com/bizcity/ – Bizストレージ: http://www.ntt.com/bizstorage/ – Bizマーケティング http://www.ntt.com/marketing/ 19