Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

Hadoop 生態系十年回顧與未來展望

2016-12-05 iThome Big Data Innovation Summit 2016

  • Loggen Sie sich ein, um Kommentare anzuzeigen.

Hadoop 生態系十年回顧與未來展望

  1. 1. Hadoop 生態系 十年回顧與未來發展 Jazz Yao-Tsung Wang <http://about.me/jazzwang> 2016/12/05 Big Data Innovation Summit 2016 P. 1
  2. 2. About Me • 王耀聰 Jazz Wang • 現任 TenMax Data Architect • 前 Etu Manager 產品協理 • Hadoop.TW 共同創辦人 • 連八屆 Hadoop 社群年會總召 • Hadoop The Definitive Guide 譯者 (2e, 3e, 4e) • Hadoop Operations 譯者 (1e) • 自由軟體愛好者 / 推廣者 / 開發者 • http://about.me/jazzwang - slideshare, github, etc. 2016/12/05 P. 2Big Data Innovation Summit 2016
  3. 3. 2016/12/05 Big Data Innovation Summit 2016 P. 3 Hadoop 滿十歲~在台灣也推滿八年~ 2006 年 2 月 2008 年 4 月 ~$ whois hadoop.tw Domain Name: hadoop.tw Record created on 2008-04-28 (YYYY-MM-DD)
  4. 4. Hadoop 生態系十年間已成長到 25+ 個專案 2016/12/05 Big Data Innovation Summit 2016 P. 4 http://www.slideshare.net/cloudera/apache-hadoop-at-10-59397028 樂見:持續成長的生態系 隱憂:碎片化與重疊性 長江後浪推前浪 前浪死在沙灘上
  5. 5. 避免過於技術導向,原本我比較想講的故事… 2016/12/05 Big Data Innovation Summit 2016 P. 5 Big Data Hadoop 生態系 在台灣的十年興衰
  6. 6. 如果您想了解技術演進,推薦閱讀: 2016/12/05 Big Data Innovation Summit 2016 P. 6 http://www.infoq.com/cn/articles/hadoop-ten-years-interpretation-and-development-forecast
  7. 7. Agenda • 趨勢篇 Trend / Roadmap • 企業導入 Hadoop 生態系的四個階段 • 社群篇 People / Community Insight • 用數據看台灣 Hadoop 生態系的社群流轉 • 需求:台灣 Hadoop 近五年的職缺需求成長趨勢 • 供給:從 Hadoop.TW 到台灣資料工程社群 • 應用篇 Process / Use Cases • 笑看台灣 Hadoop / Big Data 發展的十年興衰 • 需求:台灣 Hadoop 應用場景的變遷 • 供給:台灣 Hadoop 生態系供應商的變遷 • 技術篇 Technology • Hadoop 3.0 的未來發展 2016/12/05 P. 7Big Data Innovation Summit 2016
  8. 8. Lesson Learn #1: 未來十年「數據變現力」才是決勝關鍵! - 2014 - 陳昇瑋:企業是否需要導入 Big Data ,有無判斷準則? - 2015 - 方法論:導入 Big Data 的六頂思考帽 (黃金模型) - 2016 - 核心動機:不管技術怎麼變,重點是能否將數據變現 2016/12/05 Big Data Innovation Summit 2016 P. 8
  9. 9. 2016 年剛好是”跨越鴻溝”的時間點 2016/12/05 Big Data Innovation Summit 2016 P. 9
  10. 10. 企業導入 Hadoop 生態系的四個階段 2016/12/05 Big Data Innovation Summit 2016 P. 10 專案規劃 大數據 平台建置 大數據 平台資安 大數據 品質管制 台灣只有極少數 創新者在這個位置 Innovators 台灣開始有一些追隨者在這個位置 Early Majority 但往往問題是“剛開始蒐集數據”或 ”剛開始思考如何讓數據產生價值” 台灣只有少數 先行者在這個位置 Early Adopters 與台灣 Hadoop 生態系的導入現況
  11. 11. 導入 Hadoop 生態系到底是想要?還是需要? 2016/12/05 Big Data Innovation Summit 2016 P. 11 Open Data資料集 分析資料的合法性 資料鑑價? 個資法 商業模式 金礦 開採權 含金度 提煉廠 分析平台與工具軟體 SMAQ 開採成本 總擁有成本 軟硬體投資 國際金價 提供給客戶的價值 產品通路
  12. 12. Lesson Learn #2: 使用統計還是大數據,取決於資料特徵 2016/12/05 Big Data Innovation Summit 2016 P. 12 • 2014 - 陳昇瑋:企業是否需要導入 Big Data ,有無判斷準則? http://www.cbdio.com/BigData/2015-10/12/content_3949024_all.htm Objective Function Sample Rate 取樣少數就有效果 請用統計 取樣多數會有效果 請用串流演算法 非得全算才有效果 請用批次框架 容許固定誤差 計算 TopK 到訪 URL 盡可能精準 對每個訪客 貼標籤 https://goo.gl/2KK7w0 Cardinality Volume Smart Data
  13. 13. Big Data 專案規劃的六頂思考帽 • 問題一:組織想要解決什麼商業問題 ?? ( Value ) 可以用資料解決嗎 ?? ( 降低成本 or 增加收益 ) • 問題二:這些資料哪些是內部資料 ?? 哪些是外部資料?? 該如何獲得 ?? 有哪些型態 ?? ( Variety ) • 問題三:分析這些資料是否合乎法規需求 ?? 有無需要事先聲明的保護條款 ?? ( Legality ) • 問題四:驗證答案真的在這堆資料裡 ?? 資料是否可靠 ?? 需要多少資料才能找到答案 ?? ( Volume , Veracity ) • 問題五:挑選合理的資料處理/分析平台 – 人、流程、技術 定義多快找到答案才能解決商業問題 ( Velocity ) • 問題六:定義效益評量指標 ( 怎麼算 ROI ?? 或 KPI 是什麼 ?? ) 持續改善的時程藍圖 ( Validation , Roadmap ) 2016/12/05 Big Data Innovation Summit 2016 P. 13 專案規劃
  14. 14. 大數據平台建置的三個面向 2016/12/05 Big Data Innovation Summit 2016 P. 14 影片 自訂 Flume HDFS Map Reduce Hive (Cold) Mobile App 照片 錄音 日誌檔 Log 網頁 HTML 交換檔 XML, Json syslog FTP Scribe Fluentd HBase File Input / Output Format FS Shell Web HDFS Thrift Java API Pig Mahout Oozie Impala (Warm) Sqoop 生 流 蒐 存 取 算 析 用 看 資料源 網路協定 前處理 儲存方式 存取方式 資料處理 資料分析 視覺化 解讀 變 行動 Engineer (電機) Network (網通) System Admin DBA (資管) Programmer (資工) Analyst (統計) Decision Maker 企業內部的人力資源盤點 People 處理巨量資料的常見流程 Process 處理巨量資料的技術盤點 Technology 大數據 平台建置
  15. 15. 若您對大數據專案規劃與平台建置有興趣… 2016/12/05 Big Data Innovation Summit 2016 P. 15 http://www.ithome.com.tw/news/101577 2015 年演講錄影 - https://youtu.be/o8zbNM_6K68
  16. 16. 如果您對大數據平台資安現況有興趣… 2016/12/05 Big Data Innovation Summit 2016 P. 16 簡報檔 - https://goo.gl/mOcf96 HadoopCon 2016 演講錄影 - https://youtu.be/UJrhN7D5PD8
  17. 17. Agenda • 趨勢篇 Trend / Roadmap • 企業導入 Hadoop 生態系的四個階段 • 社群篇 People / Community Insight • 用數據看台灣 Hadoop 生態系的社群流轉 • 需求:台灣 Hadoop 近五年的職缺需求成長趨勢 • 供給:從 Hadoop.TW 到台灣資料工程社群 • 應用篇 Process / Use Cases • 笑看台灣 Hadoop / Big Data 發展的十年興衰 • 需求:台灣 Hadoop 應用場景的變遷 • 供給:台灣 Hadoop 生態系供應商的變遷 • 技術篇 Technology • Hadoop 3.0 的未來發展 2016/12/05 P. 17Big Data Innovation Summit 2016
  18. 18. Lesson Learn #3: 資工資科新解~人格特質與商業模式迥異 - Data Engineer – Vendor Site – 基礎建設 – 銷售週期長 – 仰賴雄厚的資本 - Data Scientist – User Site – 領域知識 – 銷售週期短 – 仰賴創新與想像力 2016/12/05 Big Data Innovation Summit 2016 P. 18 資料工程 產品銷售週期長,需系統思維 喜歡解決不同客戶問題、懂得廣但不專 資料科學 產品銷售週期短,需領域知識 擅長找因果關聯,想像力強 設計 Data Pipeline 輔助商業決策
  19. 19. 未來數據驅動的數位企業 需要對資料有手感的員工 產●銷●人●發●財 若你是企業 HR 或獵人頭顧問, 對手現況與潛力人才的數據資料其實藏在某些地方 2016/12/05 Big Data Innovation Summit 2016 P. 19 智慧製造 數位行銷 網路新創 數位金融以人為本 人是技術的載體
  20. 20. 需求:台灣 Hadoop 近五年的職缺需求成長趨勢 • 資料來源:訂閱 Indeed 通知,台灣出現 Hadoop 的職缺 • 時間範圍: • 2013/02/07~2016/12/03 2016/12/05 Big Data Innovation Summit 2016 P. 20 http://www.indeed.com/jobtrends/q-Hadoop.html http://tw.indeed.com/jobs?q=Hadoop&l=Taiwan 以下是使用 Small Data 搭配統計技能就能達成的洞察 關鍵在於有沒想到使用外部資料
  21. 21. 台灣 Hadoop 職缺的敘述統計結果 • 總信件量:839 則 ( 將 Gmail 匯出成 mbox 格式,再用 Python 分析) • 總徵才量:2,179 個職缺 • 總徵才公司量:304 間 ( 尚未去除同義詞) 2016/12/05 Big Data Innovation Summit 2016 P. 21
  22. 22. 台灣 Hadoop 徵才公司排行榜 2016/12/05 Big Data Innovation Summit 2016 P. 22 需要將同義詞 彙整在一起 台灣新蛋 台積電 願景網訊 PChome HTC 愛爾達 關貿網路
  23. 23. 台灣 Hadoop 職缺歷史趨勢圖 2016/12/05 Big Data Innovation Summit 2016 P. 23
  24. 24. 台灣 Hadoop 徵才月份分析 2016/12/05 Big Data Innovation Summit 2016 P. 24
  25. 25. 供給:從 Hadoop.TW 到台灣資料工程社群 • Hadoop.TW 社群有兩份資料可以分析 • Hadoop.TW Forum – since 2009 年 11 月 • Hadoop.TW 臉書粉絲團 – since 2012 年 3 月 • Hadoop.TW Forum 質量排行榜 (第一期) • 總註冊人數:14829 位 • 活躍帳戶數:730 位(至少發過一篇討論文章) - 僅佔 4.9 % • 文章總數: 6946 篇 • 主題總數: 1724 則 – 平均每個主題有 4 篇討論文章往返 • http://forum.hadoop.tw/memberlist.php?sk=d&sd=d 2016/12/05 Big Data Innovation Summit 2016 P. 25 這 730 位就是很好的獵才口袋名單
  26. 26. Hadoop.TW 臉書粉絲團 (第二期) • 資料來源:粉絲團會員列表 • Hadoop.TW 臉書粉絲團共有 4813 名成員(@2016-12-03) • Facebook Graph API 並沒有提供加入粉絲團的日期欄位 • 只好靠 HTML 的內容去解析加入日期、工作地點與學校 2016/12/05 Big Data Innovation Summit 2016 P. 26 加入時間 學校 任職公司
  27. 27. Hadoop.TW 臉書粉絲團「量」的分析 • 2013 年也曾分享過跨不同臉書粉絲團的 SNA 分析 • http://www.slideshare.net/jazzwang/ss-50602379 • 若要更好的獵才口袋名單,可做以下「質」的分析 • 找出曾經於粉絲團發文(post)、回文(comment)、按讚(like)的成員 • 使用以上資料建立成員與成員之間的關聯強度 2016/12/05 Big Data Innovation Summit 2016 P. 27
  28. 28. Hadoop.TW 臉書粉絲團成長曲線圖 2016/12/05 Big Data Innovation Summit 2016 P. 28 2016 年的成長量 已明顯趨緩
  29. 29. Hadoop.TW 臉書粉絲團依月份分析 2016/12/05 Big Data Innovation Summit 2016 P. 29
  30. 30. Hadoop.TW 臉書粉絲團依地理位置分析 2016/12/05 Big Data Innovation Summit 2016 P. 30 成員主要還是集中 在北台灣 台北 新竹 台中 台南 高雄 恰巧與台灣的 產業聚落相符
  31. 31. Hadoop.TW 臉書粉絲團依公司別分析 2016/12/05 Big Data Innovation Summit 2016 P. 31 資料還需要將 同義詞彙整在一起 趨勢科技 中研院 中華電信 知意圖 雅虎 工研院 遠傳電信
  32. 32. Hadoop.TW 臉書粉絲團依學校別分析 2016/12/05 Big Data Innovation Summit 2016 P. 32 資料還需要將 同義詞彙整在一起 台大 交大 成大 台科大 清華
  33. 33. 台灣具國際認證的 Hadoop 生態系專才分析 • 需求:找出台灣通過 Cloudera (CCDH/CCAH) 認證的人數 • 資料來源:通過認證者會被加入一個 LinkedIn 隱藏群組 • 取得方法: • 2015-05-12 起,LinkedIn 將開發者的 API 權限做了大幅度限縮 • 目前只能透過 LinkedIn 的搜尋介面才能取得名單 • 查詢結果: • 目前台灣只有 62 位 Cloudera 認證登錄於 LinkedIn 上 2016/12/05 Big Data Innovation Summit 2016 P. 33
  34. 34. LinkedIn Advanced People Search • 全美有 3837 位認證專才 • Cloudera (119),Apple ( 79) Cognizant (68),eBay (55) Hortonworks (47) • 產業別 • IT、軟體、網路、金融服務與國防太空 2016/12/05 Big Data Innovation Summit 2016 P. 34
  35. 35. Agenda • 趨勢篇 Trend / Roadmap • 企業導入 Hadoop 生態系的四個階段 • 社群篇 People / Community Insight • 用數據看台灣 Hadoop 生態系的社群流轉 • 需求:台灣 Hadoop 近五年的職缺需求成長趨勢 • 供給:從 Hadoop.TW 到台灣資料工程社群 • 應用篇 Process / Use Cases • 笑看台灣 Hadoop / Big Data 發展的十年興衰 • 需求:台灣 Hadoop 應用場景的變遷 • 供給:台灣 Hadoop 生態系供應商的變遷 • 技術篇 Technology • Hadoop 3.0 的未來發展 2016/12/05 P. 35Big Data Innovation Summit 2016
  36. 36. Lesson Learn #4: Hadoop 應用已跨多產業,但台灣數位空洞令人憂心 2016/12/05 Big Data Innovation Summit 2016 P. 36 • 需求方:台灣產業導入 Hadoop 生態系的大略順序 • 電信 (2012) → 電商/零售/遊戲/內容 → 金融/製造/廣告 (2015) • 供給方:從獨立新創,漸回歸系統整合(SI)商與代理商
  37. 37. “Big Data Industry Insights”, Gartner, 2015-01-27 http://www.gartner.com/webinar/2931518 Q: 全球不同產業對 Big Data 的需求與 投資排行榜?
  38. 38. 通訊/媒體 > 醫療 > 交通 > 教育 > 保險 > 電力 > 銀行 > 零售 > 政府 > 製造 跟 台 灣 的 市 場 對 照 ?
  39. 39. CUSTOMER NEEDS : BUSINESS PROBLEM 客戶想解決的商務問題是什麼? “Big Data Industry Insights”, Gartner, 2015-01-27 http://www.gartner.com/webinar/2931518 39
  40. 40. CUSTOMER NEEDS : BUSINESS PROBLEM (1) 全球銀行業想要解決的首要問題…. “Big Data Industry Insights”, Gartner, 2015-01-27 http://www.gartner.com/webinar/2931518 1. 提升風險管理 2. 強化客戶體驗 3. 精準市場行銷 40
  41. 41. CUSTOMER NEEDS : BUSINESS PROBLEM (2) 全球保險業想要解決的首要問題…. “Big Data Industry Insights”, Gartner, 2015-01-27 http://www.gartner.com/webinar/2931518 1. 強化客戶體驗 2. 提升風險管理 3. 降低營運成本 41
  42. 42. CUSTOMER NEEDS : BUSINESS PROBLEM (3) 全球製造業想要解決的首要問題…. “Big Data Industry Insights”, Gartner, 2015-01-27 http://www.gartner.com/webinar/2931518 1. 提升製程效率 2. 降低成本支出 3. 強化客戶體驗 42
  43. 43. 反思:大數據恐無法單獨形成產業, 但會是跨產業應用的基石 2016/12/05 Big Data Innovation Summit 2016 P. 43 • 2014 年曾分享「探析台灣巨量資料產業供應鏈串聯現況」 • http://www.slideshare.net/jazzwang/20141017 以電子發票為例
  44. 44. Hadoop 生態系將繼續扮演「數據驅動」的基石 • 2015 年 Gartner 讓 Big Data 從 Hype Cycle 畢業 • 2016 年漸漸體會到 Hadoop / Big Data 不是一個產業 (Industry), 比較接近是滿足「數據驅動」需求的垂直領域 (Vertical) 。 • 數位時代的商業需求:O2O 線上線下消費行為的虛實整合 • 縱使技術不斷演化,可預期 Hadoop 生態系仍會繼續存在。 2016/12/05 Big Data Innovation Summit 2016 P. 44
  45. 45. 隱憂:台灣 Hadoop 生態系供應商日益式微 • 隱憂: • 經濟不景氣與人才虹吸效應,台灣具技能的高手傾向外移海外 • 本土需求短期內將僅能靠系統整合商與國際大廠代理商來滿足 • 雖然系統整合商與代理商變多,但單一廠商的專業人力卻逐漸下滑 • 應對:人才培育與 Intern 職缺媒合、經驗分享與傳承 • 台灣資料科學協會 - http://foundation.datasci.tw/ • 那「資料工程」呢? - 「台灣資料工程協會」預備成立中 • 串聯 Hadoop.TW, Spark.TW, Flink.TW, Fluentd.TW 等本土社群 2016/12/05 Big Data Innovation Summit 2016 P. 45 臺灣資料 工程協會
  46. 46. Agenda • 趨勢篇 Trend / Roadmap • 企業導入 Hadoop 生態系的四個階段 • 社群篇 People / Community Insight • 用數據看台灣 Hadoop 生態系的社群流轉 • 需求:台灣 Hadoop 近五年的職缺需求成長趨勢 • 供給:從 Hadoop.TW 到台灣資料工程社群 • 應用篇 Process / Use Cases • 笑看台灣 Hadoop / Big Data 發展的十年興衰 • 需求:台灣 Hadoop 應用場景的變遷 • 供給:台灣 Hadoop 生態系供應商的變遷 • 技術篇 Technology • Hadoop 3.0 的未來發展 2016/12/05 P. 46Big Data Innovation Summit 2016
  47. 47. Lesson Learn #5: Spark 可能取代 MapReduce,HCFS 暫無法取代 HDFS Big Data Innovation Summit 2016 P. 47 • Hadoop 生態系大致可分成 • 儲存層 Storage – HDFS vs. HCFS • 中介管理層 Middleware – Mesos vs. YARN • 運算引擎層 Computing Engine – Spark vs. MapReduce • 應用層 Application – Ex. Hive / Kylin / Mahout …. etc • 儲存層 • HDFS ( Hadoop Distribued File System ) • HCFS ( Hadoop Compatible File System ) • AWS S3 (s3://) • Windows Azure Storage (was://) • Google Cloud Storage • Ceph ( ceph:// ) • Lustre …. etc 2016/12/05
  48. 48. Hadoop 3.0 Beta 釋出 2016/12/05 Big Data Innovation Summit 2016 P. 48
  49. 49. HCFS 頻譜 P. 49 Erasure CodingReplication HDFS-HC (Hadoop 3.0) < Phase 1 > < Phase 2 > < Phase 3 > 適合小檔案 適合大檔案 儲存 效率佳 台數少時 可靠度佳
  50. 50. HCFS 為何暫時難以取代 HDFS • 應用場景:Feature of Use Case • Datawarehouse offload 大檔為主的特徵 • 資料在地性: Data Locality • 原生 Hadoop 的精神是善用縮短儲存與運算距離的優勢 • 一旦將儲存與運算拆成兩座,效能上會有一定程度的衝擊 • 整合測試:Integration Test • 當 Storage 層改變時,運算引擎的邏輯是否有對應的程式碼? • 當運算引擎改變時,應用層的邏輯是否有對應的程式碼? • 安全支援:Hadoop Security • 當使用 Kerberos 與 Sentry 時,HCFS 的相容性如何? • 更往上層,未來討論 Data Governance,同樣有相容性的疑慮 2016/12/05 Big Data Innovation Summit 2016 P. 50
  51. 51. 今天未能涵蓋的技術趨勢 • 機器學習 • Hivemall 進入 Apache Incubate • 串流運算 • Spark Streaming, Flink, Kafka Stream … • SQL on Hadoop • OLAP – Apache Kylin 2016/12/05 Big Data Innovation Summit 2016 P. 51
  52. 52. 結語 Lesson Learn #1: 未來十年「數據變現力」才是決勝關鍵! Lesson Learn #2: 使用統計還是大數據,取決於資料特徵! Lesson Learn #3: 資工資科新解~人格特質與商業模式迥異 Lesson Learn #4: 應用已跨多產業,但數位空洞令人憂心! Lesson Learn #5: Spark 可能取代 MapReduce,HCFS 暫無法取代 HDFS 2016/12/05 Big Data Innovation Summit 2016 P. 52

×