107082. Big Data 是什麼 ?
• 「Big Data」這二個字,以為是指超大量的資料的意思,
其實,這麼說 Big Data 就太小看它了。
• Big Data 指的是對於大量資料處理的工具、程序、方法和
流程等的集合,而不是單單指資料的本身而己,因為大量
資料在沒有做任何處理以前,就資料本身來說,是不會有
任何價值的,所以,需要經過適當的萃取才會有價值。
• Big Data 使用的技術其實並不怎麼新奇,主要是利用平
行運算、搜尋和客製搜尋等技術,不過,這些技術也都不
是什麼很容易就能弄出來的技術 ! 一般來說,Big Data 處
理的資料量會在 Petabyte 以上,就是要買 1000 顆 1TB
的硬碟來組才有會 1 PB !
• http://www.arthurtoday.com/2012/01/big-data.html#.UZTUY6JHJ8E
4. • 1. Google File System,用來用以儲存 Big Data
• Google File System(GFS 或 GoogleFS)是由數百個叢
集(Cluster)所組成。每一個叢集有多達數千台的伺服器,
是一種分散式容錯檔案系統,主要的任務是儲存網頁、影
片、照片、Email 和 Google Map等資料,而這些檔案極
少被刪除或異動,大多數時候都是新增或讀取,因此,對
其進行最佳化的管理就非常重要了。
• 儲存在 GFS 的檔案會被切割成 64 MB 左右的資料塊
(Chunk),分別放在三台稱為 Chunkserver 的伺服器內,
當 Chunkserver 發生問題時,主伺服器(Master Server)
就會將資料複製到另一個 Chunkserver 上。
5. • 2. BigTable ,利用成對的 Key-Value,快速讀取資料
• 主要負責管理 GFS 的機制,屬於分散式資料儲存系統,
可以管理分佈在數千台伺服器上的 Big Data,就像是一張
資料表(Table),資料表上註明了每一台伺服器所有的
資料,包括 Gmail、Google Reader、Google Map以及
YouTube 等。
• BigTable 採用了鍵與值 Key-Value 的資料架構,其具有
水平擴充的能力,只要空間不足就可以立即新增資料庫,
而它的儲存容量屬於 PB 等級(1 Petabyte(PB)= 1024
TB)
• 當然對 Google 而言,系統的回應時間仍是首要考量,因
此,BigTable 設計時的主要目標就著重於「可靠地處理大
量的數據」,因而採用了叢集平行處理技術。
6. • 3. MapReduce ,用來處理與分析 Big Data
• MapReduce 用來進行 Big Data 的計算,其包含了 Map
和 Reduce 兩個部份,主要用於大規模資料集的平行運算。
• 簡單來說,MapReduce 在處理資料時,Map 函數會把原
始資料映射成新的一組鍵與值(Key-Value)的序對,並
切割成有規律性的小資料,並經過 Shuffle 做排序,最後
再透過 Reducer 函數依相同的 Key 整合結果,最後才能
將整體的結果輸出。
• 例如,上網查 MapReduce 這個字串,會透過 Map 函數
計算網頁上出現「MapReduce」的次數,如果出現 10 次
就用(MapReduce, 10)來表示;再用 Reduce 函數彙整
所有具有相同 Key 值的資料,並統計它們出現的次數。
• http://techorange.com/2013/05/07/meet-google-search-engines-technique/
10. 好萊塢也愛 Big Data
• 科技之於電影,不僅止帶來炫麗的 3D 特效,也能協助片
商擬定最佳行銷策略,衝高票房收入。
• IBM 為片商提供的語意分析工具,監測社交媒體對特定電
影的討論,以每一分鐘為單位,蒐集到計 11 億條推特推
文、 570 萬篇部落格以及論壇貼文、350 萬條相關訊息,
擷取其中關鍵訊息,分析主題,判斷網友意向,歸結出網
友對電影預告片的看法與評價。
• 這些文字被擷取下來之後,首先會進行分類、統計,再與
觀眾性別、職業、是否為常上電影院或愛看漫畫等個人特
質作交叉分析。
• http://techorange.com/2013/04/24/big-data-x-hollywood-movies/
12. Big Data商機
• IDC:2016年亞太區巨量資料市場規模將達17.6億美元
• 根據IDC(國際數據資訊)所做的2012-2016年亞太區(不
含日本)巨量資料市場分析與預測報告研究顯示,亞太區
的巨量資料市場的成長力道強勁,預估市場規模將從2012
年的3億美金成長到2016年的17.6億美元;台灣巨量資料
市場規模則是從2012年的1.13千萬美元成長到2016年的
4.61千萬美元。
• 金融、電信、政府、零售、製造與能源產業對於數據資料
分析的需求最為強勁。
• http://www.bnext.com.tw/article/view/tag/Big+Data/id/27446