Hadoop
- 3. Saas : YouTube、Facebook、Twitter、無名
小站...(telnet 是最早的Saas)、iCloud
Paas : Google AppEngine、Microsoft
Azure、Amazon S3、Amazon
SimpleDB (LIVE+ v1.0有點這個味道)
、Stackato
Iaas : 騰雲計算(TCloud:趨勢,雲端教我的事)、
中華電信 (hicloud 自創 Caas)
對於資訊大國的台灣來說;沒有發展Paas 的條
件,因為;台灣沒有發展好用的程式語言或架構
的條件與經驗
- 5. 2) 中華電信行動通訊用戶特性客製化行銷
門號 接通起始時間
門號 繞道其他網路起始時間
門號 接通結束時間
... ...
每個月保留資料記錄約為3~4T的資訊,
且資料需要保存6~9個月的通話明細
3) 紐約股票交易中心一天會產生1T交易資訊
4) Facebook維護超過10億條的資訊,超過1P
的資訊
ps. giga G 10^9| tera T 10^12| peta P 10^15
- 6. Hadoop 的歷史
a) Hadoop 是由 Apache Lucene的建立者
(Doug Cutting)所開發維護,而Lucene是一
個文字分析的函式庫(search engine)
b) 當時一億個網址的索引,成本大約要花費硬
體50萬 以及每個月3萬元 的執行成本
c) Nutch 計畫在 2002 年展開 ,他是一個網頁
抓取與查詢的系統,但他們發現這個架構的
規模跟不上真實世界的成長
- 7. d) 2003年 Google 發表了雲端運算論文 (
GFS /Bigtable/MapReduce)
e) 2004年 Doug Cutting 開始一個開放原碼
的實做 Distributed Filesystem (NDFS).
f) 2004, Google向世界發布 MapReduce 的
架構
g) 2005 Doug Cutting在Nutch實做
MapReduce
h) 2006 Doug Cutting 將 Nutch改名為
Hadoop 並且加入的Yahoo 團隊
- 9. j) 2009 Yahoo 破了世界紀錄 1T的 資料分析
花了62秒,打敗google 之前創下的紀錄 68
秒
從這個歷史;我們看到一個好的架構要發展10
年是很平常的事,很多程式語言甚至是發展20
年才紅起來
- 11. 分散運算原理(心得與奇想)
分析計算: 所有的計算都可以簡化成 + - ,包括
微積分...於是: (((1+10+4) * 3 - 20) /6 )* 8 - 1
((1+10+4) * 3 - 20) /6 -> 可以在 8台機器運
算,把結果加起來再 - 1
(1+10+4) 可在一台機器上分成三個不同的程
序 運算 , 最後 - 20 再 除以 6
- 14. 先看2個例子
a) UNIX 的指令
grep "微程式" test.log
grep "微程式" test.log | sort
grep "微程式" test.log | sort | wc
b) inverted index
- 16. 192M --> HDFS每個BLOCK 64M (0 , 1 , 2)
HDFS 每個block 會備份在三個地方,現需要
分散在 5 台機器(a b c d e)
a 0 2
b 1 2 0-->a
c 1 2 => 1-->b
d 0 2-->c
e 0 1