SlideShare ist ein Scribd-Unternehmen logo
1 von 66
Downloaden Sie, um offline zu lesen
資訊工業策進會 
創新應用服務研究所 
資料科學組呂俊宏
My Team Members 
潘金谷 
呂俊宏 
李宜勳 
楊仙寧 
陳泰宏 
陳姿蓉 
羅澤揚
經驗和思考架構 
電信/安全/商業/金融/遙感遙測/勘探/生物醫藥…… 
社會科學方法的應用(如統計的相關,效用,…; 
各種相關學門的理論) 價值釐清層資料科學家 
30 
領域應用/服務需求和計算模型 
行業應用系統開發 
社群網路,排名與推薦,商業智慧,自然語言處理,生物 
資訊媒體分析檢索, Web挖掘與檢索, 3D與視覺化計 
算… 
平行化機器學習與資料採擷演算法 
MapReduce, BSP, MPI, CUDA, OpenMP,定制式, 
混合式(如MapReduce+CUDA, MapReduce+MPI) 
巨量資料查詢(SQL, NoSQL,即時查詢,線下分析) 
巨量資料存儲(DFS, HBase, MemDB, RDB) 
巨量數據預處理 
集群,多核, GPU,混合式構架(如集群+多核,集群+GPU), 
雲計算資源與支撐平臺 
應用/服務層 
應用開發層 
應用演算法層 
基礎演算法層 
平行程式設計模 
型與計算框架層 
巨量資料存儲 
管理層 
平行構架和資 
源平臺層 
user 
領域專家 
應用開發者 
資料科學家 
/計算技術 
學者/ 
開發者 
應用層 
演算法層 
系統層 
平臺層 
資料的處理,測試與選擇資料層資料處理層資料科學家
經驗和思考架構 
電信/安全/商業/金融/遙感遙測/勘探/生物醫藥…… 
社會科學方法的應用(如統計的相關,效用,…; 
各種相關學門的理論) 價值釐清層資料科學家 
大多數人談的 
30 
領域應用/服務需求和計算模型 
行業應用系統開發 
社群網路,排名與推薦,商業智慧,自然語言處理,生物 
資訊媒體分析檢索, Web挖掘與檢索, 3維建模與視覺 
化計算… 
平行化機器學習與資料採擷演算法 
MapReduce, BSP, MPI, CUDA, OpenMP,定制式, 
混合式(如MapReduce+CUDA, MapReduce+MPI) 
巨量資料查詢(SQL, NoSQL,即時查詢,線下分析) 
巨量資料存儲(DFS, HBase, MemDB, RDB) 
巨量數據預處理 
集群,多核, GPU,混合式構架(如集群+多核,集群+GPU), 
雲計算資源與支撐平臺 
應用/服務層 
應用開發層 
應用演算法層 
基礎演算法層 
平行程式設計模 
型與計算框架層 
巨量資料存儲 
管理層 
平行構架和資 
源平臺層 
行業用戶 
領域專家 
應用開發者 
計算技術 
研究和 
開發者 
應用層 
演算法層 
系統層 
平臺層 
資料的處理,測試與選擇資料層資料處理層資料科學家
經驗和思考架構 
電信/安全/商業/金融/遙感遙測/勘探/生物醫藥…… 
我認為對顧客最有價值的部分 
社會科學方法的應用(如統計的相關,效用,…; 
各種相關學門的理論) 價值釐清層資料科學家 
大多數人談的 
30 
領域應用/服務需求和計算模型 
行業應用系統開發 
社群網路,排名與推薦,商業智慧,自然語言處理,生物 
資訊媒體分析檢索, Web挖掘與檢索, 3維建模與視覺 
化計算… 
平行化機器學習與資料採擷演算法 
MapReduce, BSP, MPI, CUDA, OpenMP,定制式, 
混合式(如MapReduce+CUDA, MapReduce+MPI) 
巨量資料查詢(SQL, NoSQL,即時查詢,線下分析) 
巨量資料存儲(DFS, HBase, MemDB, RDB) 
巨量數據預處理 
集群,多核, GPU,混合式構架(如集群+多核,集群+GPU), 
雲計算資源與支撐平臺 
應用/服務層 
應用開發層 
應用演算法層 
基礎演算法層 
平行程式設計模 
型與計算框架層 
巨量資料存儲 
管理層 
平行構架和資 
源平臺層 
行業用戶 
領域專家 
應用開發者 
計算技術 
研究和 
開發者 
應用層 
演算法層 
系統層 
平臺層 
資料的處理,測試與選擇資料層資料處理層資料科學家
經驗和思考架構 
電信/安全/商業/金融/遙感遙測/勘探/生物醫藥…… 
我認為對顧客最有價值的部分 
社會科學方法的應用(如統計的相關,效用,…; 
各種相關學門的理論) 價值釐清層資料科學家 
大多數人談的 
30 
領域應用/服務需求和計算模型 
行業應用系統開發 
社群網路,排名與推薦,商業智慧,自然語言處理,生物 
資訊媒體分析檢索, Web挖掘與檢索, 3維建模與視覺 
化計算… 
平行化機器學習與資料採擷演算法 
MapReduce, BSP, MPI, CUDA, OpenMP,定制式, 
混合式(如MapReduce+CUDA, MapReduce+MPI) 
巨量資料查詢(SQL, NoSQL,即時查詢,線下分析) 
巨量資料存儲(DFS, HBase, MemDB, RDB) 
巨量數據預處理 
集群,多核, GPU,混合式構架(如集群+多核,集群+GPU), 
雲計算資源與支撐平臺 
應用/服務層 
應用開發層 
應用演算法層 
基礎演算法層 
平行程式設計模 
型與計算框架層 
巨量資料存儲 
管理層 
平行構架和資 
源平臺層 
行業用戶 
領域專家 
應用開發者 
計算技術 
研究和 
開發者 
應用層 
演算法層 
系統層 
平臺層 
少人談,最辛苦的(今天主要主軸) 
資料的處理,測試與選擇資料層資料處理層資料科學家
任何資料,都存在多個面向(1) 
當環保統計與都市發展資料結合 
分區累積案件數 
101Y 102Y 
中山區8118 8770 
中正區4839 5123 
信義區6067 6556 
內湖區4417 4980 
北投區4394 4962 
南港區2637 2193 
士林區6057 6484 
大同區3067 3254 
大安區9566 9673 
文山區4572 4594 
松山區4475 4700 
萬華區4093 5191 
臺北市6 2 
62308 66482 
環保署表示,自整合 
全國公害陳情報案系 
統以來,公害陳情案 
件量自民國87年8萬 
5,768件逐年上升,至 
101年為止已連續兩 
年突破20萬件,……..。 
至於各鄉鎮總案件量 
前三名,依序為臺北 
市大安區、臺北市中 
山區及新北市板橋區。 
所以大安區的人 
愛抱怨? 
http://ivy5.epa.gov.tw/enews/fact_Newsdetail.asp?InputTime=1020305154408
任何資料,都存在多個面向(2) 
分區累積案件數 
101Y 102Y 
中山區8118 8770 
中正區4839 5123 
信義區6067 6556 
內湖區4417 4980 
北投區4394 4962 
南港區2637 2193 
士林區6057 6484 
大同區3067 3254 
大安區9566 9673 
文山區4572 4594 
松山區4475 4700 
萬華區4093 5191 
臺北市6 2 
當除以每年人口當再除以土地面積? 
62308 66482 
環保署表示,自整合 
全國公害陳情報案系 
統以來,公害陳情案 
件量自民國87年8萬 
5,768件逐年上升,至 
101年為止已連續兩 
年突破20萬件,……..。 
至於各鄉鎮總案件量 
前三名,依序為臺北 
市大安區、臺北市中 
山區及新北市板橋區。 
分區平均每千人報案數 
101Y 102Y 
中山區3.62 3.83 
中正區2.99 3.14 
信義區2.68 2.87 
內湖區1.60 1.76 
北投區1.74 1.94 
南港區2.27 1.83 
士林區2.11 2.24 
大同區2.42 2.51 
大安區3.05 3.09 
文山區1.71 1.69 
松山區2.13 2.23 
萬華區2.14 2.68 
http://ivy5.epa.gov.tw/enews/fact_Newsdetail.asp?InputTime=1020305154408
所以當資料來自於網路時 
“求全”,每個做研究的都希望有所有的資料;但我們竭盡所能也僅有70%的資料; 
更有一些先天限制,例如網站Log, Social Media 的DATA 
9 
API呼叫撈網頁指定位置 
混搭 
例如:面對有些資料是hidden 在Java Script之後時 
例如:有些資料是API不提供, 但 
例如:有些資料是不完整,需要透 
過API + Google + 關鍵字擴 
張, … 
Cleaned 
Data 
圖資+ 實際每天打卡人潮+路徑 
消費者關新潮流議題 
新詞/領域詞詞庫 
…
更需要小心謹慎地反覆驗證 
從個別的趨勢是否在不同的搜尋引擎也有同樣熱門關鍵字? 
跨媒體比較趨勢是否一致? 
如何找出網路上重要的現象? 
如何驗證你所知道的是真的? 
因此,我們需要不斷地透過各 
種方法驗證資料與判斷!
從問題來想資料/分析? 
• 問題的三種層級 
– 問題明確,相對可掌握/預測的環境 
– 問題不明確,未來有多種可能和選擇 
– 完全不知道問題為何 
• 歸納出一些方法 
– 用現象來描述 
– 搜集資料 
– 尋找模式 
– 建構可能影響因子 
– 反覆測試 
– 提出關鍵洞見 
現象背後,一定有問題嗎? 
是否有哪些可以切割資料找出 
來的? 
是否有哪些資料可以產生不同 
維度? 
是否可以重複操作? 
並得到類似的結果?
3個案例 
以下,我舉3個案例是在有資料後做的不同實驗 
• 1. 小心!資訊可能是被主導的以食品安全為例 
• 2. 開花!資料的比對 318與Occupy Wall Street的 
比較與歸納 
• 3. 想像與起飛!一些應用從打卡,照片到推薦
從 2013 社群網絡活動看台灣社會發展趨勢
食安事件一直是一波未平一波又起 
1,200 
1,000 
800 
600 
400 
200 
0 
總發文數 
網民目光因清淨農場、汐止山坡地開發 
與日月光非法排污事件而移轉 
1月1日2月1日3月1日4月1日5月1日6月1日7月1日8月1日9月1日10月1日11月1日12月1日 
觀測區間:2013/1/1-12/16 
800 
600 
400 
200 
0 
總發文數七日移動平均趨勢 
1月1日2月1日3月1日4月1日5月1日6月1日7月1日8月1日9月1日10月1日11月1日12月1日
媒體類粉絲頁發文趨勢 
140 
120 
100 
80 
60 
40 
20 
0 
毒澱粉事件胖達人事件混油事件 
媒體總發文數 
牛奶 
駭人 
4月1日5月1日6月1日7月1日8月1日9月1日10月1日11月1日12月1日 
1. 社會的討論趨勢被媒體引導 
2. 媒體往往針對特定事件炒作 
 那我們生活裡的食安還有甚麼事?
非媒體類粉絲頁發文趨勢 
1,200 
1,000 
800 
600 
400 
200 
0 
毒澱粉事件胖達人事件混油事件 
非媒體總發文 
雞塊不是真的雞! 
4月1日5月1日6月1日7月1日8月1日9月1日10月1日11月1日12月1日 
80%的病死豬 
變成你我的早餐! 
踢爆餵實驗白鼠 
恐佈土虱銷全台 
美牛驚爆瘦肉精 
虛擬牧場 
外國劣質米充台貨 
牛奶 
駭人 
林杰樑醫師過世 
然而,從觀測裡可以看出, 
食品安全議題一直不斷地發生!
去年下半年來危機事件趨勢 
7000 
6000 
5000 
4000 
3000 
2000 
1000 
0 
2013/7/1 2013/8/1 2013/9/1 2013/10/1 2013/11/1 2013/12/1 
胖達人香精事件 
日月光廢水事件 
味全大統油事件 
菁茵荋禁藥事件 
山水米混米事件 
李珍妮生女事件 
佳麗寶白斑事件 
• 多數事件生命週期約7至10日,時間較長則可延燒2至3周。 
• 話題高峰皆出現在事件爆發初期,多數事件僅有1至2次口碑高峰。 
• 危機爆發前的潛伏與上升期極短,在相關話題產生一周內便會引爆,並迅速爬升至 
口碑高峰。
議題會相互掩護 
然而卻不代表不會再發生! 
700 
600 
500 
400 
300 
200 
100 
0 
李珍妮生女事件胖達人香精事件 
8月1日8月8日8月15日8月22日8月29日9月5日9月12日9月19
19 
特定議題之跨平台數據比對-毒澱粉事件 
單位:篇、次 
單位:篇 
0 
500 
1,000 
1,500 
2,000 
5月13日 
5月15日 
5月17日 
5月19日 
5月21日 
5月23日 
5月25日 
5月27日 
5月29日 
5月31日 
6月2日 
6月4日 
6月6日 
6月8日 
6月10日 
6月12日 
6月14日 
6月16日 
6月18日 
6月20日 
6月22日 
6月24日 
6月26日 
6月28日 
6月30日 
0 
0 
20,000 
50 
40,000 
60,000 
80,000 
150 
100,000 
100 
120,000 
200 
Facebook 
公開性粉絲頁 
140,000 
5月13日 
5月15日 
5月17日 
5月19日 
5月21日 
5月23日 
5月25日 
5月27日 
5月29日 
5月31日 
6月2日 
6月4日 
6月6日 
6月8日 
6月10日 
6月12日 
6月14日 
6月16日 
6月18日 
6月20日 
6月22日 
6月24日 
6月26日 
6月28日 
6月30日 
0 
20 
40 
60 
80 
100 
5月13日 
5月15日 
5月17日 
5月19日 
5月21日 
5月23日 
5月25日 
5月27日 
5月29日 
5月31日 
6月2日 
6月4日 
6月6日 
6月8日 
6月10日 
6月12日 
6月14日 
6月16日 
6月18日 
6月20日 
6月22日 
6月24日 
6月26日 
6月28日 
6月30日 
Google Trends 單位:% 
新聞網站 
媒體揭露階段 
(5/13-5/17) 
 自5月13日部分媒體揭露此重大食品安全 
事件後,隨後數日即有大量的新聞露出 
 但Google Trends數據卻顯示此數日內 
僅有增加相對少數的搜尋量 
 可知當時雖有引起關注,但卻並未有多 
數網民嘗試利用搜尋來更深入了解此一 
事件 
目前和政大的一些新聞學者在 
嘗試,如何設計一些平台/方 
法,可以讓一些被忽略的資訊 
也可以被注意到或持續被追 
蹤,也歡迎各位一起加入!
從 2013 社群網絡活動看台灣社會發展趨勢
先檢測跨媒體的趨勢是否一致?
社會運動中,衝突事件往往帶起關注高峰! 
22 
發文與回應逐日趨勢(3/17-4/15 23時) 
註:「3月16日止」指1/1-3/16間曾提及服貿議題 
8,000 
7,908 
10,000 
9,396 
6,000 
5,184 
5,518,455 
6,428,836 
5,595,880 
0 
0 
2,000 
2,000,000 
4,000,000 
6,000,000 
4,000 
公投盟遭驅離 
與中正一分局 
聚眾事件 
8,000,000 
3月16日止 
3月17日 
3月18日 
3月19日 
3月20日 
3月21日 
3月22日 
3月23日 
3月24日 
3月25日 
3月26日 
3月27日 
3月28日 
3月29日 
3月30日 
3月31日 
4月1日 
4月2日 
4月3日 
4月4日 
4月5日 
4月6日 
4月7日 
4月8日 
4月9日 
4月10日 
4月11日 
4月12日 
4月13日 
4月14日 
4月15日 
行政院發文數總回應量 
驅離衝突 
330 
凱道集結 
411
23 
(不重複)發文粉絲頁數逐日趨勢(3/17-4/15 23時) 
註:「3月16日止」指1/1-3/16間曾提及服貿議題 
1000 
961 989 
924 902 
0 
200 
400 
600 
800 
3月16日止 
3月17日 
3月18日 
3月19日 
3月20日 
3月21日 
3月22日 
3月23日 
3月24日 
3月25日 
3月26日 
3月27日 
3月28日 
3月29日 
3月30日 
3月31日 
4月1日 
4月2日 
4月3日 
4月4日 
4月5日 
4月6日 
4月7日 
4月8日 
4月9日 
4月10日 
4月11日 
4月12日 
4月13日 
4月14日 
4月15日 
佔領立院後 
行政院發文粉絲頁 
驅離衝突 
330 
凱道集結 
學運前三日為發文粉絲頁數高峰
24 
1,129,305 
1,166,137 
1,500,000 
1,354,869 
1,405,571 
0 
500,000 
1,000,000 
3月16日止 
3月17日 
3月18日 
3月19日 
3月20日 
3月21日 
3月22日 
3月23日 
3月24日 
3月25日 
3月26日 
3月27日 
3月28日 
3月29日 
3月30日 
3月31日 
4月1日 
4月2日 
4月3日 
4月4日 
4月5日 
4月6日 
4月7日 
4月8日 
4月9日 
4月10日 
4月11日 
4月12日 
4月13日 
4月14日 
4月15日 
行政院 
驅離衝突 
關注人數 
註1:「3月16日止」指1/1-3/16間曾提及服貿議題註2:「關注人數」指曾進行發文/回應之註冊ID數 
(不重複)關注人數逐日趨勢(3/17-4/15 23時) 
330 
凱道集結 
衝突事件與民眾集結為關注人數最高峰
後續行動似仍有基本盤關注 
1,235,595 
(不重複)關注人數逐日趨勢(3/17-4/9 12時) 
673,146 
543,704 499,435 
450,460 
386,796 389,195 430,117 438,142 
389,753 
23,427 
1,500,000 
1,000,000 
500,000 
0 
3月30日 
3月31日 
4月1日 
4月2日 
4月3日 
4月4日 
4月5日 
4月6日 
4月7日 
4月8日 
4月9日 
關注人數 
330 
凱道集結 
僅至4/9 12時止, 
數據更新後仍會上加 
25 
330凱道集結後關注人數驟減,但4/5後 
(未更新完備)關注人數卻開始增加,原 
因除學運退場外,主要在於後續行動(如 
割闌尾、監督條例審查時之監督)與對媒 
體報導(中天新聞龍捲風節目)之批判。
關注者與前日重疊比例逐日趨勢(3/17-4/15 23時) 
330 
凱道集結 
26 
佔領立院後 
57.39% 
78.43% 
行政院 
驅離衝突 
60.81% 
65.52% 
57.83% 
51.82% 
100% 
80% 
60% 
40% 
20% 
0% 
3月17日 
3月19日 
3月21日 
3月23日 
3月25日 
3月27日 
3月29日 
3月31日 
4月2日 
4月4日 
4月6日 
4月8日 
4月10日 
4月12日 
4月14日 
關注者與前日重疊比例 
註1:「3月16日止」指1/1-3/16間曾提及服貿議題註2:「關注人數」指曾進行發文/回應之註冊ID數 
410 
學生退場 
411公投盟遭驅離與 
中正一分局聚眾事件 
顯著的持續關注現象
27 
單位︓% 歸納(1) 
1000% 
800% 
600% 
400% 
200% 
0% 
-200% 
3月17日 
3月19日 
3月21日 
3月23日 
3月25日 
3月27日 
3月29日 
3月31日 
4月2日 
4月4日 
4月6日 
4月8日 
4月10日 
4月12日 
4月14日 
發文數成長率總回應量成長率發文粉絲頁成長率關注人數成長率 
特定事件發生 
(行政院驅離衝突) 
迅速引發關注 
(佔領立法院後) 
特定事件發生 
(330凱道集結) 
事件結束 
(學生退場) 
關注趨緩 
1. 事件起始後2-3日必須馬上引發高度關注 
2. 明確的聚集地點 
3. 當受關注程度趨緩時,偶發/特定(衝突)事件發生,再次引發關注
28 
單位︓回應次數歸納(2) 
1,500,000 1,000,000 
3月500,000 
0 
16日止 
3月17日 
3月18日 
3月19日 
3月20日 
3月21日 
3月22日 
3月23日 
3月24日 
3月25日 
3月26日 
3月27日 
3月28日 
3月29日 
3月30日 
3月31日 
4月1日 
4月2日 
4月3日 
4月4日 
4月5日 
4月6日 
4月7日 
4月8日 
4月9日 
4月10日 
4月11日 
4月12日 
4月13日 
4月14日 
4月15日 
關注人數鄭秀玲林飛帆陳為廷黃國昌魏揚 
主要人物確立 
(林飛帆) 
特定事件 
聚焦主要人物 
(魏揚) 
特定事件 
聚焦主要人物 
(林飛帆、 
陳為廷) 
4. 事件起始後一週內主要角色/人物確立 
5. 偶發/特定事件發生,角色/人物受關注程度鮮明
29 
單位︓回應次數 
1,500,000 1,000,000 
3月500,000 
0 
16日止 
3月17日 
3月18日 
3月19日 
3月20日 
3月21日 
3月22日 
3月23日 
3月24日 
3月25日 
3月26日 
3月27日 
3月28日 
3月29日 
3月30日 
3月31日 
4月1日 
4月2日 
4月3日 
4月4日 
4月5日 
4月6日 
4月7日 
4月8日 
4月9日 
4月10日 
4月11日 
4月12日 
4月13日 
4月14日 
4月15日 
關注人數晚安台灣島嶼天光太陽花 
出現圖像/符號 
(太陽花) 
出現音樂/歌曲 
(島嶼天光) 
歸納(3) 
6. 事件起始後一週內出現明確的圖像/符號 
7. 接續出現呼應主軸/訴求的音樂/歌曲
Occupy Wall Street 
Also see : http://en.wikipedia.org/wiki/Occupy_Wall_Street
社會運動的比對 
Occupy Wall Street 
太陽花學運 
比對兩個由網路到實體的社運事 
件,可以發現共同的 
1.過去網路話題的累積(話題需要 
慢慢發酵,累積能量) 
2.話題的認同與快速響應(斜率超 
過一定幅度)衝突事件 
3.議題的凝聚性/主軸的認同 會 
從固定管道得到訊息 
4.快速地吸引人氣(3天)衝突 
點的產生 
5.意見領袖的產生與反應 
6.實體活動地點從虛擬到實體 
7.實體命名與歌曲 
8.政府的錯誤判斷 
9.實體活動的結合 虛實整合 
10.…
不過 
• 還是有很多類似G0V,我是第一名的 
反服貿網路族群 
15-24歲佔48% 
25-34歲佔40% 
35-44歲佔9% 
45-54歲佔2% 
55歲以上佔1% 
0% 
48% 
0% 
2% 1% 0% 
40% 
9% 
0% 
0% 年齡分佈 
0~14歲 
15~24歲 
25~34歲 
35~44歲 
45~54歲 
55~64歲 
65~74歲 
75~84歲 
85~94歲 
95歲以上 
如,青年學子對社會的關心 
註: 以facebook 上,關心反黑箱服貿的有公開年齡的2,250,761 人進行統計
然而 
透過Social Data 進行兩岸產品競爭力比較 
--以淘寶銷售百大-食品為例
以黑豆相關產品評價來看 
大陸人關心的事!!
黑豆相關產品評價-產地台灣 
價格貴一倍, 
口味,物流是重點
資料科學的協同合作進行方式 
給定領域, 
Keywords 
Others 
Social 
Medi 
a 
News 
過濾 
處理 
Keywords/ 
Issues 
Groups/Org. 
Events 
People/ 
Influencer 
初步 
產出 
專家 
篩選與 
建議 
(領域專家) (領域專家) 
(重新擷 
取與過 
濾) 
Keywords/ 
issues 
Persona 
Analytics 
Predictio 
n Model 
Diffusion 
Model 
Others 
各式 
分析與 
產出 
專家 
解讀 
決策 
支援 
警示 
周知 
Others 
Social 
Medi 
a 
News 
修正/ 
調整 
設定目標,來源 
(領域專家) 
(媒體公關專家) 
資料科學家 
領域專家 
資訊系統 
流程建議在電子化政府治理 
中心研究報告中
開放合作,創造更多可能 
• 和政大電子化政府治理中心合作政府部門的應用 
• 和政大新聞系蘇衡教授嘗試,從資料蒐集到呈現來 
講故事(Data-driven Journalism ) 
• 與龍捲風及一些學者及律師成立“台灣數位資料暨 
運算服務協會”, 希望促進資料合法並有效應用 
• …
從 2013 社群網絡活動看台灣社會發展趨勢
39 
基本資料蒐集 
具地理資訊照片 
1. 移動資料蒐集 
2. 旅遊足跡分析 
a. 資料前處理 
b. 旅遊路徑探勘 
打卡資訊 
3. 相關條件查詢 
具討論資訊 
1. 討論資料蒐集 
2. 產品相關意見分析 
(關鍵議題分析)
UserId 上傳相片者id 17665813@N00 
Title 使用者定義標題鵝鑾鼻日落 
Tags 使用者定義標籤Canon,taiwan,墾丁,500d 
DateTaken 照相時間2011-08-17 19:07:00 
Longitude 照相經度120.853166 
Latitude 照相緯度21.901666 
40 
地理資訊照片蒐集 
• 利用相關提供的API蒐集有地理資訊的照片 
– 主要資料欄位包括 
– 目前已蒐集近2年資料 
• 其中包含GPS資料計,855,182筆資料 
• 平均每人蒐集到65張照片
打卡地理資訊蒐集 
每日更新的打卡資訊(以台灣地區為立) 
41 
id 景點在facebook 中的對應編碼 
name 景點名稱 
picture 景點照片 
Link 景點在Facebook中的鍊結 
Likes 景點有多少人按過likes 
category 景點分類 
is_published 是否公開 
website 景點的網站位置 
location_street 景點的揭到位置 
location_city 景點所在城市 
location_country 景點所在國家 
location_latitude 緯度 
location_longitude 經度 
phone 電話 
checkins 打卡數 
目前已蒐集近2年資料 
每天以80萬筆資料在更新
比對
人流路徑分析(1) 
43
人流路徑分析(2) 
• 展示(距離門檻值100m) -查詢所在位置最近Bigram-based 
44 
旅遊路徑,以清境農場為例 
2. 目前所在位置最近的 
Bigram-based旅遊路徑 
3. 10條出發點最近的 
Bigram-based旅遊路徑 
1. 目前所在位置
人流路徑分析(3) 
• 展示(距離門檻值100m) -查詢所在位置最近Bigram-based 
旅遊路徑,以清境農場為例 
1. 點選清境農場 
2. 地圖上秀出 
下一個路徑 
2. 之後一定會 
去清境農場 
1. 點選畜牧步道
46 
人流路徑分析(4) 
• 展示(距離門檻值400m)-查詢Longest旅遊路徑,以合 
歡山為例 
2. 在地圖上秀出以關鍵字為 
出發點的最長旅遊路徑 
3. 地圖上方秀出最近旅遊路徑 
1. 在goSpot輸入查詢關鍵字
從 2013 社群網絡活動看台灣社會發展趨勢
常見選址篩選條件 
商業活動特性所需之店址條件 
競合關係商圈內同性質的商店 
48 
商圈內同性質且為競爭對手之商店 
商圈內互補性質商店家數 
商圈內大型設施家數 
基地性質營業面積 
可能擴充店面坪數 
土地使用分區 
周圍環境是否便於裝貨、卸貨 
可及性與大型設施之距離 
店址與公車、客運、火車站之距離 
與角地(三角窗)之距離 
交通動線道路寬度 
公車客運路線數 
車站(公車,鐵路,捷運)距離 
每日人潮動線 
固定成本店面租金 
裝演費用 
預估總銷售額(因變數) 
商業活動特性所需之店址條件 
人口特質人口總數 
人口密度 
人口成長 
預估消費者年齡 
預估消費者偏好 
平均消費額度 
競爭對手每天的消費者數 
競爭對手每天的消費者年齡 
可見性基地可見性 
招牌可見程度 
商品陳列種類 
店內購物動線 
經營管理因素是否為直營店 
專職比例 
營業時間
1.OSM與中國官方公佈的資訊 
http://www.stats.gov.cn/ 
http://www.openstreetmap.org/#map=5/51.500/-0.100
2.加入Weibo打卡內住宅區分佈來掌握人 
口蔓延的軌跡與分佈 
http://tjj.shyp.gov.cn/Pages/DeailsInfo.aspx?InfoId=64817
3.加入Weibo打卡中服飾業分佈
4. 加入民生相關產業發展分佈 
結合人口與次 
級產業下一步 
有可能的發展 
潛力
5.將所有圖資資訊顯示
再想想 
如果再Mash-up 
• 電子發票 
• 網路討論 
• 電子商務評價 
• ….
從 2013 社群網絡活動看台灣社會發展趨勢
民生社區
性別比例 
所以民生社區的到訪, 
男女同遊(多人)占比較 
高比率?
年齡分佈
地區分佈 
吸引的人是以台北人為主 
(所以是一個都市內的旅 
行)
民生社區地標類型排名 
地標數量排名類型打卡均值類型數量 
1 各國美食133 1070 
2 地方小吃149 196 
3 診所148 117 
4 學校366 99 
5 傳統市場373 96 
6 旅遊景點231 74 
7 中式美食272 65 
8 咖啡館355 62 
9 建築裝潢42 49 
10 重要交通地理指標236 49 
11 火鍋340 49
民生社區消費者資訊來源偏好排名 
排名粉絲頁ID 粉絲頁名稱 
1 109249609124014 Yahoo!奇摩新聞 
2 232633627068 蘋果日報 
3 385553101472522 好事多俱樂部 
4 147753419266 86小舖商城 
5 226668807442181 情海 
6 179298588865429 蔡康永哲理語錄 
7 313144222099119 芒果新聞台 
8 107305345968232 小三魔法棒(小三美日輸入) 
9 277087628996195 Just 分享 
1 0 111515882197852 食尚玩家
陸客在台灣(1) 
陸客來台,民生社區 
首選? 
偶像劇場景 朵兒咖啡 
追星JJ 林俊傑 
送禮微熱山丘
陸客在台灣(2) 
觀光的主要軸線
陸客在台灣(3) 
然而當放大筆數來看 
時,大陸人已逐漸普及 
到台灣的大街小巷!
資料處理與應用 
• 網路是個有趣的資訊研究來源 
• 資料的處理與分析是一件需要有趣的苦工 
• 任何的分析結論都僅是某個面向的觀點 
• 前路仍然長途漫漫!
從 2013 社群網絡活動看台灣社會發展趨勢

Más contenido relacionado

Andere mochten auch

顏汝芳/從薪酬制度讀 CEO 的行為心理學
顏汝芳/從薪酬制度讀 CEO 的行為心理學顏汝芳/從薪酬制度讀 CEO 的行為心理學
顏汝芳/從薪酬制度讀 CEO 的行為心理學台灣資料科學年會
 
周世恩/資料分析前的奏曲 : 談資料收集的挑戰
周世恩/資料分析前的奏曲 : 談資料收集的挑戰周世恩/資料分析前的奏曲 : 談資料收集的挑戰
周世恩/資料分析前的奏曲 : 談資料收集的挑戰台灣資料科學年會
 
天下武功唯快不破:利用串流資料實做出即時分類器和即時推薦系統
天下武功唯快不破:利用串流資料實做出即時分類器和即時推薦系統天下武功唯快不破:利用串流資料實做出即時分類器和即時推薦系統
天下武功唯快不破:利用串流資料實做出即時分類器和即時推薦系統台灣資料科學年會
 
林煜軒…œ/從手機解讀行為與心理
林煜軒…œ/從手機解讀行為與心理林煜軒…œ/從手機解讀行為與心理
林煜軒…œ/從手機解讀行為與心理台灣資料科學年會
 
陸永祥/全球網路攝影機帶來的機會與挑戰
陸永祥/全球網路攝影機帶來的機會與挑戰陸永祥/全球網路攝影機帶來的機會與挑戰
陸永祥/全球網路攝影機帶來的機會與挑戰台灣資料科學年會
 
高嘉良/Open Innovation as Strategic Plan
高嘉良/Open Innovation as Strategic Plan高嘉良/Open Innovation as Strategic Plan
高嘉良/Open Innovation as Strategic Plan台灣資料科學年會
 
2016台灣資料科學年會開場投影片
2016台灣資料科學年會開場投影片2016台灣資料科學年會開場投影片
2016台灣資料科學年會開場投影片台灣資料科學年會
 
一個賭徒的告白:從預測市場看金融交易
一個賭徒的告白:從預測市場看金融交易一個賭徒的告白:從預測市場看金融交易
一個賭徒的告白:從預測市場看金融交易台灣資料科學年會
 
許懷中/娛樂產業中的資料科學家 : 談資料科學於線上遊戲與職業運動之應用
許懷中/娛樂產業中的資料科學家 : 談資料科學於線上遊戲與職業運動之應用許懷中/娛樂產業中的資料科學家 : 談資料科學於線上遊戲與職業運動之應用
許懷中/娛樂產業中的資料科學家 : 談資料科學於線上遊戲與職業運動之應用台灣資料科學年會
 
李慕約&王向榮/如何備料:資料的抓取、清理以及串接
李慕約&王向榮/如何備料:資料的抓取、清理以及串接李慕約&王向榮/如何備料:資料的抓取、清理以及串接
李慕約&王向榮/如何備料:資料的抓取、清理以及串接台灣資料科學年會
 
曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學
曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學
曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學台灣資料科學年會
 
「資料視覺化」有志一同場次 at 2016 台灣資料科學年會
「資料視覺化」有志一同場次 at 2016 台灣資料科學年會「資料視覺化」有志一同場次 at 2016 台灣資料科學年會
「資料視覺化」有志一同場次 at 2016 台灣資料科學年會台灣資料科學年會
 
林佳賢/資料視覺化的 20 個小訣竅
林佳賢/資料視覺化的 20 個小訣竅林佳賢/資料視覺化的 20 個小訣竅
林佳賢/資料視覺化的 20 個小訣竅台灣資料科學年會
 
資料視覺化之理論、賞析與實作
資料視覺化之理論、賞析與實作資料視覺化之理論、賞析與實作
資料視覺化之理論、賞析與實作台灣資料科學年會
 
孔令傑 / 給工程師的統計學及資料分析 123 (2016/9/4)
孔令傑 / 給工程師的統計學及資料分析 123 (2016/9/4)孔令傑 / 給工程師的統計學及資料分析 123 (2016/9/4)
孔令傑 / 給工程師的統計學及資料分析 123 (2016/9/4)台灣資料科學年會
 
Big-data analytics: challenges and opportunities
Big-data analytics: challenges and opportunitiesBig-data analytics: challenges and opportunities
Big-data analytics: challenges and opportunities台灣資料科學年會
 

Andere mochten auch (20)

顏汝芳/從薪酬制度讀 CEO 的行為心理學
顏汝芳/從薪酬制度讀 CEO 的行為心理學顏汝芳/從薪酬制度讀 CEO 的行為心理學
顏汝芳/從薪酬制度讀 CEO 的行為心理學
 
周世恩/資料分析前的奏曲 : 談資料收集的挑戰
周世恩/資料分析前的奏曲 : 談資料收集的挑戰周世恩/資料分析前的奏曲 : 談資料收集的挑戰
周世恩/資料分析前的奏曲 : 談資料收集的挑戰
 
天下武功唯快不破:利用串流資料實做出即時分類器和即時推薦系統
天下武功唯快不破:利用串流資料實做出即時分類器和即時推薦系統天下武功唯快不破:利用串流資料實做出即時分類器和即時推薦系統
天下武功唯快不破:利用串流資料實做出即時分類器和即時推薦系統
 
林煜軒…œ/從手機解讀行為與心理
林煜軒…œ/從手機解讀行為與心理林煜軒…œ/從手機解讀行為與心理
林煜軒…œ/從手機解讀行為與心理
 
陸永祥/全球網路攝影機帶來的機會與挑戰
陸永祥/全球網路攝影機帶來的機會與挑戰陸永祥/全球網路攝影機帶來的機會與挑戰
陸永祥/全球網路攝影機帶來的機會與挑戰
 
高嘉良/Open Innovation as Strategic Plan
高嘉良/Open Innovation as Strategic Plan高嘉良/Open Innovation as Strategic Plan
高嘉良/Open Innovation as Strategic Plan
 
海量視覺資料-孫民
海量視覺資料-孫民海量視覺資料-孫民
海量視覺資料-孫民
 
2016台灣資料科學年會開場投影片
2016台灣資料科學年會開場投影片2016台灣資料科學年會開場投影片
2016台灣資料科學年會開場投影片
 
一個賭徒的告白:從預測市場看金融交易
一個賭徒的告白:從預測市場看金融交易一個賭徒的告白:從預測市場看金融交易
一個賭徒的告白:從預測市場看金融交易
 
心理學x資料科學-黃從仁
心理學x資料科學-黃從仁心理學x資料科學-黃從仁
心理學x資料科學-黃從仁
 
許懷中/娛樂產業中的資料科學家 : 談資料科學於線上遊戲與職業運動之應用
許懷中/娛樂產業中的資料科學家 : 談資料科學於線上遊戲與職業運動之應用許懷中/娛樂產業中的資料科學家 : 談資料科學於線上遊戲與職業運動之應用
許懷中/娛樂產業中的資料科學家 : 談資料科學於線上遊戲與職業運動之應用
 
李慕約&王向榮/如何備料:資料的抓取、清理以及串接
李慕約&王向榮/如何備料:資料的抓取、清理以及串接李慕約&王向榮/如何備料:資料的抓取、清理以及串接
李慕約&王向榮/如何備料:資料的抓取、清理以及串接
 
曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學
曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學
曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學
 
「資料視覺化」有志一同場次 at 2016 台灣資料科學年會
「資料視覺化」有志一同場次 at 2016 台灣資料科學年會「資料視覺化」有志一同場次 at 2016 台灣資料科學年會
「資料視覺化」有志一同場次 at 2016 台灣資料科學年會
 
林佳賢/資料視覺化的 20 個小訣竅
林佳賢/資料視覺化的 20 個小訣竅林佳賢/資料視覺化的 20 個小訣竅
林佳賢/資料視覺化的 20 個小訣竅
 
資料視覺化之理論、賞析與實作
資料視覺化之理論、賞析與實作資料視覺化之理論、賞析與實作
資料視覺化之理論、賞析與實作
 
陳宜欣/大數據下的情緒分析
陳宜欣/大數據下的情緒分析陳宜欣/大數據下的情緒分析
陳宜欣/大數據下的情緒分析
 
Z > B 的資料科學
Z > B 的資料科學Z > B 的資料科學
Z > B 的資料科學
 
孔令傑 / 給工程師的統計學及資料分析 123 (2016/9/4)
孔令傑 / 給工程師的統計學及資料分析 123 (2016/9/4)孔令傑 / 給工程師的統計學及資料分析 123 (2016/9/4)
孔令傑 / 給工程師的統計學及資料分析 123 (2016/9/4)
 
Big-data analytics: challenges and opportunities
Big-data analytics: challenges and opportunitiesBig-data analytics: challenges and opportunities
Big-data analytics: challenges and opportunities
 

Ähnlich wie 從 2013 社群網絡活動看台灣社會發展趨勢

台灣關鍵事實小組定位與運作
台灣關鍵事實小組定位與運作台灣關鍵事實小組定位與運作
台灣關鍵事實小組定位與運作長鋼 吳
 
联劝 - 一个鸡蛋的暴走影微博影响力报告
联劝 - 一个鸡蛋的暴走影微博影响力报告联劝 - 一个鸡蛋的暴走影微博影响力报告
联劝 - 一个鸡蛋的暴走影微博影响力报告Kantar Media CIC
 
全國大專校院資訊應用服務創新競賽桃園開放資料創新應用組 說明會簡報
全國大專校院資訊應用服務創新競賽桃園開放資料創新應用組 說明會簡報全國大專校院資訊應用服務創新競賽桃園開放資料創新應用組 說明會簡報
全國大專校院資訊應用服務創新競賽桃園開放資料創新應用組 說明會簡報TYOD
 
媒體 與 社群的資料分析
媒體 與 社群的資料分析媒體 與 社群的資料分析
媒體 與 社群的資料分析Gene Hong
 
Trs互联网舆情管理系统白皮书
Trs互联网舆情管理系统白皮书Trs互联网舆情管理系统白皮书
Trs互联网舆情管理系统白皮书cigarxj
 
資訊立法策進聯盟成員介紹
資訊立法策進聯盟成員介紹資訊立法策進聯盟成員介紹
資訊立法策進聯盟成員介紹YenLin Huang
 
District Characteristics And Service Provision (Yl)
District Characteristics And Service Provision (Yl)District Characteristics And Service Provision (Yl)
District Characteristics And Service Provision (Yl)wctang
 
政府機關web 2.0社群媒體的應用發展
政府機關web 2.0社群媒體的應用發展政府機關web 2.0社群媒體的應用發展
政府機關web 2.0社群媒體的應用發展Yu Shu Huang
 
Wavemaker express weekly #30
Wavemaker express weekly #30Wavemaker express weekly #30
Wavemaker express weekly #30Wavemaker Taiwan
 
106智慧srb會議 公眾討論簡報-3加速產業發展與市場拓展-0622
106智慧srb會議 公眾討論簡報-3加速產業發展與市場拓展-0622106智慧srb會議 公眾討論簡報-3加速產業發展與市場拓展-0622
106智慧srb會議 公眾討論簡報-3加速產業發展與市場拓展-0622b0stey
 
Maker x Hacker桃園開放資料黑客松介紹簡報(20160531)
Maker x Hacker桃園開放資料黑客松介紹簡報(20160531)Maker x Hacker桃園開放資料黑客松介紹簡報(20160531)
Maker x Hacker桃園開放資料黑客松介紹簡報(20160531)Taoyuan City Government
 
媒體報導關聯性分析:以太陽花學運為例
媒體報導關聯性分析:以太陽花學運為例媒體報導關聯性分析:以太陽花學運為例
媒體報導關聯性分析:以太陽花學運為例Johnson Hsieh
 
勞動力發展決策平台&區域人才資本競爭力行動架構
勞動力發展決策平台&區域人才資本競爭力行動架構勞動力發展決策平台&區域人才資本競爭力行動架構
勞動力發展決策平台&區域人才資本競爭力行動架構cpc2631
 
5 1行動服務20121103
5 1行動服務201211035 1行動服務20121103
5 1行動服務20121103cpc2631
 

Ähnlich wie 從 2013 社群網絡活動看台灣社會發展趨勢 (14)

台灣關鍵事實小組定位與運作
台灣關鍵事實小組定位與運作台灣關鍵事實小組定位與運作
台灣關鍵事實小組定位與運作
 
联劝 - 一个鸡蛋的暴走影微博影响力报告
联劝 - 一个鸡蛋的暴走影微博影响力报告联劝 - 一个鸡蛋的暴走影微博影响力报告
联劝 - 一个鸡蛋的暴走影微博影响力报告
 
全國大專校院資訊應用服務創新競賽桃園開放資料創新應用組 說明會簡報
全國大專校院資訊應用服務創新競賽桃園開放資料創新應用組 說明會簡報全國大專校院資訊應用服務創新競賽桃園開放資料創新應用組 說明會簡報
全國大專校院資訊應用服務創新競賽桃園開放資料創新應用組 說明會簡報
 
媒體 與 社群的資料分析
媒體 與 社群的資料分析媒體 與 社群的資料分析
媒體 與 社群的資料分析
 
Trs互联网舆情管理系统白皮书
Trs互联网舆情管理系统白皮书Trs互联网舆情管理系统白皮书
Trs互联网舆情管理系统白皮书
 
資訊立法策進聯盟成員介紹
資訊立法策進聯盟成員介紹資訊立法策進聯盟成員介紹
資訊立法策進聯盟成員介紹
 
District Characteristics And Service Provision (Yl)
District Characteristics And Service Provision (Yl)District Characteristics And Service Provision (Yl)
District Characteristics And Service Provision (Yl)
 
政府機關web 2.0社群媒體的應用發展
政府機關web 2.0社群媒體的應用發展政府機關web 2.0社群媒體的應用發展
政府機關web 2.0社群媒體的應用發展
 
Wavemaker express weekly #30
Wavemaker express weekly #30Wavemaker express weekly #30
Wavemaker express weekly #30
 
106智慧srb會議 公眾討論簡報-3加速產業發展與市場拓展-0622
106智慧srb會議 公眾討論簡報-3加速產業發展與市場拓展-0622106智慧srb會議 公眾討論簡報-3加速產業發展與市場拓展-0622
106智慧srb會議 公眾討論簡報-3加速產業發展與市場拓展-0622
 
Maker x Hacker桃園開放資料黑客松介紹簡報(20160531)
Maker x Hacker桃園開放資料黑客松介紹簡報(20160531)Maker x Hacker桃園開放資料黑客松介紹簡報(20160531)
Maker x Hacker桃園開放資料黑客松介紹簡報(20160531)
 
媒體報導關聯性分析:以太陽花學運為例
媒體報導關聯性分析:以太陽花學運為例媒體報導關聯性分析:以太陽花學運為例
媒體報導關聯性分析:以太陽花學運為例
 
勞動力發展決策平台&區域人才資本競爭力行動架構
勞動力發展決策平台&區域人才資本競爭力行動架構勞動力發展決策平台&區域人才資本競爭力行動架構
勞動力發展決策平台&區域人才資本競爭力行動架構
 
5 1行動服務20121103
5 1行動服務201211035 1行動服務20121103
5 1行動服務20121103
 

Mehr von 台灣資料科學年會

[台灣人工智慧學校] 人工智慧技術發展與應用
[台灣人工智慧學校] 人工智慧技術發展與應用[台灣人工智慧學校] 人工智慧技術發展與應用
[台灣人工智慧學校] 人工智慧技術發展與應用台灣資料科學年會
 
[台灣人工智慧學校] 執行長報告
[台灣人工智慧學校] 執行長報告[台灣人工智慧學校] 執行長報告
[台灣人工智慧學校] 執行長報告台灣資料科學年會
 
[台灣人工智慧學校] 工業 4.0 與智慧製造的發展趨勢與挑戰
[台灣人工智慧學校] 工業 4.0 與智慧製造的發展趨勢與挑戰[台灣人工智慧學校] 工業 4.0 與智慧製造的發展趨勢與挑戰
[台灣人工智慧學校] 工業 4.0 與智慧製造的發展趨勢與挑戰台灣資料科學年會
 
[台灣人工智慧學校] 開創台灣產業智慧轉型的新契機
[台灣人工智慧學校] 開創台灣產業智慧轉型的新契機[台灣人工智慧學校] 開創台灣產業智慧轉型的新契機
[台灣人工智慧學校] 開創台灣產業智慧轉型的新契機台灣資料科學年會
 
[台灣人工智慧學校] 開創台灣產業智慧轉型的新契機
[台灣人工智慧學校] 開創台灣產業智慧轉型的新契機[台灣人工智慧學校] 開創台灣產業智慧轉型的新契機
[台灣人工智慧學校] 開創台灣產業智慧轉型的新契機台灣資料科學年會
 
[台灣人工智慧學校] 台北總校第三期結業典禮 - 執行長談話
[台灣人工智慧學校] 台北總校第三期結業典禮 - 執行長談話[台灣人工智慧學校] 台北總校第三期結業典禮 - 執行長談話
[台灣人工智慧學校] 台北總校第三期結業典禮 - 執行長談話台灣資料科學年會
 
[TOxAIA台中分校] AI 引爆新工業革命,智慧機械首都台中轉型論壇
[TOxAIA台中分校] AI 引爆新工業革命,智慧機械首都台中轉型論壇[TOxAIA台中分校] AI 引爆新工業革命,智慧機械首都台中轉型論壇
[TOxAIA台中分校] AI 引爆新工業革命,智慧機械首都台中轉型論壇台灣資料科學年會
 
[TOxAIA台中分校] 2019 台灣數位轉型 與產業升級趨勢觀察
[TOxAIA台中分校] 2019 台灣數位轉型 與產業升級趨勢觀察 [TOxAIA台中分校] 2019 台灣數位轉型 與產業升級趨勢觀察
[TOxAIA台中分校] 2019 台灣數位轉型 與產業升級趨勢觀察 台灣資料科學年會
 
[TOxAIA台中分校] 智慧製造成真! 產線導入AI的致勝關鍵
[TOxAIA台中分校] 智慧製造成真! 產線導入AI的致勝關鍵[TOxAIA台中分校] 智慧製造成真! 產線導入AI的致勝關鍵
[TOxAIA台中分校] 智慧製造成真! 產線導入AI的致勝關鍵台灣資料科學年會
 
[台灣人工智慧學校] 從經濟學看人工智慧產業應用
[台灣人工智慧學校] 從經濟學看人工智慧產業應用[台灣人工智慧學校] 從經濟學看人工智慧產業應用
[台灣人工智慧學校] 從經濟學看人工智慧產業應用台灣資料科學年會
 
[台灣人工智慧學校] 台中分校第二期開學典禮 - 執行長報告
[台灣人工智慧學校] 台中分校第二期開學典禮 - 執行長報告[台灣人工智慧學校] 台中分校第二期開學典禮 - 執行長報告
[台灣人工智慧學校] 台中分校第二期開學典禮 - 執行長報告台灣資料科學年會
 
[台中分校] 第一期結業典禮 - 執行長談話
[台中分校] 第一期結業典禮 - 執行長談話[台中分校] 第一期結業典禮 - 執行長談話
[台中分校] 第一期結業典禮 - 執行長談話台灣資料科學年會
 
[TOxAIA新竹分校] 工業4.0潛力新應用! 多模式對話機器人
[TOxAIA新竹分校] 工業4.0潛力新應用! 多模式對話機器人[TOxAIA新竹分校] 工業4.0潛力新應用! 多模式對話機器人
[TOxAIA新竹分校] 工業4.0潛力新應用! 多模式對話機器人台灣資料科學年會
 
[TOxAIA新竹分校] AI整合是重點! 竹科的關鍵轉型思維
[TOxAIA新竹分校] AI整合是重點! 竹科的關鍵轉型思維[TOxAIA新竹分校] AI整合是重點! 竹科的關鍵轉型思維
[TOxAIA新竹分校] AI整合是重點! 竹科的關鍵轉型思維台灣資料科學年會
 
[TOxAIA新竹分校] 2019 台灣數位轉型與產業升級趨勢觀察
[TOxAIA新竹分校] 2019 台灣數位轉型與產業升級趨勢觀察[TOxAIA新竹分校] 2019 台灣數位轉型與產業升級趨勢觀察
[TOxAIA新竹分校] 2019 台灣數位轉型與產業升級趨勢觀察台灣資料科學年會
 
[TOxAIA新竹分校] 深度學習與Kaggle實戰
[TOxAIA新竹分校] 深度學習與Kaggle實戰[TOxAIA新竹分校] 深度學習與Kaggle實戰
[TOxAIA新竹分校] 深度學習與Kaggle實戰台灣資料科學年會
 
[台灣人工智慧學校] Bridging AI to Precision Agriculture through IoT
[台灣人工智慧學校] Bridging AI to Precision Agriculture through IoT[台灣人工智慧學校] Bridging AI to Precision Agriculture through IoT
[台灣人工智慧學校] Bridging AI to Precision Agriculture through IoT台灣資料科學年會
 
[2018 台灣人工智慧學校校友年會] 產業經驗分享: 如何用最少的訓練樣本,得到最好的深度學習影像分析結果,減少一半人力,提升一倍品質 / 李明達
[2018 台灣人工智慧學校校友年會] 產業經驗分享: 如何用最少的訓練樣本,得到最好的深度學習影像分析結果,減少一半人力,提升一倍品質 / 李明達[2018 台灣人工智慧學校校友年會] 產業經驗分享: 如何用最少的訓練樣本,得到最好的深度學習影像分析結果,減少一半人力,提升一倍品質 / 李明達
[2018 台灣人工智慧學校校友年會] 產業經驗分享: 如何用最少的訓練樣本,得到最好的深度學習影像分析結果,減少一半人力,提升一倍品質 / 李明達台灣資料科學年會
 
[2018 台灣人工智慧學校校友年會] 啟動物聯網新關鍵 - 未來由你「喚」醒 / 沈品勳
[2018 台灣人工智慧學校校友年會] 啟動物聯網新關鍵 - 未來由你「喚」醒 / 沈品勳[2018 台灣人工智慧學校校友年會] 啟動物聯網新關鍵 - 未來由你「喚」醒 / 沈品勳
[2018 台灣人工智慧學校校友年會] 啟動物聯網新關鍵 - 未來由你「喚」醒 / 沈品勳台灣資料科學年會
 

Mehr von 台灣資料科學年會 (20)

[台灣人工智慧學校] 人工智慧技術發展與應用
[台灣人工智慧學校] 人工智慧技術發展與應用[台灣人工智慧學校] 人工智慧技術發展與應用
[台灣人工智慧學校] 人工智慧技術發展與應用
 
[台灣人工智慧學校] 執行長報告
[台灣人工智慧學校] 執行長報告[台灣人工智慧學校] 執行長報告
[台灣人工智慧學校] 執行長報告
 
[台灣人工智慧學校] 工業 4.0 與智慧製造的發展趨勢與挑戰
[台灣人工智慧學校] 工業 4.0 與智慧製造的發展趨勢與挑戰[台灣人工智慧學校] 工業 4.0 與智慧製造的發展趨勢與挑戰
[台灣人工智慧學校] 工業 4.0 與智慧製造的發展趨勢與挑戰
 
[台灣人工智慧學校] 開創台灣產業智慧轉型的新契機
[台灣人工智慧學校] 開創台灣產業智慧轉型的新契機[台灣人工智慧學校] 開創台灣產業智慧轉型的新契機
[台灣人工智慧學校] 開創台灣產業智慧轉型的新契機
 
[台灣人工智慧學校] 開創台灣產業智慧轉型的新契機
[台灣人工智慧學校] 開創台灣產業智慧轉型的新契機[台灣人工智慧學校] 開創台灣產業智慧轉型的新契機
[台灣人工智慧學校] 開創台灣產業智慧轉型的新契機
 
[台灣人工智慧學校] 台北總校第三期結業典禮 - 執行長談話
[台灣人工智慧學校] 台北總校第三期結業典禮 - 執行長談話[台灣人工智慧學校] 台北總校第三期結業典禮 - 執行長談話
[台灣人工智慧學校] 台北總校第三期結業典禮 - 執行長談話
 
[TOxAIA台中分校] AI 引爆新工業革命,智慧機械首都台中轉型論壇
[TOxAIA台中分校] AI 引爆新工業革命,智慧機械首都台中轉型論壇[TOxAIA台中分校] AI 引爆新工業革命,智慧機械首都台中轉型論壇
[TOxAIA台中分校] AI 引爆新工業革命,智慧機械首都台中轉型論壇
 
[TOxAIA台中分校] 2019 台灣數位轉型 與產業升級趨勢觀察
[TOxAIA台中分校] 2019 台灣數位轉型 與產業升級趨勢觀察 [TOxAIA台中分校] 2019 台灣數位轉型 與產業升級趨勢觀察
[TOxAIA台中分校] 2019 台灣數位轉型 與產業升級趨勢觀察
 
[TOxAIA台中分校] 智慧製造成真! 產線導入AI的致勝關鍵
[TOxAIA台中分校] 智慧製造成真! 產線導入AI的致勝關鍵[TOxAIA台中分校] 智慧製造成真! 產線導入AI的致勝關鍵
[TOxAIA台中分校] 智慧製造成真! 產線導入AI的致勝關鍵
 
[台灣人工智慧學校] 從經濟學看人工智慧產業應用
[台灣人工智慧學校] 從經濟學看人工智慧產業應用[台灣人工智慧學校] 從經濟學看人工智慧產業應用
[台灣人工智慧學校] 從經濟學看人工智慧產業應用
 
[台灣人工智慧學校] 台中分校第二期開學典禮 - 執行長報告
[台灣人工智慧學校] 台中分校第二期開學典禮 - 執行長報告[台灣人工智慧學校] 台中分校第二期開學典禮 - 執行長報告
[台灣人工智慧學校] 台中分校第二期開學典禮 - 執行長報告
 
台灣人工智慧學校成果發表會
台灣人工智慧學校成果發表會台灣人工智慧學校成果發表會
台灣人工智慧學校成果發表會
 
[台中分校] 第一期結業典禮 - 執行長談話
[台中分校] 第一期結業典禮 - 執行長談話[台中分校] 第一期結業典禮 - 執行長談話
[台中分校] 第一期結業典禮 - 執行長談話
 
[TOxAIA新竹分校] 工業4.0潛力新應用! 多模式對話機器人
[TOxAIA新竹分校] 工業4.0潛力新應用! 多模式對話機器人[TOxAIA新竹分校] 工業4.0潛力新應用! 多模式對話機器人
[TOxAIA新竹分校] 工業4.0潛力新應用! 多模式對話機器人
 
[TOxAIA新竹分校] AI整合是重點! 竹科的關鍵轉型思維
[TOxAIA新竹分校] AI整合是重點! 竹科的關鍵轉型思維[TOxAIA新竹分校] AI整合是重點! 竹科的關鍵轉型思維
[TOxAIA新竹分校] AI整合是重點! 竹科的關鍵轉型思維
 
[TOxAIA新竹分校] 2019 台灣數位轉型與產業升級趨勢觀察
[TOxAIA新竹分校] 2019 台灣數位轉型與產業升級趨勢觀察[TOxAIA新竹分校] 2019 台灣數位轉型與產業升級趨勢觀察
[TOxAIA新竹分校] 2019 台灣數位轉型與產業升級趨勢觀察
 
[TOxAIA新竹分校] 深度學習與Kaggle實戰
[TOxAIA新竹分校] 深度學習與Kaggle實戰[TOxAIA新竹分校] 深度學習與Kaggle實戰
[TOxAIA新竹分校] 深度學習與Kaggle實戰
 
[台灣人工智慧學校] Bridging AI to Precision Agriculture through IoT
[台灣人工智慧學校] Bridging AI to Precision Agriculture through IoT[台灣人工智慧學校] Bridging AI to Precision Agriculture through IoT
[台灣人工智慧學校] Bridging AI to Precision Agriculture through IoT
 
[2018 台灣人工智慧學校校友年會] 產業經驗分享: 如何用最少的訓練樣本,得到最好的深度學習影像分析結果,減少一半人力,提升一倍品質 / 李明達
[2018 台灣人工智慧學校校友年會] 產業經驗分享: 如何用最少的訓練樣本,得到最好的深度學習影像分析結果,減少一半人力,提升一倍品質 / 李明達[2018 台灣人工智慧學校校友年會] 產業經驗分享: 如何用最少的訓練樣本,得到最好的深度學習影像分析結果,減少一半人力,提升一倍品質 / 李明達
[2018 台灣人工智慧學校校友年會] 產業經驗分享: 如何用最少的訓練樣本,得到最好的深度學習影像分析結果,減少一半人力,提升一倍品質 / 李明達
 
[2018 台灣人工智慧學校校友年會] 啟動物聯網新關鍵 - 未來由你「喚」醒 / 沈品勳
[2018 台灣人工智慧學校校友年會] 啟動物聯網新關鍵 - 未來由你「喚」醒 / 沈品勳[2018 台灣人工智慧學校校友年會] 啟動物聯網新關鍵 - 未來由你「喚」醒 / 沈品勳
[2018 台灣人工智慧學校校友年會] 啟動物聯網新關鍵 - 未來由你「喚」醒 / 沈品勳
 

從 2013 社群網絡活動看台灣社會發展趨勢

  • 2. My Team Members 潘金谷 呂俊宏 李宜勳 楊仙寧 陳泰宏 陳姿蓉 羅澤揚
  • 3. 經驗和思考架構 電信/安全/商業/金融/遙感遙測/勘探/生物醫藥…… 社會科學方法的應用(如統計的相關,效用,…; 各種相關學門的理論) 價值釐清層資料科學家 30 領域應用/服務需求和計算模型 行業應用系統開發 社群網路,排名與推薦,商業智慧,自然語言處理,生物 資訊媒體分析檢索, Web挖掘與檢索, 3D與視覺化計 算… 平行化機器學習與資料採擷演算法 MapReduce, BSP, MPI, CUDA, OpenMP,定制式, 混合式(如MapReduce+CUDA, MapReduce+MPI) 巨量資料查詢(SQL, NoSQL,即時查詢,線下分析) 巨量資料存儲(DFS, HBase, MemDB, RDB) 巨量數據預處理 集群,多核, GPU,混合式構架(如集群+多核,集群+GPU), 雲計算資源與支撐平臺 應用/服務層 應用開發層 應用演算法層 基礎演算法層 平行程式設計模 型與計算框架層 巨量資料存儲 管理層 平行構架和資 源平臺層 user 領域專家 應用開發者 資料科學家 /計算技術 學者/ 開發者 應用層 演算法層 系統層 平臺層 資料的處理,測試與選擇資料層資料處理層資料科學家
  • 4. 經驗和思考架構 電信/安全/商業/金融/遙感遙測/勘探/生物醫藥…… 社會科學方法的應用(如統計的相關,效用,…; 各種相關學門的理論) 價值釐清層資料科學家 大多數人談的 30 領域應用/服務需求和計算模型 行業應用系統開發 社群網路,排名與推薦,商業智慧,自然語言處理,生物 資訊媒體分析檢索, Web挖掘與檢索, 3維建模與視覺 化計算… 平行化機器學習與資料採擷演算法 MapReduce, BSP, MPI, CUDA, OpenMP,定制式, 混合式(如MapReduce+CUDA, MapReduce+MPI) 巨量資料查詢(SQL, NoSQL,即時查詢,線下分析) 巨量資料存儲(DFS, HBase, MemDB, RDB) 巨量數據預處理 集群,多核, GPU,混合式構架(如集群+多核,集群+GPU), 雲計算資源與支撐平臺 應用/服務層 應用開發層 應用演算法層 基礎演算法層 平行程式設計模 型與計算框架層 巨量資料存儲 管理層 平行構架和資 源平臺層 行業用戶 領域專家 應用開發者 計算技術 研究和 開發者 應用層 演算法層 系統層 平臺層 資料的處理,測試與選擇資料層資料處理層資料科學家
  • 5. 經驗和思考架構 電信/安全/商業/金融/遙感遙測/勘探/生物醫藥…… 我認為對顧客最有價值的部分 社會科學方法的應用(如統計的相關,效用,…; 各種相關學門的理論) 價值釐清層資料科學家 大多數人談的 30 領域應用/服務需求和計算模型 行業應用系統開發 社群網路,排名與推薦,商業智慧,自然語言處理,生物 資訊媒體分析檢索, Web挖掘與檢索, 3維建模與視覺 化計算… 平行化機器學習與資料採擷演算法 MapReduce, BSP, MPI, CUDA, OpenMP,定制式, 混合式(如MapReduce+CUDA, MapReduce+MPI) 巨量資料查詢(SQL, NoSQL,即時查詢,線下分析) 巨量資料存儲(DFS, HBase, MemDB, RDB) 巨量數據預處理 集群,多核, GPU,混合式構架(如集群+多核,集群+GPU), 雲計算資源與支撐平臺 應用/服務層 應用開發層 應用演算法層 基礎演算法層 平行程式設計模 型與計算框架層 巨量資料存儲 管理層 平行構架和資 源平臺層 行業用戶 領域專家 應用開發者 計算技術 研究和 開發者 應用層 演算法層 系統層 平臺層 資料的處理,測試與選擇資料層資料處理層資料科學家
  • 6. 經驗和思考架構 電信/安全/商業/金融/遙感遙測/勘探/生物醫藥…… 我認為對顧客最有價值的部分 社會科學方法的應用(如統計的相關,效用,…; 各種相關學門的理論) 價值釐清層資料科學家 大多數人談的 30 領域應用/服務需求和計算模型 行業應用系統開發 社群網路,排名與推薦,商業智慧,自然語言處理,生物 資訊媒體分析檢索, Web挖掘與檢索, 3維建模與視覺 化計算… 平行化機器學習與資料採擷演算法 MapReduce, BSP, MPI, CUDA, OpenMP,定制式, 混合式(如MapReduce+CUDA, MapReduce+MPI) 巨量資料查詢(SQL, NoSQL,即時查詢,線下分析) 巨量資料存儲(DFS, HBase, MemDB, RDB) 巨量數據預處理 集群,多核, GPU,混合式構架(如集群+多核,集群+GPU), 雲計算資源與支撐平臺 應用/服務層 應用開發層 應用演算法層 基礎演算法層 平行程式設計模 型與計算框架層 巨量資料存儲 管理層 平行構架和資 源平臺層 行業用戶 領域專家 應用開發者 計算技術 研究和 開發者 應用層 演算法層 系統層 平臺層 少人談,最辛苦的(今天主要主軸) 資料的處理,測試與選擇資料層資料處理層資料科學家
  • 7. 任何資料,都存在多個面向(1) 當環保統計與都市發展資料結合 分區累積案件數 101Y 102Y 中山區8118 8770 中正區4839 5123 信義區6067 6556 內湖區4417 4980 北投區4394 4962 南港區2637 2193 士林區6057 6484 大同區3067 3254 大安區9566 9673 文山區4572 4594 松山區4475 4700 萬華區4093 5191 臺北市6 2 62308 66482 環保署表示,自整合 全國公害陳情報案系 統以來,公害陳情案 件量自民國87年8萬 5,768件逐年上升,至 101年為止已連續兩 年突破20萬件,……..。 至於各鄉鎮總案件量 前三名,依序為臺北 市大安區、臺北市中 山區及新北市板橋區。 所以大安區的人 愛抱怨? http://ivy5.epa.gov.tw/enews/fact_Newsdetail.asp?InputTime=1020305154408
  • 8. 任何資料,都存在多個面向(2) 分區累積案件數 101Y 102Y 中山區8118 8770 中正區4839 5123 信義區6067 6556 內湖區4417 4980 北投區4394 4962 南港區2637 2193 士林區6057 6484 大同區3067 3254 大安區9566 9673 文山區4572 4594 松山區4475 4700 萬華區4093 5191 臺北市6 2 當除以每年人口當再除以土地面積? 62308 66482 環保署表示,自整合 全國公害陳情報案系 統以來,公害陳情案 件量自民國87年8萬 5,768件逐年上升,至 101年為止已連續兩 年突破20萬件,……..。 至於各鄉鎮總案件量 前三名,依序為臺北 市大安區、臺北市中 山區及新北市板橋區。 分區平均每千人報案數 101Y 102Y 中山區3.62 3.83 中正區2.99 3.14 信義區2.68 2.87 內湖區1.60 1.76 北投區1.74 1.94 南港區2.27 1.83 士林區2.11 2.24 大同區2.42 2.51 大安區3.05 3.09 文山區1.71 1.69 松山區2.13 2.23 萬華區2.14 2.68 http://ivy5.epa.gov.tw/enews/fact_Newsdetail.asp?InputTime=1020305154408
  • 9. 所以當資料來自於網路時 “求全”,每個做研究的都希望有所有的資料;但我們竭盡所能也僅有70%的資料; 更有一些先天限制,例如網站Log, Social Media 的DATA 9 API呼叫撈網頁指定位置 混搭 例如:面對有些資料是hidden 在Java Script之後時 例如:有些資料是API不提供, 但 例如:有些資料是不完整,需要透 過API + Google + 關鍵字擴 張, … Cleaned Data 圖資+ 實際每天打卡人潮+路徑 消費者關新潮流議題 新詞/領域詞詞庫 …
  • 10. 更需要小心謹慎地反覆驗證 從個別的趨勢是否在不同的搜尋引擎也有同樣熱門關鍵字? 跨媒體比較趨勢是否一致? 如何找出網路上重要的現象? 如何驗證你所知道的是真的? 因此,我們需要不斷地透過各 種方法驗證資料與判斷!
  • 11. 從問題來想資料/分析? • 問題的三種層級 – 問題明確,相對可掌握/預測的環境 – 問題不明確,未來有多種可能和選擇 – 完全不知道問題為何 • 歸納出一些方法 – 用現象來描述 – 搜集資料 – 尋找模式 – 建構可能影響因子 – 反覆測試 – 提出關鍵洞見 現象背後,一定有問題嗎? 是否有哪些可以切割資料找出 來的? 是否有哪些資料可以產生不同 維度? 是否可以重複操作? 並得到類似的結果?
  • 12. 3個案例 以下,我舉3個案例是在有資料後做的不同實驗 • 1. 小心!資訊可能是被主導的以食品安全為例 • 2. 開花!資料的比對 318與Occupy Wall Street的 比較與歸納 • 3. 想像與起飛!一些應用從打卡,照片到推薦
  • 14. 食安事件一直是一波未平一波又起 1,200 1,000 800 600 400 200 0 總發文數 網民目光因清淨農場、汐止山坡地開發 與日月光非法排污事件而移轉 1月1日2月1日3月1日4月1日5月1日6月1日7月1日8月1日9月1日10月1日11月1日12月1日 觀測區間:2013/1/1-12/16 800 600 400 200 0 總發文數七日移動平均趨勢 1月1日2月1日3月1日4月1日5月1日6月1日7月1日8月1日9月1日10月1日11月1日12月1日
  • 15. 媒體類粉絲頁發文趨勢 140 120 100 80 60 40 20 0 毒澱粉事件胖達人事件混油事件 媒體總發文數 牛奶 駭人 4月1日5月1日6月1日7月1日8月1日9月1日10月1日11月1日12月1日 1. 社會的討論趨勢被媒體引導 2. 媒體往往針對特定事件炒作  那我們生活裡的食安還有甚麼事?
  • 16. 非媒體類粉絲頁發文趨勢 1,200 1,000 800 600 400 200 0 毒澱粉事件胖達人事件混油事件 非媒體總發文 雞塊不是真的雞! 4月1日5月1日6月1日7月1日8月1日9月1日10月1日11月1日12月1日 80%的病死豬 變成你我的早餐! 踢爆餵實驗白鼠 恐佈土虱銷全台 美牛驚爆瘦肉精 虛擬牧場 外國劣質米充台貨 牛奶 駭人 林杰樑醫師過世 然而,從觀測裡可以看出, 食品安全議題一直不斷地發生!
  • 17. 去年下半年來危機事件趨勢 7000 6000 5000 4000 3000 2000 1000 0 2013/7/1 2013/8/1 2013/9/1 2013/10/1 2013/11/1 2013/12/1 胖達人香精事件 日月光廢水事件 味全大統油事件 菁茵荋禁藥事件 山水米混米事件 李珍妮生女事件 佳麗寶白斑事件 • 多數事件生命週期約7至10日,時間較長則可延燒2至3周。 • 話題高峰皆出現在事件爆發初期,多數事件僅有1至2次口碑高峰。 • 危機爆發前的潛伏與上升期極短,在相關話題產生一周內便會引爆,並迅速爬升至 口碑高峰。
  • 18. 議題會相互掩護 然而卻不代表不會再發生! 700 600 500 400 300 200 100 0 李珍妮生女事件胖達人香精事件 8月1日8月8日8月15日8月22日8月29日9月5日9月12日9月19
  • 19. 19 特定議題之跨平台數據比對-毒澱粉事件 單位:篇、次 單位:篇 0 500 1,000 1,500 2,000 5月13日 5月15日 5月17日 5月19日 5月21日 5月23日 5月25日 5月27日 5月29日 5月31日 6月2日 6月4日 6月6日 6月8日 6月10日 6月12日 6月14日 6月16日 6月18日 6月20日 6月22日 6月24日 6月26日 6月28日 6月30日 0 0 20,000 50 40,000 60,000 80,000 150 100,000 100 120,000 200 Facebook 公開性粉絲頁 140,000 5月13日 5月15日 5月17日 5月19日 5月21日 5月23日 5月25日 5月27日 5月29日 5月31日 6月2日 6月4日 6月6日 6月8日 6月10日 6月12日 6月14日 6月16日 6月18日 6月20日 6月22日 6月24日 6月26日 6月28日 6月30日 0 20 40 60 80 100 5月13日 5月15日 5月17日 5月19日 5月21日 5月23日 5月25日 5月27日 5月29日 5月31日 6月2日 6月4日 6月6日 6月8日 6月10日 6月12日 6月14日 6月16日 6月18日 6月20日 6月22日 6月24日 6月26日 6月28日 6月30日 Google Trends 單位:% 新聞網站 媒體揭露階段 (5/13-5/17)  自5月13日部分媒體揭露此重大食品安全 事件後,隨後數日即有大量的新聞露出  但Google Trends數據卻顯示此數日內 僅有增加相對少數的搜尋量  可知當時雖有引起關注,但卻並未有多 數網民嘗試利用搜尋來更深入了解此一 事件 目前和政大的一些新聞學者在 嘗試,如何設計一些平台/方 法,可以讓一些被忽略的資訊 也可以被注意到或持續被追 蹤,也歡迎各位一起加入!
  • 22. 社會運動中,衝突事件往往帶起關注高峰! 22 發文與回應逐日趨勢(3/17-4/15 23時) 註:「3月16日止」指1/1-3/16間曾提及服貿議題 8,000 7,908 10,000 9,396 6,000 5,184 5,518,455 6,428,836 5,595,880 0 0 2,000 2,000,000 4,000,000 6,000,000 4,000 公投盟遭驅離 與中正一分局 聚眾事件 8,000,000 3月16日止 3月17日 3月18日 3月19日 3月20日 3月21日 3月22日 3月23日 3月24日 3月25日 3月26日 3月27日 3月28日 3月29日 3月30日 3月31日 4月1日 4月2日 4月3日 4月4日 4月5日 4月6日 4月7日 4月8日 4月9日 4月10日 4月11日 4月12日 4月13日 4月14日 4月15日 行政院發文數總回應量 驅離衝突 330 凱道集結 411
  • 23. 23 (不重複)發文粉絲頁數逐日趨勢(3/17-4/15 23時) 註:「3月16日止」指1/1-3/16間曾提及服貿議題 1000 961 989 924 902 0 200 400 600 800 3月16日止 3月17日 3月18日 3月19日 3月20日 3月21日 3月22日 3月23日 3月24日 3月25日 3月26日 3月27日 3月28日 3月29日 3月30日 3月31日 4月1日 4月2日 4月3日 4月4日 4月5日 4月6日 4月7日 4月8日 4月9日 4月10日 4月11日 4月12日 4月13日 4月14日 4月15日 佔領立院後 行政院發文粉絲頁 驅離衝突 330 凱道集結 學運前三日為發文粉絲頁數高峰
  • 24. 24 1,129,305 1,166,137 1,500,000 1,354,869 1,405,571 0 500,000 1,000,000 3月16日止 3月17日 3月18日 3月19日 3月20日 3月21日 3月22日 3月23日 3月24日 3月25日 3月26日 3月27日 3月28日 3月29日 3月30日 3月31日 4月1日 4月2日 4月3日 4月4日 4月5日 4月6日 4月7日 4月8日 4月9日 4月10日 4月11日 4月12日 4月13日 4月14日 4月15日 行政院 驅離衝突 關注人數 註1:「3月16日止」指1/1-3/16間曾提及服貿議題註2:「關注人數」指曾進行發文/回應之註冊ID數 (不重複)關注人數逐日趨勢(3/17-4/15 23時) 330 凱道集結 衝突事件與民眾集結為關注人數最高峰
  • 25. 後續行動似仍有基本盤關注 1,235,595 (不重複)關注人數逐日趨勢(3/17-4/9 12時) 673,146 543,704 499,435 450,460 386,796 389,195 430,117 438,142 389,753 23,427 1,500,000 1,000,000 500,000 0 3月30日 3月31日 4月1日 4月2日 4月3日 4月4日 4月5日 4月6日 4月7日 4月8日 4月9日 關注人數 330 凱道集結 僅至4/9 12時止, 數據更新後仍會上加 25 330凱道集結後關注人數驟減,但4/5後 (未更新完備)關注人數卻開始增加,原 因除學運退場外,主要在於後續行動(如 割闌尾、監督條例審查時之監督)與對媒 體報導(中天新聞龍捲風節目)之批判。
  • 26. 關注者與前日重疊比例逐日趨勢(3/17-4/15 23時) 330 凱道集結 26 佔領立院後 57.39% 78.43% 行政院 驅離衝突 60.81% 65.52% 57.83% 51.82% 100% 80% 60% 40% 20% 0% 3月17日 3月19日 3月21日 3月23日 3月25日 3月27日 3月29日 3月31日 4月2日 4月4日 4月6日 4月8日 4月10日 4月12日 4月14日 關注者與前日重疊比例 註1:「3月16日止」指1/1-3/16間曾提及服貿議題註2:「關注人數」指曾進行發文/回應之註冊ID數 410 學生退場 411公投盟遭驅離與 中正一分局聚眾事件 顯著的持續關注現象
  • 27. 27 單位︓% 歸納(1) 1000% 800% 600% 400% 200% 0% -200% 3月17日 3月19日 3月21日 3月23日 3月25日 3月27日 3月29日 3月31日 4月2日 4月4日 4月6日 4月8日 4月10日 4月12日 4月14日 發文數成長率總回應量成長率發文粉絲頁成長率關注人數成長率 特定事件發生 (行政院驅離衝突) 迅速引發關注 (佔領立法院後) 特定事件發生 (330凱道集結) 事件結束 (學生退場) 關注趨緩 1. 事件起始後2-3日必須馬上引發高度關注 2. 明確的聚集地點 3. 當受關注程度趨緩時,偶發/特定(衝突)事件發生,再次引發關注
  • 28. 28 單位︓回應次數歸納(2) 1,500,000 1,000,000 3月500,000 0 16日止 3月17日 3月18日 3月19日 3月20日 3月21日 3月22日 3月23日 3月24日 3月25日 3月26日 3月27日 3月28日 3月29日 3月30日 3月31日 4月1日 4月2日 4月3日 4月4日 4月5日 4月6日 4月7日 4月8日 4月9日 4月10日 4月11日 4月12日 4月13日 4月14日 4月15日 關注人數鄭秀玲林飛帆陳為廷黃國昌魏揚 主要人物確立 (林飛帆) 特定事件 聚焦主要人物 (魏揚) 特定事件 聚焦主要人物 (林飛帆、 陳為廷) 4. 事件起始後一週內主要角色/人物確立 5. 偶發/特定事件發生,角色/人物受關注程度鮮明
  • 29. 29 單位︓回應次數 1,500,000 1,000,000 3月500,000 0 16日止 3月17日 3月18日 3月19日 3月20日 3月21日 3月22日 3月23日 3月24日 3月25日 3月26日 3月27日 3月28日 3月29日 3月30日 3月31日 4月1日 4月2日 4月3日 4月4日 4月5日 4月6日 4月7日 4月8日 4月9日 4月10日 4月11日 4月12日 4月13日 4月14日 4月15日 關注人數晚安台灣島嶼天光太陽花 出現圖像/符號 (太陽花) 出現音樂/歌曲 (島嶼天光) 歸納(3) 6. 事件起始後一週內出現明確的圖像/符號 7. 接續出現呼應主軸/訴求的音樂/歌曲
  • 30. Occupy Wall Street Also see : http://en.wikipedia.org/wiki/Occupy_Wall_Street
  • 31. 社會運動的比對 Occupy Wall Street 太陽花學運 比對兩個由網路到實體的社運事 件,可以發現共同的 1.過去網路話題的累積(話題需要 慢慢發酵,累積能量) 2.話題的認同與快速響應(斜率超 過一定幅度)衝突事件 3.議題的凝聚性/主軸的認同 會 從固定管道得到訊息 4.快速地吸引人氣(3天)衝突 點的產生 5.意見領袖的產生與反應 6.實體活動地點從虛擬到實體 7.實體命名與歌曲 8.政府的錯誤判斷 9.實體活動的結合 虛實整合 10.…
  • 32. 不過 • 還是有很多類似G0V,我是第一名的 反服貿網路族群 15-24歲佔48% 25-34歲佔40% 35-44歲佔9% 45-54歲佔2% 55歲以上佔1% 0% 48% 0% 2% 1% 0% 40% 9% 0% 0% 年齡分佈 0~14歲 15~24歲 25~34歲 35~44歲 45~54歲 55~64歲 65~74歲 75~84歲 85~94歲 95歲以上 如,青年學子對社會的關心 註: 以facebook 上,關心反黑箱服貿的有公開年齡的2,250,761 人進行統計
  • 33. 然而 透過Social Data 進行兩岸產品競爭力比較 --以淘寶銷售百大-食品為例
  • 36. 資料科學的協同合作進行方式 給定領域, Keywords Others Social Medi a News 過濾 處理 Keywords/ Issues Groups/Org. Events People/ Influencer 初步 產出 專家 篩選與 建議 (領域專家) (領域專家) (重新擷 取與過 濾) Keywords/ issues Persona Analytics Predictio n Model Diffusion Model Others 各式 分析與 產出 專家 解讀 決策 支援 警示 周知 Others Social Medi a News 修正/ 調整 設定目標,來源 (領域專家) (媒體公關專家) 資料科學家 領域專家 資訊系統 流程建議在電子化政府治理 中心研究報告中
  • 37. 開放合作,創造更多可能 • 和政大電子化政府治理中心合作政府部門的應用 • 和政大新聞系蘇衡教授嘗試,從資料蒐集到呈現來 講故事(Data-driven Journalism ) • 與龍捲風及一些學者及律師成立“台灣數位資料暨 運算服務協會”, 希望促進資料合法並有效應用 • …
  • 39. 39 基本資料蒐集 具地理資訊照片 1. 移動資料蒐集 2. 旅遊足跡分析 a. 資料前處理 b. 旅遊路徑探勘 打卡資訊 3. 相關條件查詢 具討論資訊 1. 討論資料蒐集 2. 產品相關意見分析 (關鍵議題分析)
  • 40. UserId 上傳相片者id 17665813@N00 Title 使用者定義標題鵝鑾鼻日落 Tags 使用者定義標籤Canon,taiwan,墾丁,500d DateTaken 照相時間2011-08-17 19:07:00 Longitude 照相經度120.853166 Latitude 照相緯度21.901666 40 地理資訊照片蒐集 • 利用相關提供的API蒐集有地理資訊的照片 – 主要資料欄位包括 – 目前已蒐集近2年資料 • 其中包含GPS資料計,855,182筆資料 • 平均每人蒐集到65張照片
  • 41. 打卡地理資訊蒐集 每日更新的打卡資訊(以台灣地區為立) 41 id 景點在facebook 中的對應編碼 name 景點名稱 picture 景點照片 Link 景點在Facebook中的鍊結 Likes 景點有多少人按過likes category 景點分類 is_published 是否公開 website 景點的網站位置 location_street 景點的揭到位置 location_city 景點所在城市 location_country 景點所在國家 location_latitude 緯度 location_longitude 經度 phone 電話 checkins 打卡數 目前已蒐集近2年資料 每天以80萬筆資料在更新
  • 44. 人流路徑分析(2) • 展示(距離門檻值100m) -查詢所在位置最近Bigram-based 44 旅遊路徑,以清境農場為例 2. 目前所在位置最近的 Bigram-based旅遊路徑 3. 10條出發點最近的 Bigram-based旅遊路徑 1. 目前所在位置
  • 45. 人流路徑分析(3) • 展示(距離門檻值100m) -查詢所在位置最近Bigram-based 旅遊路徑,以清境農場為例 1. 點選清境農場 2. 地圖上秀出 下一個路徑 2. 之後一定會 去清境農場 1. 點選畜牧步道
  • 46. 46 人流路徑分析(4) • 展示(距離門檻值400m)-查詢Longest旅遊路徑,以合 歡山為例 2. 在地圖上秀出以關鍵字為 出發點的最長旅遊路徑 3. 地圖上方秀出最近旅遊路徑 1. 在goSpot輸入查詢關鍵字
  • 48. 常見選址篩選條件 商業活動特性所需之店址條件 競合關係商圈內同性質的商店 48 商圈內同性質且為競爭對手之商店 商圈內互補性質商店家數 商圈內大型設施家數 基地性質營業面積 可能擴充店面坪數 土地使用分區 周圍環境是否便於裝貨、卸貨 可及性與大型設施之距離 店址與公車、客運、火車站之距離 與角地(三角窗)之距離 交通動線道路寬度 公車客運路線數 車站(公車,鐵路,捷運)距離 每日人潮動線 固定成本店面租金 裝演費用 預估總銷售額(因變數) 商業活動特性所需之店址條件 人口特質人口總數 人口密度 人口成長 預估消費者年齡 預估消費者偏好 平均消費額度 競爭對手每天的消費者數 競爭對手每天的消費者年齡 可見性基地可見性 招牌可見程度 商品陳列種類 店內購物動線 經營管理因素是否為直營店 專職比例 營業時間
  • 52. 4. 加入民生相關產業發展分佈 結合人口與次 級產業下一步 有可能的發展 潛力
  • 54. 再想想 如果再Mash-up • 電子發票 • 網路討論 • 電子商務評價 • ….
  • 60. 民生社區地標類型排名 地標數量排名類型打卡均值類型數量 1 各國美食133 1070 2 地方小吃149 196 3 診所148 117 4 學校366 99 5 傳統市場373 96 6 旅遊景點231 74 7 中式美食272 65 8 咖啡館355 62 9 建築裝潢42 49 10 重要交通地理指標236 49 11 火鍋340 49
  • 61. 民生社區消費者資訊來源偏好排名 排名粉絲頁ID 粉絲頁名稱 1 109249609124014 Yahoo!奇摩新聞 2 232633627068 蘋果日報 3 385553101472522 好事多俱樂部 4 147753419266 86小舖商城 5 226668807442181 情海 6 179298588865429 蔡康永哲理語錄 7 313144222099119 芒果新聞台 8 107305345968232 小三魔法棒(小三美日輸入) 9 277087628996195 Just 分享 1 0 111515882197852 食尚玩家
  • 62. 陸客在台灣(1) 陸客來台,民生社區 首選? 偶像劇場景 朵兒咖啡 追星JJ 林俊傑 送禮微熱山丘
  • 65. 資料處理與應用 • 網路是個有趣的資訊研究來源 • 資料的處理與分析是一件需要有趣的苦工 • 任何的分析結論都僅是某個面向的觀點 • 前路仍然長途漫漫!