SlideShare ist ein Scribd-Unternehmen logo
1 von 66
Downloaden Sie, um offline zu lesen
Python基礎 (爬蟲+一點點探勘)
• BenQ Prototype Developer
• DSP智庫驅動 應用顧問
• 台北市政府 公參會 OpenData 召集人
• 企業應用顧問
• 中華科技大學 業界講師
• 波意設計、深圳波意科技
• 上擎科技
• 華碩電腦
Tim Hong洪培仁
應用程式、資料工程
2 Startup、1 NPO、2 Apps 1st
Why
Why
Why
Why
Why
以分析結果回答問題
建立模型、分析資料
蒐集資料、整理資料
定義問題、規劃藍圖
資料科學
以分析結果回答問題
建立模型、分析資料
蒐集資料、整理資料
定義問題、規劃藍圖
資料科學
以分析結果回答問題
建立模型、分析資料
蒐集資料、整理資料
定義問題、規劃藍圖
資料科學
以分析結果回答問題
建立模型、分析資料
蒐集資料、整理資料
定義問題、規劃藍圖
資料科學
資料的品管影響深遠
資料科學的流程
Guido Rossum
使用哪一個版本?
2.7 or 3 都很好
不過有些命名的差異需要注意
How to do it?
Type python in your terminal or cmd
Linux
Type in python2 or python3
啟動Python Shell
It should looks like this.
開發工具下載位置
開發工具
IPYTHON NOTEBOOK介紹1
Web-based 的開發介面
IPYTHON NOTEBOOK介紹II
Server 狀態
IPYTHON NOTEBOOK介紹III
已經編譯過的程式
IPYTHON NOTEBOOK
Hello World
IPYTHON NOTEBOOK
Hello World
Cell
IPYTHON NOTEBOOK
Hello World
File naming
Just like google Doc.
IPYTHON NOTEBOOK
Hello World
宣告
直接宣告
自動判斷
以分析結果回答問題
建立模型、分析資料
蒐集資料、整理資料
定義問題、規劃藍圖
•Title
•Poster
•Time(Post time / Reply time)
•URL(To get all the post)
檢視原始碼 選定目標 重複性目標
http://www.ign.com/boards/forums/pc.7203/
功能:模擬 html request
功能:
解析處理導航、
搜索、修改分析樹等功能。
功能:
Pandas 主要提供快速便捷地處理
結構化數據 的 大量數據結構 和 函數
你看到了啥??
看到這些 Tag 標籤
soup.find_all
soup.findlxml 用來解析 html/xml
Title
Url
所有文章
Data Frame ? why
實戰 2
PTT
原本的 新加的
!!!!!?????
BeautifulSoup 生一個 <a> 元素來替代
匯出
37新聞
35好雷
35討論
34金牌
34電影
32金牌特
31金牌特務
18問片
16Re
16普雷
11負雷
10的電影
10請益
9殺手
9預告
8一部
8不會
8無雷
8銀翼殺手
7導演
7會不會

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (7)

2020/8/15 AI學校:如何推動組織的 AI 團隊文化?(講者:彭其捷)
2020/8/15 AI學校:如何推動組織的 AI 團隊文化?(講者:彭其捷)2020/8/15 AI學校:如何推動組織的 AI 團隊文化?(講者:彭其捷)
2020/8/15 AI學校:如何推動組織的 AI 團隊文化?(講者:彭其捷)
 
2014 台灣資料科學愛好者年會-- 閉幕式
2014 台灣資料科學愛好者年會-- 閉幕式2014 台灣資料科學愛好者年會-- 閉幕式
2014 台灣資料科學愛好者年會-- 閉幕式
 
資料科學家未曾公開之資安研究事件簿
資料科學家未曾公開之資安研究事件簿資料科學家未曾公開之資安研究事件簿
資料科學家未曾公開之資安研究事件簿
 
Mix Taiwan20170322林守德-解決AI的困局─人工智慧的第三波革命
Mix Taiwan20170322林守德-解決AI的困局─人工智慧的第三波革命Mix Taiwan20170322林守德-解決AI的困局─人工智慧的第三波革命
Mix Taiwan20170322林守德-解決AI的困局─人工智慧的第三波革命
 
如何透過資料視覺化讓你的分析更輕鬆
如何透過資料視覺化讓你的分析更輕鬆如何透過資料視覺化讓你的分析更輕鬆
如何透過資料視覺化讓你的分析更輕鬆
 
Talk to data science in 10 minutes
Talk to data science in 10 minutesTalk to data science in 10 minutes
Talk to data science in 10 minutes
 
資料科學計劃的成果與展望
資料科學計劃的成果與展望資料科學計劃的成果與展望
資料科學計劃的成果與展望
 

Ähnlich wie 網頁爬蟲入門 Python web crawler at 淡江大學 20170930

Geo science cafe 如何找到一份满意的工作
Geo science cafe 如何找到一份满意的工作Geo science cafe 如何找到一份满意的工作
Geo science cafe 如何找到一份满意的工作
kewuc
 
开源社区生生不息的创新土壤
开源社区生生不息的创新土壤开源社区生生不息的创新土壤
开源社区生生不息的创新土壤
Steven Cheng
 
06 说服力,工作型ppt该这样做(逻辑篇)-2011版
06 说服力,工作型ppt该这样做(逻辑篇)-2011版06 说服力,工作型ppt该这样做(逻辑篇)-2011版
06 说服力,工作型ppt该这样做(逻辑篇)-2011版
孔子 无敌
 

Ähnlich wie 網頁爬蟲入門 Python web crawler at 淡江大學 20170930 (20)

Report 106553012 - copy
Report 106553012 - copyReport 106553012 - copy
Report 106553012 - copy
 
20151016 中興大學 big data + machine learning
20151016 中興大學 big data + machine learning20151016 中興大學 big data + machine learning
20151016 中興大學 big data + machine learning
 
從統計到資料科學
從統計到資料科學從統計到資料科學
從統計到資料科學
 
How to run an AI Project @pixnet
How to run an AI Project @pixnetHow to run an AI Project @pixnet
How to run an AI Project @pixnet
 
第一名 1st Bocoiops
第一名 1st Bocoiops第一名 1st Bocoiops
第一名 1st Bocoiops
 
What is data engineer?資料工程師是什麼?
What is data engineer?資料工程師是什麼?What is data engineer?資料工程師是什麼?
What is data engineer?資料工程師是什麼?
 
Geo science cafe 如何找到一份满意的工作
Geo science cafe 如何找到一份满意的工作Geo science cafe 如何找到一份满意的工作
Geo science cafe 如何找到一份满意的工作
 
The Data Science Program 讓公共服務變聰明的《資料科學計畫》 (蔣居裕)
The Data Science Program 讓公共服務變聰明的《資料科學計畫》 (蔣居裕)The Data Science Program 讓公共服務變聰明的《資料科學計畫》 (蔣居裕)
The Data Science Program 讓公共服務變聰明的《資料科學計畫》 (蔣居裕)
 
啟動你的AI工匠魂
啟動你的AI工匠魂啟動你的AI工匠魂
啟動你的AI工匠魂
 
簡報規劃與技巧
簡報規劃與技巧簡報規劃與技巧
簡報規劃與技巧
 
資料科學的第一堂課 Data Science Orientation
資料科學的第一堂課 Data Science Orientation資料科學的第一堂課 Data Science Orientation
資料科學的第一堂課 Data Science Orientation
 
Python introduction and data visualization publish
Python introduction and data visualization publishPython introduction and data visualization publish
Python introduction and data visualization publish
 
Data Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouseData Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouse
 
开源社区生生不息的创新土壤
开源社区生生不息的创新土壤开源社区生生不息的创新土壤
开源社区生生不息的创新土壤
 
HPX台南讀書會-Axure RP基礎課程
HPX台南讀書會-Axure RP基礎課程HPX台南讀書會-Axure RP基礎課程
HPX台南讀書會-Axure RP基礎課程
 
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
 
06 说服力,工作型ppt该这样做(逻辑篇)-2011版
06 说服力,工作型ppt该这样做(逻辑篇)-2011版06 说服力,工作型ppt该这样做(逻辑篇)-2011版
06 说服力,工作型ppt该这样做(逻辑篇)-2011版
 
HPX_HP25_專案管理:如何言之有物
HPX_HP25_專案管理:如何言之有物HPX_HP25_專案管理:如何言之有物
HPX_HP25_專案管理:如何言之有物
 
台中市創業平台建置計畫
台中市創業平台建置計畫台中市創業平台建置計畫
台中市創業平台建置計畫
 
3_Decision_tree.pdf
3_Decision_tree.pdf3_Decision_tree.pdf
3_Decision_tree.pdf
 

Mehr von Tim Hong

Smart gov conference
Smart gov conferenceSmart gov conference
Smart gov conference
Tim Hong
 
DSP Wellcome
DSP WellcomeDSP Wellcome
DSP Wellcome
Tim Hong
 
Cft data weekend #3
Cft data weekend #3Cft data weekend #3
Cft data weekend #3
Tim Hong
 

Mehr von Tim Hong (16)

Pandas+postgre sql 實作 with code
Pandas+postgre sql 實作 with codePandas+postgre sql 實作 with code
Pandas+postgre sql 實作 with code
 
資料分析101
資料分析101資料分析101
資料分析101
 
建築與都市的黏著劑:開放資料 (淡江建築 2016.10.9)
建築與都市的黏著劑:開放資料 (淡江建築 2016.10.9)建築與都市的黏著劑:開放資料 (淡江建築 2016.10.9)
建築與都市的黏著劑:開放資料 (淡江建築 2016.10.9)
 
AIC x IBM 機器人開發工作營 機構報告
AIC x IBM 機器人開發工作營 機構報告AIC x IBM 機器人開發工作營 機構報告
AIC x IBM 機器人開發工作營 機構報告
 
AIC x IBM 機器人開發工作營 概念簡報
AIC x IBM 機器人開發工作營 概念簡報AIC x IBM 機器人開發工作營 概念簡報
AIC x IBM 機器人開發工作營 概念簡報
 
DSP Company Profile
DSP Company ProfileDSP Company Profile
DSP Company Profile
 
2015 東海 概念工作坊
2015 東海 概念工作坊2015 東海 概念工作坊
2015 東海 概念工作坊
 
Hacker X Maker 2015
Hacker X Maker 2015Hacker X Maker 2015
Hacker X Maker 2015
 
APP 概念工作坊
APP 概念工作坊APP 概念工作坊
APP 概念工作坊
 
Spark !! 人人可上流 支持開放公共空間
Spark !! 人人可上流 支持開放公共空間Spark !! 人人可上流 支持開放公共空間
Spark !! 人人可上流 支持開放公共空間
 
城市x程式0.80
城市x程式0.80城市x程式0.80
城市x程式0.80
 
Smart gov conference
Smart gov conferenceSmart gov conference
Smart gov conference
 
DSP Wellcome
DSP WellcomeDSP Wellcome
DSP Wellcome
 
Cft data weekend #3
Cft data weekend #3Cft data weekend #3
Cft data weekend #3
 
City dashboard
City dashboardCity dashboard
City dashboard
 
2012 twdw app_04
2012 twdw app_042012 twdw app_04
2012 twdw app_04
 

網頁爬蟲入門 Python web crawler at 淡江大學 20170930