SlideShare ist ein Scribd-Unternehmen logo
1 von 29
Big Data-
海量資料的資料採礦方法
淡江大學統計系 陳景祥
NetStat 線上統計計算網站作者
(http://netstat.stat.tku.edu.tw)
「R軟體:應用統計方法」作者
活動議程(1)
Day 1
[1] 9:00-12:00
。R軟體快速簡介、常用程式技巧、與常用圖形函數
。常用的資料探勘技術簡介
。決策樹(Decision Trees) (1)
[2]13:30-16:30
。決策樹(Decision Trees) (2)
。類神經網路(Artifical Nueral Network) (1)
。類神經網路(Artifical Nueral Network) (2)
活動議程(2)
Day 2
[3] 9:00-12:00
。SVM(Support Vetor Machine)與其他分類方法
。集群分析(Clustering Analysin)與其他多變量方
法
[4] 13:30-16:30
。關聯分析(Association Analysis)
。實例演練與分析
。綜合講解
R 軟體的特色:
 完整的程式語言功能
 Vector 與 Array 運算導向
 與統計領域直接對應的變數型態
 函數(function)與套件(package)為主要單元
 強大的繪圖功能
 活躍的套件(package)發展與更新
 R程式可以使用 C, Fortran, Java 等程式
 可執行平行運算(Parallel Computing)
 樂高玩具特質:可打照出自己的 R 環境
R 與 SAS、SPSS 的不同
功能 R SAS SPSS
程式語言功能 完整 不完整 不完整
繪圖功能 強悍 普通 普通
應用最新研究 快 慢 慢
分析模組數目 非常多(3606個) 多 普通
使用介面客製化 容易 麻煩 麻煩
輸出介面客製化 容易 很難 很難
使用其他語言或
軟體的功能
強 稀少 稀少
價格 0 昂貴/每年版權費 昂貴
R Programming Levels
(1) 寫程式引用適當函數來分析資料
(2) 細緻化處理或美化 Output 與圖形
(3) 動態變數替換(Variable-Replacement)
(4) 在 R 程式中使用其他程式語言library
(5) Package 包裝
(6) 簡單 package 寫作(R programs)
(7) Class 與 Methods
(8) 進階 package 寫作(C, Fortran, Java)
(9) 高階 package 寫作(GUI, HTML, LaTeX 處理)
(10) 大型資料處理、多機平行運算
R軟體強大的繪圖功能(1)
R軟體強大的繪圖功能(2)
R軟體強大的繪圖功能(3)
R軟體強大的繪圖功能(4)
R軟體強大的繪圖功能(5)
R軟體範例:迴歸分析
> ( IQ = round(rnorm(6,110,15)) ) # 隨機產生 6 個服從 N(110, 15) 的亂數,並四捨五入
[1] 118 121 107 108 87 131
> ( scores = 5 + 0.6*IQ + rnorm(6,0,2) ) # 分數 = 5 + 0.6 * IQ + 隨機誤差(N(0,2))
[1] 79.09683 77.53507 69.82176 69.17460 55.32896 84.49939
> summary( lm(scores ~ IQ) ) # 使用 lm( ) 函數作迴歸分析
Call:
lm(formula = scores ~ IQ)
Residuals:
1 2 3 4 5 6
2.4883 -1.0897 0.6060 -0.7132 -0.4453 -0.8461
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.69628 5.05144 -0.534 0.621786
IQ 0.67207 0.04476 15.014 0.000115 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.514 on 4 degrees of freedom
Multiple R-squared: 0.9826, Adjusted R-squared: 0.9782
F-statistic: 225.4 on 1 and 4 DF, p-value: 0.0001147
R軟體範例:ANOVA
> scores
[1] 79.09683 77.53507 69.82176 69.17460 55.32896 84.49939
> gender
[1] "男" "男" "女" "女" "男" "女"
> gender = as.factor(gender) # 使用 as.factor( ) 函數轉為 factor 變數
> gender
[1] 男 男 女 女 男 女
Levels: 女 男
> anova(lm(scores ~ gender)) # 用 lm( ) 分析,再用 anova( ) 製作表格
Analysis of Variance Table
Response: scores
Df Sum Sq Mean Sq F value Pr(>F)
gender 1 22.18 22.176 0.1761 0.6963
Residuals 4 503.72 125.930
R軟體應用的領域 (1)
 Bayesian Inference 貝氏統計方法
 Chemometrics and Computational Physics 化學與物理
 Clinical Trial Design, Monitoring, and Analysis 臨床實驗分析
 Cluster Analysis & Finite Mixture Models 集群分析
 Probability Distributions 機率分配
 Computational Econometrics 計量經濟
 Analysis of Ecological and Environmental Data 生態與環境分析
 Design of Experiments (DoE) & Analysis of Experimental Data 實驗設計
 Empirical Finance 財政實務分析
 Statistical Genetics 基因統計
 Graphic Displays & Dynamic Graphics & Graphic Devices & Visualization 圖
形分析
 gRaphical Models in R 圖形模組
 High-Performance and Parallel Computing 高效率運算與平行運算
 Machine Learning & Statistical Learning 機器學習、資料探勘
R軟體應用的領域 (2)
 Medical Image Analysis 醫學影像分析
 Multivariate Statistics 多變量分析
 Natural Language Processing 自然語言分析
 Official Statistics & Survey Methodology 政府統計與調查
 Optimization and Mathematical Programming 函數最佳化
 Analysis of Pharmacokinetic Data 藥物動力學分析
 Phylogenetics 系統發生學
 Psychometric Models and Methods 心理學測量分析
 Reproducible Research 實驗複製分析
 Robust Statistical Methods 強韌統計方法
 Statistics for the Social Sciences 社會科學統計
 Analysis of Spatial Data 空間統計
 Survival Analysis 存活分析、可靠度分析
 Time Series Analysis 時間數列
應用:舊金山購物商場客戶
舊金山海灣區(Bay Area) Shopping Mall
顧客問卷資料:
9409 個受訪者,14 個人口統計變數
income(目標變數)
sex, marital, age, education,
,occupation, livetime, dualincome, persons,
young, house, hometype, ethnic, language
CHAID 決策樹分析收入因素
應用:Bank of America
高維度資料圖形顯示、模型分析
應用:Mu Sigma 決策顧問公司
最佳決策組合與客戶轉向預測分析
應用:CardioDx基因檢測公司
心血管疾病相關的基因檢測研究
應用:Pfizer (輝瑞)研究中心
基因資料分析、MicroArray 資料分析
應用:澳洲國稅局(1)
 Australian Taxation Office — Case Study
 全澳洲共有 22,000 員工
 Revenue Collection and Refund
Management
 Compliance and Risk Modelling
 12M Individuals, $450B Income, $100B
Tax
 2M Companies..., $1800B Income, $40B
Tax
 2005 年改用 R 軟體分析資料
應用:澳洲國稅局(2)
主要任務:
 High Risk Refunds
 Required to Lodge ($110M)
 Assessing Levels of Debt
 Propensity to Pay
 Capacity to Pay
 Determining Optimal Treatment Strategies
 Identity Theft — eTax and International
 Project Wickenby Text Mining
R的應用:澳洲國稅局(3)
Major task is all about the data:
 data understanding/preparation, feature
generation/selection
 100,000 cases by 1,000 variables
 Stock and trade:
glm, rpart, ada, randomForest, kernlab
 Simple binary classification and $ regression
 Identify new characteristics to target high risk (5%);
 Focus resources on productive cases - $ and tax payer
benefit;
 Decision trees and ensembles (random forests) are
often effective
應用:台灣健保門診資料庫
提供醫師與研究者遠端資料分析服務
德國 Fraunhofer 財經顧問公司(1)
 60 家分支機構、80 個研究單位
 18000 個員工,年預算 1.65 億歐元
 http://www.fraunhofer.org
A case study on using generalized
additive models to fit credit rating
Scores (客戶信用評分卡系統)
by Marlene Müller,
marlene.mueller@itwm.fraunhofer.de
德國 Fraunhofer顧問公司(2)
 credit data case study: 4 credit datasets
德國 Fraunhofer顧問公司(3)
使用的 R 套件:
Two main approaches for GAM in
 - gam::gam; backfitting with local scoring (Hastie and Tibshirani;
1990)
 - mgcv::gam ; penalized regression splines (Wood; 2006)
; compare these procedures under the default settings of gam::gam
and mgcv::gam
Competing estimators:
 - logit binary GLM with G(u) = 1/{1 + exp(−u)} (logistic cdf as link)
 - logit2, logit3 binary GLM with 2nd / 3rd order polynomial terms
for the continuous regressors
 - logitc binary GLM with continuous regressors categorized (4–5
levels)
 - gam binary GAM using gam::gam with s() terms for continuous
 - mgcv binary GAM using mgcv::gam
德國 Fraunhofer 顧問公司 (4)

Weitere ähnliche Inhalte

Was ist angesagt?

[系列活動] 手把手打開Python資料分析大門
[系列活動] 手把手打開Python資料分析大門[系列活動] 手把手打開Python資料分析大門
[系列活動] 手把手打開Python資料分析大門台灣資料科學年會
 
Master Thesis 2010 - Pattern Discovery Algorithms for Classification
Master Thesis 2010 - Pattern Discovery Algorithms for ClassificationMaster Thesis 2010 - Pattern Discovery Algorithms for Classification
Master Thesis 2010 - Pattern Discovery Algorithms for ClassificationChuancong Gao
 
Customer behavior analysis
Customer behavior analysisCustomer behavior analysis
Customer behavior analysisFEG
 
周世恩/資料分析前的奏曲 : 談資料收集的挑戰
周世恩/資料分析前的奏曲 : 談資料收集的挑戰周世恩/資料分析前的奏曲 : 談資料收集的挑戰
周世恩/資料分析前的奏曲 : 談資料收集的挑戰台灣資料科學年會
 
软件工程 第二章
软件工程 第二章软件工程 第二章
软件工程 第二章浒 刘
 
腾讯大讲堂:59 数据蕴含商机,挖掘决胜千里
腾讯大讲堂:59 数据蕴含商机,挖掘决胜千里腾讯大讲堂:59 数据蕴含商机,挖掘决胜千里
腾讯大讲堂:59 数据蕴含商机,挖掘决胜千里d0nn9n
 

Was ist angesagt? (8)

[系列活動] 手把手打開Python資料分析大門
[系列活動] 手把手打開Python資料分析大門[系列活動] 手把手打開Python資料分析大門
[系列活動] 手把手打開Python資料分析大門
 
Master Thesis 2010 - Pattern Discovery Algorithms for Classification
Master Thesis 2010 - Pattern Discovery Algorithms for ClassificationMaster Thesis 2010 - Pattern Discovery Algorithms for Classification
Master Thesis 2010 - Pattern Discovery Algorithms for Classification
 
Customer behavior analysis
Customer behavior analysisCustomer behavior analysis
Customer behavior analysis
 
[系列活動] Python 爬蟲實戰
[系列活動] Python 爬蟲實戰[系列活動] Python 爬蟲實戰
[系列活動] Python 爬蟲實戰
 
周世恩/資料分析前的奏曲 : 談資料收集的挑戰
周世恩/資料分析前的奏曲 : 談資料收集的挑戰周世恩/資料分析前的奏曲 : 談資料收集的挑戰
周世恩/資料分析前的奏曲 : 談資料收集的挑戰
 
软件工程 第二章
软件工程 第二章软件工程 第二章
软件工程 第二章
 
腾讯大讲堂:59 数据蕴含商机,挖掘决胜千里
腾讯大讲堂:59 数据蕴含商机,挖掘决胜千里腾讯大讲堂:59 数据蕴含商机,挖掘决胜千里
腾讯大讲堂:59 数据蕴含商机,挖掘决胜千里
 
[系列活動] Python爬蟲實戰
[系列活動] Python爬蟲實戰[系列活動] Python爬蟲實戰
[系列活動] Python爬蟲實戰
 

Andere mochten auch

MLDM Monday -- Optimization Series Talk
MLDM Monday -- Optimization Series TalkMLDM Monday -- Optimization Series Talk
MLDM Monday -- Optimization Series TalkJerry Wu
 
手把手教你 R 語言資料分析實務/張毓倫&陳柏亨
手把手教你 R 語言資料分析實務/張毓倫&陳柏亨手把手教你 R 語言資料分析實務/張毓倫&陳柏亨
手把手教你 R 語言資料分析實務/張毓倫&陳柏亨台灣資料科學年會
 
大數據行銷應用與SPSS實作-三星統計謝章升
大數據行銷應用與SPSS實作-三星統計謝章升大數據行銷應用與SPSS實作-三星統計謝章升
大數據行銷應用與SPSS實作-三星統計謝章升Beckett Hsieh
 
看不見的消費者-網站設計-FB與關鍵字廣告-流量分析-三星統計謝章升
看不見的消費者-網站設計-FB與關鍵字廣告-流量分析-三星統計謝章升看不見的消費者-網站設計-FB與關鍵字廣告-流量分析-三星統計謝章升
看不見的消費者-網站設計-FB與關鍵字廣告-流量分析-三星統計謝章升Beckett Hsieh
 
[系列活動] Machine Learning 機器學習課程
[系列活動] Machine Learning 機器學習課程[系列活動] Machine Learning 機器學習課程
[系列活動] Machine Learning 機器學習課程台灣資料科學年會
 
[系列活動] 使用 R 語言建立自己的演算法交易事業
[系列活動] 使用 R 語言建立自己的演算法交易事業[系列活動] 使用 R 語言建立自己的演算法交易事業
[系列活動] 使用 R 語言建立自己的演算法交易事業台灣資料科學年會
 
R統計軟體 -安裝與使用
R統計軟體 -安裝與使用R統計軟體 -安裝與使用
R統計軟體 -安裝與使用Person Lin
 
吳齊軒/漫談 R 的學習挑戰與 R 語言翻轉教室
吳齊軒/漫談 R 的學習挑戰與 R 語言翻轉教室吳齊軒/漫談 R 的學習挑戰與 R 語言翻轉教室
吳齊軒/漫談 R 的學習挑戰與 R 語言翻轉教室台灣資料科學年會
 
機率統計 -- 使用 R 軟體
機率統計 -- 使用 R 軟體機率統計 -- 使用 R 軟體
機率統計 -- 使用 R 軟體鍾誠 陳鍾誠
 
[系列活動] 給工程師的統計學及資料分析 123
[系列活動] 給工程師的統計學及資料分析 123[系列活動] 給工程師的統計學及資料分析 123
[系列活動] 給工程師的統計學及資料分析 123台灣資料科學年會
 
Data-Driven Learning Strategy
Data-Driven Learning StrategyData-Driven Learning Strategy
Data-Driven Learning StrategyJessie Chuang
 
給軟體工程師的不廢話 R 語言精要班
給軟體工程師的不廢話 R 語言精要班給軟體工程師的不廢話 R 語言精要班
給軟體工程師的不廢話 R 語言精要班台灣資料科學年會
 
[系列活動] 資料探勘速遊 - Session4 case-studies
[系列活動] 資料探勘速遊 - Session4 case-studies[系列活動] 資料探勘速遊 - Session4 case-studies
[系列活動] 資料探勘速遊 - Session4 case-studies台灣資料科學年會
 
SPSS從0開始-三星統計張偉豪
SPSS從0開始-三星統計張偉豪SPSS從0開始-三星統計張偉豪
SPSS從0開始-三星統計張偉豪Beckett Hsieh
 
[DSC 2016] 系列活動:吳牧恩、林佳緯 / 用 R 輕鬆做交易策略分析及自動下單
[DSC 2016] 系列活動:吳牧恩、林佳緯 / 用 R 輕鬆做交易策略分析及自動下單[DSC 2016] 系列活動:吳牧恩、林佳緯 / 用 R 輕鬆做交易策略分析及自動下單
[DSC 2016] 系列活動:吳牧恩、林佳緯 / 用 R 輕鬆做交易策略分析及自動下單台灣資料科學年會
 
SmartPLS3.0偏最小平方法教材2015版-三星統計張偉豪
SmartPLS3.0偏最小平方法教材2015版-三星統計張偉豪SmartPLS3.0偏最小平方法教材2015版-三星統計張偉豪
SmartPLS3.0偏最小平方法教材2015版-三星統計張偉豪Beckett Hsieh
 
三星統計張偉豪-統計4超人-SPSS,SEM,HLM,PLS
三星統計張偉豪-統計4超人-SPSS,SEM,HLM,PLS三星統計張偉豪-統計4超人-SPSS,SEM,HLM,PLS
三星統計張偉豪-統計4超人-SPSS,SEM,HLM,PLSBeckett Hsieh
 

Andere mochten auch (20)

MLDM Monday -- Optimization Series Talk
MLDM Monday -- Optimization Series TalkMLDM Monday -- Optimization Series Talk
MLDM Monday -- Optimization Series Talk
 
[系列活動] 機器學習速遊
[系列活動] 機器學習速遊[系列活動] 機器學習速遊
[系列活動] 機器學習速遊
 
手把手教你 R 語言資料分析實務/張毓倫&陳柏亨
手把手教你 R 語言資料分析實務/張毓倫&陳柏亨手把手教你 R 語言資料分析實務/張毓倫&陳柏亨
手把手教你 R 語言資料分析實務/張毓倫&陳柏亨
 
大數據行銷應用與SPSS實作-三星統計謝章升
大數據行銷應用與SPSS實作-三星統計謝章升大數據行銷應用與SPSS實作-三星統計謝章升
大數據行銷應用與SPSS實作-三星統計謝章升
 
看不見的消費者-網站設計-FB與關鍵字廣告-流量分析-三星統計謝章升
看不見的消費者-網站設計-FB與關鍵字廣告-流量分析-三星統計謝章升看不見的消費者-網站設計-FB與關鍵字廣告-流量分析-三星統計謝章升
看不見的消費者-網站設計-FB與關鍵字廣告-流量分析-三星統計謝章升
 
[系列活動] Machine Learning 機器學習課程
[系列活動] Machine Learning 機器學習課程[系列活動] Machine Learning 機器學習課程
[系列活動] Machine Learning 機器學習課程
 
[系列活動] 使用 R 語言建立自己的演算法交易事業
[系列活動] 使用 R 語言建立自己的演算法交易事業[系列活動] 使用 R 語言建立自己的演算法交易事業
[系列活動] 使用 R 語言建立自己的演算法交易事業
 
R統計軟體 -安裝與使用
R統計軟體 -安裝與使用R統計軟體 -安裝與使用
R統計軟體 -安裝與使用
 
Xsd examples
Xsd examplesXsd examples
Xsd examples
 
吳齊軒/漫談 R 的學習挑戰與 R 語言翻轉教室
吳齊軒/漫談 R 的學習挑戰與 R 語言翻轉教室吳齊軒/漫談 R 的學習挑戰與 R 語言翻轉教室
吳齊軒/漫談 R 的學習挑戰與 R 語言翻轉教室
 
機率統計 -- 使用 R 軟體
機率統計 -- 使用 R 軟體機率統計 -- 使用 R 軟體
機率統計 -- 使用 R 軟體
 
[系列活動] 給工程師的統計學及資料分析 123
[系列活動] 給工程師的統計學及資料分析 123[系列活動] 給工程師的統計學及資料分析 123
[系列活動] 給工程師的統計學及資料分析 123
 
Data-Driven Learning Strategy
Data-Driven Learning StrategyData-Driven Learning Strategy
Data-Driven Learning Strategy
 
給軟體工程師的不廢話 R 語言精要班
給軟體工程師的不廢話 R 語言精要班給軟體工程師的不廢話 R 語言精要班
給軟體工程師的不廢話 R 語言精要班
 
[系列活動] 資料探勘速遊
[系列活動] 資料探勘速遊[系列活動] 資料探勘速遊
[系列活動] 資料探勘速遊
 
[系列活動] 資料探勘速遊 - Session4 case-studies
[系列活動] 資料探勘速遊 - Session4 case-studies[系列活動] 資料探勘速遊 - Session4 case-studies
[系列活動] 資料探勘速遊 - Session4 case-studies
 
SPSS從0開始-三星統計張偉豪
SPSS從0開始-三星統計張偉豪SPSS從0開始-三星統計張偉豪
SPSS從0開始-三星統計張偉豪
 
[DSC 2016] 系列活動:吳牧恩、林佳緯 / 用 R 輕鬆做交易策略分析及自動下單
[DSC 2016] 系列活動:吳牧恩、林佳緯 / 用 R 輕鬆做交易策略分析及自動下單[DSC 2016] 系列活動:吳牧恩、林佳緯 / 用 R 輕鬆做交易策略分析及自動下單
[DSC 2016] 系列活動:吳牧恩、林佳緯 / 用 R 輕鬆做交易策略分析及自動下單
 
SmartPLS3.0偏最小平方法教材2015版-三星統計張偉豪
SmartPLS3.0偏最小平方法教材2015版-三星統計張偉豪SmartPLS3.0偏最小平方法教材2015版-三星統計張偉豪
SmartPLS3.0偏最小平方法教材2015版-三星統計張偉豪
 
三星統計張偉豪-統計4超人-SPSS,SEM,HLM,PLS
三星統計張偉豪-統計4超人-SPSS,SEM,HLM,PLS三星統計張偉豪-統計4超人-SPSS,SEM,HLM,PLS
三星統計張偉豪-統計4超人-SPSS,SEM,HLM,PLS
 

Ähnlich wie 教材摘要版 -Big data-海量資料的資料採礦方法-三星課程網陳景祥顧問-20130521

软件工程
软件工程软件工程
软件工程bill0077
 
腾讯大讲堂59 数据蕴含商机,挖掘决胜千里
腾讯大讲堂59 数据蕴含商机,挖掘决胜千里腾讯大讲堂59 数据蕴含商机,挖掘决胜千里
腾讯大讲堂59 数据蕴含商机,挖掘决胜千里PMCamp
 
Pdf原文下载 耕作制度专家系统初探
Pdf原文下载   耕作制度专家系统初探Pdf原文下载   耕作制度专家系统初探
Pdf原文下载 耕作制度专家系统初探sugeladi
 
工作圈上課講義
工作圈上課講義工作圈上課講義
工作圈上課講義5045033
 
品管七大手法1
品管七大手法1品管七大手法1
品管七大手法15045033
 
腾讯大讲堂59 数据蕴含商机,挖掘决胜千里
腾讯大讲堂59 数据蕴含商机,挖掘决胜千里腾讯大讲堂59 数据蕴含商机,挖掘决胜千里
腾讯大讲堂59 数据蕴含商机,挖掘决胜千里George Ang
 
Data Analysis In Service Research2009 11 12
Data Analysis In Service Research2009 11 12Data Analysis In Service Research2009 11 12
Data Analysis In Service Research2009 11 12Kai Wu
 
土地利用规划数据库建设技术要求
土地利用规划数据库建设技术要求土地利用规划数据库建设技术要求
土地利用规划数据库建设技术要求gler5
 
2020.10.13 讀書會分享 “大數據與小數據”
2020.10.13 讀書會分享 “大數據與小數據”2020.10.13 讀書會分享 “大數據與小數據”
2020.10.13 讀書會分享 “大數據與小數據”Madeleine Lee
 
20210928 #118 - 給非營利組織的資安自保手冊
 20210928 #118 - 給非營利組織的資安自保手冊 20210928 #118 - 給非營利組織的資安自保手冊
20210928 #118 - 給非營利組織的資安自保手冊Net Tuesday Taiwan
 
BDTC2015 南京大学-黄宜华-octopus(大章鱼):基于r语言的跨平台大数据机器学习与数据分析系统
BDTC2015 南京大学-黄宜华-octopus(大章鱼):基于r语言的跨平台大数据机器学习与数据分析系统BDTC2015 南京大学-黄宜华-octopus(大章鱼):基于r语言的跨平台大数据机器学习与数据分析系统
BDTC2015 南京大学-黄宜华-octopus(大章鱼):基于r语言的跨平台大数据机器学习与数据分析系统Jerry Wen
 
QM-025-QC新七大工具
QM-025-QC新七大工具QM-025-QC新七大工具
QM-025-QC新七大工具handbook
 
App operationattaobao-velocity2010 bj-final
App operationattaobao-velocity2010 bj-finalApp operationattaobao-velocity2010 bj-final
App operationattaobao-velocity2010 bj-finaliambuku
 
香港六合彩
香港六合彩香港六合彩
香港六合彩zhanghe
 
为什么选择问卷
为什么选择问卷为什么选择问卷
为什么选择问卷Albert
 
The Data Science Program 讓公共服務變聰明的《資料科學計畫》 (蔣居裕)
The Data Science Program 讓公共服務變聰明的《資料科學計畫》 (蔣居裕)The Data Science Program 讓公共服務變聰明的《資料科學計畫》 (蔣居裕)
The Data Science Program 讓公共服務變聰明的《資料科學計畫》 (蔣居裕)codefortomorrow
 
李祈均/人類行為訊號處理 : 跨學科 (醫療、教育、心理) 應用實例分享、心得、展望
李祈均/人類行為訊號處理 : 跨學科 (醫療、教育、心理) 應用實例分享、心得、展望李祈均/人類行為訊號處理 : 跨學科 (醫療、教育、心理) 應用實例分享、心得、展望
李祈均/人類行為訊號處理 : 跨學科 (醫療、教育、心理) 應用實例分享、心得、展望台灣資料科學年會
 
数据结构(用面向对象方法与C++语言描述第二版)殷人昆编著清华大学出版社
数据结构(用面向对象方法与C++语言描述第二版)殷人昆编著清华大学出版社数据结构(用面向对象方法与C++语言描述第二版)殷人昆编著清华大学出版社
数据结构(用面向对象方法与C++语言描述第二版)殷人昆编著清华大学出版社pingjiang
 

Ähnlich wie 教材摘要版 -Big data-海量資料的資料採礦方法-三星課程網陳景祥顧問-20130521 (20)

软件工程
软件工程软件工程
软件工程
 
腾讯大讲堂59 数据蕴含商机,挖掘决胜千里
腾讯大讲堂59 数据蕴含商机,挖掘决胜千里腾讯大讲堂59 数据蕴含商机,挖掘决胜千里
腾讯大讲堂59 数据蕴含商机,挖掘决胜千里
 
Pdf原文下载 耕作制度专家系统初探
Pdf原文下载   耕作制度专家系统初探Pdf原文下载   耕作制度专家系统初探
Pdf原文下载 耕作制度专家系统初探
 
工作圈上課講義
工作圈上課講義工作圈上課講義
工作圈上課講義
 
品管七大手法1
品管七大手法1品管七大手法1
品管七大手法1
 
腾讯大讲堂59 数据蕴含商机,挖掘决胜千里
腾讯大讲堂59 数据蕴含商机,挖掘决胜千里腾讯大讲堂59 数据蕴含商机,挖掘决胜千里
腾讯大讲堂59 数据蕴含商机,挖掘决胜千里
 
Qcc
QccQcc
Qcc
 
Data Analysis In Service Research2009 11 12
Data Analysis In Service Research2009 11 12Data Analysis In Service Research2009 11 12
Data Analysis In Service Research2009 11 12
 
土地利用规划数据库建设技术要求
土地利用规划数据库建设技术要求土地利用规划数据库建设技术要求
土地利用规划数据库建设技术要求
 
香港六合彩
香港六合彩香港六合彩
香港六合彩
 
2020.10.13 讀書會分享 “大數據與小數據”
2020.10.13 讀書會分享 “大數據與小數據”2020.10.13 讀書會分享 “大數據與小數據”
2020.10.13 讀書會分享 “大數據與小數據”
 
20210928 #118 - 給非營利組織的資安自保手冊
 20210928 #118 - 給非營利組織的資安自保手冊 20210928 #118 - 給非營利組織的資安自保手冊
20210928 #118 - 給非營利組織的資安自保手冊
 
BDTC2015 南京大学-黄宜华-octopus(大章鱼):基于r语言的跨平台大数据机器学习与数据分析系统
BDTC2015 南京大学-黄宜华-octopus(大章鱼):基于r语言的跨平台大数据机器学习与数据分析系统BDTC2015 南京大学-黄宜华-octopus(大章鱼):基于r语言的跨平台大数据机器学习与数据分析系统
BDTC2015 南京大学-黄宜华-octopus(大章鱼):基于r语言的跨平台大数据机器学习与数据分析系统
 
QM-025-QC新七大工具
QM-025-QC新七大工具QM-025-QC新七大工具
QM-025-QC新七大工具
 
App operationattaobao-velocity2010 bj-final
App operationattaobao-velocity2010 bj-finalApp operationattaobao-velocity2010 bj-final
App operationattaobao-velocity2010 bj-final
 
香港六合彩
香港六合彩香港六合彩
香港六合彩
 
为什么选择问卷
为什么选择问卷为什么选择问卷
为什么选择问卷
 
The Data Science Program 讓公共服務變聰明的《資料科學計畫》 (蔣居裕)
The Data Science Program 讓公共服務變聰明的《資料科學計畫》 (蔣居裕)The Data Science Program 讓公共服務變聰明的《資料科學計畫》 (蔣居裕)
The Data Science Program 讓公共服務變聰明的《資料科學計畫》 (蔣居裕)
 
李祈均/人類行為訊號處理 : 跨學科 (醫療、教育、心理) 應用實例分享、心得、展望
李祈均/人類行為訊號處理 : 跨學科 (醫療、教育、心理) 應用實例分享、心得、展望李祈均/人類行為訊號處理 : 跨學科 (醫療、教育、心理) 應用實例分享、心得、展望
李祈均/人類行為訊號處理 : 跨學科 (醫療、教育、心理) 應用實例分享、心得、展望
 
数据结构(用面向对象方法与C++语言描述第二版)殷人昆编著清华大学出版社
数据结构(用面向对象方法与C++语言描述第二版)殷人昆编著清华大学出版社数据结构(用面向对象方法与C++语言描述第二版)殷人昆编著清华大学出版社
数据结构(用面向对象方法与C++语言描述第二版)殷人昆编著清华大学出版社
 

Mehr von Beckett Hsieh

謝章升-Google Analytics進階
謝章升-Google Analytics進階謝章升-Google Analytics進階
謝章升-Google Analytics進階Beckett Hsieh
 
謝章升-Google Analytics入門
謝章升-Google Analytics入門謝章升-Google Analytics入門
謝章升-Google Analytics入門Beckett Hsieh
 
謝章升-Google我的商家課程講義
謝章升-Google我的商家課程講義謝章升-Google我的商家課程講義
謝章升-Google我的商家課程講義Beckett Hsieh
 
謝章升-Google Analytics網站流量分析入門課程講義
謝章升-Google Analytics網站流量分析入門課程講義謝章升-Google Analytics網站流量分析入門課程講義
謝章升-Google Analytics網站流量分析入門課程講義Beckett Hsieh
 
謝章升-個人品牌如何知識變現
謝章升-個人品牌如何知識變現謝章升-個人品牌如何知識變現
謝章升-個人品牌如何知識變現Beckett Hsieh
 
謝章升-數位行銷基本力
謝章升-數位行銷基本力謝章升-數位行銷基本力
謝章升-數位行銷基本力Beckett Hsieh
 
GTM(Google Tag Manager)懶人包-謝章升
GTM(Google Tag Manager)懶人包-謝章升GTM(Google Tag Manager)懶人包-謝章升
GTM(Google Tag Manager)懶人包-謝章升Beckett Hsieh
 
Google廣告入門實作-三星統計謝章升-20171031
Google廣告入門實作-三星統計謝章升-20171031Google廣告入門實作-三星統計謝章升-20171031
Google廣告入門實作-三星統計謝章升-20171031Beckett Hsieh
 
參考講義展示版-丘祐瑋-20170617-機器學習python入門者課程
參考講義展示版-丘祐瑋-20170617-機器學習python入門者課程參考講義展示版-丘祐瑋-20170617-機器學習python入門者課程
參考講義展示版-丘祐瑋-20170617-機器學習python入門者課程Beckett Hsieh
 
謝章升-演講-大數據行銷-網路廣告解讀-20170327
謝章升-演講-大數據行銷-網路廣告解讀-20170327謝章升-演講-大數據行銷-網路廣告解讀-20170327
謝章升-演講-大數據行銷-網路廣告解讀-20170327Beckett Hsieh
 
謝章升-演講-Ga網站流量分析入門-20170410
謝章升-演講-Ga網站流量分析入門-20170410謝章升-演講-Ga網站流量分析入門-20170410
謝章升-演講-Ga網站流量分析入門-20170410Beckett Hsieh
 
謝章升-演講-拉新與熟客經營-再行銷廣告與EDM-20170413
謝章升-演講-拉新與熟客經營-再行銷廣告與EDM-20170413謝章升-演講-拉新與熟客經營-再行銷廣告與EDM-20170413
謝章升-演講-拉新與熟客經營-再行銷廣告與EDM-20170413Beckett Hsieh
 
謝章升-演講-WordPress ORG建構網頁入門-20170424
謝章升-演講-WordPress ORG建構網頁入門-20170424謝章升-演講-WordPress ORG建構網頁入門-20170424
謝章升-演講-WordPress ORG建構網頁入門-20170424Beckett Hsieh
 
張偉豪-擺脫墨菲定律魔咒的迷思-Logistc迴歸-20160602
張偉豪-擺脫墨菲定律魔咒的迷思-Logistc迴歸-20160602張偉豪-擺脫墨菲定律魔咒的迷思-Logistc迴歸-20160602
張偉豪-擺脫墨菲定律魔咒的迷思-Logistc迴歸-20160602Beckett Hsieh
 
謝章升-Google Analytics網站流量分析入門實作
謝章升-Google Analytics網站流量分析入門實作謝章升-Google Analytics網站流量分析入門實作
謝章升-Google Analytics網站流量分析入門實作Beckett Hsieh
 
To be master or slave of statistics
To be master or slave of statisticsTo be master or slave of statistics
To be master or slave of statisticsBeckett Hsieh
 
演講-Meta analysis in medical research-張偉豪
演講-Meta analysis in medical research-張偉豪演講-Meta analysis in medical research-張偉豪
演講-Meta analysis in medical research-張偉豪Beckett Hsieh
 
看不見的消費者 Google關鍵字廣告實作-三星統計謝章升
看不見的消費者 Google關鍵字廣告實作-三星統計謝章升看不見的消費者 Google關鍵字廣告實作-三星統計謝章升
看不見的消費者 Google關鍵字廣告實作-三星統計謝章升Beckett Hsieh
 
品牌管理師證照重點複習-謝章升-20151221
品牌管理師證照重點複習-謝章升-20151221品牌管理師證照重點複習-謝章升-20151221
品牌管理師證照重點複習-謝章升-20151221Beckett Hsieh
 

Mehr von Beckett Hsieh (20)

謝章升-Google Analytics進階
謝章升-Google Analytics進階謝章升-Google Analytics進階
謝章升-Google Analytics進階
 
謝章升-Google Analytics入門
謝章升-Google Analytics入門謝章升-Google Analytics入門
謝章升-Google Analytics入門
 
謝章升-Google我的商家課程講義
謝章升-Google我的商家課程講義謝章升-Google我的商家課程講義
謝章升-Google我的商家課程講義
 
謝章升-Google Analytics網站流量分析入門課程講義
謝章升-Google Analytics網站流量分析入門課程講義謝章升-Google Analytics網站流量分析入門課程講義
謝章升-Google Analytics網站流量分析入門課程講義
 
謝章升-個人品牌如何知識變現
謝章升-個人品牌如何知識變現謝章升-個人品牌如何知識變現
謝章升-個人品牌如何知識變現
 
謝章升-數位行銷基本力
謝章升-數位行銷基本力謝章升-數位行銷基本力
謝章升-數位行銷基本力
 
GTM(Google Tag Manager)懶人包-謝章升
GTM(Google Tag Manager)懶人包-謝章升GTM(Google Tag Manager)懶人包-謝章升
GTM(Google Tag Manager)懶人包-謝章升
 
Google廣告入門實作-三星統計謝章升-20171031
Google廣告入門實作-三星統計謝章升-20171031Google廣告入門實作-三星統計謝章升-20171031
Google廣告入門實作-三星統計謝章升-20171031
 
參考講義展示版-丘祐瑋-20170617-機器學習python入門者課程
參考講義展示版-丘祐瑋-20170617-機器學習python入門者課程參考講義展示版-丘祐瑋-20170617-機器學習python入門者課程
參考講義展示版-丘祐瑋-20170617-機器學習python入門者課程
 
謝章升-演講-大數據行銷-網路廣告解讀-20170327
謝章升-演講-大數據行銷-網路廣告解讀-20170327謝章升-演講-大數據行銷-網路廣告解讀-20170327
謝章升-演講-大數據行銷-網路廣告解讀-20170327
 
謝章升-演講-Ga網站流量分析入門-20170410
謝章升-演講-Ga網站流量分析入門-20170410謝章升-演講-Ga網站流量分析入門-20170410
謝章升-演講-Ga網站流量分析入門-20170410
 
謝章升-演講-拉新與熟客經營-再行銷廣告與EDM-20170413
謝章升-演講-拉新與熟客經營-再行銷廣告與EDM-20170413謝章升-演講-拉新與熟客經營-再行銷廣告與EDM-20170413
謝章升-演講-拉新與熟客經營-再行銷廣告與EDM-20170413
 
謝章升-演講-WordPress ORG建構網頁入門-20170424
謝章升-演講-WordPress ORG建構網頁入門-20170424謝章升-演講-WordPress ORG建構網頁入門-20170424
謝章升-演講-WordPress ORG建構網頁入門-20170424
 
張偉豪-擺脫墨菲定律魔咒的迷思-Logistc迴歸-20160602
張偉豪-擺脫墨菲定律魔咒的迷思-Logistc迴歸-20160602張偉豪-擺脫墨菲定律魔咒的迷思-Logistc迴歸-20160602
張偉豪-擺脫墨菲定律魔咒的迷思-Logistc迴歸-20160602
 
謝章升-Google Analytics網站流量分析入門實作
謝章升-Google Analytics網站流量分析入門實作謝章升-Google Analytics網站流量分析入門實作
謝章升-Google Analytics網站流量分析入門實作
 
To be master or slave of statistics
To be master or slave of statisticsTo be master or slave of statistics
To be master or slave of statistics
 
FB廣告入門
FB廣告入門FB廣告入門
FB廣告入門
 
演講-Meta analysis in medical research-張偉豪
演講-Meta analysis in medical research-張偉豪演講-Meta analysis in medical research-張偉豪
演講-Meta analysis in medical research-張偉豪
 
看不見的消費者 Google關鍵字廣告實作-三星統計謝章升
看不見的消費者 Google關鍵字廣告實作-三星統計謝章升看不見的消費者 Google關鍵字廣告實作-三星統計謝章升
看不見的消費者 Google關鍵字廣告實作-三星統計謝章升
 
品牌管理師證照重點複習-謝章升-20151221
品牌管理師證照重點複習-謝章升-20151221品牌管理師證照重點複習-謝章升-20151221
品牌管理師證照重點複習-謝章升-20151221
 

教材摘要版 -Big data-海量資料的資料採礦方法-三星課程網陳景祥顧問-20130521

  • 1. Big Data- 海量資料的資料採礦方法 淡江大學統計系 陳景祥 NetStat 線上統計計算網站作者 (http://netstat.stat.tku.edu.tw) 「R軟體:應用統計方法」作者
  • 2. 活動議程(1) Day 1 [1] 9:00-12:00 。R軟體快速簡介、常用程式技巧、與常用圖形函數 。常用的資料探勘技術簡介 。決策樹(Decision Trees) (1) [2]13:30-16:30 。決策樹(Decision Trees) (2) 。類神經網路(Artifical Nueral Network) (1) 。類神經網路(Artifical Nueral Network) (2)
  • 3. 活動議程(2) Day 2 [3] 9:00-12:00 。SVM(Support Vetor Machine)與其他分類方法 。集群分析(Clustering Analysin)與其他多變量方 法 [4] 13:30-16:30 。關聯分析(Association Analysis) 。實例演練與分析 。綜合講解
  • 4. R 軟體的特色:  完整的程式語言功能  Vector 與 Array 運算導向  與統計領域直接對應的變數型態  函數(function)與套件(package)為主要單元  強大的繪圖功能  活躍的套件(package)發展與更新  R程式可以使用 C, Fortran, Java 等程式  可執行平行運算(Parallel Computing)  樂高玩具特質:可打照出自己的 R 環境
  • 5. R 與 SAS、SPSS 的不同 功能 R SAS SPSS 程式語言功能 完整 不完整 不完整 繪圖功能 強悍 普通 普通 應用最新研究 快 慢 慢 分析模組數目 非常多(3606個) 多 普通 使用介面客製化 容易 麻煩 麻煩 輸出介面客製化 容易 很難 很難 使用其他語言或 軟體的功能 強 稀少 稀少 價格 0 昂貴/每年版權費 昂貴
  • 6. R Programming Levels (1) 寫程式引用適當函數來分析資料 (2) 細緻化處理或美化 Output 與圖形 (3) 動態變數替換(Variable-Replacement) (4) 在 R 程式中使用其他程式語言library (5) Package 包裝 (6) 簡單 package 寫作(R programs) (7) Class 與 Methods (8) 進階 package 寫作(C, Fortran, Java) (9) 高階 package 寫作(GUI, HTML, LaTeX 處理) (10) 大型資料處理、多機平行運算
  • 12. R軟體範例:迴歸分析 > ( IQ = round(rnorm(6,110,15)) ) # 隨機產生 6 個服從 N(110, 15) 的亂數,並四捨五入 [1] 118 121 107 108 87 131 > ( scores = 5 + 0.6*IQ + rnorm(6,0,2) ) # 分數 = 5 + 0.6 * IQ + 隨機誤差(N(0,2)) [1] 79.09683 77.53507 69.82176 69.17460 55.32896 84.49939 > summary( lm(scores ~ IQ) ) # 使用 lm( ) 函數作迴歸分析 Call: lm(formula = scores ~ IQ) Residuals: 1 2 3 4 5 6 2.4883 -1.0897 0.6060 -0.7132 -0.4453 -0.8461 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -2.69628 5.05144 -0.534 0.621786 IQ 0.67207 0.04476 15.014 0.000115 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.514 on 4 degrees of freedom Multiple R-squared: 0.9826, Adjusted R-squared: 0.9782 F-statistic: 225.4 on 1 and 4 DF, p-value: 0.0001147
  • 13. R軟體範例:ANOVA > scores [1] 79.09683 77.53507 69.82176 69.17460 55.32896 84.49939 > gender [1] "男" "男" "女" "女" "男" "女" > gender = as.factor(gender) # 使用 as.factor( ) 函數轉為 factor 變數 > gender [1] 男 男 女 女 男 女 Levels: 女 男 > anova(lm(scores ~ gender)) # 用 lm( ) 分析,再用 anova( ) 製作表格 Analysis of Variance Table Response: scores Df Sum Sq Mean Sq F value Pr(>F) gender 1 22.18 22.176 0.1761 0.6963 Residuals 4 503.72 125.930
  • 14. R軟體應用的領域 (1)  Bayesian Inference 貝氏統計方法  Chemometrics and Computational Physics 化學與物理  Clinical Trial Design, Monitoring, and Analysis 臨床實驗分析  Cluster Analysis & Finite Mixture Models 集群分析  Probability Distributions 機率分配  Computational Econometrics 計量經濟  Analysis of Ecological and Environmental Data 生態與環境分析  Design of Experiments (DoE) & Analysis of Experimental Data 實驗設計  Empirical Finance 財政實務分析  Statistical Genetics 基因統計  Graphic Displays & Dynamic Graphics & Graphic Devices & Visualization 圖 形分析  gRaphical Models in R 圖形模組  High-Performance and Parallel Computing 高效率運算與平行運算  Machine Learning & Statistical Learning 機器學習、資料探勘
  • 15. R軟體應用的領域 (2)  Medical Image Analysis 醫學影像分析  Multivariate Statistics 多變量分析  Natural Language Processing 自然語言分析  Official Statistics & Survey Methodology 政府統計與調查  Optimization and Mathematical Programming 函數最佳化  Analysis of Pharmacokinetic Data 藥物動力學分析  Phylogenetics 系統發生學  Psychometric Models and Methods 心理學測量分析  Reproducible Research 實驗複製分析  Robust Statistical Methods 強韌統計方法  Statistics for the Social Sciences 社會科學統計  Analysis of Spatial Data 空間統計  Survival Analysis 存活分析、可靠度分析  Time Series Analysis 時間數列
  • 16. 應用:舊金山購物商場客戶 舊金山海灣區(Bay Area) Shopping Mall 顧客問卷資料: 9409 個受訪者,14 個人口統計變數 income(目標變數) sex, marital, age, education, ,occupation, livetime, dualincome, persons, young, house, hometype, ethnic, language
  • 22. 應用:澳洲國稅局(1)  Australian Taxation Office — Case Study  全澳洲共有 22,000 員工  Revenue Collection and Refund Management  Compliance and Risk Modelling  12M Individuals, $450B Income, $100B Tax  2M Companies..., $1800B Income, $40B Tax  2005 年改用 R 軟體分析資料
  • 23. 應用:澳洲國稅局(2) 主要任務:  High Risk Refunds  Required to Lodge ($110M)  Assessing Levels of Debt  Propensity to Pay  Capacity to Pay  Determining Optimal Treatment Strategies  Identity Theft — eTax and International  Project Wickenby Text Mining
  • 24. R的應用:澳洲國稅局(3) Major task is all about the data:  data understanding/preparation, feature generation/selection  100,000 cases by 1,000 variables  Stock and trade: glm, rpart, ada, randomForest, kernlab  Simple binary classification and $ regression  Identify new characteristics to target high risk (5%);  Focus resources on productive cases - $ and tax payer benefit;  Decision trees and ensembles (random forests) are often effective
  • 26. 德國 Fraunhofer 財經顧問公司(1)  60 家分支機構、80 個研究單位  18000 個員工,年預算 1.65 億歐元  http://www.fraunhofer.org A case study on using generalized additive models to fit credit rating Scores (客戶信用評分卡系統) by Marlene Müller, marlene.mueller@itwm.fraunhofer.de
  • 27. 德國 Fraunhofer顧問公司(2)  credit data case study: 4 credit datasets
  • 28. 德國 Fraunhofer顧問公司(3) 使用的 R 套件: Two main approaches for GAM in  - gam::gam; backfitting with local scoring (Hastie and Tibshirani; 1990)  - mgcv::gam ; penalized regression splines (Wood; 2006) ; compare these procedures under the default settings of gam::gam and mgcv::gam Competing estimators:  - logit binary GLM with G(u) = 1/{1 + exp(−u)} (logistic cdf as link)  - logit2, logit3 binary GLM with 2nd / 3rd order polynomial terms for the continuous regressors  - logitc binary GLM with continuous regressors categorized (4–5 levels)  - gam binary GAM using gam::gam with s() terms for continuous  - mgcv binary GAM using mgcv::gam