SlideShare a Scribd company logo
1 of 47
Download to read offline
巨量資料分析輕鬆上手巨量資料分析輕鬆上手
教您玩大強子對撞機公開數據教您玩大強子對撞機公開數據
Yuan CHAO ( 趙元 )
(National Taiwan University, Taipei, Taiwan)
COSCUP
2012/08/03-04
我是誰?
Yuan CHAO (John)
YChao
...
研究員
高能物理
使用 OSS 做研究 ...
全球 LHC 計算網格
Worldwide LHC
Computing Grid (WLCG)
如何分析處理數據?
https://cdsweb.cern.ch/record/1541893
https://www.youtube.com/watch?v=jDC3-QSiLB4
歐洲粒子物理研究機構
CERN
的地理位置
瑞士
日內瓦近郊
跨越瑞法邊境
LHC 周長 27 KM
位於地下
50~150 公尺
質子經逐級加速
接近光速高能對撞
四個對撞點進行實驗
通用型
Atlas, CMS
特定目的
Alice, LHCb
我參加的實驗http://cms.web.cern.ch/org/cms-public
http://zh.wikipedia.org/wiki/%E7%B7%8A%E6%B9%8A%E7%
通用型實驗偵測器
成筒狀包覆在束流管上
對撞生成的粒子
會穿過偵測器
留下軌跡或能量
的電子訊號
質子團每秒通過
四千萬次 (40MHz)
平均每次有 15 個對撞
真正有意義的對撞約
只有百萬分之一
高速硬體邏輯電路
先篩選出萬分之一事例
特殊極高速網路傳送至
「線上」叢集電腦
軟體粗篩出
百分之一事例
可隨時最佳化
各實驗篩選出
的資料
集中傳送至
零級資料中心
儲存
實驗期間
7 x 24 連續
事例重建 磁帶長期保存
資料分散保存在 11 個一級資料中心
二級資料中心提供實驗學家模擬與分析數據
目前亞洲唯一
一級資料中心
中研院網格中心
LHC 公開數據
主要提供教育用途
http://cms.web.cern.ch/content/cms-public-data
CMS HEP Tutorial
給大學生一周課程
提供約目前 1/500 真實數據量
以及對應的模擬事例
http://ippog.web.cern.ch/resources/2012/cms-hep-tutorial
23
標準模型標準模型 Standard ModelStandard Model
http://atlas.kek.jp/sub/photos/Physics/PhotoPhysicsSM.html
強
子
輕
子
媒
介
子
無
法
單
獨
存
在
The "God-dammed" particle!
構成
pingooo@FNAL
今天不找今天不找
希格斯粒子希格斯粒子
今天不講物理
... 只告訴你找什麼
http://en.wikipedia.org/wiki/File:Top_antitop_quark_event.svg
Top Quark event
大人
大人
大人
大人
小孩
寵物
模範家庭
大人
大人
大人
大人
小孩
寵物
模範家庭
( 中間過程不重要 )
翻譯對照表
Jet 大人
Electron 男孩
Muon 女孩
MET 寵物
pt 體重
btag 資深
...
29
ROOTROOT
RROOTOOT OObject-bject-OOrientedriented TToolkitoolkit
Data Analysis toolData Analysis tool
Written in C++ (millions of lines)Written in C++ (millions of lines)
Open sourceOpen source
Integrated C++ interpreterIntegrated C++ interpreter
File formatsFile formats
I/O handling, graphics, plotting,I/O handling, graphics, plotting,
math, histogram binning, eventmath, histogram binning, event
display, geometric navigationdisplay, geometric navigation
Powerful fitting (RooFit) andPowerful fitting (RooFit) and
statistical (RooStats) packagesstatistical (RooStats) packages
In use by most of HEP experimentsIn use by most of HEP experiments
Standard tool for producing physicsStandard tool for producing physics
results at LHCresults at LHC
New tools for model creation andNew tools for model creation and
combinationscombinations
http://root.cern.ch/drupal/
30
ROOT Sample FormatROOT Sample Format
Particles reconstructed and stored inParticles reconstructed and stored in ROOT TreesROOT Trees
Monte Carlo
31
TMVATMVA
Multi-variate analysis tool-kitMulti-variate analysis tool-kit
Based on supervised learningBased on supervised learning
Embedded in ROOTEmbedded in ROOT
Easy training and testingEasy training and testing
Providing various classifiersProviding various classifiers
Linear Discriminant (LD)Linear Discriminant (LD)
Artificial Neural Networks (NN)Artificial Neural Networks (NN)
Boosted Decision Trees (BDT)Boosted Decision Trees (BDT)
......
http://tmva.sourceforge.net/
32
Live DEMOLive DEMO
Basic ROOT operationsBasic ROOT operations
Make plotsMake plots
Change styleChange style
Export to files and macroExport to files and macro
Flatten dataFlatten data
Analysis class generatorAnalysis class generator
Dump into a new treeDump into a new tree
Import to TMVAImport to TMVA
Event weightEvent weight
Input variablesInput variables
Pre-cutsPre-cuts
TMVA outputTMVA output
Performance plotsPerformance plots
MVA class and parametersMVA class and parameters
https://github.com/yuanchao/HEPTutorial
http://ippog.web.cern.ch/sites/ippog.web.cern.ch/files/HEPTutorial.tar
Samle Events Luminosity
Real data ~ 500 K ~ 50 pb-1
ttbar ~ 380 K ~ 100 pb-1
W + jets ~ 70 K ~ 100 pb-1
Drell Yan ~ 100 K ~ 100 pb-1
QCD ~ 100 ~ 100 pb-1
33
TMVA InputsTMVA Inputs
Raw Input Variables
34
TMVA InputsTMVA Inputs
PCA Transform
35
TMVA InputsTMVA Inputs
De-correlated
36
Correlation MatrixCorrelation Matrix
37
TMVA OutputsTMVA Outputs
38
TMVA OutputsTMVA Outputs
39
TMVA OutputsTMVA Outputs
40
TMVA OutputsTMVA Outputs
TMVA by default takes ½ of sample for training and
the other ½ for performance tests.
Open Data
Open Access
Open Source
研究成果開放取用
取之於民、與民享之
You should know what youYou should know what you
are doing...are doing...
http://arstechnica.com/tech-policy/2013/04/microsoft-excel-the-ruiner-of-global-economies/
BE AWARE!BE AWARE!
以上
Remerci de
Votre
Attention
謝謝
46
Installing ROOTInstalling ROOT
Get the ROOT binary for UbuntuGet the ROOT binary for Ubuntu
Go to here:Go to here:
http://sourceforge.net/projects/cernrootdebs/http://sourceforge.net/projects/cernrootdebs/
Download the i386 package:Download the i386 package:
Click on "Files" → "32bits!" → "root_5.32.00_i386.deb"Click on "Files" → "32bits!" → "root_5.32.00_i386.deb"
Open a terminalOpen a terminal
Type in the following commands:Type in the following commands:
$ cd Download/$ cd Download/
$ sudo dpkg -i root_5.32.00_i386.deb$ sudo dpkg -i root_5.32.00_i386.deb ← use guest passwd!← use guest passwd!
$ sudo apt-get install libssl0.9.8$ sudo apt-get install libssl0.9.8
$ sudo apt-get install libjpeg62$ sudo apt-get install libjpeg62
$ source /opt/root/bin/thisroot.sh$ source /opt/root/bin/thisroot.sh ← you can put in ~/.bashrc← you can put in ~/.bashrc
You can run root now:You can run root now:
$ root -l$ root -l ← " -l" means no splash window← " -l" means no splash window
root [0]root [0] TBrowser tTBrowser t ← make sure no error messages← make sure no error messages
LHCLHC
LHCLHC 發現新粒子與希格斯粒子相容發現新粒子與希格斯粒子相容 ......
未發現微觀黑洞或超對稱的存在未發現微觀黑洞或超對稱的存在 ......
http://cdsweb.cern.ch/record/1428128?ln=en

More Related Content

Viewers also liked

Seven waystouseturtle pycon2009
Seven waystouseturtle pycon2009Seven waystouseturtle pycon2009
Seven waystouseturtle pycon2009
A Jorge Garcia
 

Viewers also liked (20)

優化宅的日常-數據分析篇
優化宅的日常-數據分析篇優化宅的日常-數據分析篇
優化宅的日常-數據分析篇
 
「大數據」時代的「小問題」-- 以數據分析的手法處理虛擬歌手聲源參數
「大數據」時代的「小問題」-- 以數據分析的手法處理虛擬歌手聲源參數「大數據」時代的「小問題」-- 以數據分析的手法處理虛擬歌手聲源參數
「大數據」時代的「小問題」-- 以數據分析的手法處理虛擬歌手聲源參數
 
用 Python 玩 LHC 公開數據
用 Python 玩 LHC 公開數據用 Python 玩 LHC 公開數據
用 Python 玩 LHC 公開數據
 
20161003 R語言資料分析實務 (1)
20161003 R語言資料分析實務 (1)20161003 R語言資料分析實務 (1)
20161003 R語言資料分析實務 (1)
 
20161017 R語言資料分析實務 (2)
20161017 R語言資料分析實務 (2)20161017 R語言資料分析實務 (2)
20161017 R語言資料分析實務 (2)
 
大數據的獲利模式
大數據的獲利模式大數據的獲利模式
大數據的獲利模式
 
如何用 grs 擷取台灣上市股票股價資訊 PyCon APAC 2014
如何用 grs 擷取台灣上市股票股價資訊 PyCon APAC 2014如何用 grs 擷取台灣上市股票股價資訊 PyCon APAC 2014
如何用 grs 擷取台灣上市股票股價資訊 PyCon APAC 2014
 
Big Data Tornado - 2015 台灣 Big Data 企業經典應用案例分享
Big Data Tornado - 2015 台灣 Big Data 企業經典應用案例分享Big Data Tornado - 2015 台灣 Big Data 企業經典應用案例分享
Big Data Tornado - 2015 台灣 Big Data 企業經典應用案例分享
 
[SDX2016] 數據驅動的網站優化 / 嚴家成 博士 國立虎尾科技大學 資訊管理系教授
[SDX2016] 數據驅動的網站優化 / 嚴家成 博士 國立虎尾科技大學 資訊管理系教授[SDX2016] 數據驅動的網站優化 / 嚴家成 博士 國立虎尾科技大學 資訊管理系教授
[SDX2016] 數據驅動的網站優化 / 嚴家成 博士 國立虎尾科技大學 資訊管理系教授
 
數據、洞察、設計 如何結合數據改善政府數位服務-蔡明哲
數據、洞察、設計   如何結合數據改善政府數位服務-蔡明哲數據、洞察、設計   如何結合數據改善政府數位服務-蔡明哲
數據、洞察、設計 如何結合數據改善政府數位服務-蔡明哲
 
Simple Techniques To Make Your Message Stand Out
Simple Techniques To Make Your Message Stand OutSimple Techniques To Make Your Message Stand Out
Simple Techniques To Make Your Message Stand Out
 
A Numerical Method for the Evaluation of Kolmogorov Complexity, An alternativ...
A Numerical Method for the Evaluation of Kolmogorov Complexity, An alternativ...A Numerical Method for the Evaluation of Kolmogorov Complexity, An alternativ...
A Numerical Method for the Evaluation of Kolmogorov Complexity, An alternativ...
 
Seven waystouseturtle pycon2009
Seven waystouseturtle pycon2009Seven waystouseturtle pycon2009
Seven waystouseturtle pycon2009
 
Acquisition and Beyond: Using Customer DNA to Gain and Keep Valuable Customers
Acquisition and Beyond: Using Customer DNA to Gain and Keep Valuable Customers Acquisition and Beyond: Using Customer DNA to Gain and Keep Valuable Customers
Acquisition and Beyond: Using Customer DNA to Gain and Keep Valuable Customers
 
Big Data Expo 2015 - IBM 5 predictions
Big Data Expo 2015 - IBM 5 predictionsBig Data Expo 2015 - IBM 5 predictions
Big Data Expo 2015 - IBM 5 predictions
 
Big Data Expo 2015 - Care IQ
Big Data Expo 2015 - Care IQBig Data Expo 2015 - Care IQ
Big Data Expo 2015 - Care IQ
 
python基礎教學
python基礎教學python基礎教學
python基礎教學
 
Customer experience - how your brand lives or dies
Customer experience - how your brand lives or diesCustomer experience - how your brand lives or dies
Customer experience - how your brand lives or dies
 
Becoming a Customer Centric Bank
Becoming a Customer Centric BankBecoming a Customer Centric Bank
Becoming a Customer Centric Bank
 
Delivering powerful presentations
Delivering powerful presentationsDelivering powerful presentations
Delivering powerful presentations
 

Similar to 巨量資料分析輕鬆上手_教您玩大強子對撞機公開數據

Similar to 巨量資料分析輕鬆上手_教您玩大強子對撞機公開數據 (9)

淘宝前端优化
淘宝前端优化淘宝前端优化
淘宝前端优化
 
淘宝前台系统优化实践“吞吐量优化”-Qcon2011
淘宝前台系统优化实践“吞吐量优化”-Qcon2011淘宝前台系统优化实践“吞吐量优化”-Qcon2011
淘宝前台系统优化实践“吞吐量优化”-Qcon2011
 
20210930 radiation detection and instrumentation
20210930 radiation detection and instrumentation20210930 radiation detection and instrumentation
20210930 radiation detection and instrumentation
 
Tutorial of cnn 赵子健9.16
Tutorial of cnn 赵子健9.16Tutorial of cnn 赵子健9.16
Tutorial of cnn 赵子健9.16
 
量子技術 (2018 03-31)
量子技術 (2018 03-31)量子技術 (2018 03-31)
量子技術 (2018 03-31)
 
SLAM技術分享 (輪型機器人的移動議題)
SLAM技術分享 (輪型機器人的移動議題)SLAM技術分享 (輪型機器人的移動議題)
SLAM技術分享 (輪型機器人的移動議題)
 
Hello openstack 2014
Hello openstack 2014Hello openstack 2014
Hello openstack 2014
 
空氣盒子計畫簡介(for 空氣盒子發放說明會)
空氣盒子計畫簡介(for 空氣盒子發放說明會)空氣盒子計畫簡介(for 空氣盒子發放說明會)
空氣盒子計畫簡介(for 空氣盒子發放說明會)
 
ROS
ROSROS
ROS
 

More from Yuan CHAO

More from Yuan CHAO (11)

玩轉 LHC 公開數據 (Play around with the LHC open data)
玩轉 LHC 公開數據 (Play around with the LHC open data)玩轉 LHC 公開數據 (Play around with the LHC open data)
玩轉 LHC 公開數據 (Play around with the LHC open data)
 
介紹 TrackML 挑戰 (Introduction to TrackML Kaggle challenge)
介紹 TrackML 挑戰 (Introduction to TrackML Kaggle challenge)介紹 TrackML 挑戰 (Introduction to TrackML Kaggle challenge)
介紹 TrackML 挑戰 (Introduction to TrackML Kaggle challenge)
 
淺嚐 LHCb 數據分析的滋味 Play around the LHCb Data on Kaggle with SK-Learn and MatPlotLib
淺嚐 LHCb 數據分析的滋味 Play around the LHCb Data on Kaggle with SK-Learn and MatPlotLib淺嚐 LHCb 數據分析的滋味 Play around the LHCb Data on Kaggle with SK-Learn and MatPlotLib
淺嚐 LHCb 數據分析的滋味 Play around the LHCb Data on Kaggle with SK-Learn and MatPlotLib
 
粒子物理與天文物理學簡介
粒子物理與天文物理學簡介粒子物理與天文物理學簡介
粒子物理與天文物理學簡介
 
Project Linne 徵音梅林 -- Virtual Singer Sound-bank Processed with Python
Project Linne 徵音梅林 -- Virtual Singer Sound-bank Processed with PythonProject Linne 徵音梅林 -- Virtual Singer Sound-bank Processed with Python
Project Linne 徵音梅林 -- Virtual Singer Sound-bank Processed with Python
 
Mass Resconstruction with HEP detectors
Mass Resconstruction with HEP detectorsMass Resconstruction with HEP detectors
Mass Resconstruction with HEP detectors
 
Detector Simulation for HEP
Detector Simulation for HEPDetector Simulation for HEP
Detector Simulation for HEP
 
大強子計算網格與OSS
大強子計算網格與OSS大強子計算網格與OSS
大強子計算網格與OSS
 
No more fractures MingLiu font!
No more fractures MingLiu font!No more fractures MingLiu font!
No more fractures MingLiu font!
 
Introduce powertop to end users
Introduce powertop to end usersIntroduce powertop to end users
Introduce powertop to end users
 
Introduction to Soas
Introduction to SoasIntroduction to Soas
Introduction to Soas
 

巨量資料分析輕鬆上手_教您玩大強子對撞機公開數據