SlideShare ist ein Scribd-Unternehmen logo
1 von 22
数据仓库纵横谈 ,[object Object],锅巴 [email_address] [email_address]
Agenda ,[object Object],[object Object],[object Object],[object Object]
Big Data ,[object Object],10TB 数据— “ 大 ” 还是 “ 小 ” ? 大数据的商业价值 何谓之 “ 大 ” ? 大数据是什么?
数据仓库
数据仓库 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
大型数据仓库 ,[object Object],[object Object],[object Object],历史数据  +  细节数据  +  多种数据  =  大量数据
大型数据仓库 下载  1 小时 索引  15 分钟 访问  25 毫秒 下载  12 小时 索引  72 小时 访问  3 秒
数据量的影响 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
数据仓库的特性 ,[object Object],[object Object],[object Object],[object Object]
数据仓库 SDLC ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],实现数据仓库 集成数据 (ETL) 检验偏差 针对数据编程 设计 DSS 系统 分析结果 理解需求
DW2.0 ,[object Object],[object Object]
DW2.0 vs DW1.0 ,[object Object],[object Object],[object Object],[object Object]
Infobright ,[object Object],[object Object]
行存储  vs  列存储
行存储  vs  列存储
Infobright 架构
知识网格 KG
KG 工作原理
IB 数据检索流程
IB 的价值
水平扩展数据分析中间件 分而治之 按需而分 仓库 2.0 启示
Q&A  时候不早啦 ! Thanks! ,[object Object],[object Object],[object Object]

Weitere ähnliche Inhalte

Was ist angesagt?

%C2%c8 mysql dba%c1 %ca+%f0%ae-+++
%C2%c8 mysql dba%c1 %ca+%f0%ae-+++%C2%c8 mysql dba%c1 %ca+%f0%ae-+++
%C2%c8 mysql dba%c1 %ca+%f0%ae-+++Cofyc
 
对My sql dba的一些思考
对My sql dba的一些思考对My sql dba的一些思考
对My sql dba的一些思考thinkinlamp
 
Can data virtualization uphold performance with complex queries? (Chinese)
Can data virtualization uphold performance with complex queries? (Chinese)Can data virtualization uphold performance with complex queries? (Chinese)
Can data virtualization uphold performance with complex queries? (Chinese)Denodo
 
数据科学运营:企业人工智能之旅
数据科学运营:企业人工智能之旅数据科学运营:企业人工智能之旅
数据科学运营:企业人工智能之旅Denodo
 
分布式构架简介 草稿
分布式构架简介 草稿分布式构架简介 草稿
分布式构架简介 草稿guestd7133d1
 
Sequoia db 技术概述_sacc
Sequoia db 技术概述_saccSequoia db 技术概述_sacc
Sequoia db 技术概述_saccwangzhonnew
 
Exadata best practice on E-commerce area
Exadata best practice on E-commerce area Exadata best practice on E-commerce area
Exadata best practice on E-commerce area Louis liu
 
How Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
How Enterprises Leverage Data to Overcome Business Challenges During CoronavirusHow Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
How Enterprises Leverage Data to Overcome Business Challenges During CoronavirusDenodo
 
慧数据,联未来 -- 助力企业客户构建数据服务生态
慧数据,联未来 -- 助力企业客户构建数据服务生态慧数据,联未来 -- 助力企业客户构建数据服务生态
慧数据,联未来 -- 助力企业客户构建数据服务生态Hardway Hou
 
开源分布式数据库Tidb简介
开源分布式数据库Tidb简介开源分布式数据库Tidb简介
开源分布式数据库Tidb简介www.tujia.com
 
database
databasedatabase
databases06283
 
大数据 数据挖掘
大数据 数据挖掘大数据 数据挖掘
大数据 数据挖掘chernbb
 
Se shang hai_04_cloudybi
Se shang hai_04_cloudybiSe shang hai_04_cloudybi
Se shang hai_04_cloudybiTech2IPO
 
Sybase Analytic Appliance
Sybase Analytic ApplianceSybase Analytic Appliance
Sybase Analytic Appliancefocusbi
 
数据的价值和灵魂
数据的价值和灵魂数据的价值和灵魂
数据的价值和灵魂学峰 司
 
浅谈数据科学
浅谈数据科学浅谈数据科学
浅谈数据科学学峰 司
 
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践hdhappy001
 
医药企业的数字化转型 - 逻辑数据结构策略
医药企业的数字化转型 - 逻辑数据结构策略医药企业的数字化转型 - 逻辑数据结构策略
医药企业的数字化转型 - 逻辑数据结构策略Denodo
 
杨少华:阿里开放数据处理服务
杨少华:阿里开放数据处理服务杨少华:阿里开放数据处理服务
杨少华:阿里开放数据处理服务hdhappy001
 

Was ist angesagt? (20)

%C2%c8 mysql dba%c1 %ca+%f0%ae-+++
%C2%c8 mysql dba%c1 %ca+%f0%ae-+++%C2%c8 mysql dba%c1 %ca+%f0%ae-+++
%C2%c8 mysql dba%c1 %ca+%f0%ae-+++
 
对My sql dba的一些思考
对My sql dba的一些思考对My sql dba的一些思考
对My sql dba的一些思考
 
Can data virtualization uphold performance with complex queries? (Chinese)
Can data virtualization uphold performance with complex queries? (Chinese)Can data virtualization uphold performance with complex queries? (Chinese)
Can data virtualization uphold performance with complex queries? (Chinese)
 
大數據
大數據大數據
大數據
 
数据科学运营:企业人工智能之旅
数据科学运营:企业人工智能之旅数据科学运营:企业人工智能之旅
数据科学运营:企业人工智能之旅
 
分布式构架简介 草稿
分布式构架简介 草稿分布式构架简介 草稿
分布式构架简介 草稿
 
Sequoia db 技术概述_sacc
Sequoia db 技术概述_saccSequoia db 技术概述_sacc
Sequoia db 技术概述_sacc
 
Exadata best practice on E-commerce area
Exadata best practice on E-commerce area Exadata best practice on E-commerce area
Exadata best practice on E-commerce area
 
How Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
How Enterprises Leverage Data to Overcome Business Challenges During CoronavirusHow Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
How Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
 
慧数据,联未来 -- 助力企业客户构建数据服务生态
慧数据,联未来 -- 助力企业客户构建数据服务生态慧数据,联未来 -- 助力企业客户构建数据服务生态
慧数据,联未来 -- 助力企业客户构建数据服务生态
 
开源分布式数据库Tidb简介
开源分布式数据库Tidb简介开源分布式数据库Tidb简介
开源分布式数据库Tidb简介
 
database
databasedatabase
database
 
大数据 数据挖掘
大数据 数据挖掘大数据 数据挖掘
大数据 数据挖掘
 
Se shang hai_04_cloudybi
Se shang hai_04_cloudybiSe shang hai_04_cloudybi
Se shang hai_04_cloudybi
 
Sybase Analytic Appliance
Sybase Analytic ApplianceSybase Analytic Appliance
Sybase Analytic Appliance
 
数据的价值和灵魂
数据的价值和灵魂数据的价值和灵魂
数据的价值和灵魂
 
浅谈数据科学
浅谈数据科学浅谈数据科学
浅谈数据科学
 
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践
 
医药企业的数字化转型 - 逻辑数据结构策略
医药企业的数字化转型 - 逻辑数据结构策略医药企业的数字化转型 - 逻辑数据结构策略
医药企业的数字化转型 - 逻辑数据结构策略
 
杨少华:阿里开放数据处理服务
杨少华:阿里开放数据处理服务杨少华:阿里开放数据处理服务
杨少华:阿里开放数据处理服务
 

Andere mochten auch

Scrum beyond software (think in lamp version)
Scrum beyond software (think in lamp version)Scrum beyond software (think in lamp version)
Scrum beyond software (think in lamp version)thinkinlamp
 
My sql innovation work -innosql
My sql innovation work -innosqlMy sql innovation work -innosql
My sql innovation work -innosqlthinkinlamp
 
项目中的知识管理
项目中的知识管理项目中的知识管理
项目中的知识管理thinkinlamp
 
别让专业水平外的因素拖
别让专业水平外的因素拖别让专业水平外的因素拖
别让专业水平外的因素拖thinkinlamp
 
《Scrum漫谈》
《Scrum漫谈》《Scrum漫谈》
《Scrum漫谈》thinkinlamp
 
云端的数据库
云端的数据库云端的数据库
云端的数据库thinkinlamp
 
The art of storytelling and how it can help make a better world
The art of storytelling and how it can help make a better worldThe art of storytelling and how it can help make a better world
The art of storytelling and how it can help make a better world(mostly) TRUE THINGS
 
Nosql七种武器之长生剑 mongodb的使用介绍
Nosql七种武器之长生剑 mongodb的使用介绍Nosql七种武器之长生剑 mongodb的使用介绍
Nosql七种武器之长生剑 mongodb的使用介绍thinkinlamp
 

Andere mochten auch (8)

Scrum beyond software (think in lamp version)
Scrum beyond software (think in lamp version)Scrum beyond software (think in lamp version)
Scrum beyond software (think in lamp version)
 
My sql innovation work -innosql
My sql innovation work -innosqlMy sql innovation work -innosql
My sql innovation work -innosql
 
项目中的知识管理
项目中的知识管理项目中的知识管理
项目中的知识管理
 
别让专业水平外的因素拖
别让专业水平外的因素拖别让专业水平外的因素拖
别让专业水平外的因素拖
 
《Scrum漫谈》
《Scrum漫谈》《Scrum漫谈》
《Scrum漫谈》
 
云端的数据库
云端的数据库云端的数据库
云端的数据库
 
The art of storytelling and how it can help make a better world
The art of storytelling and how it can help make a better worldThe art of storytelling and how it can help make a better world
The art of storytelling and how it can help make a better world
 
Nosql七种武器之长生剑 mongodb的使用介绍
Nosql七种武器之长生剑 mongodb的使用介绍Nosql七种武器之长生剑 mongodb的使用介绍
Nosql七种武器之长生剑 mongodb的使用介绍
 

Ähnlich wie 数据仓库

Dtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cnDtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cnyp_fangdong
 
Business Intelligence and Data Warehouse Technology
Business Intelligence and Data Warehouse TechnologyBusiness Intelligence and Data Warehouse Technology
Business Intelligence and Data Warehouse TechnologyJustina Chen
 
逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构Denodo
 
Big data應用讓企業獲利翻倍
Big data應用讓企業獲利翻倍Big data應用讓企業獲利翻倍
Big data應用讓企業獲利翻倍Weng Wallace
 
刘昌钰:阿里大数据应用平台
刘昌钰:阿里大数据应用平台刘昌钰:阿里大数据应用平台
刘昌钰:阿里大数据应用平台hdhappy001
 
淘宝数据可视化[2010 SD2.0]
淘宝数据可视化[2010 SD2.0]淘宝数据可视化[2010 SD2.0]
淘宝数据可视化[2010 SD2.0]KennyZ
 
05 杨志丰
05 杨志丰05 杨志丰
05 杨志丰锐 张
 
查礼 -大数据技术如何用于传统信息系统
查礼 -大数据技术如何用于传统信息系统查礼 -大数据技术如何用于传统信息系统
查礼 -大数据技术如何用于传统信息系统hdhappy001
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況Jazz Yao-Tsung Wang
 
淘宝数据库架构演进历程
淘宝数据库架构演进历程淘宝数据库架构演进历程
淘宝数据库架构演进历程zhaolinjnu
 
淘宝数据库架构演进历程
淘宝数据库架构演进历程淘宝数据库架构演进历程
淘宝数据库架构演进历程Jian Peng
 
Way to big date 資策會李進寶所長 20120620
Way to big date 資策會李進寶所長 20120620Way to big date 資策會李進寶所長 20120620
Way to big date 資策會李進寶所長 20120620Lawrence Huang
 
《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdfmarkmind
 
How to build data warehouse
How to build data warehouseHow to build data warehouse
How to build data warehousejasonfuoo
 
Introduction of libraries' big data in China
Introduction of libraries' big data in ChinaIntroduction of libraries' big data in China
Introduction of libraries' big data in Chinayuanxinz
 
Big Data 101 一 一個充滿意圖與關聯世界的具體實現
Big Data 101 一 一個充滿意圖與關聯世界的具體實現Big Data 101 一 一個充滿意圖與關聯世界的具體實現
Big Data 101 一 一個充滿意圖與關聯世界的具體實現Fred Chiang
 
Greenplum技术
Greenplum技术Greenplum技术
Greenplum技术锐 张
 
Hyperion基础架构
Hyperion基础架构Hyperion基础架构
Hyperion基础架构Jack Wong
 

Ähnlich wie 数据仓库 (20)

Dtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cnDtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cn
 
Business Intelligence and Data Warehouse Technology
Business Intelligence and Data Warehouse TechnologyBusiness Intelligence and Data Warehouse Technology
Business Intelligence and Data Warehouse Technology
 
10708
1070810708
10708
 
逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构
 
Big data應用讓企業獲利翻倍
Big data應用讓企業獲利翻倍Big data應用讓企業獲利翻倍
Big data應用讓企業獲利翻倍
 
Hadoop
HadoopHadoop
Hadoop
 
刘昌钰:阿里大数据应用平台
刘昌钰:阿里大数据应用平台刘昌钰:阿里大数据应用平台
刘昌钰:阿里大数据应用平台
 
淘宝数据可视化[2010 SD2.0]
淘宝数据可视化[2010 SD2.0]淘宝数据可视化[2010 SD2.0]
淘宝数据可视化[2010 SD2.0]
 
05 杨志丰
05 杨志丰05 杨志丰
05 杨志丰
 
查礼 -大数据技术如何用于传统信息系统
查礼 -大数据技术如何用于传统信息系统查礼 -大数据技术如何用于传统信息系统
查礼 -大数据技术如何用于传统信息系统
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
 
淘宝数据库架构演进历程
淘宝数据库架构演进历程淘宝数据库架构演进历程
淘宝数据库架构演进历程
 
淘宝数据库架构演进历程
淘宝数据库架构演进历程淘宝数据库架构演进历程
淘宝数据库架构演进历程
 
Way to big date 資策會李進寶所長 20120620
Way to big date 資策會李進寶所長 20120620Way to big date 資策會李進寶所長 20120620
Way to big date 資策會李進寶所長 20120620
 
《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf
 
How to build data warehouse
How to build data warehouseHow to build data warehouse
How to build data warehouse
 
Introduction of libraries' big data in China
Introduction of libraries' big data in ChinaIntroduction of libraries' big data in China
Introduction of libraries' big data in China
 
Big Data 101 一 一個充滿意圖與關聯世界的具體實現
Big Data 101 一 一個充滿意圖與關聯世界的具體實現Big Data 101 一 一個充滿意圖與關聯世界的具體實現
Big Data 101 一 一個充滿意圖與關聯世界的具體實現
 
Greenplum技术
Greenplum技术Greenplum技术
Greenplum技术
 
Hyperion基础架构
Hyperion基础架构Hyperion基础架构
Hyperion基础架构
 

Mehr von thinkinlamp

浅谈 My sql 性能调优
浅谈 My sql 性能调优浅谈 My sql 性能调优
浅谈 My sql 性能调优thinkinlamp
 
2011 06-12-why do we need the rabbit
2011 06-12-why do we need the rabbit2011 06-12-why do we need the rabbit
2011 06-12-why do we need the rabbitthinkinlamp
 
2011 06-12-lamp-mysql-顾春江
2011 06-12-lamp-mysql-顾春江2011 06-12-lamp-mysql-顾春江
2011 06-12-lamp-mysql-顾春江thinkinlamp
 
大型微博应用Feed系统浅析
大型微博应用Feed系统浅析大型微博应用Feed系统浅析
大型微博应用Feed系统浅析thinkinlamp
 
Enterprise connect
Enterprise connectEnterprise connect
Enterprise connectthinkinlamp
 
I os tech talk 观后感
I os tech talk 观后感I os tech talk 观后感
I os tech talk 观后感thinkinlamp
 
网页游戏开发与敏捷开发
网页游戏开发与敏捷开发网页游戏开发与敏捷开发
网页游戏开发与敏捷开发thinkinlamp
 
My sql自动化监控
My sql自动化监控My sql自动化监控
My sql自动化监控thinkinlamp
 
服务化的网站架构
服务化的网站架构服务化的网站架构
服务化的网站架构thinkinlamp
 
大型互联网应用架构设计
大型互联网应用架构设计大型互联网应用架构设计
大型互联网应用架构设计thinkinlamp
 
Php extension开发
Php extension开发Php extension开发
Php extension开发thinkinlamp
 
大型Sns数据库设计
大型Sns数据库设计大型Sns数据库设计
大型Sns数据库设计thinkinlamp
 
Mysql overview_20100811
Mysql overview_20100811Mysql overview_20100811
Mysql overview_20100811thinkinlamp
 
面向搜索引擎的友好程序开发
面向搜索引擎的友好程序开发面向搜索引擎的友好程序开发
面向搜索引擎的友好程序开发thinkinlamp
 
基于架构的开发模式
基于架构的开发模式基于架构的开发模式
基于架构的开发模式thinkinlamp
 
系统邮件实战技巧
系统邮件实战技巧系统邮件实战技巧
系统邮件实战技巧thinkinlamp
 
领域驱动设计
领域驱动设计领域驱动设计
领域驱动设计thinkinlamp
 

Mehr von thinkinlamp (20)

浅谈 My sql 性能调优
浅谈 My sql 性能调优浅谈 My sql 性能调优
浅谈 My sql 性能调优
 
2011 06-12-why do we need the rabbit
2011 06-12-why do we need the rabbit2011 06-12-why do we need the rabbit
2011 06-12-why do we need the rabbit
 
2011 06-12-lamp-mysql-顾春江
2011 06-12-lamp-mysql-顾春江2011 06-12-lamp-mysql-顾春江
2011 06-12-lamp-mysql-顾春江
 
蜘蛛
蜘蛛蜘蛛
蜘蛛
 
大型微博应用Feed系统浅析
大型微博应用Feed系统浅析大型微博应用Feed系统浅析
大型微博应用Feed系统浅析
 
Enterprise connect
Enterprise connectEnterprise connect
Enterprise connect
 
I os tech talk 观后感
I os tech talk 观后感I os tech talk 观后感
I os tech talk 观后感
 
网页游戏开发与敏捷开发
网页游戏开发与敏捷开发网页游戏开发与敏捷开发
网页游戏开发与敏捷开发
 
My sql自动化监控
My sql自动化监控My sql自动化监控
My sql自动化监控
 
服务化的网站架构
服务化的网站架构服务化的网站架构
服务化的网站架构
 
大型互联网应用架构设计
大型互联网应用架构设计大型互联网应用架构设计
大型互联网应用架构设计
 
Php extension开发
Php extension开发Php extension开发
Php extension开发
 
大型Sns数据库设计
大型Sns数据库设计大型Sns数据库设计
大型Sns数据库设计
 
MySQL高可用
MySQL高可用MySQL高可用
MySQL高可用
 
Mysql overview_20100811
Mysql overview_20100811Mysql overview_20100811
Mysql overview_20100811
 
面向搜索引擎的友好程序开发
面向搜索引擎的友好程序开发面向搜索引擎的友好程序开发
面向搜索引擎的友好程序开发
 
基于架构的开发模式
基于架构的开发模式基于架构的开发模式
基于架构的开发模式
 
系统邮件实战技巧
系统邮件实战技巧系统邮件实战技巧
系统邮件实战技巧
 
Scrum pennygame
Scrum pennygameScrum pennygame
Scrum pennygame
 
领域驱动设计
领域驱动设计领域驱动设计
领域驱动设计
 

数据仓库

Hinweis der Redaktion

  1. 1. “ 大 ” 、 “ 小 ” 是个相对概念 2. “ 大 ” 95% 以上都只是以指数级持续增长的数据,这是与增强的处理能力和存储容量相匹配的,或者至少是随之增长的。 3. http://www.computerworld.com/s/article/9087918/Size_matters_Yahoo_claims_2_petabyte_database_is_world_s_biggest_busiest?taxonomyId=53&intsrc=kc_feat&taxonomyName=databases Size matters: Yahoo claims 2-petabyte database is world's biggest, busiest Year-old database processes 24 billion events a day http://it.toolbox.com/blogs/oracle-guide/worlds-largest-database-runs-on-postgres-24979 According to an article at Computerworld , Yahoo is running a 2 PB (not GB, not TB, PB - Petabyte) database that processes 24 billion events a day. Let's put that in persp ective. 24 billion events is 24,000 million events; 24,000,000,000 events. 1 petabyte is 1,000,000,00 0,000 bytes. Yahoo has two of those. Actually, I should be basing this on 1k which is 1024 but when you're dealing with petabytes, I don't think we need to be picky. We're talking really, really big. Yahoo uses this database to analyze the browsing habits of its half a billion monthly visitors. How would you like to tune those queries? Do you think they allow ad-hoc access? 企业的数据可以分为 3 种类型:结构化数据、半结构化数据和非结构化数据。其中, 85% 的数据属于广泛存在于社交网络、物联网、电子商务等之中的非结构化数据。这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新的渠道和技术的不断涌现和应用。企业用以分析的数据越全面,分析的结果就越接近于真实 美国奥巴马总统委员会的科学技术( PAST )顾问、 Teradata 公司首席技术官 Stephen Brobst 告诉《商业价值》记者:“过去 3 年里产生的数据量比以往 4 万年的数据量还要多,大数据时代的来临已经毋庸置疑。我们即将面临一场变革,新兴大数据将成为企业发展的当务之急,而常规技术已经难以应对 Pb 级的大规模数据量。这一变化所带来的挑战,是成功的企业在未来发展过程中必须要面对的。只有那些能够运用这些新数据型态的企业,方能打造可持续的重要竞争优势。” 沃尔玛是最早通过利用大数据而受益的企业之一,一度拥有世界上最大的数据仓库系统。通过对消费者的购物行为等非结构化数据进行分析,沃尔玛成为最了解顾客购物习惯的零售商,并创造了“啤酒与尿布”的经典商业案例。早在 2007 年,沃尔玛就建立了一个超大的数据中心,其存储能力高达 4Pb 以上。《经济学人》在 2010 年的一篇报道中指出,沃尔玛的数据量已经是美国国会图书馆的 167 倍。 现在, eBay 的分析平台每天处理的数据量高达 100PB ,超过了纳斯达克交易所每天的数据处理量。为了准确分析用户的购物行为, eBay 定义了超过 500 种类型的数据,对顾客的行为进行跟踪分析。 通过对广告投放的优化,自 2007 年以来, eBay 产品销售的广告费降低了 99% ,顶级卖家占总销售额的百分比却上升至 32% 。 沃尔玛、 eBay 等领先企业在大数据方面的获益,毫无疑问起到了示范作用。 IBM 不久前发布的“全球 CIO 调查之 CIO 重要启示”指出,已经有 83% 的 CIO 拥有涵盖商业智能和分析的远期计划,并且 CIO 们开始更多地关注数据,而非应用。 ITValue 社区的调研结果也显示, 57% 的中国 CIO 对数据的关注程度超过应用。 一方面,商业智能的普及,让企业对数据的重要性已经有了充分认识;另一方面,社交媒体、电子商务、物联网等新应用的兴起,打破了企业原有价值链的围墙,仅对原有价值链各个环节的数据进行分析,已经不能满足需求。他们需要借助大数据战略打破数据边界,了解更为全面的运营及运营环境的全景图 一方面,商业智能的普及,让企业对数据的重要性已经有了充分认识;另一方面,社交媒体、电子商务、物联网等新应用的兴起,打破了企业原有价值链的围墙,仅对原有价值链各个环节的数据进行分析,已经不能满足需求。他们需要借助大数据战略打破数据边界,了解更为全面的运营及运营环境的全景图 3 月 11 日日本大地震发生后仅 9 分钟,美国国家海洋和大气管理局( NOAA )就发布了详细的海啸预警。随即, NOAA 通过对海洋传感器获得的实时数据进行计算机模拟,制作的海啸影响模型出现在 YouTube 等网站。
  2. 我找不到我要的数据——数据分散在各个业务系统,各种版本,各种中间状态,各种不一致 比如电商:订单完成的状态以什么为准?退货怎么办? 业务员? BI 分析师? 我得不到我要的数据——数据集成,需要专家协助才能获得数据, DBA? 得到的数据不是我理解的数据——无文档,无元数据 我不能使用我找到的数据——结果不可信,数据还需要另外转化