1. “ 大 ” 、 “ 小 ” 是个相对概念 2. “ 大 ” 95% 以上都只是以指数级持续增长的数据,这是与增强的处理能力和存储容量相匹配的,或者至少是随之增长的。 3. http://www.computerworld.com/s/article/9087918/Size_matters_Yahoo_claims_2_petabyte_database_is_world_s_biggest_busiest?taxonomyId=53&intsrc=kc_feat&taxonomyName=databases Size matters: Yahoo claims 2-petabyte database is world's biggest, busiest Year-old database processes 24 billion events a day http://it.toolbox.com/blogs/oracle-guide/worlds-largest-database-runs-on-postgres-24979 According to an article at Computerworld , Yahoo is running a 2 PB (not GB, not TB, PB - Petabyte) database that processes 24 billion events a day. Let's put that in persp ective. 24 billion events is 24,000 million events; 24,000,000,000 events. 1 petabyte is 1,000,000,00 0,000 bytes. Yahoo has two of those. Actually, I should be basing this on 1k which is 1024 but when you're dealing with petabytes, I don't think we need to be picky. We're talking really, really big. Yahoo uses this database to analyze the browsing habits of its half a billion monthly visitors. How would you like to tune those queries? Do you think they allow ad-hoc access? 企业的数据可以分为 3 种类型:结构化数据、半结构化数据和非结构化数据。其中, 85% 的数据属于广泛存在于社交网络、物联网、电子商务等之中的非结构化数据。这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新的渠道和技术的不断涌现和应用。企业用以分析的数据越全面,分析的结果就越接近于真实 美国奥巴马总统委员会的科学技术( PAST )顾问、 Teradata 公司首席技术官 Stephen Brobst 告诉《商业价值》记者:“过去 3 年里产生的数据量比以往 4 万年的数据量还要多,大数据时代的来临已经毋庸置疑。我们即将面临一场变革,新兴大数据将成为企业发展的当务之急,而常规技术已经难以应对 Pb 级的大规模数据量。这一变化所带来的挑战,是成功的企业在未来发展过程中必须要面对的。只有那些能够运用这些新数据型态的企业,方能打造可持续的重要竞争优势。” 沃尔玛是最早通过利用大数据而受益的企业之一,一度拥有世界上最大的数据仓库系统。通过对消费者的购物行为等非结构化数据进行分析,沃尔玛成为最了解顾客购物习惯的零售商,并创造了“啤酒与尿布”的经典商业案例。早在 2007 年,沃尔玛就建立了一个超大的数据中心,其存储能力高达 4Pb 以上。《经济学人》在 2010 年的一篇报道中指出,沃尔玛的数据量已经是美国国会图书馆的 167 倍。 现在, eBay 的分析平台每天处理的数据量高达 100PB ,超过了纳斯达克交易所每天的数据处理量。为了准确分析用户的购物行为, eBay 定义了超过 500 种类型的数据,对顾客的行为进行跟踪分析。 通过对广告投放的优化,自 2007 年以来, eBay 产品销售的广告费降低了 99% ,顶级卖家占总销售额的百分比却上升至 32% 。 沃尔玛、 eBay 等领先企业在大数据方面的获益,毫无疑问起到了示范作用。 IBM 不久前发布的“全球 CIO 调查之 CIO 重要启示”指出,已经有 83% 的 CIO 拥有涵盖商业智能和分析的远期计划,并且 CIO 们开始更多地关注数据,而非应用。 ITValue 社区的调研结果也显示, 57% 的中国 CIO 对数据的关注程度超过应用。 一方面,商业智能的普及,让企业对数据的重要性已经有了充分认识;另一方面,社交媒体、电子商务、物联网等新应用的兴起,打破了企业原有价值链的围墙,仅对原有价值链各个环节的数据进行分析,已经不能满足需求。他们需要借助大数据战略打破数据边界,了解更为全面的运营及运营环境的全景图 一方面,商业智能的普及,让企业对数据的重要性已经有了充分认识;另一方面,社交媒体、电子商务、物联网等新应用的兴起,打破了企业原有价值链的围墙,仅对原有价值链各个环节的数据进行分析,已经不能满足需求。他们需要借助大数据战略打破数据边界,了解更为全面的运营及运营环境的全景图 3 月 11 日日本大地震发生后仅 9 分钟,美国国家海洋和大气管理局( NOAA )就发布了详细的海啸预警。随即, NOAA 通过对海洋传感器获得的实时数据进行计算机模拟,制作的海啸影响模型出现在 YouTube 等网站。
我找不到我要的数据——数据分散在各个业务系统,各种版本,各种中间状态,各种不一致 比如电商:订单完成的状态以什么为准?退货怎么办? 业务员? BI 分析师? 我得不到我要的数据——数据集成,需要专家协助才能获得数据, DBA? 得到的数据不是我理解的数据——无文档,无元数据 我不能使用我找到的数据——结果不可信,数据还需要另外转化