(数据质量。2012年12月11日EMC(纽约证券交易所代码:EMC)今天公布了由EMC赞助的全球mba项目的结果国际数据公司(IDC)数字宇宙的研究”,大数据研究发现,尽管由于人和机器每天产生的大量数据,数字世界正在前所未有地扩张,但IDC估计,世界上只有0.5%的数据正在被分析。
扩散的设备(如个人电脑和智能手机在全球范围内,增加在新兴市场的互联网接入和提高机器的数据监控摄像头或智能电表等导致了宇宙的数字在过去两年翻一番——2.8 ZB猛犸。IDC预计,到2020年,数字世界将达到40 ZB,比之前的预测高出14%。
从纯粹的量来看,40 ZB的数据相当于:
*地球上所有的海滩上有700,500,000,000,000,000,000,000粒沙子(或七百亿五百亿亿亿)。这意味着40 ZB等于地球上所有海滩上所有沙粒数量的57倍。
*如果我们能把所有40个ZB保存到今天的蓝光光盘上,这些光盘(没有任何套管或盒)的重量将相当于424艘尼米兹级航空母舰。
*到2020年,全球每人40 ZB将达到5247 GB。
今年的研究标志着IDC首次能够捕捉到数字世界中信息的来源、最初捕获或消费的地方,揭示了目前正在发生的一些戏剧性变化。这项研究测量并预测了每年创造和复制的数字信息的数量,现在已经是第六年了。这项研究包括了关于“大数据差距”的发现,“大数据差距”是指具有隐藏价值的数据数量和实际被提取的数据数量之间的差距;的水平数据保护需要什么与交付什么;以及世界数据的地理意义。
研究特色:
数字世界的快速扩张:IDC预计,到2020年,数字世界将达到40 ZB,这一数字将超过此前的预测。从现在到2020年,数字世界每两年就会翻一番。到2020年,地球上的每个男人、女人和儿童将拥有大约5247 GB的数据。数字宇宙扩张背后的一个主要因素是机器生成数据的增长,从2005年的11%增长到2020年的40%以上。
大量有用的数据正在丢失:的承诺大数据在于从巨大的、未开发的数据池中提取价值。然而,大多数新数据都是基于文件的,并且没有标记非组织性数据,这意味着人们对它知之甚少。2012年,如果标记和分析,23% (643eb)的数字空间将对大数据有用。然而,目前只有3%的潜在有用数据被标记,更少的数据被分析。随着数字世界的发展,有用数据的数量也在不断增加。到2020年,33%的数字世界(13000艾字节)如果被标记和分析,将具有大数据价值。
很多数字世界都没有受到保护:需要保护的数据量的增长速度比数字世界本身还要快。不到数字世界所需的三分之一数据保护但预计到2020年,这一比例将超过40%。2012年,虽然数字世界中约35%的信息需要某种类型的数据保护,但实际上只有不到20%的数字世界拥有这些保护。保护程度因地区而异,新兴市场的保护程度要低得多。的挑战,如先进的威胁,安全技能的差距以及消费者和企业对安全最佳实践的缺乏将继续加剧这个问题。
一场地域上的角色互换即将到来:尽管早期数字世界只是发达国家的现象,但随着新兴市场人口开始投下更长的阴影,这种情况即将改变。虽然新兴市场在2010年还占数字世界的23%,但到2012年,它们的份额已经上升到36%。IDC预测,到2020年,62%的数字世界将归功于新兴市场。目前全球数字世界的崩溃是:美国32%,西欧19%,中国13%,印度4%,世界其他地区32%。到2020年,预计仅中国一国就能产生全球22%的数据。
其他重要发现:
作为云计算在大数据管理中扮演着更加重要的角色,全球服务器数量预计将增长10倍,企业数据中心直接管理的信息量将增长14倍。在未来几年内,存储在云中的数据类型也将经历一场彻底的变革。IDC预测,到2020年,46.7%的云存储数据将与娱乐相关,而不是企业数据。其余部分将由监控数据、嵌入式和医疗数据以及电脑、手机和消费电子产品产生的信息组成。
在数字世界中存储的关于个人用户的信息数量超过了他们自己创建的数据数量。西欧目前在管理数字世界方面投入最多,每GB花费2.49美元。美国排名第二,每GB投资1.77美元,其次是中国,每GB投资1.31美元,印度0.87美元。
随着数字世界的基础设施越来越紧密地联系在一起,信息将不再存在于它被消费的地区,也不需要存在于该地区。IDC估计,到2020年,将近40%的数据将被云计算“触及”(私有和公共),这意味着字节的产生和消耗之间的某个地方,它将在云中存储或处理。
EMC公司是全球领先的企业和服务提供商,致力于实现业务和服务转型,并将IT作为服务交付。更多信息请访问http://www.EMC.com.更多关于这个故事:http://www.emc.com/about/news/press/2012/20121211-01.htm.
(访问2013年1月4日)