到底大数据是夸夸其谈抑或确有其事,业界存在着各种不同的表述甚至是论断。令人欣喜的是,越来越多的实际案例表明了在大数据中蕴含着巨大的商业价值。但是,人们对于大数据的接受程度和理解程度依然不够。而且,相关的概念、工具和方法论也有待进一步成熟。
有些人从规模的角度来看待大数据,比如PB(petabytes,相当于1024TB)、EB(exabytes,相当于1024PB)和ZB(zettabytes,相当于1024EB)量级。为了理解方便,1E相当于2的60次方。
如果还不清楚的话,我们可以再举一个例子来说明–将1个EB的奥利奥饼干(Oreo)堆起来,其高度相当于往返月球19041819次,或是往返太阳48938次。
根据IDC的2012年DigitaUniverse报告显示:
2012年,全世界只有5%的数据被用来分析
2012年会产生2.8ZB的新数据
数据爆炸主要归功于PC、智能手机和互联网的普及,尤其是在新兴市场地区
在过去两年中,来自于监控摄像头和智能电表的信息使整体数据规模增长了一倍
对于2020年的情况,IDC也做出了相应的预测:
数据总规模将达到40ZB,相当于2010年的50倍
全世界的人均数据量是5247GB
新兴市场地区会取代发达地区成为数据的主要来源
作为数据世界的“基础架构”,在IT硬件、软件、服务、通讯和专业人员上面的投资将会增长40%。而在诸如存储管理、安全、大数据和云计算等方面的投入将是增长最多的部分
无论你是否相信以上预计,数据规模的急速膨胀是无可否认的趋势。但是,单单是规模还不能说明大数据的全部含义–比如当今世界有16盎司容量的软饮料、2700英尺高的摩天大楼、7磅重的西红柿和8英尺高的巨人,这些数字虽然很大,但是其含义都很单薄。
在TechAmerican Foundation最近发布的报告《Demystifying Big Data: A PracticaGuide to Transforming the Business of Government》中,大数据被定义为“数据规模、复杂度和类型的急速增长”。从中我们可见,除了规模之外,速度、复杂度和类型也构成了大数据的要素所在。
根据TechAmerican的报告,现有的数据中有15%是结构化的–比如关系型数据库和电子表格中以行列形式存储的数据。这也就是说,现在有85%的数据是非结构化的,比如存在于社交网站、音频。视频和电子邮件中的信息。对于传统的商业智能工具(基本上都是针对结构化数据而设计的)来说,处理非结构化信息是巨大的挑战。
随便看看现有的论述(无论是技术还是商业方面),基本上都认为今后的数据增长主要来自于移动设备、传感器和社交媒体。因此,可能结构化数据所占的比例将会降低,而非结构化的比例越来越高–同时伴随着复杂度和类型的增长。
真正的关键不在于技术和数据本身,而是这些新技术及其所催生的数据改变了我们工作和交互的模式 -- 更加紧密和持久的联系意味着实时的交互模式。仅靠电子邮件进行沟通已经过时了,现在给你发了一个消息之后,我希望得到即时的回复。正如我20岁大的儿子经常对我说的:“爸,现在只有老古董才用电子邮件了。”
实现大数据商业价值的5个要点
通常来说,以往的业务模式是基于历史数据来决定未来一到两年内的行为,但是现在则应该是基于过去几分钟内的数据来决定未来12到24分钟(甚至是秒)内的行动。在营销模式上,以往是基于过去数周或数月内的推广活动来预测特定人群对产品或者服务的偏好程度,而现在则是基于对客户个体行为的分析和实验来为其提供实时的定制化服务(通过各种用户界面,比如呼叫中心、网站、移动应用等)。可以想见,每个客户所接收到的东西都是独一无二的–一旦某客户接收到了特定的服务或者产品,该服务或产品就不会重复提供给另一个客户。这才是“大”的真正含义–大数据中的大生意。
对于数据分析人员、IT经理以及整个企业来说,对于大数据,有以下重要的考量和步骤:
在准备行动之前,和管理层及客户进行充分的沟通,了解业界最新进展以及企业的真实需求
基于大数据相关的新业务模式和新技术,积极推动企业战略的升级
基于业务战略和模型,制定相应的数据战略和监管流程
以可管理的模式来推进创新,比如较小的、短期的和可迭代的实验和探索,以此获得易评测和有意义的结果
在探索过程中允许错误的发生。不断从失败中积累经验才能提高未来工作的成功率
无论出于什么原因,如果你或者你的公司还未认识到大数据的无穷潜力,Rick Smolan和Jennifer Erwitt的近著《The Human Face of Big Data》可能会对你有所帮助 -- 其中有句话这么说到:“在孩子出生的第一天,人类产生的数据量就相当于国会图书馆的70倍。”想想吧,这得有多少奥利奥饼干。
编辑:Andly