大数据(摘)

个人日记

 

大数据的概念?

大数据,或称巨量数据,是由数量巨大、结构复杂、类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的集成共享,交叉复用形成的智力资源和知识服务能力。目前世界上最顶级的大数据系统‌‌“IBM大数据平台‌‌”定义了大数据的四个维度,也称为‌‌“大数据4V‌‌”,即Volume(海量),Velocity(高速),Variety(多样),Veracity(真实)。

Volume (海量)

给出了非常形象的描述:‌‌“大数据‌‌”故名思义,要足够‌‌“大‌‌”,目前全球每天创造2.3万亿GB的数据,每个中型企业至少储存了10万GB的数据。如此大量的数据如果高效率地搜集整理出来,会对我们的生活产生怎样的影响?美剧‌‌“Person of Interest‌‌”(中译:疑犯追踪)给了我们最生动的说明:

 

在这部剧中,软件天才Finch 发明了一个被称为‌‌“The Machine‌‌”的系统,其本意是通过摄像头和无处不在的监听系统搜集面部表情、声音、动作等巨量数据,并建立一套分析模式,以图在恐怖袭击事件发生之前就判断出行凶者或受害人,并加以阻止。大数据的此类应用在我们生活中已经非常常见,‌‌“信用评级‌‌”就是基于这样的逻辑设立,由于搜集到数据量足够大(比如个人的收入状况、消费水平、资产情况等)银行等金融机构可以根据申请人的信息,判断其是否还得起贷款,或发出的信用卡应给多少额度,等等。

但是,由于大数据系统的应用,剧中的整个美国只要有摄像头的地方都被严格地监控着,任何人在这样的系统下都无所遁形,个人隐私也无法得到保障;此外,Finch的程序赋予了整个系统人工智能甚至独立思考的能力,在剧中也多次出现the Machine通过自己的‌‌“主观判断‌‌”拯救其主人和他团队的镜头。这不禁让我们思考,未来当大数据进一步渗透我们的生活,是否有一天机器会获得自我思考的能力,反过来控制人类呢?

Velocity(高速)

大数据另一个特性是‌‌“高速‌‌”。到2016年,全世界预计将拥有189亿个网络连接,地球上平均每个人都将有2.5个接入互联网的端口;如此广泛的网络连接导致我们对于数据流的获取和分析速度越来越快,纽交所的系统每个交易日就可捕获1TB的交易数据,现代汽车上有超过100个传感器用来实时检测燃料水平、胎压等等。对于数据分析速度越来越严苛的要求,也反过来推动硬件技术的不断发展,对此,美剧‌‌“Intelligence‌‌”(中译:超脑特工)给出了非常形象的描述:

 

剧中主人公Gabriel Vaughn 是前美国三角洲特种部队队员,因为他具有一种被称为Athens-4U7R的独特基因变异,可以对计算机芯片不产生排异反应,‌‌“美国网络战指挥部‌‌”招募了他,并在他的脑中植入了一枚堪比超级计算机的芯片,令其能在有效距离之内接收或控制所有电磁频谱。他成为世界上第一个能够用大脑直连互联网、Wifi信号、电话通讯和卫星数据的人类,仅凭大脑就能入侵世界上任何数据中心或者获取关键情报,在最短的时间内从遍及世界的‌‌“电子网格‌‌”中获取任何信息。

这部剧可以说是数据流分析速度的极致体现。Gabriel在剧中具有的一项特殊能力‌‌“网络渲染‌‌”(Cyber Render),他在脑中整合巨量的数据,融合事实和推理形成一面‌‌“虚拟证据墙‌‌”。脑中的芯片帮助他在几秒钟内破解任何悬疑案件,找出事实的真相。而现实生活中,对大数据高速特性的应用则在投资领域多有涉及,如通过基于海量新闻数据抓取而开发的‌‌“新闻选股‌‌”系统,或者对于社交网络上各类信息的搜集整理而形成的‌‌“舆情选股‌‌”系统等,其速度和效率是券商分析师无法与之比拟的。

Variety(多样)

从诸如Facebook、Twitter之类的社交网站上发布的信息,Youtube、Youku之类网站上的视频,到智能手环检测到的心率、血压等健康状况数据,以及医疗机构搜集的病历等,大数据的形式可谓包罗万象。而美剧‌‌“Touch‌‌”(中译:触摸未来)将大数据的这一特质赋予了超自然力量:

 

‌‌“我叫Jake,我出生于4161天前,即2000年10月26日。我和70亿8千零36万人生活在这个地球上,这是个关于其中某些人的故事。今天平均每人对7.4个人说2250个字,发出超过3000亿封的邮件,190亿条短信,构成各种模式和比例的交织,甚是壮观,以数学形式表现。这些模式隐匿于众目睽睽之下,只须摸清门道,方解其中奥秘,可只有少数人能看清其中的关联‌‌”,‌‌“这一切全由数学概率注定,而我的职责就是追踪这些数字,为找寻彼此,渴求生命交汇的双方牵线搭桥。‌‌”

Jake 是剧中主人公Martin Bohm的儿子,患有自闭症,出生十一年来从未说过一句话,他是所谓的‌‌“36义人‌‌”之一,是上帝的选民,无需学习就掌握了‌‌“上帝数列‌‌”,也就是我们常说的‌‌“斐波那契数列‌‌”。他用数字理解诸如银河星系,庄稼植被,海洋贝类等世界上任何的行为模式和信息,通过近似‌‌“心灵感应‌‌”的方式来与其他的‌‌“义人‌‌”沟通,将人们从世界上存在的痛苦(在他理解中,是宇宙秩序的失衡)中解救出来。

Veracity (真实)

在IBM大数据中心的定义中,这个维度本身强调的是数据的准确性,并指出不准确的数据导致的危害,比如,美国经济每年因为数据质量差而导致的损失高达3.1万亿美金。而我们要推荐的这部美剧‌‌“House of Cards‌‌”(中译:纸牌屋),对这个维度有一点点的曲解,但它是大数据本身‌‌“真实性‌‌”的最佳写照。

 

《纸牌屋》的制作方,美国的Netflix公司,是一家在线影片租赁提供商,在全球有3300 万订阅用户,它比谁都清楚大家喜欢看什么样的电影和电视。有研究表明每天的高峰时段网络下载量都是出自Netflix 的流媒体服务,每天用户在Netflix 上产生3000 万多个行为,如暂停、回放或者快进时,都会产生一个行为,Netflix 的订阅用户每天还会给出400 万个评分、300 万次搜索请求、询问剧集播放时间和设备等。它通过对这些数据的挖掘,分析,已经知道用户很喜欢David Fincher(《社交网络》、《七宗罪》的导演),也知道Kevin Spacey 主演的片子表现都不错,还知道英剧版的《纸牌屋》很受欢迎,三者的交集告诉Netflix值得在这件事上赌一把,因此投资了一亿美元请来Fincher导演,Spacey主演并买下英剧版权,首次进军原创剧集就一炮而红,在美国及40 多个国家成为最热门的在线剧集。

在现实生活中,用大数据搜集用户的兴趣、职业、消费行为等,从而进行营销推广,已经是非常普遍的应用场景了,而Netflix更是将大数据本身的威力演化为一款产品,迅速打动了亿万用户,将大数据的应用做到了极致。

你看得见,或者看不见,大数据就在那里,不悲不喜;你爱它,恨它,大数据每天围绕着你,不离不弃。



文章评论