读喵精华

• 数据化:不是数字化
• 谷歌数据化后的优质服务
• 数据废气:描述网上活动的数字轨迹

在信息处理能力受限的时代,世界需要数据分析,却缺少用来分析所收集数据的工具,因此随机采样应运而生,它也可以被视为那个时代的产物。但这只是一条捷径,是在不可收集和分析全部数据情况下的选择,它本身存在许多固有的缺陷。在数字化时代,数据处理变得更加容易、更加快速。如果有可能的话,我们会收集所有的数据,即“样本=总体”。谷歌流感趋势预测并不是依赖于对于随机样本的分析,而是分析了整个美国几十亿条互联网检索记录。正如我们所看到的,“样本=总体”是指我们能对数据进行深度探讨,而采样几乎无法达到这样的效果。
执迷于精确性是信息缺乏时代和模拟时代的产物。但在很多情况下,与致力于避免错误相比,对错误的包容会带给我们更多好处。为了扩大规模,我们接受适量错误的存在。大数据的简单算法比小数据的复杂算法更有效。谷歌的翻译之所以更好并不是因为它拥有一个更好的算法机制,是因为谷歌翻译增加了很多各种各样的数据。它之所以能比IBM的Candide系统多利用成千上万的数据,是因为它接受了有错误的数据。要想获得大规模数据带来的好处,混乱应该是一种标准途径,而不应该是竭力避免的。
人类是通过因果关系了解世界,但在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。亚马逊的推荐系统梳理出了有趣的相关关系,但却不知道背后的原因。通过给我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。我们可以对大数据进行相关关系分析,从而知道哪些检索词条是最能显示流感传播的,飞机票的价格是否会飞涨,哪些食物是飓风期间待在家里的人最想吃的。建立在相关关系分析法基础上的预测是大数据核心。
数据化是指一种把现象转变为可制表分析的量化形式的过程。数字化指的是把模拟数据转换成用0和1表示的二进制码。
伴随着数据记录的发展,人类探索世界的想法一直在膨胀,我们渴望能更精准地记录时间、距离、地点、体积和重量,等等。计算机的出现带来和数字测量和存储设备,这样就大大提高了数据化的效率。计算机也使得通过数学分析挖掘出数据更大的价值变成了可能。简而言之,数字化带来了数据化,但是数字化无法取代数据化。
刚开始,谷歌所做的是数字化文本,每一页都被扫描然后存入谷歌服务器的一个高分辨率数字图像文件中。因为这些数字文本没有被数据化,所以它们不能通过搜索词被查找到,也不能被分析。因此谷歌使用了能识别数字图像的光学字符识别软件来识别文本的字、词、句和段落,如此一来,书页的数字化图像就转化成了数据化文本。当文字变成数据,它就大显神通了——人可以用之阅读,机器也可用之分析。所以,谷歌精明地利用这些数据化了的文本来改进它的机器翻译服务。
位置信息一被数据化,新的用途就犹如雨后春笋般涌现出来。随着汽车装上了无线传感器,地理位置信息的数据化深刻变革了保险的概念。数据化实时位置信息在人身上的运用最为显著,多年来,无线运营商通过收集和分析这些信息来提升移动互联网的服务水平。通过处理大量来自手机的数据,发现和预测人类行为被称为“现实挖掘”。在一项研究中,他们通过分析每个人去了哪里、见了谁,成功地区分出了感染了流感的人群,而且在感染者还完全不知道的自己已经患病之前就做出了区分。
数据化的构思是许多社交网络公司的脊梁。推特通过创新,让人们能轻易记录及分享他们零散的想法,从而使情绪数据化得以实现。一些消费者信贷领域的创业公司正考虑开发以脸谱社交图谱为依据的信用评分。许多公司对微博做了句法分析,有时还会使用一项叫作情感分析的技术,以获得顾客反馈意见的汇总或对营销活动的效果进行判断。数据化不仅能将态度和情绪转变为一种可分析的形式,也可能转化人类的行为。这些行为难以跟踪,特别是在较大的社区和其中的子人群环境中。
只要一点想象,万千事物就能转化为数据形式,并一直带给我们惊喜。随着智能手机和计算机技术的普及,对个人最重要的生活行为进行数据处理从未如现在这般容易。2009年,苹果公司就申请了一项专利,通过音频耳塞收集关于血液氧合、心率和体温的数据。有了大数据的帮助,我们不会再将世界看作是一连串我们认为或是自然或是社会现象的事件,我们会意识到本质上世界是由信息构成的。
过去,一旦数据的基本用途实现了,我们便认为数据已经达到了它的目的,准备将其删除,让它就此消失。而在大数据时代,数据就像是一个神奇的钻石矿,在其首要价值被发掘之后仍能不断产生价值。数据创新再利用的一个典型例子是搜索关键词。以往的查询也可以变得非常有价值,谷歌整理了一个版本的搜索词分析,公开供人们查询,并与西班牙第二大银行BBVA合作推出了实时经济指标以及旅游部门的业务预报服务,这些指标都是基于搜索数据得到的。英国央行通过搜索查询房地产的相关信息,更好地了解到了住房价格的升降情况。
有时,处于休眠状态的数据的价值只能通过与另一个截然不同的数据集结合才能释放出来。例如,房地产网站Zillow.com将房地产信息和价格添加在美国的社区地图上,同时还聚合了大量的信息,如社区近期的交易和物业规格,以此来预测区域内具体每套住宅的价值。随着大数据的出现,数据的总和比部分更有价值。当我们讲多个数据集的总和重组在一起时,重组总和本身的价值也比单个总和更大。
促成数据再利用的方法之一是从一开始就设计好它的可扩展性。一辆谷歌街景汽车每时每刻都能积累大量的离散数据流。这些数据之所以具有可扩展性,是因为谷歌不仅将其用于基本用途,而且进行了大量的二次使用。例如,GPS数据不仅优化了其地图服务,而且对谷歌自动驾驶汽车的运作功不可没。
随着时间的推移,大多数数据都会失去一部分基本用途。亚马逊等公司建立了复杂的模型来帮助自己分离有用和无用的数据。例如,如果客户浏览或购买了一本基于以往购买记录而推荐的书,电子商务公司就认为这项旧的购买记录仍然代表着客户的喜好。这样,他们就能够评价旧数据的有用性,并使模型的“折旧率”更具体。即使数据用于基本用途的价值会减少,但潜在价值却依然强大。一直以来,谷歌都拒绝将互联网协议地址从旧的搜索查询中完全删除。除了希望得到每年的同比数据外,还希望通过了解搜索者的位置,帮助改善搜索结果的相关性。
一个用来描述人们在网上留下的数字轨迹的艺术词汇出现了,这就是“数据废气”。它是用户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等。许多公司因此对系统进行了设计,使自己能够得到数据废气并循环利用,以改善现有的服务或开发新服务。数据废气是许多电脑化服务背后的机制,如语音识别、垃圾邮件过滤、翻译等。当用户指出语音识别程序误解了他们的意思时,他们实际上有效地“训练”了这个系统,让它变得更好。
开放数据的倡导者主张,政府只是他们所收集信息的托管人,私营部门和社会对数据的利用回避政府更具有创新性。他们呼吁建立专门的官方机构来公布民用和商业数据;而且数据必须以标准的可机读形式展现,以方便人们处理。否则,信息的公开只会是徒有虚名。
Facebook开盘当天,其正规金融资产与其未记录的无形资产之间相差了近1000亿美元,差距几乎是20倍!这意味着目前还找不到一个有效的方法来计算数据的价值。那么,如何给数据估值呢?一个办法是从数据持有人在价值提取上所采取的不同策略入手,最常见的一种可能性就是将数据授权给第三方。这样一来,各方都会努力使数据再利用的价值达到最大。
第一种是基于数据本身的公司。这些公司拥有大量数据或者至少可以收集到大量数据,却不一定有从数据中提取价值或者用数据催生创新思想的技能。最好的例子就是推特,它拥有海量数据这一点是毫无疑问的,但是它的数据都同两个独立的公司授权给别人使用。
第二种是基于技能的公司。它们通常是咨询公司、技术供应商或者分析公司。它们掌握了专业技能但并不一定拥有数据或者提出数据创新用途的才能。比方说,沃尔玛和P-Tarts这两个零售商及时借助天睿(Teradata)的分析来获得营销点子,天睿就是一家大数据分析公司。
第三种是基于思维的公司。皮特华登(Pete Warden),Jetpac的联合创始人,就是通过想法获得价值的一个例子。Jetpac通过用户分享到网上的旅行照片来为人们推荐下次旅行的目的地。对于某些公司来说,数据和技能并不是成功的关键。让这些公司脱颖而出的是其创始人和员工的创新思维,他们有怎样挖掘数据的新价值的独特想法。
在有些情况下会出现“数据中间人”,它们会从各种地方搜集数据进行整合,然后再提取有用的信息进行利用。Inrix是典型的独立运作的大数据中间商。它汇聚了来自很多汽车制造商的数据。每个汽车制造商可能都会利用它们的车辆在行驶过程中产生的成千上万条数据来预测交通状况。这些汽车制造商并不一定掌握了分析数据的技能,它们的强项是造车,所以它们都愿意第三方来做这个预测的事情。
人类从依靠自身判断做出决定到依靠数据做决定的转变,也是大数据做出的最大贡献之一。行业专家和技术专家的光芒会因为统计学家和数据分析家的出现而变暗,因为后者不受旧观念的影响,能够聆听数据发出的身心。他们的判断完全依赖于汇集起来的数据所显示出的实际信息,所以有着牢靠的根基。
大数据成为许多公司竞争力的来源,从而使整个行业结构都改变了。大公司和小公司最有可能成为赢家,而大部分中等规模的公司则可能无法在这次行业调整中尝到甜头。超大型公司占据了规模优势,而小公司则具有灵活性。在大数据时代,中等规模的公司要么向两端转换,要么破产。大数据也会撼动国家竞争力。工业化国家因为掌握了数据以及大数据技术,所以仍然在全球竞争中占据优势,但随着世界上的其他国家和地区都开始采用这些技术,西方世界在大数据技术上的领先地位将慢慢消失。大数据会加剧优胜劣汰。
在大数据时代,不管是告知与许可、模糊化还是匿名化,这三大隐私保护策略都失效了。如今很多用户都觉得自己的隐私已经受到了威胁,当大数据变得更为普遍的时候,情况将更加不堪设想。
不受限制的大数据分析可能会导致的:罪责的判定是基于对个人未来行为的预测。我们将生活在一个没有独立选择和自由意志的社会,在这里我们的道德指标将被预测系统所取代,个人意志受到集体意志的冲击。如果一切都成为现实,大数据就会把我们禁锢在可能性之中。
过于依赖数据,而数据远远没有我们所想的那么可靠。美国军方在越战时对数据的使用、滥用和误用给我们提了一个醒,在由“小数据”时代向大数据时代转变的过程中,我们对信息的一些局限性必须给予高度的重视。我们比想象中更容易受到数据的统治——让数据以良莠参半的方式统治我们。其威胁就是,我们可能会完全受限于我们的分析结果,即使这个结果理应受到质疑。只要得到了合理的利用,而不单纯只是为了“数据”而“数据”,大数据就会变成强大的武器。
在大数据时代,我们需要设立一个不一样的隐私保护模式,这个模式应该更着重于数据使用者为其行为承担责任,而不是将重心放在手机数据之初取得个人同意上。这样一来,使用数据的公司就需要基于其将对个人所造成的影响,对涉及个人数据再利用的行为进行正规评测。

Img378196205