为什幺我们很难像《魔球》一样点石成金?——谈大数据的机会与挑

2020-06-15 21:36:52 来源:F生活史532人评论

为什幺我们很难像《魔球》一样点石成金?——谈大数据的机会与挑

我们活在巨量资料的世界,资料的数量与多样化的程度,每日都以前所未有的规模扑向人类。无论你是不是在相关产业工作,都不可能逃离被大数据「围攻」的现实。自哈佛大学电脑科学系毕业、Cambridge Semantics 共同创办人 Lee Feigenbaum 撰写的 〈Turnning Big Data into Smart Data〉 一文,告诉我们横亘企业眼前的「大数据挑战」。让我们先来看看,大数据到底有多大?

除了吓人以外,光有这些「大数据」,其实没有什幺意义,唯有人类能够从中发掘价值,大数据才产生意义。所幸,已有很多应用实例,让大数据发出应有的光芒,也让我们看到各行各业有无穷尽的机会,等待数据科学家的探勘。

为什幺我们很难像《魔球》一样点石成金?——谈大数据的机会与挑
魔球电影剧照

儘管有这幺多成功的案例,对很多企业来说,大数据仍像一座无法翻越的山岭,难以将数据完美的融入决策过程。通常公司在运用大数据时,会遇到下列五个挑战:

挑战 1:我们不知道答案,甚至连问题是什幺都很模糊

大数据时代的其中一个关键特徵是,我们很难知道我们需要的答案,有时甚至连想要解决的问题都很模糊。有一部分原因是,大数据的价值在于模式与相关性,但这些过去隐藏在大量资料中的模式与相关性,经常都是意外发现的。我们不能期待专家为每一行资料都特製 MapReduce,其他大数据分析框架也一样有很高的进入壁垒,阻碍简单的资料探索与分析。

拥有深度分析、数学、统计与程式技能的数据科学家,无疑是现阶段最炙手可热的人才,不过人才养成的速度远远不及市场需求。

挑战 2:非结构化的数据难以採集

就现实面来说,大数据其实就等于「非结构化」的数据,也就是从文本分析到未经梳理的文字、声音与影片导出的数据。这些文本分析景观,有着几乎堆积成山的问题,让我们难以利用非结构化的数据帮助日常的企业营运决策。这些问题包括:

挑战 3:大数据难以重複利用

一般而言,数据的蒐集、贮存、使用,都是针对单一目的,像是投资银行蒐集 10-K 文件,协助买方从事权益分析,生技公司在资料库中储存临床实验的结果,向 FDA提交报告,电商从製造商撷取库存滋料库,与他们自己的网站内容管理系统整合在一起。这些数据既然只为特定目的服务,自然很难再被利用到其他使用情境上。因此,风险管理人员无法从 10-K 文件的分析获取与自己职务相关的资讯,生技公司的资深科学家没办法自临床数据滋料库预测早期药物的成功机率,电商从业者也没办法重複利用库存资料库,辨识不同商品的战略性差距。

挑战 4:大数据只是故事的一小部分

从前几项挑战看下来,想要促成一家真正由数据驱动、且由数据决策的公司,光有大数据是远远不足的。大数据得跟传统的企业资料来源,或者云端 SaaS 应用、无数的影子 IT数据来源,整合的工作极端昂贵而且旷日费时,但是如果不做,那也甭想利用大数据解决企业的问题了。

挑战 5:大数据的「準备」阶段成本极高

大数据时代的普遍心态与工具,总是鼓舞着我们蒐集愈多数据愈好。不过数据要有价值,在準备的阶段就需考量整合、散布与利用。大数据的「準备」可能代表三种情况:

普遍来说,数据的準备,几乎完全是纯手工作业,因此非常冗长乏味,消耗很多时间,而且还很容易出错。

要克服这些挑战的方法,就是把大数据「变聪明」。Lee Feigenbaum 把未经处理的数据称为「哑数据」,他也提供了「让数据说话」的五个方法,我们将会在下个礼拜分享给大家。

最新图文推荐