01 “热点”与“现实” 我最近对于一些互联网看上去“高大上”的话变得十分敏感。比如“让大数据为数字化时代赋能”,这句话看上去真的很酷!但它的意义是什么呢?面对现实生活中受困于Excel表格、沮丧却不得不人手缓慢运算过程的企业或个人,这句很“酷”的话究竟是想要表达什么? 大数据令人感到兴奋是因为它代表了一种巨大的财富,你可以在其中搜索、查找并使用对你有价值的任何东西。我最初对于大数据的看法是认为“在所有这些数据中,肯定有什么深层含义是我们绝对想知道的”。我这种想法或许是对的,但要从大量数据中找到那些有价值的东西,我们要付出什么代价呢? 02 没有正确的基础架构,大数据无异于垃圾 在处理大数据之前,我们需要先搭建好数据处理的基本架构,以确保整个系统拥有强大的计算能力、存储能力、以及数据传输等能力。这通常需要花费一笔庞大的开支,同时,还会遇到各种意想不到的瓶颈。随着云平台的发展,虽然计算能力变得更加便宜和易于使用,但随着云存储的指数级增长,云计算的日常使用甚至本地服务器的维护都是一笔不小的开销。因此,这里也出现了一个本世纪很有意思的迷思: 有时候,对某些企业/个人而言像黄金一样的数据,于另一些企业/个人而言就是浪费整个存储空间和算力的垃圾。 目前的现状是,很多公司都是先花钱挖掘数据,然后再回过头来看哪些数据是真的有用的。那如果我们在收集数据之前就优先确定数据是否有用,这样会更高效、节能一些吗? 数据科学界有句话叫“无用输入再无效输出”。确实,在实际应用中有很多数据实际上是不可靠且需要下很大功夫清理才能被使用的数据。而且,时常出现的情况是,我们花费了大量精力、时间和金钱却只能在庞大的数据集中找到少量信息。 就像Forrester报告中说的那样“企业中至少有60%的闲置数据”。 企业何不将用于存储闲置数据的钱用来搭建正确的数据处理架构呢? 人们已经意识到,不是每一个数据特性都是有用的(有些甚至可能有害),数据的质量往往比数量更加重要。我们更希望数据能够以可靠、一致的方式来呈现我们关心的事情。而这一认知也会更好地将我们领入一个可解释的、负责任的和安全的关于AI的研究探索阶段。 当下,我们已经意识到了数据的重要性,而之后,我们需要做的是搭建更完善的基础架构从而更安全地使用、共享、分析数据,并且能够更加精准地区分无用数据和有价值的信息。我们还需要确保数据的质量和可靠性,确保全世界都可以使用它们并理解其中涵义(这对于未来AI的研究也尤为重要)。最后我想说的是,数据最根本的价值不在于庞大,而在于可靠和有效。 Bye~“大”数据 有效且可靠将为数据迎来更长的生命周期! 这话听起来没那么酷,但更可爱也更让人安心了,不是吗?03
不是所有数据都是值得被关注的数据
总结一下……