1. 蓬莱阁传说 | 蓬莱阁旁! | 神话故事!首页
  2. 民间故事

Tiger:我眼中的大数据-新生大学分享(1)

作者按:本文为2016/10/15晚在新生大学社群的公开分享,旨在和大家探讨个人对大数据的一点浅见。虽然专业知识和写作水平有限,但哪怕能帮到一个人亦会欣慰,同时也期待能得到更多反馈。 ** 1. 认知误区** 在日常生活和工作中,我

作者按:本文为2016/10/15晚在新生大学社群的公开分享,旨在和大家探讨个人对大数据的一点浅见。虽然专业知识和写作水平有限,但哪怕能帮到一个人亦会欣慰,同时也期待能得到更多反馈。

** 1. 认知误区**

在日常生活和工作中,我发现很多人对大数据的理解存在如下两个误区 :

现在很多人,言必称大数据。可是,大数据这个说法本身非常模糊,不知道他们在说大数据时具体指什么。这让我想起许多年前在国内流行的另外一个概念:纳米,我相信你一定很耳熟。那会儿,随便逛个商场或者看个电视,你都会发现铺天盖地的打着纳米旗号的广告袭来:什么“纳米冰箱”,“纳米空调”,“纳米彩电”。。。 就好像纳米是能治百病的灵丹妙药,任何东西只要贴上“纳米”的标签就好使了,就升值了,就高大上了。

今天,很多人对待大数据的态度和纳米一样,人云亦云,自我忽悠,然后互相忽悠。

当你问很多言必称大数据的人:大数据到底是什么?不知道大数据是什么?大数据是怎么用的?大数据到底对你的生活带来了哪些收益和影响呢?80%的人都会一脸懵逼,他们根本说不出所以然。当然,我不是说每个人都这样,但这样的人的确不少。

个人以为,实事求是的态度很有必要,理应推崇。

知之为知之,不知就知乎之。

不知道没关系,但如果硬是为了虚荣心去说大数据,为赋新词强说愁,这样的态度没有益处。

如果你真的觉得大数据这个东西非常好,既有趣也有用,那我们就卷起袖口,去搞懂细节,搞懂它的前世今生,乃至它未来的发展趋势。这样的态度既接地气,更能增加个人价值。

2. 数据分析

在和大家探讨真正的“大数据”之前,我们先聊聊数据分析。

数据分析实际上已经存在很久了,它根本不是什么新东西。

它不是什么新事物,也并不神秘,一点都不!

你会用Excel罢?Excel就是用来做数据分析的,千万不要小看它。而数据分析比Excel的历史还要早的多。

数据分析大致可分成四个层面:

首先,获得数据;

其次,从数据中提取信息;

再次,从信息中提炼出知识;

最后,通过知识发掘智慧。

总结下来就是:Data(数据)->Information(信息)->Knowledge(知识)->Wisdom(智慧)。

从另外一个角度来看,数据分析是技术和艺术的混合体:

3. 大数据的通用特征

大数据目前没有一个通用的定义,个人理解的大数据具备如下几个特征:

4. 大数据的用途

那么,大数据有什么用呢?其实有很多著名的例子,如Alphago干掉了韩国殿堂级棋手李世石,当然,这样的例子已经烂大街了。

从我个人而言,我会分享一个亚马逊的例子。我是亚马逊的资深用户,用了八年多了,所以它有我很多的消费行为数据,它知道我的购物的爱好、特征和规律。这里有一个截图:

当我登录亚马逊账户之后,它的推荐页面就是上面这样。这个页面上展示的商品就是它根据我之前买过的一些商品,通过推荐算法猜测我喜欢什么种类的商品,还会买什么商品。总之就是通过已买商品的各个特征去给你做推荐。

另外,大数据还可以用来找男女朋友。这里也有一个真实的故事:大概在前几年,美国的加州大学洛杉矶分校(UCLA)有个数学系的博士生,大龄单身宅男,就为找女朋友的事情发愁。但他是个极客,就想办法写了一个程序(爬虫),爬虫里面设定了许多符合他个人喜好的规则,然后用这个爬虫到一些婚恋网站上去爬取目标对象。这样就找到一些符合他喜好的目标对象,同时,在这个过程中自然排除掉了很多不符合他设定参数的目标。通过和筛选后的目标对象约会,最后他果然找到一个非常合适的女朋友,然后快乐地在一起。

大数据的应用实例还有很多,曾经在2012年在纽约时报上登过一篇报道叫《大公司如何窃取你的秘密?》,文中一个例子就是关于Target超市的大数据应用(美国一家超大规模的连锁超市)。报道称Target给明尼苏达州一户人家的女儿寄婴儿用品的优惠券,但是这个女孩还是高中生。他爸爸看到优惠券后非常震怒,认为有诱导未成年人怀孕的嫌疑,就去找当地超市理论。当时超市的经理比较诚恳,一脸懵逼地给顾客道歉。后来,这个父亲却主动打电话给超市过来道歉,说回家和女儿交流后发现她真的怀孕了。

剧情180度大反转!

这到底是怎么回事?原来,是Target超市的数据部门开发的怀孕预测模型,根据算法结合购物记录发现这个女孩极有可能怀孕。所以,在得到这样一个判断后,他们的营销部门就给这样的潜在的目标客户精准推送母婴商品的优惠券。这事听起来还是蛮可怕的,大数据虽然没见过你,但它可能对你了如指掌,知道你是什么样的人,家住哪,收入什么水平,开什么样的车,穿什么衣服,抽什么烟等等。

大数据甚至还可以做舆情监督和民意调查。比如说,微信在2016年就做了一个大数据分析,推测全国人民的心情,最后的结论是,每逢节日大家的心情就特别好,其中中秋和春节的心情格外好;年轻人相对更多愁善感,老年人反而更乐观开朗阳光,很有意思。

根据上面的例子,我们对大数据的用途做一个抽象和总结。以上的例子告诉我们,大数据可以用来 从已知到未知 ,就是说根据手上掌握的一些已知的信息可以推测出未知的规律和趋势,就像亚马逊猜我喜欢购买的商品,或者像Target推测高中生已经怀孕了,或者像UCLA博士生通过写程序找到女朋友。这些都是从已知到未知的推理。

大数据另外一个用途,就是可以 纠正错觉 或错误认知。因为,真实的原始数据是不会撒谎的,这里面包含了许多信息,甚至一些潜在的反常识的东西。就以我曾经做过的一个分析 《顶级风投的宿命》 为例。因为之前有过创业经历,个人会对投融资比较敏感。而当时创投界有所谓的风口论,比如O2O、生鲜电商等,这些方向的互联网公司特别容易拿到融资。那我在做完相关的数据分析之后发现:

真正一流的投资机构从不会赌所谓的风口,他们会坚持去投资一些商业本质更清晰的的公司和业务模式,像电子商务、对企业的服务、文化娱乐等方向。

而这个认识是在我做数据分析之前完全不知道的,可以说颠覆了我此前的认知。进一步,我之前对风口论的认知就是错觉,而这个错觉就被数据分析很好地推翻了。所以,我认为大数据的第二个功能就是纠正错觉。

大数据分析确实有些必备的知识集合,这里有幅来自IBM研究院的图,阐明了数据科学的必备知识领域。