第四范式戴文渊:AI产业落地需要五大先决条件
今天已经不再是亚马逊,谷歌或者BAT的时代,如果退回五六年前做AI,就只能去BAT,在美国可能是谷歌脸书这样的故事,今天其实有更多的企业拥有数据。这是我们给银行做的案例,是深圳的一家股份制商业银行,我们帮助他做什么呢?他们也有很多的营销数据,他们要去精准识别他们的客户当中有哪些是分期客户,历史上有大量的客户办分期或者不办分期,我们基于他的数据帮助他们更好的识别。这里面有一个比较重要的对比,过去他们不是不做营销,他们也是做营销的,但是他们的模型维度只有两百多个,而我们通过数据,通过机器学习,帮助他把维度提升到了五千万,从两百到五千万的精细营销,甚至我们可以帮他发现一些业务规律。当有一笔交易出现在某一个POS机,这个POS机一个月只有两百人使用的时候,是一个商机,我们能找到这么精细的场景,这种场景过去是不太可能通过人来解决的,这是机器能够用更高效、更低成本的方式来做到。 前面讲到几个案例,最大的差别就是过去我们在做的事情是低维的事情,而现在做的是高维的事情,这可能跟我在学生时代学习的一些基本原理是相违背的,过去我们学数据挖掘的时候,有一个叫奥卡姆剃刀原理,它讲的是尽可能简单,而不是做深维的事情,而我们现在不是做化繁为简,而是把问题做复杂。比如说奥卡姆剃刀原理区分红点和蓝点的时候,到底是选择绿色的线区分还是黑色线区分的时候,过去的教科书是说黑色比绿色好,现在我们认为是绿色比黑色好。为什么呢?过去的奥卡姆原理在做神经网络的时候,其实神经网络在50年代就又开始做,为什么我们要把神经网络去控制在三层以内,是那个年代的数据量不够,那个年代的数据不多,所以数据不足以支撑我们把数据做大。在数据量不大的时候,我们要化繁为简。而真正统计学习的基石并不是奥巴姆剃刀,不是说要控制三层,真正统计学习的原理叫VALIANT引理,他这个公式比较复杂,我们就理解成,其实要做到的是模型的复杂度和规则数或者变量数,这样一个数据量相匹配。 从这个原理我们会知道,为什么过去做的模型简单,为什么神经网络要深度学习,重点的原因就是现在数据量变大了,数据量变大了,模型的复杂度要和数据量成匹配,要相关。所以从VALIANT引理来看,可能全世界最有名的专家原理是牛顿三大定律,为什么他提的是三大定律而不是三百三千定律?就是人的记忆是有局限的,人脑里面是装不了大数据的,所以人能产出的就是简单的模型。为什么说过去的算法也很简单,过去做决策,要减到五千以内,其实很重要的原因是过去的数据链有限。我之前做的最大一个数据级是21578,因为数据量的限制所以当时做不了特别大的模型。但是今天整个时代变了,我们从互联网上可以获得大量的数据,传统企业其实也有大量的数据,比如说华大基因要测百万人的基因,中石油每天探测回来的地震波有500T,招行每月会有几亿的交易,这些都是非常大的数据。这时候如果还是套用valiant引理的话,数据量大了,模型会复杂。牛顿三大定律交给计算机做会怎么做?可能不是三大定律,可能是做速度区间划分,如果说总结出三千万个定律的时候可能就不需要相对论了,这就是大数据时代,我们怎么让机器做到一些不一样的事情。 从工业界来说,如果我们企业内部做人工智能指导企业经营,最重要的就是我们要去做高VC维模型,我们要不断的去提高模型的维度,使得training loss和test loss不断的降低。 前面讲的概念会比较偏理论一些,如果我们换一个角度,打个比方,VC维度是什么东西?大脑的维度大概就是大脑脑细胞的个数,所以为什么人比狗聪明,狗比蟑螂聪明,因为人的脑细胞比狗多,所以可以把VC维度理解为脑细胞维度,这就可以理解,为什么要把机器的维度做高,因为机器的维度也需要更多的脑细胞,才能更聪明,才能学习更多的知识。这边是一张图,这个是IMGENET的比赛,这个比赛大家关心最多的是黑线曲线,这是每年冠军的错误率,会发现随着每年冠军的错误率误差都在降低,但是很少有人关心黄色的曲线,黄色这条是每年冠军模型的VC维,会发现为什么会降低?是因为模型的维度在提升。随着模型维度的提升,我们的误差开始降低。 今天为什么要做深度学习?深度学习其实是一种更好的去把VC维做高的算法,而为什么要做强化学习?强化学习是一个不断的把VC维做得越来越大的模型。这边举例是谷歌的阿尔法狗,如果只做深度学习,他是基于KJS的网站上棋局做的模型,那只有30万局棋,强化学习以后,通过自己和自己下,不断地去提升,最后能够达到8000万局棋,所以这就是今天强化学习要做的事情,这都是要把维度做大。 现在也有在讨论迁移学习,迁移学习要做的是什么呢?不是所有场景都有大数据的,比如说医疗,有很多并没有那么多数据,再比如说这个场景,很多人觉得今日头条做的是个性化推荐,千人千面,因为今日头条是我们的客方,其实他们不是在做个性化,而是做迁移学习,所以我们的视角是在干什么事情,今日头条最强的是在于他能够拿和你相近的哪些人的数据来帮助到你,比方说你在今日头条,可能感觉你在今日头条用得已经很多,但是如果头条只有你的数据,绝对不可能给你服务得好,服务得好是因为有了你的数据,可以找到很多跟你相近的数据。所以它是一个迁移学习的问题,因为每个人提供的数据是有限的,不是一个大数据,真正的帮助是来自于周围,迁移学习就是说小数据也能做到高纬度。 另外一个例子是领域的迁移,前面是人之间的迁移,领域的迁移是什么呢?举例来说,像金融,我们现在关注了金融的资产,可能我做一个业务,资产几十亿上百亿,但是如果换一个视角看,上百亿的资产做小额信贷,数据量非常非常大。但是如果上百亿资产拿来做大额信贷,比如说房贷,每个人贷几百万并没有多大数据,这就带来大额信贷没有大数据就很难用现在的深度学习来做。迁移学习恰恰是可以帮助你利用各种各样的信贷数据,无论是大额信贷还是小额信贷,都能够帮助你来提升模型的效果,这是我们在银行做的,我们利用它的小额消费金额的数据,帮助他做汽车贷款,汽车贷款也是几十万一笔,没有大数据怎么能够帮助他们在小数据上,用别的领域的数据来提升效果,最后能够帮助他的营销提升。 所以迁移学习要解决的是小数据实现超高位。另外一个数据是专家经验,如果说既没有数据,又没有其他领域的知识,我们还可以用专家经验来降低数据的使用量,提升小数据的模型维度。 (编辑:云计算网_泰州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |