加入收藏 | 设为首页 | 会员中心 | 我要投稿 云计算网_泰州站长网 (http://www.0523zz.com/)- 视觉智能、AI应用、CDN、行业物联网、智能数字人!
当前位置: 首页 > 站长资讯 > 评论 > 正文

大数据、人工智能,技术真的能阻挡黑产脚步吗?

发布时间:2017-04-24 06:02:49 所属栏目:评论 来源:一本财经
导读:副标题#e# 文/一本财经 中国的反欺诈有多难? “ 2011 年至 2015 年,五年共造成经济损失 550 亿元,” 通付盾创始人董事长兼CEO汪德嘉,在一本财经举办的“ 2017 消费金融CRO全球峰会”上称,看看中国黑产的规模,就知道反欺诈有多难。 大数据、人工智能、

乔杨:“大数据风控,既要用‘术’也得懂‘道’”

01 数到用时方恨少

我讲两个部分,大数据风控困境和突围。首先,第一个问题,数据是不是越多越好?

我们认为在数据质量可控、数据质量有保证的情况下,尽量引入更丰富、更多元化的数据加入到模型中,对模型提升是非常重要的。

随着互联网的普及, 1994 年到 2004 年的十年期间,语音识别领域,语音识别的错误率下降了一半,机器翻译准确度提升了一倍。其中,20%来自于算法的提升,80%来自于数据量的提升。通过这个例子大家可以看到,数据量决定了可能的上限。

纵观中国整个数据积累的情况和成熟度,我们对这个市场并不是很乐观。目前数据共享问题并无有效的解决方案。所以基于在征信、大数据风控领域的经验,我们观察到“数到用时方恨少”是非常普遍的现象。

第二个问题,什么样的数据更优质?

在探讨这个问题之前,我想解释两个概念。第一个概念,什么是大数据?

大数据其实一定要具备三个特点,一是量大,二是多元性/多维度,三是即时性。百度地图的数据就具备这样的特点。

另外一个概念还需要解释一下:原始数据和加工数据的区别。

很多公司之间的客群、抓取数据的方式、手段和维度都是类似的,但为什么风控表现参差不齐呢?其实这个道理很简单。这些数据提供方,包括这些数据使用方,在“特征工程”阶段的能力不一样。

如果说数据量决定了模型的可能上限,特征工程的优劣决定了模型的实际上限。

不同的特征工程对模型效果的差别是非常大的。举个例子, 2016 年 6 月,大数据分析竞赛平台Kaggle,上线了全球最大的酒店预定网站Expedia 的“酒店预定预测比赛”。

这项比赛主要是要求参赛者基于Expedia提供的用户的历史搜索数据来预测客户最终会预定哪一个酒店,共有 1974 个队伍参赛。

最终比赛结果评比标准为平均精确值(Mean Average Precision),值越大说明模型预测的精度越高。

我们以最终排名前 15 位的一个团队的特征工程步骤为例。在第一阶段,团队做了较为简单的特征工程处理,最终得分0.04。第二阶段,团队进行了精进的特征工程,最终得分0.28。模型效果提升达到了 6 倍。由此可见特征工程对模型效果的影响是非常明显的。

特征工程无非是从大量的噪声数据里面筛选出可用的、有价值的特征。自从互联网诞生以来,就像我们在录音的时候产生大量的噪声一样,产生大量的垃圾信息。如何从这些海量的数据里面筛选出可用的、高效的特征,其实就是考验一个建模能力的过程。

所以关键的步骤有两个,第一步,数据清洗;第二步,特征变量的加工。

那么,是不是召集一个技术非常强大的团队,全部是由博士和统计学的硕士组成的团队做出来的模型一定是非常好的?这里有思维误区,特征工程其实优劣与否,不只是基于一个理论知识,更多是对于业务的理解。

举个我前东家的例子: Discover信用卡反欺诈做得好在业内是有口碑的。第一代反欺诈模型是vendor模型(外包模型),是由包括FICO在内的顶尖数据公司模型团队搭建的。

经济危机后,美国监管机构要求金融机构能够解释自己的模型,由于模型是外包的,我们对于模型的解释性是非常受限的。只有通过自建模型才能解决这个问题。

我有幸参与并领导了Discover第二代反欺诈预测模型项目。我们整个项目团队一共 6 个人,用了 6 个月的时间完成了模型的搭建,模型的效果大大出乎我们的意料。

所以,一个成功的风控团队不只是建立在扎实的理论知识基础上的,更需要对业务的深刻理解。

那有人会问了,我花重金请一批既有技术又懂业务的大牛,这个问题不就解决了吗?答案也是否定的。

在未来,新数据源和新特征的获取会越来越难。模型的精度并不是随着特征的增长而线性提高。随着人工特征工程的深入,投入的人力和时间越来越长,得到的新特征对系统的提升却越来越少。换句话说,人力投入的边际收益是递减的。

再举个IBM 沃森的例子。IBM 沃森具备很强的语音分析能力,可以像谷歌的搜索软件一样,迅速搜索自己巨大的知识库找出答案。美国有一个比较知名的公司,以沃森作为实验,所有这些点都是实际的人类参赛点的表现,跟计算机的表现完全不在一个量级上面。

随着时间的推移加入更多的数据和特征,沃森表现越来越好,人力投入的边际效益是递减的。

边际效益递减达到一个边际的时候,怎么对模型和策略进行优化?

我认为有两个方面:一方面,经济学上的Gilder‘s Law,是说尽可能多的采用便宜的资源,尽可能节约贵的资源。另一方面,在特征工程达到效益边际之后,就需要在算法和模型上做进一步的优化。

如图所示, 2 个上限, 1 个途径。

数据源与数据清洗是决定了这个模型能达到的可能上限,特征变量加工是决定了模型的实际上限,最终模型与算法的提升是接近上限途径。

但在模型和算法提升的过程中,也有一个误区。如上图所示,随着训练样本的迭代,训练误差越来越低。但同时在认证样本上的误差达到一定复杂程度的时候会增高,这就会出现一个问题。

如何从全局观,通过模型和算法提升整体决策效果,将成为下一个风控难题。

总结来看,大数据风控面临四大困境:数据资源壁垒,自有数据累积,数据特征提炼,算法模型提升。

02 既要用“术”也需得“道”

那么,这些困境有没有解决方案?

以市场营销为例,解决这个问题,可以通过智能推荐的算法方式对客户进行精准的评判。

以一家信用卡公司的客户触达策略为例,当接通任一用户的电话时,客服代表的系统上会提示客户的基本画像,可推荐的产品列表及预测的购买概率,方便客服代表进行沟通和推荐产品。系统背后有多个主题模型,用来预测各个主题的产品的购买倾向,并最终给出推荐产品的排序和组合。

重要的是,这些主题模型的建立,是根据真实的历史数据训练出来的。而这些历史数据的积累是有着严格的实验设计规则的。

由于模型评分Top 20%的人响应率为34%,因此预计 200 万客户中会有约 68 万人开卡。而如果没有该模型,随机发送(响应率10%),需要发 680 万人才能达到相同的开卡量。

因此仅该营销活动,就为部门节省 480 万营销预算(近70%)。

说到反欺诈,可以说目前的互联网反欺诈离不开文本挖掘,最重要的是语义识别,其次是图像的挖掘。但是二者问题都是投入大,突破小,极易遇到瓶颈。

机器学习,数据挖掘等是大招,当对不良内容其他的方式都难以识别的时候用机器学习的方式效果最好。缺点是见效慢,维护成本大,样本的收集工作量大等等。但是一旦机器学习到达一定程度,会是最好的反欺诈手段。

以上说的都是“术”,都是被动的去处理问题,而真正想把反欺诈做好需要的是“道”。

也就是产品模式的突破,信用体系的搭建,从源头使欺诈的门槛高于欺诈的收益,才会最终杜绝欺诈。这也就是反欺诈领域里所有人努力的目标。

随着网络上意见型数据的爆发,情感分析也被广泛研究和应用。目前常见的情感极性分析方法主要是两种:基于情感词典的方法和基于机器学习的方法。

(编辑:云计算网_泰州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读