加入收藏 | 设为首页 | 会员中心 | 我要投稿 云计算网_泰州站长网 (http://www.0523zz.com/)- 视觉智能、AI应用、CDN、行业物联网、智能数字人!
当前位置: 首页 > 综合聚焦 > 编程要点 > 资讯 > 正文

直男码农居然用AI预测世界杯冠军,看完推理全程的我彻底懵逼了

发布时间:2018-07-11 12:22:00 所属栏目:资讯 来源:开八
导读:副标题#e# 原标题:直男码农居然用AI预测世界杯冠军,看完推理全程的我彻底懵逼了 话说,最近的世界杯依然还在如火如荼地进行着。嗯,其实,作为一名直女,我想说的其实是,what?居然,还没有结束?!我怎么感觉世界杯已经踢了一个月了,有完没完啊! 而最

虽然从机器学习的角度来说,数据仍然显得有些少,但仔细数一数,也有将近50个了(这个过程花了码叔整整3天啊~~~本来组里有个妹子发现我偷偷搞这个,硬要陪着我加班帮我搜集数据,我觉得她是个球盲,什么也不懂,很碍事,就让她先回家了,现在想想,我是不是错过了什么)。

说仔细一些,我发现进入历届世界杯八强的队伍,主要是欧洲和南美洲的球队,而中北美洲、非洲、亚洲的球队很少(在此鸣(bi)谢(shi)亚洲某世界杯四强队),因此我将大洲分为欧洲、南美洲和其他三种,使用one-hot编码(用三个特征,分别表示球队国家所在的大洲是否是欧洲、南美洲、其他大洲,是的话为1,否则为0,这样对每一个球队来说,这三个特征只有一个是1,其他两位都是0)。

我先计算了特征与得分之间的皮尔森系数,系数绝对值越大,说明特征与得分相关度越高,根据皮尔森系数,筛选出一些相关度比较高的特征进行建模。

训练模型方面,我用了现在使用较为广泛的随机森林模型。随机森林是一种集成学习算法。


直男码农居然用AI预测世界杯冠军,看完推理全程的我彻底懵逼了


如上图所示,随机森林是由很多棵决策树构成的一片“森林”,对于一个样本,“森林”中的每棵“树“都会给出自己的预测结果,然后所有“树”根据民主方式进行投票,决定最终预测结果。

例如在分类问题中,共有10棵树,8棵树预测为A,2棵树预测为B,则投票结果显示为A。

在训练模型时,因样本数量有限,我将每棵树深度设置的较浅,并且通过限制叶子节点的样本数目进行剪枝。



直男码农居然用AI预测世界杯冠军,看完推理全程的我彻底懵逼了


直男码农居然用AI预测世界杯冠军,看完推理全程的我彻底懵逼了

直男码农居然用AI预测世界杯冠军,看完推理全程的我彻底懵逼了

直男码农居然用AI预测世界杯冠军,看完推理全程的我彻底懵逼了

直男码农居然用AI预测世界杯冠军,看完推理全程的我彻底懵逼了


图中没有子节点的节点被称作叶子节点,每个样本,从根节点开始,判断是否满足每个节点的条件,如果满足条件,则进入左侧节点,否则进入右侧节点,最终会落入一个叶子节点,叶子节点的value就是这棵树对该样本的预测值,所有树预测值的平均值,作为预测的最终得分。

用这个方法,最后四强球队的得分分别是:

球队

得分

法国

0.85

比利时

2.85

英格兰

0.85

克罗地亚

0.53

从这个角度看,比利时将会夺冠,也就是说,华帝的钱,真不一定退的出去。


直男码农居然用AI预测世界杯冠军,看完推理全程的我彻底懵逼了

足球是圆的,就像谁也不会想到德国会输给亚洲某世界杯四强队一样,这个结论我也不知道准不准,但是我用这个方法验算了2014年世界杯的结果,发现……是准的。


2014年的八强,德国夺冠概率明显高于其他队伍


05

写在最后

用“随机森林”预测世界杯结果的准确性,关键在于数据量以及数据的维度,否则结果可能大相径庭。

前不久,世界顶尖投行高盛也通过这种方法,预测了本届世界杯结果,而他们的结论是:

巴西最终夺冠的几率为 18.5%,高于法国 11.3% 和德国 10.7%;西班牙和阿根廷表现低迷,在四分之一决赛被淘汰;德国和巴西将分别在半决赛中击败葡萄牙和法国晋级。

从当前赛况来看,高盛的预测可以说是一塌糊涂。

问题出在哪儿?主要是因为高盛用了更少的参数。他们将数据参数严格限制在球队和个人级别的指标上、最后只有五个主要指标或者变量,分别是:球队评级、球员评级、球队近期表现、对手近期表现和球队近期进球势头。

(编辑:云计算网_泰州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读