阿根廷输球了，别急，有人说他们能夺冠

2022-11-23 17:35:30来源：36氪

阿根廷在 2022 年卡塔尔世界杯决赛以 1-0 击败巴西，梅西打进唯一进球，帮助阿根廷队获得 1986 年以来的首个世界杯冠军。

整个世界杯期间，梅西在 7 场比赛中踢进 8 个进球，荣获金靴奖（进球最多），金球奖（最佳球员）称号。巴西队、法国队分别获得亚军和季军。

(资料图片)

FIFA 23 预测结果丨图片来自官网

唉？不对啊！世界杯不是才刚开始吗？而且阿根廷刚输球啊！

以上结果是由足球游戏 FIFA 23 模拟出来的。不过不少球迷买账。FIFA 游戏曾成功预测过往三届世界杯的冠军。也不怪其制作商EA扬言：大家可以不用看世界杯了，因为它已经“剧透”过了。

你会发现，每逢世界杯这样的大赛，各种“预测”就成精了，什么 AI 啊，大模型啊，又高科技啦（也有低科技的，还记得章鱼保罗么？）……

这些“先知”凭啥那么“自信”？

哪些要素决定了预测结果？

近年来，包括足球在内的体育比赛大都通过传统统计学、机器学习方法来预测结果。预测机构会收集球队过往比赛的数据，将能够影响比赛的因素数据结构化。结合博彩公司的盘口和赔率，利用机器学习算法进行建模，最后跑出结果。

常用的算法有“随机森林（Random Forests）”，平时常用于市场营销和医疗保险领域的计算。简单来说，这套系统要建立一个“森林”，里面种很多棵“树”（通过子样本集合训练出的），当有一个新的输入样本进入，每一棵树分别进行预测，给出自己的答案。再通过“民主投票机制”（比如取平均数等）得出结果。

另一种常用的办法是“泊松分布（Poisson Distribution）”，用来模拟一个离散事件在连续时间内发生次数的概率分布。真实生活中，很多场景与“泊松分布”相关，比如电商网站在某段时间内的点击率；放射性元素每秒内衰变的粒子个数；工厂机器人出现故障频率等等。应用在球赛中，能根据历史数据推演出的每个球队的攻击力和防守力，预测出一个球队的进球概率。

机器学习，就是一个从已有数据中发现和学习潜在规律的过程。丨图片来自 Giphy

但是一个复杂的机器学习模型，会根据纳入的数据特征采用多种算法。

有一个国际研究团队在今年世界杯看好阿根廷的死对头——巴西，首先他们做了一个球队的实力统计模型，利用泊松分布算法基于过去八年的国际赛事数据，预估团队当前的能力。但并不是一个过往“战绩”的平均值计算，越近的比赛结果被赋予越多权重。“未来实力”的预估还包括 28 家国际博彩公司的赔率。结合更多数据维度，球队市场价值，国际足联排名，球队结构所代表的球队特征，以及人口和人均 GDP 所代表的国家特征，构建一个随机森林模型。

这个团队给出的最终结果是，巴西有15%的胜率夺冠，其次为阿根廷、荷兰、德国和法国。

数据维度的选择很重要。数据量和数据维度会造成预测结果的大相径庭。国际足联排名这样的数据维度很好理解。但为什么很多预测模型中还要加入社会经济因素？

英国投行 Liberum Capital 的分析师 Joachim Klement 曾经成功预测 2014 年和 2018 年的世界杯冠军，他拿“人均 GDP ”举例：国家不能太穷，想要培养足球人才，基础设施和足球场必不可少；但国家太富裕的话，孩子们又有足球以外太多的运动选择了。

“人口”这一因素只有在足球是主流文化的地区才会起作用，比如拉丁美洲。2018 年的世界杯亚军克罗地亚，其总人口只有 400 万，是欧洲的一个小国家，但整个国家的足球系统对青训的投入极大。

社会经济因素也会影响足球赛事结果丨图片来自 Giphy

（国家所在）天气也是一个重要因素。太冷太热都不被看好（看看东道主卡塔尔队），理想温度是 14℃，或大致相当于欧洲南部和南美大部分地区的年平均温度。这么一说，除了英格兰（1966）和德国（1964、1974、1990、2014），历届世界杯冠军都符合这一点。

而最难衡量的，是“主场优势”。可能是更熟悉的场地，本国粉丝们的打气，甚至是“主场哨”。至今只有卡塔尔作为东道主输了揭幕战——可见主场优势虽然解释不清楚，但影响却真实存在。

机器学习，就是一个从已有数据中发现和学习潜在规律的过程。一场比赛结果的判断依据，确实与历史表现有很大关系。

但所有预测模型都会加上那样一句提示：“不保准儿哦～”

科学准还是玄学准？

足球比赛中，决定结果的意外因素实在太多。

因为卡塔尔夏季的高温，此次世界杯不得不推迟到冬季，这一下子打乱了各国足球联赛的日程，令球员们也难以适应。“各个国家队备战的时间更少，压缩球员在世界杯前的恢复时间，再加上卡塔尔的气候条件，增加了球员受伤的风险。”之前看好巴西夺冠的那个研究机构说。

大多数预测机构的看法类似。由于备战、磨合时间更少，以打配合取胜，队员实力均衡的队伍，比如西班牙和德国，优势就小了。而对于像 C罗、梅西这样个人能力出众的运动员，影响相对小些。但是另一面，对于他们的年龄来说，身体的疲劳将成为一个左右比赛结果的重要变量。

梅西丨图片来自 Giphy

体育数据提供商 Opta 看好巴西，给出 15.8% 的夺冠概率，高于阿根廷（12.6%），法国（12.2%）。可就在今年 6 月，他们还一口咬定法国是夺冠热门。他们给出的“改口”理由是：法国队的士气和团队合作出现周期性下滑，这显然来自于最近的观察。所以预测这种事，还是时间离得越近，准确性越高。

甚至直到比赛开始，预测依然在变。大数据公司 FiveThirtyEight 有一个“SPI指数”（足球强度指数），对每一场赛事做提前预测。但是赛场实时动态，也会被他们考虑进去，实时计算出剩余时间内两队可能的比分情况——如果你平时关注现在的一些欧洲联赛，转播画面上已经出现了实时预测比赛结果的信息。

他们举了一个例子。2014 年，巴西对克罗地亚。比赛之前，根据过往 SPI，模型给了巴西队 86% 的获胜几率。比赛开始的 11 分钟，巴西队后卫不幸上演乌龙，将对手原本射偏的射门踢入自家球门，巴西队以 0-1 落后。

随即，模型调整比分预测，算出巴西仍有机会扳回来，以58%的几率获胜。根据以往的观察，他们得出一个结论：优秀的球队在开局短暂地落后，往往能被激发潜力，以更大比分优势获胜。球队越优秀，“戏剧性”就越强。

所以他们再次调整了实时比分预测，认为巴西将有 66% 的机会赢得比赛。最终的战绩是 3-1，很准。

这类加入“实时计算”的模型，比单纯的“AI 找规律”，更准了一些。但足球比赛是否真的能够“预测”？

AI 依托于大数据，搭建机器学习模型给出一个看似最有可能的结果，给了一个让人们“买单”的理由——用数据说话。

“即使采用最先进的统计技术，预测仍然非常不确定，因为足球是一场难以预测的比赛。”高盛撰写其2018 年世界杯预测报告时，就是这样说的。也就是说，分析师绞尽脑汁算出的预测和赔率，最后一看，还不如“章鱼保罗”靠谱。

一半科学，一半玄学丨图片来自 Giphy

“保罗”预测胜负的方法，是选择印有代表不同球队国旗的玻璃缸，取出预先放入玻璃缸内的贝壳。在 2010 年的南非世界杯，保罗 8 次猜测全中，包括决赛西班牙击败荷兰夺得冠军。相比之下，知名“乌鸦嘴”球王贝利，屡战屡败。

科学还是玄学？哪有什么道理可言。

卡塔尔当地的一名训鹰师，用猎鹰对卡塔尔与厄瓜多尔的世界杯揭幕战进行了预测。他将卡塔尔和厄瓜多尔两国国旗分别绑在两架无人机上，再给国旗绑上食物。然后放飞猎鹰，看它会挑选哪国国旗。结果只见猎鹰展翅飞翔，但与卡塔尔国旗擦身而过，最终选择了厄瓜多尔国旗。

偶然性大的体育赛事中，向来没有什么“一定准确”的预测方法。当比赛结果与权威，甚至大多数人判断相左，我们也只能愤慨一句：“这不科学！”

而这，也是体育竞技的乐趣之一了。

参考文献

[1] https://www.zeileis.org/news/fifa2022/

[2]https://www.bcaresearch.com/reports?r=4201bf52ad3bfda09aed64d54c9a02f4&submissionGuid=85cb89ce-e607-422c-ab47-1fbd01c69f0f

[3]https://fivethirtyeight.com/features/how-our-2022-world-cup-predictions-work/

[4]https://liberum.s3.amazonaws.com/STRS_1013754.pdf?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAICKLXNJJPOVS4TPQ%2F20221122%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20221122T000000Z&X-Amz-Expires=86400&X-Amz-Signature=2b7c6dc7e88e4f154c44bf28c793857052dd114621ca332f5e72979eaf11db87&X-Amz-SignedHeaders=host

[5]https://new.qq.com/rain/a/20221120A01FK400.html

标签：