我们的“一张图”系列已经跟新了4期,在获得不少朋友认可的同时,也有另一个声音即“研究这些数据有什么用”。今天刚好借着这个机会,给大家举一个具体例子。
长篇引言:研究这些数据有什么用?如何从多个数据网站整理整合数据?
其实我刚开始萌生写这篇文章的想法,是因为看到了某知名解说的一条微博:
关于防守端那些语焉不详甚至趋近于玄学的神论比如“平均而非高效”,这里暂且不提,只说4231的两翼配置,是不是决定了两个边锋无法长期向禁区里靠拢?按说推翻这个结论并不难——穆里尼奥在皇马打的就是标准的4231,C罗进入禁区抢点还少了?但是具体到这场比赛,情况就不一样了。因为观察佩佩的风格容易,马丁内利这个年仅18岁、英超出场时间连500分钟都不到的小将,对很多人而言就比较陌生了。
事实上原博主也提到了,阿森纳能取得进球,就是马丁内利进入禁区抢点的结果。这本身就是对“阵型限制”理论的自我否定:
其实全过程中,马丁内利就一直在禁区内物色机会,这是一个相当标准的禁区内纯无球作业,阵型与此并无关系——最终解放马丁内利的是边后卫萨卡的前插,也没规定4231阵型边后卫不能前插助攻吧?
我们用两张静态图看一下进球全过程中,阿森纳球员的站位:
第一步,注意用阴影部分标注出来的阿森纳前场4人组,其实3-1站位还是存在的。只不过拉卡泽特、马丁内利和10号三人换位了而已。马丁内利从一开始就准备进入禁区抢点了。当然,此时按道理来说边路是必须有人接应的,但10号和拉卡泽特并不需要两个人一直留在外围,因为此时持球的是已经压上来的萨卡,边路是有人的。这意味着边锋完全可以被解放出来,参与抢点——4231阵型没这个问题吧?
拉卡泽特兜到外围接应,和萨卡做配合,帮助萨卡下底传中。此时10号进入了禁区,马丁内利也进去了——我们结合第一张图的站位,其实10号是淋湿站在了左边锋的位置上,马丁内利则是一开始看到拉卡泽特回撤之后,主动往禁区里靠,填补禁区内的接应人数,说白了,这还是相当典型的4231阵型下的边锋无球内切抢点。
换言之:你有没有人进入禁区抢点,很大程度上取决于球员的无球习惯,而不是阵型。
这就需要我们对马丁内利和佩佩的风格有所了解,他们到底喜欢在边路持球干,还是喜欢去禁区内抢点?这也是足球解说的赛前必备功课。然而目前绝大多数从业者其实都做不到。其实这也是传统方法论存在的根本性问题:佩佩倒也罢了;马丁内利你不盯着看几场比赛,很难得出系统结论,然而又有谁有这个精力呢?
好消息是:人做不到,数据可以。
比如接下来我就会告诉你,数据足以证明,马丁内利比佩佩更喜欢在禁区内活动。
为了解释这个问题,我想了两个办法:
第一,如果一名边锋的所有触球中,禁区内触球的占比很高,那么毫无疑问,他更喜欢去禁区内活动。
第二,如果一名边锋尝试盘带次数,占触球比重很高,那么这也能说明,该边锋在触球后更倾向于自己拿球单干。
但这里又有个问题:英超边锋如此之多,有些人时而打边锋时而打其他位置,我们该如何筛选出符合条件的边锋?这就需要多个数据网站结合应用。
我之前多次提过,whoscored这家大家耳熟能详的网站,其实多数人对它的用法都存在巨大误区——应用最广的那套打分系统,实际上是一个相当“垃圾”的系统,几乎不存在参考价值,因为只是做到了“客观”,但其自身数据库却极度青睐有球与进攻,系数设置也一塌糊涂(当然没人能做到完美诠释各项数据之间的系数),甚至连结合控球率对数据做进一步处理这个足球数据分析最基本的环节都没有。whoscored真正的好处除了“免费”之外,在于比赛日至做的非常精细,你甚至在每一场比赛的页面,精确到每一分钟来查看数据变化。而且whoscored会即时跟进阵型与球员位置变化。
这意味着我们可以利用这个网站,大致确定每个球员打每个位置的时间!
举例来说:我们不难查到孙兴慜本赛季的出场时间是1479分钟(这个时间是不计算伤停补时的,这也是所有采用opta数据的网站,包括各大中文APP,所存在的通病),但他有多长时间在打边锋呢?whoscored设置位置之后可以查到:1086分钟。
这样一来,我们就可以筛选出本赛季英超联赛中,所有打过边锋位置的球员,并且计算出他们在边锋位置上的出场时间占比——为什么要计算时间占比呢,因为有些球员打边锋的时间虽长,但却是因总出场时间多导致的,比如奥巴梅杨。
下一个问题是:我们如何确定他们的触球数以及禁区内的触球数?
在《高阶数据:一张图看懂英超谁是禁区之狼》这篇文章里,我第一次用到了提供opta英超数据的fantasy football hub网站,这是一家付费网站,而且需要科学上网。opta数据一个月大约10英镑,其实真正有用的就是详细触球数和禁区内触球数。结合whoscored筛选出的符合条件的边锋,我们就可以通过这家网站,用10英镑的价格,计算出他们各自禁区内触球的占比。
再然后,我们需要利用wyscout数据库,找到他们的盘带次数,并同球员的触球次数做比。这是我目前应用最多的数据库,中文网站价格很贵,但如果能科学上网就比较便宜了,一个月10-20欧元不等。这家网站提供的“盘带”,尽管也叫“dribbles”,但筛选标准比Opta的要宽的多。Opta的那个“dribbles”,实际上指的是“过人”,是和“抢断”共存的,数据样本实在太小了。就反映持球操作次数而言,我个人更推荐wyscout的这个“dribbles”。不过这需要一个一个球员的查,确实比较麻烦:
简言之:任何数据网站都只负责提供给你符合一定标准的数据统计,这些数据几乎都需要你自己进行处理;如果一家网站不够,那么就去再找一家。为了写这篇文章,我前后对这些数据进行了4、5道处理,方法如前所述,并不难;但也恐怕不至于巧合到还有人这么做吧。
这里也请大家不要再怀疑我是原创还是翻译了,足球数据应用真不是老外的专利,只不过我们国内的足球媒体人乃至职业足球人,一直以来都太过缺乏这种起码的科学精神,导致长期以来我们只能从外媒文章接触经过处理的足球数据,而中文足球评论充斥着语焉不详的“强侧转弱侧”、“宽度带动纵深”这样的词汇,最终乃至无限趋近于兵法甚或玄学,遇到解释不了的问题则诉诸于没法搞到证据的“心态”或“体力”。