第14章:数据驱动的足球分析方法--《体育、运动与健康领域的人工智能》

文摘   2024-10-10 13:23   吉林  
01
主要内容介绍(如果喜欢本文的话欢迎您帮我传播!)

1. 核心观点

  • • 阐述在足球分析中利用数据驱动方法的潜力,核心是建立数据驱动的管道,涵盖数据收集、转换、处理和分析,为决策提供支持,介绍人工智能与体育科学结合带来的机遇。

2. 数据驱动方法介绍

  • • 定义:在人工智能范畴内,依靠数据支持决策、获取洞察并提升系统性能的方法,利用数据集训练机器学习模型、提取模式并生成预测。

  • • 在体育科学中的变革:体育科学因数据驱动方法发生深刻变革,从传统方法转向依赖数据分析、机器学习和先进传感技术,以解决运动表现、伤病预防和教练策略等问题。

  • • 在足球中的应用

    • • 优化决策:足球因球员互动复杂和数据丰富成为焦点,数据驱动方法可优化球员表现、预防伤病、制定战略决策,还能分析对手策略、提升球队动态。

    • • 伤病预防和球员健康:监测身体状况、工作量和恢复模式,预防伤病。

    • • 比赛分析:教练和分析师利用数据了解比赛模式、球员位置和球队阵型,制定战术。

    • • 球迷体验:提供高级分析、统计和可视化,加深球迷对比赛理解。

    • • 人才识别和球员招募:俱乐部通过数据评估球员表现、潜力和适配度。

3. 数据收集

  • • 历史发展

    • • 20世纪60年代起开发了一系列工具,早期通过量化球员步长、拍摄分析球员移动,虽有误差但能记录比赛数据。

    • • 20世纪90年代末和21世纪初,开发出确定球员场上位置的方法,收集来自全球定位系统、局部定位系统和视频跟踪系统的数据。

  • • 数据类型及收集方式

    • • 视频 - 基于系统

      • • 早期受相机分辨率限制,后来随着技术进步,开发出多种跟踪球员的方法,包括自动跟踪、基于阈值和霍夫变换的方法、从电视广播图像跟踪等,但存在局限性,如手动干预高、图像分割耗时等。近年来深度学习和机器视觉算法推动了分析发展,可用于多种应用。

    • • 时间序列

      • • 数据按固定时间间隔记录,包含球员跟踪、得分、生理指标等信息,有季节性和长期趋势等模式,可通过多种传感器收集,如GPS、加速度计、心率监测器等。

    • • 表格数据

      • • 信息以行列结构组织,适用于分析和计算,可用于创建机器学习模型,如球员统计、比赛数据、团队表现指标和伤病记录等。

    • • 图形表示

      • • 将球员建模为顶点,关系为边,用于传球交换分析和战术分析。

4. 处理和分析技术

  • • 数据预处理

    • • 目标是提高数据质量,处理缺失值、噪声、归一化等问题,包括处理缺失值(删除或插补方法)、数据清理(去除无关信息、纠正错误)、归一化和标准化(转换分类变量为数值)、特征工程(创建或转换特征)、处理不平衡数据、降噪以及频繁模式分析预处理等。

  • • 数据可视化

    • • 可在数据驱动管道的多个阶段进行,如通过探索性数据分析了解数据分布,用多种图表展示性能指标,进行球员轨迹映射,支持比赛决策和赛后分析等。

  • • 数据建模

    • • 监督学习:通过标记数据集学习输入输出映射,包括回归(预测数值)和分类(分类别)任务,有多种算法,如线性回归、支持向量机等,还介绍了人工神经网络在足球分析中的应用。

    • • 无监督学习:从无标记数据中提取模式,包括聚类(如K - Means、DBSCAN)和关联规则挖掘(如Apriori、FP - growth)。

    • • 半监督学习:利用标记和无标记数据训练模型,适用于标记数据有限的情况,有自我训练、协同训练和多视图学习等策略。

5. 应用

  • • 足球分析方法从简单统计到复杂数据处理,包括主成分分析和K - Means聚类用于识别获胜球队,将球员动作与场地位置关联进行战术分析,用时间序列分析球队战术行为,以及通过数据可视化工具描述球员行为等。

6. 结论

  • • 人工智能范畴内的数据驱动方法对足球产生深远影响,优化球员表现、预防伤病、辅助决策,足球作为动态且数据丰富的领域,将持续受益于数据驱动革命。

下面就是全文啦

评论区每一条留言我都会看,会回复的!

第14章:数据驱动的足球分析方法

作者:西尔维奥·巴尔邦(Sylvio Barbon Junior),费利佩·阿鲁达·莫拉(Felipe Arruda Moura),里卡多·达席尔瓦·托雷斯(Ricardo da Silva Torres)

摘要

本章深入探讨了利用数据驱动方法进行足球分析的潜力。特别是足球,因其复杂的球员互动和丰富的数据源,成为应用这些方法的理想领域。本章的核心概念是围绕在足球和体育科学中建立一个数据驱动的流程。这个流程自动化了数据的收集、转换、处理和分析,创建了一个从原始数据到有洞察力的决策的系统流程。我们旨在全面概述数据驱动技术如何革新足球表现分析。本章涵盖了人工智能(AI)与体育科学融合所带来的前景和可能性,为优化运动员和团队表现提供了路线图。

关键词

足球分析;数据科学;人工智能;机器学习;深度学习

14.1数据驱动方法简介

人工智能(AI)范畴内的数据驱动方法是指严重依赖数据来支持决策、获取洞察并提高系统性能的方法。这些方法利用大量数据集来训练机器学习模型、提取模式,并根据收集的数据生成预测或决策。特别是体育科学领域,在前沿数据驱动方法的推动下经历了深刻的变革。这种范式转变代表了与传统方法的背离,因为研究人员和从业者越来越依赖数据分析、机器学习以及先进的传感技术(例如可穿戴设备)来解开运动表现、伤病预防和教练策略的复杂性。

对于工程师来说,足球中的数据驱动解决方案是指数据分析、传感器技术和计算方法的创新整合,以优化球员表现、预防伤病和进行战略决策(Gamble等人,2020)。特别是足球,由于比赛的复杂性,其特点是动态的球员互动,传统分析难以全面捕捉,因此成为数据驱动方法的焦点。这项运动提供了丰富的数据源,包括通过GPS设备对球员的跟踪、视频片段以及详细的比赛统计数据,为复杂的分析提供了坚实的基础(Goes等人,2021a,b)。技术的进步,如可穿戴传感器和高分辨率摄像机,使得数据收集更加容易,使足球队能够实施先进的方法进行实时和赛后分析。在竞争激烈的足球世界中,球队不断寻求战略优势,数据驱动方法为了解对手策略、优化球员表现以及增强整体团队动态提供了见解。

除了竞争领域,数据驱动方法在伤病预防和球员健康方面也起着关键作用,通过监测身体状况、工作量和恢复模式(Huang和Jiang,2021)。教练和分析师利用数据驱动的见解来了解比赛模式、球员位置和球队阵型,使他们能够制定有效的比赛计划,并在比赛期间做出战略决策(Shaw和Glickman,2019)。足球在全球的流行促使人们对球迷体验有更高的要求,数据驱动方法提供了高级分析、统计数据和可视化,加深了球迷对比赛的理解。此外,这些方法在人才识别和球员招募方面也很有帮助,使俱乐部能够通过转会市场上的明智决策来评估球员的表现、潜力以及对球队的适合度(Larkin和O’Connor,2017)。

本质上,足球采用基于数据处理流程的数据驱动方法来支持竞争优势。一个数据驱动的流程,也称为数据管道,是指一系列被编排用来自动化数据的收集、转换、处理和分析的过程和工具。数据驱动流程的目标是高效且可靠地将数据从不同来源移动到目的地,使其可用于分析、决策和其他应用。这个概念在数据工程、数据科学和商业智能领域尤为普遍。

▲ 图14.1数据驱动的足球分析的一般流程


图14.1展示了足球和体育科学中的传统数据驱动流程,它涉及一系列系统的流程和工具,用于收集、处理、分析和从与足球表现和运动员健康相关的数据中获取洞察。所举例的流程的初始阶段是从不同来源收集原始数据。这包括从球员跟踪设备、运动员佩戴的可穿戴传感器、比赛的录像片段、健康监测以及详细的比赛统计数据中提取信息。收集的数据涵盖了对分析至关重要的广泛信息。这包括追踪球员在场上的移动,捕捉生理参数,如心率和跑动距离,记录各种比赛事件,并考虑环境因素,如天气条件和团队动态。在收集阶段之后的下一步,原始数据要经过精心处理,以确保其干净、格式正确且标准化。这种准备对于保持一致性和创建一个适合分析的统一数据集至关重要。随后,处理后的数据成为深入分析的对象。应用统计方法和探索性数据分析来揭示模式、识别趋势并提取关键性能指标。这个阶段提供了对球员表现和比赛动态复杂性的全面理解,这可能会开启两个不同的分支:数据可视化和数据(或预测)建模。

数据可视化提供从分析中获得的见解;结果通常使用图表、图形、仪表盘或其他可视化表示来呈现。可视化工具帮助教练、分析师和利益相关者解释复杂数据并做出明智决策。另一方面,预测建模阶段涉及数据科学家和体育分析师应用技术。机器学习模型、统计模型和特定领域的算法被用来从处理后的数据中获取可操作的见解。这些模型有各种用途,包括预测伤病、分析球员属性、进行战术分析以及解决体育科学的其他方面问题。这两个阶段构成了决策支持工具,帮助教练、分析师和利益相关者做出与球员发展、比赛策略和整体团队表现相关的明智决策。

14.2数据收集

自20世纪60年代以来,为了对运动员在比赛和训练情况下的表现进行定量分析,已经开发了一系列手动和计算工具(Hughes和Franks,1997;Reep和Benjamin,1968)。最早试图分析球员在场上移动的研究采用了一种方法,首先是量化不同速度下足球运动员的步长。然后,研究人员拍摄了比赛中所有运动员的移动,并使用这些图像估计球员在每个速度下走了多少步。尽管这种数据收集方式存在固有的误差,例如过程的手动性质,但作者能够提供当时职业足球运动员在整场比赛中跑动距离的记录(Reilly,1976;Withers,1978)。

在20世纪90年代末和21世纪初,开发了几种方法,其主要目的是确定球员在场上随时间变化的位置。一旦确定了球员的位置,首先就能够更准确地量化运动员的身体表现变量,如跑动距离和速度。在那个时期,最早的研究从全球定位系统、局部定位系统和基于视频的跟踪系统收集数据。最近的一项调查(Rico - González等人,2020)发现,基于光学的系统、全球定位系统/全球导航卫星系统以及局部定位系统在专注于集体行为评估的研究中分别占60%、33%和7%。下面简要介绍这些系统。

14.2.1基于视频的系统

自21世纪初以来,视频技术和计算机处理性能的进步激发了研究人员使用计算机视觉和图像处理技术通过视频测量法对体育比赛进行自动分析的兴趣(Figueroa等人,2006b)。过去,摄像机的空间和时间分辨率较差,这对每帧有效识别球员构成了挑战,而现在的商业和手机摄像机提供了很高的空间(4K或更高)和时间(120Hz或更高)分辨率。因此,考虑到体育数据收集时间线上每个时刻可用的摄像机和计算资源,在过去二十年中开发了不同的方法。

最早的一项研究(Intille和Bobick,1994)涉及对美式足球球员的自动跟踪,提出了一种封闭世界跟踪方法的概念,即图像中的一个时空区域,其中所有对象的分类是已知的,并且该区域的所有像素都与其中一个对象相关联。该算法的关键思想是:(1)计算当前帧中球员周围的封闭世界区域;(2)将该区域的每个像素分配给封闭世界区域内的一个对象;(3)确定特定于上下文的特征,以便为封闭世界区域内的每个球员创建一个模板;(4)根据先前的模板在下一帧中跟踪球员。几年后,通过对图像中的静态对象进行阈值处理和基于霍夫变换的线检测,跟踪足球球员成为可能(Taki等人,1996)。然后,手动将球员的一个身体部位识别为初始模板,并通过基于相关性的模板匹配逐帧跟踪球员。其他研究(Matsui等人,1998;Seo等人,1997)提出从电视广播图像中跟踪球员,然而,考虑到性能分析取决于确定所有球员的位置,这些方法是有限的。对于大多数研究,这些方法对孤立的球员表现良好,但对于有多个球员的区域,跟踪是具有挑战性的。

为了改进跟踪方法,Figueroa等人(2006b)提出了一种基于至少四个静态摄像机的方法,这些摄像机一起覆盖整个球场。每个摄像机都有其独特的图像分割方法,与文献中报道的方法不同(Choi和Seo,2014;Martín和Martínez,2014;Xu等人,2004),通过基于非参数形态学平整操作进行背景提取(该操作处理比赛期间场景中光照变化的特定问题)(Figueroa等人,2006a)。通过考虑球员模型和特定的形态学操作,通过分割团块来处理遮挡问题。分割过程使用图表示法进行,其中节点由球员的团块表示,边根据关于团块的信息定义,如团块之间的距离、颜色和移动方向。尽管应用研究(Barros等人,2007;Moura等人,未注明日期)使用这种方法报告的最佳自动跟踪率为94%,但一般来说,手动操作员干预过高且容易出错。此外,考虑到图像的空间和时间分辨率以及可用的计算资源,图像分割可能需要几个小时。在这个意义上,深度学习和机器视觉算法的最新进展允许基于自动分割和/或检测固定摄像机和电视广播来捕获相关数据(例如位置数据)。这些领域的发展促进了基于大量数据的扩展分析。使用机器视觉进行足球分析在多个应用中取得了最先进的结果(Manafifard等人,2017),从盘带检测(Barbon等人,2022)到基于时空模式的成功动作预测(Stival等人,2023)。最近,研究提出了姿态检测的概念,这是由与肢体运动学和估计动力学相关的生物力学研究问题所激发的,在足球中有相关应用(Monteiro等人,2022)。

14.2.2时间序列

时间序列数据由按固定时间间隔记录的数据点序列组成,展示了变量随时间的演变。每个数据点都与一个特定的时间戳或时间段相关联,形成一个时间顺序。数据的粒度由连续观察之间的时间间隔决定,例如足球比赛中每秒记录的球员跟踪数据。个体观察,如得分、球员位置、球的轨迹或生理指标,在特定的时间点被捕获,这为数据集的动态性质做出了贡献。

时间序列数据中明显存在季节性和长期趋势等时间模式。季节性模式揭示了在特定时间段内反复出现的趋势,例如由于天气条件或球员状态等因素,球队在某些季节表现不同。长期趋势则描绘了球队在较长时期内表现的逐渐改进或变化,受到战略调整或球员发展的影响。

事件序列,即捕捉事件发生的顺序,可以包括球员的移动,如盘带(Barbon等人,2022),为比赛中的动态构建提供了见解。每个数据观察都伴随着一个时间戳,指示球员表现指标或其他变量何时被记录。周期性事件,如联赛赛季中每周安排的比赛,为时间序列数据的结构化性质做出了贡献。

时间序列数据中的异常表示不寻常或意外的模式,作为值得注意的事件的指标。例如,球员心率的突然升高或球队表现的意外变化可以通过异常检测技术识别。

各种各样的传感器被用来捕获全面的数据。球员佩戴的通用定位系统(GPS)追踪器在训练和比赛期间提供关于他们的位置、跑动距离、速度和加速度的实时数据(Buchheit等人,2014)。可穿戴加速度计通过测量加速度、减速度和方向变化来补充这一点,为身体劳累和工作量提供有价值的见解。心率监测器是另一个不可或缺的组成部分,它跟踪球员的心率,提供关于心血管负荷、疲劳和整体健康水平的关键信息。智能球衣,配备有传感器,捕获球员的移动、姿势和生物力学数据,从而有助于伤病预防和性能优化(McDevitt等人,2022)。

球跟踪系统使用摄像机和传感器来监测球的移动,为球的控球权、轨迹以及诸如射门等关键事件提供见解。此外,嵌入在鞋钉中的压力传感器测量脚的压力,并为球员的步幅模式、平衡和地面接触力提供见解。环境传感器对于捕获温度、湿度和海拔等影响球员表现并有助于伤病预防策略的因素的数据很重要。此外,附着在球员身体上的生物力学传感器捕获关节运动和肌肉激活的数据,为生物力学和潜在伤病风险提供见解。球员佩戴的惯性测量单元(IMU)捕获运动、方向和速度变化的数据,有助于对球员动力学进行详细分析(Zhang,2014)。

14.2.3表格数据

表格数据是指以表格结构组织的信息,其中数据以行和列的形式呈现。这种格式是高度结构化的,适合各种分析和计算目的。通常,每行代表一个单独的记录或观察,而列对应于与这些记录相关的不同属性或变量。表格数据在许多领域都很常见,包括数据库、电子表格以及用于机器学习和数据分析的数据集。

表格数据适用于各种数据分析技术,包括统计分析、机器学习模型的创建以及探索性数据分析。表格数据的结构化性质简化了诸如过滤、排序和聚合信息等任务。此外,它作为创建数据集的基础格式,可以用于训练机器学习模型以预测结果、揭示模式并在足球分析和体育科学领域做出明智决策。

考虑球员统计数据,其中每行专用于一个特定的球员,列包含诸如球员ID、姓名、位置、进球数和助攻数等基本属性。这种表格排列提供了对个体球员表现指标的全面概述,创建了数据集(Brooks等人,2016)。

同样,当检查比赛数据时,表格格式将每行与一场独特的比赛对齐,而列详细列出相关信息,包括比赛ID、日期、参赛队伍和最终比分。这种结构化呈现使得能够对比赛相关变量进行系统评估,有助于全面的比赛分析。

团队表现指标是另一个关键方面,它们被封装在代表各个团队的行中。在这个表格结构中,列包含诸如团队ID、名称、获得的积分和失球数等属性,提供了对团队级表现的系统和详细描述。深入研究伤病记录,例如,表格结构通过将每行分配给一个球员伤病的特定实例来组织数据。相关列记录相关信息,如球员ID、伤病类型、发生日期和恢复时间。这种系统安排有助于对球员伤病进行详细检查,有助于伤病预防策略和球员健康评估。

14.2.4图形表示

另一个近期的趋势是使用图来对球员及其互动进行建模。在现有的公式中,球员被建模为顶点,边用于表示他们的关系。应用的例子包括基于传球图的传球交换分析(Zhou等人,2023)或基于球员在场上位置的战术分析(如果两个球员彼此靠近则存在一条边)(Stival等人,2023;Rodrigues等人,2019)。

14.3处理和分析技术

数据处理和分析是数据驱动流程的一个步骤,它在将原始数据转化为有意义的见解、提供模型以自动化复杂任务甚至发现模式方面起着关键作用。最后,这个阶段将所有收集的数据转化为可操作的见解,从热图到机器学习模型不等。预处理,即数据的清理和格式化;特征工程,增强数据表示以用于可视化和机器学习建模;数据建模用于模型选择和优化,选择和微调正确的模型。

14.3.1数据预处理

数据预处理的目标是提高数据质量,围绕着准备和清理原始数据使其适合分析或建模的理念。原始数据中常见的问题包括缺失值、噪声的存在以及缺乏归一化。为了解决这些挑战,采用了几种数据转换方法,其选择取决于数据的类型(例如图像、时间序列、结构化数据)和传感器的质量(例如噪声、缺失值和分辨率)。需要处理的主要任务包括以下内容:

  • • 处理缺失值:识别和处理缺失的数据点,以避免在后续分析中出现偏差和不准确。处理缺失值可以通过删除方法来解决,如列表式删除或成对删除,即删除带有缺失值的行或对。插补方法包括均值、中位数或众数插补,向前和向后填充,线性回归,K - 近邻,以及多重插补,每种方法都根据特定标准替换缺失值。

  • • 数据清理:去除无关或冗余信息,纠正错误,并解决数据集中的不一致性,以提高整体数据质量(Chu等人,2016)。主成分分析(PCA)用于特征降维,拼写检查算法用于文本数据纠正,统计离群值检测用于数值不一致,与外部来源的交叉验证用于验证,以及基于领域知识的规则验证检查。

  • • 归一化和标准化:将分类变量转换为数值表示,以与机器学习方法兼容。归一化是将数值特征缩放至一个标准范围,通常在0和1之间的过程。其目的是确保所有特征对模型训练过程的贡献相等,防止某些具有较大尺度的特征主导学习过程。标准化涉及将数值特征转换为均值为0且标准差为1。机器学习模型通常需要数值输入,因此转换分类变量是必要的。

  • • 特征工程:创建新特征或转换现有特征,以增强信息的表示,提高机器学习模型的学习能力(Nargesian等人,2017)。技术包括创建多项式特征以捕捉非线性关系,引入交互项以表示特征之间的协同作用,将数值特征离散化为箱以捕捉非线性关系,对数值特征进行对数变换以实现对称,缩放特征以确保均匀性,为时间序列数据生成基于时间的特征,如滞后特征,使用技术如独热编码将分类变量编码为数值形式,以及使用方法如TF - IDF或词嵌入从文本数据中提取特征。这些技术共同提高了机器学习模型的学习能力,通过提供更具信息性和相关性的特征。特征工程方法的选择取决于数据的性质和具体的建模目标。

  • • 处理不平衡数据:解决数据集中的类别不平衡问题,以防止模型偏向多数类(Rout,Mishra,& Mallick,2018)。处理不平衡数据的各种方法包括重采样技术,如过采样(例如SMOTE)和欠采样,集成方法如平衡随机森林和简易集成,以及使用诸如隔离森林等技术进行异常检测。其目的是处理不平衡数据,以便更好地识别少数类中的模式。

  • • 降噪:识别和去除可能扭曲机器学习模型分析或训练的噪声数据或异常值(Garcia等人,2016)。识别和去除数据集中噪声数据或异常值的常见方法包括通过箱线图等图进行目视检查,基于z - 分数或IQR等度量的统计方法,以及诸如隔离森林和局部离群因子(LOF)等机器学习模型。方法的选择通常需要在统计严谨性和基于手头数据的实际考虑之间取得平衡。

  • • 频繁模式分析预处理:在频繁模式分析(例如关联规则挖掘)的背景下,预处理可能涉及连续变量的离散化以及将数据转换为适合模式发现的事务格式(Aggarwal,2014)。

上述方法对于解决足球和体育数据在分析、可视化和建模准备过程中面临的不同挑战至关重要。不同的传感器数据和采集系统可能需要不同的预处理方法,但它们同时面临着共同的挑战。目前,预处理的主要挑战在于确保数据的质量和一致性,特别是当面临不同的来源和格式时。不准确或不一致的数据可能会在分析中引入偏差,并产生不可靠的见解。此外,延迟或过时的信息可能会严重限制比赛中决策过程的有效性。通过强大的预处理方法解决这些挑战对于促进体育数据分析领域准确、可靠和及时的分析至关重要。

此外,采用旨在减轻时间错位的方法也很重要。例如,利用动态时间规整(DTW)(Barbon等人,2009)等技术对时间数据(包括事件和球员移动)进行对齐,确保同步并减少时间数据错位的可能性。解决错位问题至关重要,因为否则可能会导致错误的结论,并阻碍对顺序事件的准确分析。通过采用强大的方法来减少时间错位,体育数据分析师可以提高其分析的可靠性和准确性,有助于更准确地理解比赛期间发生的动态情况。

14.3.2数据可视化

数据可视化可以在数据驱动流程的几个阶段进行。采用探索性数据分析(EDA)方法,如直方图和散点图,可以初步了解球员统计数据和比赛事件的分布。例如,采用像t - 分布式随机邻域嵌入(t - SNE)(Soni等人,2020)这样的降维技术有助于可视化高维球员数据,提供球员相似性和差异的直观表示。

性能指标的图示,包括柱状图或雷达图,便于表示关键统计数据,如球员评级或团队排名。比较分析受益于可视化技术,如雷达图,可以对球员或团队的属性进行并排评估。这种可视化方法使教练和分析师能够辨别不同性能维度上的优势和劣势。球员轨迹映射,如(Mehrasa等人,2018)所示,利用空间可视化技术,如热图和轨迹图。像核密度估计这样的算法的应用增强了球员移动模式的描绘,有助于识别场上的战略热点。此外,像K - 均值这样的聚类算法的应用有助于根据移动相似性对球员轨迹进行分组。

比赛中的决策支持需要实时可视化,包括动态射门图或实时球员表现更新等方法。机器学习模型,包括用于预测分析(如球员表现预测)的模型,可以无缝集成到这些可视化中,以帮助教练在比赛期间做出明智决策。另一方面,赛后分析受益于动画回放,利用数据驱动的动画等方法来重现关键时刻。战术图,通过像图可视化节奏(Rodrigues等人,2019)、Voronoi图或基于球员运动学的模型(Caetano等人,2021)(如图14.2所示)等算法生成,有助于可视化特定比赛阶段的团队阵型和球员位置。

▲ 图14.2基于运动学数据的两队所有球员的优势区域(卡埃塔诺等人,2021年)


在整个流程中整合数据可视化方法和算法增强了对足球相关数据的解释、沟通和利用。EDA、降维、聚类和交互式可视化技术的结合有助于在足球领域进行全面且有影响力的数据驱动分析。

14.3.3数据建模

数据建模是创建反映现实世界背景、其模式以及约束条件的表示的过程。它涉及生成一个抽象表示,如决策表、数学函数或数据结构,以理解数据元素之间的相互关系。其主要目的是通过提供数据的结构化和有组织的视图来支持各种应用和业务需求。本节涵盖三种主要方法:监督学习、半监督学习和无监督学习。在这些总体主题内,将探索针对足球分析量身定制的方法和算法,以了解在足球相关数据中用于预测建模和模式发现的各种技术。

14.3.3.1监督学习

机器学习算法允许创建能够预测结果的模型,如球员表现、比赛结果或伤病可能性(Fister等人,2015)。特别是,监督学习有助于在球员选择、比赛策略和整体团队表现方面做出明智决策。监督学习是一种基于标记数据集预测或估计输出变量的基本范式。这个数据集由输入 - 输出对示例组成,为算法在训练阶段学习从输入到输出的映射提供了基础,最终允许将所获得的知识推广到对未见过的数据进行预测。

在监督学习中,特别是在预测足球分析结果的背景下,输入的组成由封装了所考虑实体相关信息的特征或属性定义。这些特征作为机器学习算法学习模式和关系的输入变量,最终对新的、未见过的数据进行预测。监督学习包括不同的方法,即回归和分类。在回归中,算法旨在将输入映射到一个连续的值域,当目标变量代表一个数值量时应用该技术。像线性回归、岭回归和梯度提升等算法经常被应用于创建回归模型。线性回归对输入特征和连续输出之间的关系进行建模,而岭回归添加正则化以处理多重共线性。梯度提升结合多个弱学习器以提高预测准确性。另一方面,分类侧重于将输入分配到预定义的类别,适用于目标变量代表标签或类别的情况。对于分类任务,其中目标是将输入分类到预定义的类别,像支持向量机(SVM)、决策树和随机森林(RF)等算法通常被利用。SVM找到一个最佳分离类别超平面,而决策树和随机森林创建树状结构来分类数据。算法通常被称为通用或混合模型,它们可以应用于不同类型的预测任务。一个这样的例子是RF算法。RF是一种集成学习方法,在训练过程中构建一组决策树。在回归的背景下,它可以预测一个数值结果,而在分类的情况下,它可以将输入分类到不同的类别。RF的通用性使其适用于广泛的任务,使其在包括足球分析在内的各种领域中成为一个受欢迎的选择。另一个例子是梯度提升,它主要用于回归但也可以适应分类任务。梯度提升构建一系列弱学习器以提高整体预测性能。当用于回归时,它预测一个连续输出,而当用于分类时,它将输入分配到预定义的类别。另一个重要的算法类别是人工神经网络(Perl和Dauscher,2006),特别是用于创建深度学习模型。它们可以学习数据中的复杂模式和关系,使其适应领域内的各种任务,无论是预测比赛结果、球员表现还是其他相关指标。神经网络的灵活性和表达能力有助于它们在处理回归和分类挑战方面的有效性。深度学习方法,如卷积神经网络(CNNs)(Russo等人,2019),在处理图像数据时在监督学习中起着重要作用。CNNs在这种情况下的重要性在于它们能够有效地从图像中提取层次和空间特征,为足球分析中的各种任务提供有价值的见解,如球员跟踪、移动分析和空间模式识别。简单来说,CNNs可以直接将图像作为输入并生成所需的输出,而不需要一个广泛的预处理管道。选择最适合的算法取决于任务的特定特征、数据的性质和分析的总体目标。不同的算法在不同的场景下表现出不同的优势和考虑因素。确定最佳算法涉及在数据驱动的足球应用的具体背景下对它们的性能进行实验和比较。超参数调整、交叉验证以及模型的可解释性等因素在决策过程中也起着关键作用。

14.3.3.2无监督学习

无监督学习是体育和足球背景下使用的另一类机器学习方法,它侧重于从无标记数据中提取模式和关系。在无监督学习中,各种策略和算法被用于诸如聚类和关联规则挖掘(Celebi和Aydin,2016)等任务。一种在无监督学习中普遍存在的策略是聚类,这种方法涉及根据数据中的潜在模式将相似的数据点分组。K - Means聚类是在这种背景下广泛使用的算法。它将数据分成簇,每个簇由一个质心代表。K - Means算法迭代地将数据点分配到最近的簇质心,并更新质心以最小化簇内方差。这个过程持续到收敛,产生不同的簇。除了K - Means,基于密度的空间聚类应用于含噪声数据(DBSCAN)是另一个值得注意的聚类算法。DBSCAN根据数据点的密度识别簇,允许检测任意形状的簇。与K - Means不同,DBSCAN不需要事先指定簇的数量。相反,它将点分类为核心、边境或噪声点,以适应簇密度的变化。最后,关联规则挖掘是另一种有价值的无监督学习策略,用于揭示大型数据集中变量之间有趣的关系。Apriori是关联规则挖掘中广泛采用的算法,在这个过程中起着关键作用。它擅长识别数据中的频繁项集,从而建立不同变量之间的共现模式。除了Apriori,FP - growth(频繁模式增长)是另一个在关联规则挖掘中具有影响力的算法。FP - growth采用与Apriori不同的方法,利用频繁模式树结构有效地挖掘频繁项集。通过避免生成候选项集,FP - growth提高了计算效率,特别是在涉及大量数据集且有大量项集组合的场景中。

14.3.3.2半监督学习

半监督学习是一种利用标记和未标记数据训练机器学习模型的范式。在数据驱动的足球应用背景下,当标记数据有限但有大量未标记数据可用时,半监督学习可能是有价值的(Vandeghen等人,2022)。其目的是利用未标记数据来提高模型的性能和泛化能力。利用标记和未标记数据的组合提供了降低与手动标注数据相关成本的机会。这种降低在标注过程是资源密集型的场景中尤为显著。半监督学习包括一些旨在利用数据标签可用性进行模型训练的策略和算法。一个突出的策略是自我训练(Rosenberg等人,2005),它涉及在标记数据上进行迭代模型训练,然后以高置信度将伪标签分配给未标记实例。另一个方法是协同训练,同时在不同的特征子集或表示上训练多个模型,利用模型之间的一致性来标注未标记实例。多视图学习是一种利用不同数据表示或视图来提高模型性能的策略,通过捕捉互补信息。

14.4应用

足球分析中的一些工作应用了前面章节中介绍的大部分方法和概念。在过去的70年里,足球的性能分析从简单地记录与比赛相关的统计数据(如传球、射门、犯规、进球等的绝对和相对频率)转变为从原始跟踪数据和相关事件记录中生成的复杂数据处理。为记录球员在比赛中的行动而开发的符号系统对于足球专业人员和专业体育媒体来说是传统的。其结果是通常用于描述目的的表格数据。最近,多元技术已被应用于区分获胜、平局和失败的球队,或对比赛风格进行分类(Moura等人,2014;Ruan等人,2022)。例如,对2006年世界杯比赛相关的个人和团队性能的表格数据应用主成分分析和K - Means聚类,可以将约70%的获胜球队识别到同一组。另一种更好地解释比赛相关统计数据的方法是将球员的行动与每个事件发生的场地位置相关联。这种应用是在跟踪系统全面发展之前提出的。从与场地坐标系统相关联的事件位置坐标中,应用主成分分析来表示球员控球时最常访问的区域、这些位置的变异性,并对球队的比赛系统进行推断(Barros等人,2006)。随着跟踪系统的发展,通过从球员坐标中进行K - Means聚类,可以在每个时间戳识别比赛系统,从而在进攻和防守序列中进行更深入的战术分析(Machado等人,2017)。自2010年代以来,像欧足联欧洲锦标赛、国际足联世界杯和欧足联冠军联赛这样的世界级锦标赛在其官方网站上提供了关于团队和球员表现的信息。其中一个性能指标是每个球员的“热图”,即球员在给定位置的位置频率的彩色表示。从一个给定球员最常访问的区域坐标中,也应用主成分分析来不仅表示球员在比赛中的位置变异性,而且表示在整个锦标赛中的位置变异性(Moura等人,未注明日期)。从球员位置随时间的函数关系,球队的战术行为在2010年代早期开始作为时间序列被探索。球员在场上的分布已通过表面积(由凸包面积表示)、分布(作为队友之间距离的一般度量)、拉伸指数(作为球员与团队质心之间距离的度量)和耦合距离等进行表示(Caetano等人,2017;Moura等人,未注明日期;Rico - González等人,未注明日期)。从时间序列的离散值识别中,先前的研究表明了战术变量与足球进攻和防守行动成功之间的关系(Moura等人,未注明日期)。使用快速傅里叶变换进行频域分析也表明,职业足球球队在比赛下半场增加了球队分布时间序列的低频部分,这表明球队在防守和进攻时组织球员的战术性能下降(Moura等人,未注明日期)。同样的分析对战术特征时间序列的变异性敏感,并表明不同类别的室内足球比赛呈现不同的行为需求(Bueno等人,未注明日期)。时间序列之间的关系也是先前足球战术分析研究的焦点。从系统的角度来看,在比赛中球队相互冲突和相互作用,并试图扰乱对手的防守系统。考虑到战术特征描述了队友和对手的行为,先前的工作提出了不同的方法来测量战术时间序列之间的同步性及其与性能的关系。例如,在早期阶段,以射门结束的进攻序列在球队分布时间序列之间呈现更大的反相,与以抢断结束的序列相比,这表明成功与对手稳定性的破坏有关(Moura等人,未注明日期)。对于由后卫、中场球员和前锋组成的子群体的移动,一项最近的研究报告称,在成功的纵向进攻中,进攻队后卫之间的互动的队际和队内同步性降低(Goes等人,2010)。使用类似的方法,(Duarte等人,2013)表明了英超联赛球队内部的巨大协同关系,考虑到球员在比赛中执行的纵向移动。对手对之间的移动同步性,标记为二元组,也在文献中得到了广泛探索。例如,一项最近的调查表明,在以射门结束的序列中,二元组中的进攻球员倾向于“惊喜”对手,对二元组关系造成更大的破坏,与以防守抢断结束的序列相比(Caetano等人,2023)。总之,所有这些研究都清楚地展示了时间、频率和相位域分析在理解足球中的个人和集体行为方面的应用。自从跟踪系统发展以来,每场比赛都会产生数百万的数据。因此,为球员和教练提供客观反馈变得具有挑战性,特别是在选择比赛的相关时刻方面。数据可视化工具有助于使用简单的表示来描述球员的行为和关系。例如,视觉节奏的概念(Rodrigues等人,2017)被用于时间图的可视化表示。在足球中,图通常被建模为以球员为节点,边表示球员之间的给定关系。考虑到球员在每帧中移动和相互作用,从时间图中提取复杂网络测量值来表示个人和团队行为的特征。这些特征然后被用作一个新图像的一列,名为视觉节奏图像,一种紧凑的表示形式,允许高效处理和分析大量的顺序数据(Rodrigues等人,2017)。类似的表示也被报告用于球员坐标时间序列和团队战术阵型在整个比赛中的关联,以及用于比赛中战术组织的形状描述(Bueno等人,未注明日期),使用独特的图像。一些例子在图14.3中展示。

▲ 图14.3视觉节奏应用于时间图的表示:a乌乔亚·马亚·罗德里格斯等人(2019年),应用于球员坐标时间序列b马查多等人(2017年)以及应用于战术组织形状描述c布埃诺等人(未注明日期)

14.5结论

人工智能范畴内的数据驱动方法不仅革新了体育科学,而且成为了足球这个复杂领域变革性变化的驱动力。本章揭示了数据驱动解决方案的深远影响,强调了它们在优化球员表现、预防伤病和为战略决策提供信息方面的关键作用。足球,因其动态的球员互动和多样的数据源,处于从这场数据驱动革命中受益的前沿领域。随着足球界继续在体育科学的动态景观中前行,数据驱动方法的整合有望成为世界上最受欢迎的运动中创新、卓越和成功的持久催化剂。

  • 作者介绍:郭佰鑫(Max)

    作者Max,一位大三的本科生,社交自媒体平台专注于输出体育科技以及体育科学相关内容,期待未来有能力的基础下能加入更多基于人工智能的体育分析与科技。有其他科研合作的欢迎您的联系

  • 邮箱:gbx1220max@gmail.com
    我的联系方式(微信): MaxGBX
    Linkedin领英:Baixin Guo
    接私人分析咨询/视频制作/项目流程图/公众号文章代做/翻译/AI智能体&工作流搭建/科研绘图/PPT制作也欢迎您的联系!
    期待科研/产品合作!也期待和各位翻译出版前沿的书籍!接流程图/项目科研思路设计


    ▼ 麻烦您带一下备注!







Max智能认知与体育科学
专注于体育科技科学与AI智能方向的文章与资讯 欢迎联系我:MaxGBX 22级本科生 有体育科学和AI相关代理和开发
 最新文章