摘要
本研究聚焦于美国职业篮球联赛(NBA)中竞争激烈比赛的最后几分钟,对关键表现进行调查。通过运用先进的数据科学技术,我们旨在确定在这些关键时刻提高获胜概率的关键因素。研究引入了关键时刻能力评估(EoCC)指标,这是一个用于评估球员在压力下影响力的新公式。通过对二十个赛季的球员表现统计数据进行研究,本研究填补了文献中关于关键时刻量化的重大空白,并对篮球分析中的传统观点提出了挑战。我们的研究结果为球员在最后几分钟的效率及其对积极结果概率的影响提供了有价值的见解。EoCC指标通过与NBA年度关键球员投票结果的比较得到验证,证明了其在识别高压情况下的优秀球员方面的有效性。利用最先进的数据科学技术和算法,本研究分析比赛数据以揭示对球队在关键时刻成功有贡献的关键因素。这项研究不仅增强了对关键动态的理论理解,还为教练、分析师和更广泛的体育界提供了实用的见解。它有助于在高风险的篮球环境中做出更明智的决策,推动了体育分析领域的发展。
关键词
关键球员;数据挖掘(DM);数据科学(DS);机器学习(ML);绩效评估;体育分析
1. 引言和背景
职业篮球,特别是在美国职业篮球联赛(NBA)中,是一个竞争激烈的高风险环境,球员在压力下的表现可以决定比赛的结果。在影响NBA球队成功的众多因素中,“关键表现”的概念是一个关键要素。关键表现是指球员在竞争激烈比赛的关键最后几分钟表现出色的能力。NBA在2022 - 2023赛季设立了年度关键球员奖(也称为杰里·韦斯特奖),以表彰在高压情况下表现最出色的球员。该奖项由一个包括体育记者和广播员在内的媒体小组根据NBA主教练的提名来决定。小组投票选出在整个赛季的关键时刻表现最佳的球员。
本研究对NBA中的关键表现进行调查,重点关注竞争激烈比赛的最后几分钟。利用一种将先进数据科学技术与深入统计分析相结合的新方法,我们旨在揭示在这些关键时刻成功结果的关键决定因素。通过引入关键时刻能力评估(EoCC)指标,我们对球员在关键场景中的影响进行了全面评估。本研究对20个赛季的球员表现统计数据进行了研究,填补了文献中关于关键时刻量化的重大空白,并对篮球分析中的传统见解提出了挑战。
职业篮球的本质在于进攻回合的战略执行,每个回合限时24秒,这造就了比赛的快节奏。平均而言,NBA球队每场比赛大约有100次球权,每次成功投篮都会逐渐增加球队的得分。然而,并非所有的球权都具有同等价值;在竞争激烈比赛的最后紧张几分钟内的球权具有更大的重要性。正是在这些关键时刻,“关键”一词出现,它定义了球员在巨大压力下表现出色的能力。关键时刻通常出现在第四节或加时赛,需要的不仅仅是技术技能。它们需要精神上的坚韧,包括自信、韧性和经验,以及承担关键比赛结果的意愿。这些属性虽然关键,但难以直接量化,这在评估球员在高风险场景中的沉着和自信方面带来了挑战。
关键表现的概念考察了球员在常规表现和在关键比赛阶段应对情况的能力之间的差异。值得注意的是,现有证据与在关键时刻表现持续提升的普遍观点相矛盾。这些研究表明,与常规比赛统计数据相比,球员在关键时刻的投篮命中率通常不会提高。越来越多的研究也证实了这一点,这些研究表明在比赛后期情况的显著改善并不像以前假设的那样普遍。这些见解促使本研究采用一种强调球员绝对关键表现的指标,而不是他们相对于非关键情况的表现,从而在比赛最关键的时刻对他们对比赛的影响提供更客观的评估。
《纸上篮球》(Basketball on Paper)由D. Oliver所著,因其对量化篮球复杂元素的贡献而被分析,就像统计方法对棒球产生的革命性影响一样。Oliver的方法通过对1997年NBA总决赛一场比赛的详细分析,扩展到通过先进的统计数据评估球队策略、球员贡献和教练影响。该著作引入了诸如个人胜负记录等指标,展示了统计评估如何为更细致的人员决策提供信息。这种综合不仅针对篮球爱好者,也针对探索定量分析在战略提升潜力的体育专业人士。
一项研究发现,NBA球队的表现受到比赛安排的显著影响,特别是关于背靠背比赛。调查显示,与背靠背比赛相比,至少有一天休息的球队获胜的概率显著增加。此外,还观察到投篮效率以及其他表现指标在不同的比赛安排条件下有显著差异。这意味着比赛日程和休息时间是影响NBA球队表现结果的关键因素。它表明调整比赛日程以确保足够的休息可能会提高表现,并可能降低受伤风险,为优化比赛策略和训练负荷提供了有价值的见解。另一项研究分析了在NBA激烈比赛的最后时刻不同进攻策略的有效性。研究发现,转换、发界外球和复杂的团队配合是最有效的得分方式,强调了快速移动和协作行动的价值。该研究表明,战略选择,特别是那些增强空间动态的选择,在关键时刻场景中对成功有显著影响。
本研究旨在通过双重方法弥合在理解篮球关键表现方面的分析差距。首先,它采用数据挖掘(DM)技术来识别影响竞争激烈比赛获胜结果的关键因素。其次,它利用这些发现以及相关文献,提出新的指标来对过去二十年NBA最有技巧的关键球员进行排名,利用1997年至18年赛季的球员统计数据。
本研究的动机源于篮球运动员关键表现方面明显的科学文献空白,以及相关数据的稀缺。像球员效率评级(PERs)这样的先进篮球分析在最后一分钟统计数据的背景下面临实施挑战,而更细致的指标,如替代球员价值(VORP)和使用率(USG%)在这些关键时刻要么未被测量,要么不适用。尽管存在这些障碍,我们的研究基于严谨的统计方法,旨在提供不仅与理解关键表现高度相关,而且与NBA的分析框架相契合的见解。
本研究对体育分析领域,特别是在篮球和NBA的背景下的创新性和贡献是多方面的,显著丰富了现有文献和分析实践。它引入了创新的数据挖掘技术来剖析篮球关键表现的复杂性,重点关注经常决定竞争激烈比赛结果的最后一分钟比赛。这种方法在应用一系列全面的统计方法和机器学习(ML)算法来识别和量化在高压情况下获胜的关键因素方面具有创新性。该研究有条不紊地筛选和分析了跨越二十年(1997年至18年)的数据,涵盖了关键时刻大量的球员表现,考虑到获取和解释此类特定数据集的传统挑战,这本身就是一项相当大的成就。 全面的分析,基于数据挖掘和机器学习,不仅挑战了传统观点,还为体育分析领域的未来研究设定了新的标杆。通过解释关键表现并引入新的评估指标,该研究对篮球分析的理论和实践方面都做出了重大贡献,为教练、分析师和更广泛的体育分析社区提供了有价值的见解。总之,创新性在于通过先进的数据挖掘技术对关键时刻进行复杂分析,贡献在于开发了用于关键表现评估的新公式,填补了体育分析文献中的一个关键空白。这项工作不仅提高了我们对篮球关键绩效指标的理解,还增强了用于体育战略决策的分析工具。
相关工作
体育分析的历程是一个变革性的叙述,它追溯了其在不同体育领域的影响,然后聚焦于其在篮球,特别是在NBA中的显著影响。这种探索不仅强调了分析方法的演变,还强调了数据科学在增强我们对体育表现理解方面的创新应用。本研究通过引入EoCC指标来填补这一差距。
在竞技体育中,关键表现被描述为在关键竞争情况下发生的出色表现。对关键表现的性质、条件和组成部分进行了研究,并与其他类型的表现进行了比较。还讨论了其对体育心理学和教练的影响。另一项研究从积极心理学的角度讨论了关键表现的概念,该角度侧重于使个人能够茁壮成长的优势和美德。该论文认为关键表现是积极情绪、心流、韧性和自我效能的表现。该综述确立了关键表现作为与积极心理状态、应对技能和激励因素相关的真实且可测量的现象。
一项关于关键球员现象的研究考察了篮球在压力下影响得分概率的因素,包括球员在关键时期的表现和“热门球员”现象。该研究利用了1996/97年至2012/21年NBA赛季的数据,采用了诸如LASSO逻辑回归等方法,根据这些特性评估球员选择政策。研究结果表明,当由排名最高的球员投篮时,成功率明显高于通常的关键投篮。我们的EoCC指标通过纳入进攻和防守贡献来填补这一差距,提供了对球员关键能力更平衡的评估。
另一项研究采用结构方程模型来预测在压力下的体育表现,考虑人格特质、焦虑、自我关注、感知控制和隐性知识。研究结果表明,将注意力重新投入到任务中可以提高表现,而焦虑和自我关注会损害表现,强调了感知控制的作用。我们的工作通过对20个NBA赛季的数据分析来量化表现,扩展了这些发现。
通过混合方法研究了篮球中关键表现与团队凝聚力之间的关系,分析了来自16所大学篮球队的数据。研究发现关键表现与团队凝聚力之间存在正相关,这种相关性受到领导、沟通和自信等因素的影响。
在一项定性研究中,通过半结构化访谈研究了精英运动员在关键表现中的自我调节作用。分析揭示了自我调节的关键作用,运动员采用各种策略来调节认知、情感、动机和行为。
关键表现已经通过各种方法在不同的体育项目中进行了研究,包括高尔夫、棒球、足球和网球。在职业高尔夫中,对2010年至2019年期间1029名高尔夫球手在1143场比赛中的表现数据进行的多层次建模分析表明,个人、情境和背景因素,如经验、技能、人格、压力和竞争,影响关键表现。相比之下,我们的研究特定于篮球,我们使用先进的数据挖掘和机器学习技术来解码定义NBA关键表现的复杂相互作用。
在棒球中,研究人员使用贝叶斯框架根据2012年美国职业棒球大联盟(MLB)赛季球员的表现数据来估计击球手和投手的关键能力。观察到球员之间关键表现存在显著差异,但与整体表现或工资没有强烈关系。
在网球中,研究人员使用对2019年大满贯赛事的逐点数据进行网络分析。研究表明关键表现是一个复杂且动态的现象,受到球员的网络结构和属性,如中心性、威望和互惠性的影响。
利用数据驱动的方法,根据2018 - 2019赛季英超联赛球员的进球数据来衡量球员和球队的关键表现,研究了关键表现对足球球队成功的影响。发现关键表现与球队成功之间存在正相关,这种相关性受到球队和球员的特征,如质量、风格和位置的影响。
体育分析的演变以数据分析在不同体育项目中的应用不断增加为标志,旨在解决长期存在的问题并得出有见地的结论。一个值得注意的兴趣领域是遗传学和训练在确定运动员潜力方面的交叉点。分析的出现使研究人员能够超越传统观点,利用运动员身体特征的数据库,并采用数据挖掘来预测年轻运动员在各种体育项目中的潜力。
性能分析研究已经被分类为三种不同类型:基础理论驱动型、实践导向应用型科学和非理论过度简化型研究。将理论框架与先进的方法工具相结合对于从简单的描述性统计向体育科学中的预测性和可操作性见解迈进至关重要。
设计了一个深度学习模型用于优化篮球比赛,通过预测最佳投篮者和根据比赛条件识别最具战略的阵容。通过利用球员和比赛的数据,该方法旨在实时提高战略决策能力,增加得分的可能性。
另一个深度学习模型,用于伤病分类的多双向编码器变换器(METIC),通过分析NBA球员伤病的纵向数据并结合比赛活动和球员统计数据来预测NBA篮球中的伤病。这个模型在性能上超过了传统的机器学习方法,它采用特征学习来生成相互作用的特征,这些特征在相互结合时变得很重要,为运动员管理提供了实用的见解,有可能降低伤病发生率。
使用分类和回归树(CART)来评估篮球投篮表现,研究人员分析了篮球冠军联赛和NBA的逐场比赛数据。目的是计算在各种压力下的投篮概率,并开发一个指数来测量个人投篮表现,同时考虑投篮难度。分析表明投篮效果如何受到剩余比赛时间、比分差距和之前投篮结果等因素的影响,展示了大数据在通过理解关键情况下的球员表现来增强体育分析和团队策略方面的重要作用。
一项研究讨论了数据分析在增强团队体育决策中的重要作用,强调了从质疑分析的实用性到关注如何将其深入和快速地整合到体育策略中的转变。它强调了分析在球员招募、比赛计划和健康管理方面变得至关重要,这是由联赛举措、技术进步和成功案例研究推动的。该研究还强调了分析驱动策略和传统方法之间的关键平衡,建议采用更细致的方法将分析整合到体育管理和决策中。我们的研究通过将机器学习算法专门应用于关键场景,开发EoCC指标,根据球员在高压时刻的影响对其进行评估和排名,来填补这一差距。
对球员统计数据的评估已经扩展到包括先进的指标,如调整正负值(APM),揭示了球员在超出基本比分之外对比赛的影响。研究还探索了量化防守努力的挑战,例如“德怀特效应”说明了防守分析的复杂性。
[8]的作者回顾、综合和评估了关于关键表现的现有研究,关键表现被定义为在体育和锻炼中在压力下的改进表现。确定了关键表现的主要特征、前因和后果,以及当前文献中的差距和限制。还提供了对未来研究和实践的建议。
探索延伸到已经应用于体育分析的数据挖掘技术,从用于揭示变量之间关系的Apriori算法到用于性能预测和评估的神经网络和线性回归。这些方法为理解体育动态开辟了新的途径,提供了基于统计数据预测名人堂入选等结果的工具。
在这种背景下,本研究通过采用数据挖掘和机器学习来解码NBA中的关键表现做出了贡献。通过对球员在高压、最后一分钟比赛中的表现进行分析,本研究引入了新的指标来评估关键表现,解决了传统分析中的差距。通过将先进的分析技术与对现有文献的全面回顾相结合,本研究提高了我们对篮球关键时刻的理解,并为体育分析领域的未来研究设定了标杆。
2. 数据和方法
介绍我们研究的关键组成部分,我们踏上了一段雄心勃勃的旅程,以解开NBA篮球高风险环境中关键表现的复杂性。这次探索精心构建为四个关键部分:目的和目标、方法、数据工程和机器学习方法。每个部分都建立在前一个部分的基础上,形成一个连贯的叙述,引导我们完成我们设定的目标、我们采用的方法、我们进行的严格数据工程过程以及我们执行的全面数据分析。
2.1. 目的和目标
本研究的主要目的是运用先进的数据挖掘技术来剖析NBA比赛的关键时刻,重点关注高压情况下的关键表现。具体目标有两个:
1. 识别对竞争激烈比赛的成功结果有贡献的关键因素。
2. 开发一种新的公式来评估和排名NBA球员在过去二十年的关键表现。
在本研究中,我们的主要目的是识别对竞争激烈的NBA比赛成功结果有贡献的关键因素,特别关注篮球比赛关键的最后几分钟。利用先进的数据分析,我们将个体球员统计数据作为预测器进行检查,以确定哪些行动——如得分、进攻篮板、抢断或盖帽——对赢得这些关键时刻的概率影响最大。这种方法不仅突出了球员的具体贡献,还解决了篮球中个体表现对比赛结果有重大影响的复杂动态。
基于此分析,我们开发了一个新的指标,即EoCC,根据球员在过去二十年的关键表现对其进行评估和排名。EoCC(1)包含了一系列全面的性能指标,整合了进攻和防守统计数据,以提供对球员在关键情况下影响的平衡和细致的看法。上述公式(1)旨在认识到篮球表现的多面性,不仅认识到行动本身,还认识到它们发生的背景,为评估NBA球员的关键能力提供了一个复杂的工具。
2.2. 方法
研究的基石——数据获取,是一项在现代数据科学背景下既带来机遇又带来挑战的多方面工作。我们通过从认证的在线平台获取篮球分析数据,并采用基于Python的网络爬虫技术来应对这些复杂性。这种双重方法有助于编译一个涵盖1996年至118年NBA赛季的数据集,确保我们的分析既有广度又有深度。认识到数据质量的重要性,我们开始了一段详尽的预处理之旅。这个关键阶段包括清洗、变量过滤和特征转换,以精炼数据集。我们在预处理方面的严格努力为准确和可靠的分析奠定了坚实的基础,为有见地的发现创造了条件。
它仔细地处理了数据不一致性、错误和异常值,确保数据集的完整性。这个过程对于保持研究的分析严谨性至关重要,特别关注于精炼对关键表现分析至关重要的变量。通过建立一个游戏参与的统计阈值,我们将分析重点放在在关键时刻有显著表现的球员身上。这种方法不仅提高了研究的有效性,还揭示了关键表现的细微差别。数据集通过消除无关变量和转换关键属性以紧密符合我们的研究目标而得到精简。这种有针对性的精炼对于对关键表现最有影响的因素进行分析至关重要。
图1说明了NBA关键表现分析程序的数据预处理过程,概述了一个从“DATA CLEANING”开始的结构化工作流程。在初始阶段,识别并处理异常值(统计数据过高但不可重现的球员)以确保数据质量。
此外,为了实现数据集的一致性,只保留前50名球员,以提高同质性。下一步“VARIABLE FILTERING”涉及有策略地删除某些被认为对研究重点无关的变量,如“团队”、“年龄”、“幻想点数”、“DD2”、“TD3”和“正负值”,从而精简数据集。最后阶段“DATA TRANSFORMATION”包括向数据集添加“相关年份”属性,以区分同一球员在不同赛季的表现,并引入“获胜百分比”作为目标变量,以精确衡量球员表现对比赛结果的影响。
此外,通过我们的研究,我们使用了一个重要指标——真实投篮命中率(TS%)来评估篮球运动员,它将投篮命中数、三分投篮命中数和罚球数合并为一个单一的效率衡量指标。其公式考虑了在加权组合的投篮尝试中所得的总分数,提供了对球员得分能力的全面评估。TS%在评估关键表现时特别有用,它反映了球员在比赛关键时刻将得分机会转化为得分的有效程度。
2.3. 数据工程
数据收集过程,即从多种来源系统地收集有关相关变量的信息,其目的是解决以数据为中心的问题或促进数据驱动的项目。它包括整合不同的数据类型和来源,从观测数据到诸如.csv和文本文件等数字格式。网络爬虫技术用于自动提取在线数据。在本项目的数据获取中,使用了从1996 - 1997赛季到2017 - 2018赛季的传统篮球统计数据,结果编译了44个.csv文件,每年为常规赛和季后赛分别提供单独的文件。数据收集的方法是双重的:首先,在可行的情况下直接下载可访问的Excel工作簿;其次,应用数据爬虫技术,利用Python编程语言及其相关库来收集所需的数据集。
对来自数据源的数据进行了初步过滤,只包括比分差距在五分或以内的比赛,这意味着分析将仅聚焦于非常接近的比赛,并将统计数据限制在比赛的最后三分钟。这个时间段被认为是区分随机事件和一致行为的可靠指标,并且它足够接近比赛结束,以确保最好的球员参与追求胜利。
数据清洗是研究过程中的一个关键步骤,其目的是识别和纠正数据集中的错误、不规则性和异常值。这个过程对于确保数据符合先前概述的质量标准,如准确性、完整性、有效性、一致性、相关性和安全性至关重要,它通过使数据更易于理解、处理和审查来促进分析过程。数据清洗的目的是提高数据集的整体质量,并解决与收集错误、缺失值、异常值或无关信息相关的问题,这些问题可能会阻碍分析过程。
异常值带来的挑战,特别是那些比赛场次极少但表现出色的球员,通过建立球员资格的最低比赛场次标准或在公式中将比赛场次作为负权重变量来解决。更倾向于前者方法,因为后者被认为会不必要地使算法复杂化而没有实际益处。这个阈值的建立是基于统计依据的,其目的是确保样本代表关键能力而不是随机表现事件。对数据集的一个子集进行方差分析(ANOVA)测试,以确定“比赛场次”(GP)属性的优化阈值,根据GP将数据集分成较小的组,并使用ANOVA和Tukey’s HCD测试来辨别组间的统计显著差异。这个分析过程揭示了不同比赛参与水平之间的统计差异,最终为常规赛设定了20场比赛的阈值,为季后赛设定了5场比赛的阈值,在统计严谨性和经验见解之间取得了平衡。 表1:不同比赛场次分组的统计数据对比
分组1 | 分组2 | 平均差值 | 调整后的p值 | 下限 | 上限 | 是否拒绝原假设 |
0 - 4场比赛 | 10 - 14场比赛 | 0.2329 | 0.9158 | -0.2857 | 0.7514 | 否 |
0 - 4场比赛 | 15 - 19场比赛 | 0.2072 | 0.9437 | -0.2867 | 0.7011 | 否 |
0 - 4场比赛 | 20 - 24场比赛 | 0.3677 | 0.536 | -0.1936 | 0.929 | 否 |
0 - 4场比赛 | 25 - 29场比赛 | 0.5611 | 0.0126 | 0.0672 | 1.055 | 是 |
0 - 4场比赛 | 30 - 34场比赛 | 0.471 | 0.0371 | 0.0143 | 0.9276 | 是 |
0 - 4场比赛 | 35 - 39场比赛 | 0.5689 | 0.0106 | 0.0751 | 1.0628 | 是 |
此表展示了将球员按照比赛场次分组后,不同分组之间某些统计数据的对比情况。原假设是不同分组之间在平均关键统计数据上没有显著差异,通过比较平均差值、调整后的p值以及是否拒绝原假设等信息,可以看出不同分组之间的差异情况,从而为确定合理的比赛参与阈值提供依据。例如,当比较0 - 4场比赛和25 - 29场比赛的分组时,平均差值为0.5611,调整后的p值为0.0126,小于0.05,所以拒绝原假设,说明这两个分组之间在相关统计数据上存在显著差异。
特征选择用于确定提高模型准确性的关键特征。这个过程简化了数据分析,产生更精确和可解释的模型。以下是被排除在进一步考虑之外的特征的总结:
团队:22年的时间跨度内,团队组成、教练组和管理层会发生重大变化,使得团队比较对于专注于球员分析的研究无关紧要。
年龄:虽然球员的年龄可能通过经验潜在地影响关键决策,但本研究选择不将年龄作为一个参数,考虑到将球员作为时间序列进行分析的复杂性。
防守篮板/进攻篮板:尽管篮板是一项关键的篮球统计数据,但在关键时刻,防守篮板被认为不如进攻篮板重要,因为进攻篮板更具研究价值。
幻想点数(FP)、双二双(DD2)/三双(TD3)和正负值:这些被排除是因为它们与所研究的关键时期缺乏直接相关性。
在预处理阶段,我们仔细选择了直接影响关键时刻的变量,这导致排除了诸如DD2、TD3和正负值等累积统计数据。这些指标虽然有价值,但与我们对关键表现的聚焦定义不一致——比赛最后三分钟内比分差距在五分或以内的关键比赛。防守篮板也被省略,因为它们通常是团队防守的结果,而而不是关键情况下孤立的个人努力。我们的方法旨在通过关注最具影响力的关键行动来确保本研究的机器学习分析清晰明了。在进一步或替代研究中,我们愿意重新评估这些变量在更广泛的比赛背景下的重要性,可能会使用更复杂的模型来考虑它们所带来的复杂性。
最后一步涉及将数据集限制为每个赛季常规赛的前50名球员,这是由先前的数据清洗步骤决定的。这种数据集之间的一致性旨在提高数据同质性,并促进后续的算法分析。
数据转换过程是为了与关键表现分析更相关而实施的,我们引入了特定属性以增强对数据的上下文理解。一个关键的添加是“年份”属性,它界定了每个球员统计数据的赛季和阶段(常规赛或季后赛)。这种区分对于区分不同年份的表现至关重要;例如,它使我们能够区分科比·布莱恩特在2001年和2008年的表现。这种粒度对于我们汇总和比较数据集以得出关于球员关键能力随时间变化的有意义结论至关重要。
此外,我们确定需要一个适合我们监督学习模型的目标变量。经过考虑,我们选择了胜/比赛场次(W/GP)比率作为评估球员表现对比赛结果影响的代理变量。虽然承认它有局限性,但在没有逐场比赛结果的情况下,这个统计量是一个实用的解决方案。因此,我们用一个“获胜百分比”属性替换了“胜”和“败”列,将这些变量的本质封装到一个单一的、全面的指标中。
在当前汇总的数据集中,我们呈现的统计数据是基于每个球员在关键时刻的参与情况计算的平均值,而不是整个赛季的总计。例如,对于一个球员的得分统计(PTS),是从该球员在关键比赛(比分差距在五分或以内)的最后三分钟内平均得分计算得出的。如果一个球员在一个赛季中参加了36场这样的关键比赛,那么我们数据集中的PTS值将具体代表该球员在这36场比赛的关键最后三分钟内的平均得分。这种标准化方法在我们包含的所有统计指标中一致应用。通过关注关键时期的这些平均值,我们旨在准确捕捉和评估球员在最重要时刻的影响。
表2:数据预处理后数据集的最终结构化形式及相关说明
球员 | 球队 | 比赛场次 | 分钟 | 得分(关键比赛最后三分钟平均) | 投篮命中数 | 投篮次数 | 投篮命中率 | 防守篮板 | 篮板 | 助攻 | 失误 | 抢断 | 盖帽 | 年份 | 获胜百分比 |
凯文·杜兰特 | OKC | 30 | 30 | 3.2 | 1.1 | 1.1 | 100% | 0.6 | 0.6 | 0 | 0 | 0.2 | 0 | 2012 | 0.533333333 |
克里斯·保罗 | LAC | 35 | 3 | 3.3 | 0.9 | 2.3 | 40.5% | 0.3 | 0.3 | 0.4 | 0.3 | 0.3 | 0.3 | 2012 | 0.5143 |
乔·约翰逊 | ATL | 28 | 3.5 | 3.3 | 1 | 2.3 | 45.3% | 0.4 | 0.5 | 0.2 | 0.1 | 0.1 | 2012 | 0.6429 | |
凯里·欧文 | CLE | 24 | 2.1 | 3 | 1 | 1.8 | 53.5% | 0.3 | 0.4 | 0.1 | 0.3 | 0 | 2012 | 0.375 | |
拉塞尔·威斯布鲁克 | OKC | 30 | 3.2 | 3.3 | 0.8 | 1.9 | 44.6% | 0.6 | 0.6 | 0.4 | 0.4 | 0.1 | 2012 | 0.5333 | |
科比·布莱恩特 | LAL | 34 | 3.3 | 2.9 | 0.9 | 2.5 | 34.1% | 0.5 | 0.6 | 0.4 | 0.3 | 0 | 2012 | 0.6765 | |
勒布朗·詹姆斯 | MIA | 23 | 2.8 | 2.8 | 0.8 | 1.9 | 43.2% | 0.9 | 1 | 0.6 | 0.2 | 0.1 | 2012 | 0.6522 | |
丹尼·格兰杰 | IND | 27 | 3 | 2.6 | 0.6 | 1.4 | 41% | 0.6 | 0.7 | 0.2 | 0 | 0.1 | 2012 | 0.7037 | |
保罗·皮尔斯 | BOS | 26 | 2.6 | 2.3 | 0.7 | 1.4 | 50% | 0.3 | 0.3 | 0.3 | 0.2 | 0.1 | 2012 | 0.6538 | |
德克·诺维茨基 | DAL | 27 | 3.5 | 2.1 | 0.5 | 1.4 | 34.2% | 0.7 | 0.9 | 0.4 | 0.4 | 0 | 2012 | 0.4444 | |
安德鲁·拜纳姆 | LAL | 28 | 3.3 | 2.1 | 0.9 | 1.1 | 78.1% | 1 | 0 | 0 | 0.1 | 0 | 2012 | 0.75 | |
凯文·洛夫 | MIN | 26 | 2.9 | 2.1 | 0.6 | 1.5 | 38.5% | 1 | 0.1 | 0.2 | 0.2 | 0.2 | 2012 | 0.3846 | |
阿尔·杰弗森 | UTA | 28 | 3.4 | 1 | 2.2 | 44.3% | 1.2 | 0.8 | 0.1 | 0.1 | 0.1 | 2012 | 0.5714 | ||
德文·哈里斯 | UTA | 29 | 3.8 | 0.7 | 1.2 | 52.8% | 0.2 | 0.3 | 0.7 | 0.1 | 0.1 | 2012 | 0.6207 | ||
保罗·米尔萨普 | UTA | 33 | 3.5 | 0.8 | 1.6 | 50% | 1.1 | 0.8 | 0.1 | 0.2 | 0.2 | 2012 | 0.5758 | ||
托尼·帕克 | SAS | 24 | 2.7 | 0.5 | 1.3 | 40% | 0.4 | 0.4 | 0.5 | 0.3 | 0 | 2012 | 0.75 | ||
蒂姆·邓肯 | SAS | 22 | 2.6 | 0.7 | 1.1 | 64% | 1 | 0.6 | 0.2 | 0.3 | 0 | 2012 | 0.7727 | ||
泰·劳森 | DEN | 30 | 3.3 | 1.9 | 0.6 | 1.2 | 45.9% | 0.4 | 0.5 | 0.4 | 0.3 | 0.1 | 2012 | 0.5333 | |
蒙塔·埃利斯 | MIL | 29 | 2.1 | 1.8 | 0.6 | 1.3 | 44.7% | 0.2 | 0.2 | 0.3 | 0.1 | 0 | 2012 | 0.4138 | |
克里斯·波什 | MIA | 22 | 3.1 | 1.8 | 0.6 | 1.1 | 56% | 0.3 | 0.5 | 0 | 0.1 | 0 | 2012 | 0.6818 | |
泰瑞克·埃文斯 | SAC | 28 | 2.4 | 1.8 | 0.5 | 1.2 | 39.4% | 0.2 | 0.2 | 0.1 | 0.1 | 0 | 2012 | 0.4643 | |
鲁迪·盖伊 | MEM | 36 | 2.1 | 0.6 | 1.2 | 51.2% | 0.2 | 0.3 | 0.1 | 0.1 | 0.1 | 2012 | 0.6667 | ||
马库斯·桑顿 | SAC | 25) | 2.4 | 1.6 | 0.5 | 1.5 | 35.1% | 0.3 | 0.5 | 0 | 0.2 | 0 | 2012 | 0.52 | |
戈登·海沃德 | UTA | 28 | 3.5 | 1.5 | 0.3 | 0.8 | 38.1% | 0.3 | 0.4 | 0.4 | 0.1 | 0.1 | 2012 | 0.5357 | |
瑞安·安德森 | ORL | 26 | 2.2 | 1.5 | 0.3 | 0.8 | 38.1% | 0.3 | 0.7 | 0.1 | 0 | 0 | 2012 | 0.5385 | |
卢克·里德诺尔 | MIN | 24 | 2.6 | 1.5 | 0.3 | 0.9 | 38.1% | 0.3 | 0.4 | 0.3 | 0.2 | 0 | 2012 | 0.4583 | |
雷·阿伦 | BOS | 21 | 2.8 | 1.4 | 0.4 | 0.9 | 47.4% | 0.3 | 0.4 | 0 | 0.2 | 0 | 2012 | 0.5238 |
2.4. 机器学习算法和方法
LASSO技术,因其在变量选择和正则化方面的效用而闻名,它通过在线性回归函数中添加一个惩罚项来工作,旨在最小化平方残差,同时确保绝对系数值的总和不超过一个特定常数。这个由用户通过Alpha参数定义的惩罚项,用于降低不太重要特征的相关性,并通过约束系数来减轻过拟合。对于数据集,通过10折交叉验证确定最优的Alpha值为。采用这个Alpha值,将数据集按照80 - 20%的比例划分为训练集和测试集,然后应用模型,发现盖帽是最具影响力的因素,其次是进攻篮板和失误。
弹性网络(Elastic Net)是一种类似于LASSO的回归方法,但它结合了L1/L2正则化,旨在通过惩罚系数的平方和来消除某些变量的影响(L1)并解决共线性问题(L2)。它有两个超参数:Alpha,用于确定惩罚强度;L1_ratio,用于平衡L1和L2的效果。通过10折交叉验证,确定这些超参数的最优值为和,这表明它与LASSO模型非常接近。
简单线性回归是LASSO和弹性网络的基础,但预计不会产生显著不同的结果。按照80 - 20%的数据划分后,结果符合预期,尽管失误的负系数明显更高,这强调了比赛最后时刻错误的关键性。
决策树和随机森林是不依赖于数据分布假设的非参数方法。采用80 - 20%的数据划分,将随机森林模型细化为个估计器,揭示了一个独特的数据洞察:真实投篮命中率(TS%)变量与胜负比之间的相关性比其他任何变量都强,这与之前的算法相比是一个新的发现。
XGBoost是梯度提升家族的一部分,它通过迭代构建模型来纠正前任模型的错误,并结合了L1和L2正则化项。大量的测试得出了重要的见解,在超参数调整前后的特征重要性分析表明变量重要性发生了变化,这表明该模型在封装数据特征方面特别成功。
进行这种广泛建模的总体目标是识别影响球队在接近比赛中获胜率的关键个人表现因素。虽然不是旨在精确预测比赛结果,但分析揭示了可以提高球队在关键时刻获胜机会的球员统计特征。最后一部分将引入一个基于这些见解的特定关键表现指标,用于评估和排名1997年至2018年的NBA关键表现。
3. 结果
在结果部分,我们通过机器学习算法和EoCC分析关键性能指标对NBA比赛关键时刻的影响。这种分析揭示了在比赛最后几分钟区分获胜努力的统计特征,并提供了对球员在压力下表现的见解。通过比较各种机器学习方法,并详细查看二十年间的EoCC,我们揭示了成功的模式以及个人贡献在高风险场景中的关键作用。
3.1. 机器学习算法应用
研究结果之一基于机器学习方法。在识别赢得接近的篮球比赛的关键性能指标的背景下,我们探索了各种技术来筛选球员统计数据并得出可操作的见解。这种探索涵盖了多种机器学习方法,每种方法都有其独特的优势和应用场景。
表2:几种机器学习方法的比较概述
方法 | 显著特征 | 分析结果 |
LASSO | 盖帽、进攻篮板、失误 | 变量选择和正则化;惩罚绝对系数值 |
弹性网络 | 盖帽、进攻篮板、失误 | 结合L1/L2正则化;处理共线性 |
简单线性回归 | 失误(负系数较高) | 基线比较;强调失误的重要性 |
决策树和随机森林 | TS%、盖帽 | 非参数;捕捉不同数据特性 |
XGBoost | TS%、失误(调整后盖帽重要性降低) | 梯度提升;超参数调整后显著改进 |
该表展示了不同机器学习方法在分析中的应用情况,包括各自显著的特征以及分析得出的结果。LASSO和弹性网络用于变量选择和正则化,简单线性回归作为比较基线突出失误重要性,决策树和随机森林捕捉特殊数据特性,XGBoost在超参数调整后有显著改进。
XGBoost在有和没有超参数调整的情况下应用,在变量重要性度量方面表现出增强的性能,如10折交叉验证结果所示。
表3:性能特征重要性在调整前后的对比
性能特征重要性 | 无参数调整 | 调整后(10折交叉验证) |
盖帽 | 0.270315 | 0.224233 |
失误、真实投篮命中率(TS%) | 0.179181、0.203729 | 0.123782、0.209903 |
进攻篮板、助攻 | 0.142628、0.138354 | 0.127072、0.126111 |
抢断 | 0.145741 | 0.117952 |
此表呈现了XGBoost模型在超参数调整前后,不同性能特征重要性的变化情况。可以看出调整后部分特征的重要性发生了改变。
3.2. EoCC指标介绍
EoCC是为了量化球员在压力下有效表现的能力而制定的,重点在于得分、防守贡献、进攻篮板、助攻以及对失误的惩罚。EoCC的引入公式如下:
公式(1)通过整合篮球知识和统计见解来捕捉关键表现。得分,由TS%表示,是基础,因为在紧张比赛中有效得分通常与胜利相关。参数(1.2、1.4、1.75等)是线性加权的,反映了根据算法结果和篮球专业知识确定的每个行动的重要性。助攻(AST)被包括在内,因为它们代表了有价值的决策,即使它们没有被突出显示为顶级预测器;它们仍然对整体关键时刻有贡献。失误(TOV)被适当惩罚,因为它们对比赛结果有关键影响。这种数据驱动的分析与对篮球动态的深刻理解相结合,旨在为关键表现提供一个强大的指标,同时也认识到未来研究和改进的领域。公式(1)中的缩写在表A1中解释。
通过EoCC指标(1),对1997年至18年的数据集进行了详细分析。发现显著表现通常出现在球队在关键比赛时刻依赖于一个独特的、优秀球员的情况下。这种对“单一超级明星”的依赖在将球队成功与冠军胜利相关联时带来了挑战。值得注意的是,勒布朗·詹姆斯在顶级表现中的出现完全是在克利夫兰队,在他与像凯里·欧文这样的顶级队友共事期间则没有出现。同样,艾伦·艾弗森、拉塞尔·威斯布鲁克和德克·诺维茨基的表现也强调了他们在各自球队中作为主要选择的角色,没有得到显著的支持。
一项旨在识别一致的顶级关键球员的分析表明,迈克尔·乔丹和科比·布莱恩特成为领先者,德玛尔·德罗赞、勒布朗·詹姆斯和德怀恩·韦德紧随其后。这项对一致性的调查显示出在关键时刻倾向于中距离投篮,这提示可能需要重新评估比赛后期的投篮选择策略。
此外,重点放在检查顶级关键球员的一致性以及他们在编制列表中的出现频率上。根据结束接近比赛(EoCC)评级,为每个实例生成包含前三名关键球员的列表,共得到44个列表,每个列表包含三名球员:22个用于季后赛年份,22个用于常规赛年份。随后,计算单个球员在这些前三名列表中的出现频率,作为其在数据集中总出现次数的比例。这种方法便于计算一个百分比,表明这些杰出球员达到顶级表现的频率,从而评估他们的一致性。
表4:从常规赛数据得出的相关结果
球员 | 球队 | 比赛场次 | EoCC |
迈克尔·乔丹 | CHI | 14 | 6.901 |
拉塞尔·威斯布鲁克 | OKC | 36 | 6.808 |
德怀恩·韦德 | MIA | 8 | 6.759 |
以赛亚·托马斯 | BOS | 41 | 6.468 |
科比·布莱恩特 | LAL | 6 | 5.880 |
勒布朗·詹姆斯 | CLE | 13 | 5.677 |
史蒂夫·纳什 | PHX | 7 | 5.643 |
艾伦·艾弗森 | PHI | 7 | 5.521 |
保罗·乔治 | IND | 7 | 5.262 |
约翰·斯托克顿 | UTA | 14 | 5.202 |
德克·诺维茨基 | DAL | 9 | 5.108 |
特里·罗齐尔 | BOS | 7 | 4.809 |
勒布朗·詹姆斯 | CLE | 27 | 4.790 |
勒布朗·詹姆斯 | CLE | 41 | 4.786 |
勒布朗·詹姆斯 | CLE | 40 | 4.753 |
此表展示了常规赛中部分球员的相关数据,包括所在球队、比赛场次以及EoCC值。
表5:球员EoCC计数相关结果
球员 | EoCC计数 |
迈克尔·乔丹 | 23 |
科比·布莱恩特 | 26 |
德玛尔·德罗赞 | 19 |
勒布朗·詹姆斯 | 7 |
德怀恩·韦德 | 2 |
凯文·杜兰特 | 4 |
该表呈现了部分球员的EoCC计数结果。
表6:从常规赛数据计算出的球员出现频率相关结果
球员 | 前三名表现者 | 总出现次数 | 前三名百分比 |
以赛亚·托马斯 | 2 | 3 | 66.67% |
沙里夫·阿卜杜勒 - 拉希姆 | 6 | 5 | 50.00% |
迈克尔·乔丹 | 4 | 5 | 50.00% |
勒布朗·詹姆斯 | 2 | 7 | 46.67% |
凯文·杜兰特 | 4 | 9 | 44.44% |
德怀恩·韦德 | 4 | 11 | 36.36% |
科比·布莱恩特 | 15 | 33.33% | |
斯蒂芬·库里 | 6 | 33.33% | |
德克·诺维茨基 | 12 | 25.00% | |
克里斯·保罗 | 12 | 12.50% |
此表展示了根据常规赛数据计算出的球员在前三名表现者列表中的出现频率相关结果,包括出现次数以及所占百分比。
常规赛领导者的编制主要由反复出现的名字组成,这表明存在一定程度的排他性。这种现象与季后赛情况形成对比,在季后赛中,旋转球员有时会超过他们的标准统计输出,由于针对对方球队明星的防守环境更加严格,他们能够取得与超级明星相当的成绩。一个典型的例子是1997年总决赛,迈克尔·乔丹决定将球传给无人防守的史蒂夫·克尔,导致了一次历史性的比赛获胜投篮。
季后赛数据揭示了更多的见解,包括前三名列表中球员的更广泛多样性以及一些不太知名的球员如佩贾·斯托贾科维奇和凯尔·洛瑞的显著关键表现。科比·布莱恩特的季后赛表现突出,在他的八次季后赛出场中有六次表现出色,使他成为那个时代最具统治力的关键季后赛球员。这一发现强调了科比在季后赛中相比常规赛表现的提升,他在前三名中的出现率从33%提升到75%,这与勒布朗·詹姆斯从46%下降到27%形成了鲜明对比。这种比较突出了科比·布莱恩特的非凡决心和获胜心态。
表7. 季后赛前三名表现球员结果
球员 | 前三名表现者次数 | 总出现次数 | 前三名百分比 |
佩贾·斯托贾科维奇 | 2 | 2 | 100.00% |
迈克尔·乔丹 | 2 | 2 | 100.00% |
凯尔·洛瑞 | 2 | 2 | 100.00% |
科比·布莱恩特 | 6 | 8 | 75.00% |
艾伦·艾弗森 | 2 | 3 | 66.67% |
凯里·欧文 | 2 | 3 | 66.67% |
德克·诺维茨基 | 2 | 4 | 50.00% |
史蒂夫·纳什 | 2 | 4 | 50.00% |
卡尔·马龙 | 2 | 4 | 50.00% |
理查德·汉密尔顿 | 2 | 6 | 33.33% |
保罗·皮尔斯 | 2 | 7 | 28.57% |
勒布朗·詹姆斯 | 3 | 11 | 27.27% |
托尼·帕克 | 2 | 8 | 25.00% |
德怀恩·韦德 | 2 | 8 | 25.00% |
蒂姆·邓肯 | 2 | 9 | 22.22% |
此表展示了季后赛中部分球员的相关数据,包括在前三名表现者列表中的情况以及所占百分比。需要注意的是,在任何一个类别中只有一次记录的球员被排除在外,以专注于评估一致性。此外,计算出的百分比代表前三名出现的频率相对于在关键球员数据集中的出现次数,要知道所有列出的球员都参加了更多的赛季,但由于在接近比赛中的参与不足而不符合数据集的条件。
4. 讨论
在本研究中,使用机器学习算法进行了广泛的分析,以识别对NBA比赛关键时刻获胜有贡献的关键性能指标。结果表明,诸如盖帽、进攻篮板和失误等变量起着重要作用,不同的算法突出了比赛动态的不同方面。例如,LASSO和弹性网络强调了正则化在处理共线性方面的重要性,而XGBoost的性能,特别是在超参数调整之后,强调了梯度提升方法在提高预测准确性方面的有效性。
公式(1)的引入和应用为评估球员在压力下的表现提供了一个新的指标。分析揭示了一种趋势,即球队在关键比赛时刻常常依赖于个别优秀球员的表现。然而,这种对单一超级明星的依赖并没有始终与球队获得冠军的成功相关联,如勒布朗··詹姆斯、艾伦·艾弗森和德克·诺维茨基所领导的球队的不同成功率所证明。
此外,研究强调了关键表现的演变性质,在紧张比赛情况下明显倾向于中距离投篮。这一发现促使重新评估在关键比赛时刻普遍存在的投篮选择策略,建议可能转向更高效的得分选项。
对“单一超级明星”场景的研究阐明了在这种情况下实现冠军成功的困难,勒布朗·詹姆斯和科比·布莱恩特的表现就是很好的例子。然而,研究也揭示了防守贡献和有效得分在关键情况下的关键作用。通过Mann - Kendall趋势测试进行的趋势分析表明,球员统计数据在多年间有显著增加,这表明比赛风格、策略以及可能的“数据填充”现象在演变。
关键个人表现与团队成功之间的关系也受到了审视,结果表明虽然个人在关键时刻的能力是无价的,但是一个全面的团队策略,包括深度、教练和整体团队表现,对于冠军成功是必不可少的。季后赛数据表明在顶级关键表现中有更广泛的代表性,这表明团队动态和不太知名的球员在关键情况下的作用很重要。
EoCC指标为关键表现提供了一种专门的评估,解决了高压情况下的独特需求。传统指标如球员效率评级(PER)、比赛得分(GS)、正负值和使用率(USG%)提供了有价值的见解,但它们是为更广泛的背景设计的,没有考虑到关键时刻的特定特征。例如,PER提供了一个全面的整体统计表现衡量指标,但它严重依赖于联盟范围内的平均值,这使得它在关键时刻的应用变得复杂,因为比赛背景的可变性。同样,GS将各种技术统计数据汇总为一个单一的值,这对于一般性能评估是有用的,但缺乏关键情况下所需的特定背景加权。正负值测量球员在场上时的分差,反映的是团队表现而不是个人贡献。这个指标可能会受到队友表现和整体团队策略的影响,特别是在关键比赛中涉及到相同球员的情况下。USG%表明球员在团队比赛中的参与度,但并不一定与在关键情况下的有效性相关。相比之下,EoCC专注于关键时间内关键统计类别及其对获胜概率的直接影响。通过采用机器学习算法来调整这些统计数据的权重,EoCC提供了一个更准确和全面的评估球员在压力下的表现。
4.1. EoCC案例研究
为了验证EoCC指标,我们进行了基准分析,将我们的EoCC结果与官方NBA年度关键球员投票结果进行比较。通过检查顶级EoCC表现者与NBA关键球员提名者和获奖者之间的重叠情况,我们可以评估我们的指标在识别真正关键球员方面的准确性和相关性。
2022 - 2023赛季分析: 对于2022 - 2023赛季,我们的EoCC结果(表9)突出显示了杰伦·布伦森、德阿隆·福克斯和尼古拉·约基奇为前三名关键球员。当与NBA年度关键球员投票结果进行比较时,我们发现杰伦·布伦森和德阿隆·福克斯都被认 为是提名者,并且德阿隆·福克斯获得了奖项。具体来说,我们EoCC排名中的前三名球员中有一名也在NBA投票中被认可(表10)。将比较扩展到前五名EoCC结果,其中包括吉米·巴特勒,我们发现前五名球员中有四名也是NBA提名者。这种显著的重叠延伸到前十名EoCC结果,其中十名球员中有七名与NBA投票结果相符。我们的EoCC排名与官方NBA奖项之间的这种强相关性表明,我们的指标能够有效地识别在关键时刻表现出色的球员。
表8. 2022 - 2023赛季EoCC排名前10
球员 | 得分 | 进攻篮板 | 助攻 | 失误 | 抢断 | 盖帽 | 胜负 | 真实投篮命中率(TS%) | EoCC |
杰伦·布伦森 | 3.3 | 0.1 | 0.2 | 0 | 0 | 0 | 0.55 | 74.06 | 6.299 |
德阿隆·福克斯 | 3.2 | 0.1 | 0.2 | 0 | 0 | 0 | 0.56 | 62.7 | 3.563 |
尼古拉·约基奇 | 2.4 | 0.2 | 0.5 | 0.1 | 0.1 | 0 | 0.71 | 62.63 | 2.947 |
德玛尔·德罗赞 | 2 | 0.1 | 0.2 | 0.1 | 0.2 | 0 | 0.34 | 58.37 | 2.776 |
吉米·巴特勒 | 2.4 | 0.1 | 0.1 | 0 | 0 | 0 | 0.56 | 65.22 | 2.546 |
乔尔·恩比德 | 2.1 | 0.3 | 0.1 | 0.1 | 0.2 | 0 | 0.66 | 58.86 | 2.229 |
凯里·欧文 | 2.2 | 0 | 0.1 | 0.2 | 0 | 0 | 0.56 | 59.4 | 2.168 |
多诺万·米切尔 | 2.4 | 0.1 | 0.2 | 0.3 | 0.1 | 0 | 0.53 | 51.28 | 1.908 |
谢伊·吉尔杰斯 - 亚历山大 | 1.9 | 0.1 | 0.3 | 0.1 | 0.1 | 0 | 0.36 | 56.01 | 1.560 |
勒布朗·詹姆斯 | 1.9 | 0.1 | 0.4 | 0.1 | 0 | 0 | 0.57 | 53.49 | 1.532 |
2023 - 2024赛季分析: 对于2023 - 2024赛季,我们的EoCC结果(表11)将谢伊·吉尔杰斯 - 亚历山大、德玛尔·德罗赞和尼古拉·约基奇列为前三名关键球员。根据当前的表现趋势和媒体讨论,假设这些球员将是NBA年度关键球员奖的有力候选人是合理的(表12)。假设假设的提名者包括这些球员,我们的分析将显示前三名EoCC结果有很好的一致性。此外,对于前五名EoCC结果,其中包括斯蒂芬·库里和科怀·伦纳德,我们预计会有显著的重叠,进一步验证我们的指标。即使在前十名中,包括像达米安·利拉德和卢卡·东契奇这样一直表现出色的球员,也表明我们的EoCC指标与可能被NBA认可其关键表现的球员相符。
表9. 2022 - 23赛季起亚NBA年度关键球员投票结果
球员 | 第一名选票(5分) | 第二名选票(3分) | 第三名选票(1分) | 总得分 |
德阿隆·福克斯 | 91 | 1 | 2 | 460 |
吉米·巴特勒 | 1 | 24 | 27 | 104 |
德玛尔·德罗赞 | 0 | 20 | 20 | 80 |
杰伦·布伦森 | 1 | 17 | 21 | 77 |
乔尔·恩比德 | 1 | 13 | 7 | 51 |
多诺万·米切尔 | 1 | 8 | 3 | 32 |
谢伊·吉尔杰斯 - 亚历山大 | 1 | 7 | 5 | 31 |
卢卡·东契奇 | 1 | 3 | 3 | 17 |
斯蒂芬·库里 | 2 | 1 | 2 | 15 |
杰森·塔图姆 | 0 | 2 | 4 | 10 |
表10. 2023 - 2024赛季EoCC排名前10
球员 | 得分 | 进攻篮板 | 助攻 | 失误 | 抢断 | 盖帽 | 胜负 | 真实投篮命中率(TS%) | EoCC |
谢伊·吉尔杰斯 - 亚历山大 | 2.4 | 0.1 | 0.3 | 0.1 | 0.2 | 0 | 0.66 | 75.76 | 3.159 |
德玛尔·德罗赞 | 2.4 | 0.1 | 0.1 | 0.2 | 0.1 | 0.1 | 0.62 | 57.92 | 2.514 |
尼古拉·约基奇 | 2.5 | 0.1 | 0.4 | 0.2 | 0 | 0 | 0.62 | 65.93 | 2.357 |
斯蒂芬·库里 | 2.6 | 0.1 | 0.2 | 0.1 | 0.1 | 0 | 0.51 | 63.35 | 2.329 |
科怀·伦纳德 | 2 | 0 | 0.2 | 0.1 | 0.2 | 0.1 | 0.58 | 71.02 | 2.275 |
达米安·利拉德 | 2.2 | 0 | 0.5 | 0.1 | 0.1 | 0 | 0.62 | 61.66 | 2.216 |
卢卡·东契奇 | 2 | 0 | 0.4 | 0.1 | 0 | 0 | 0.68 | 71.34 | 2.163 |
杰伦·布伦森 | 2.4 | 0.1 | 0.2 | 0.1 | 0.1 | 0 | 0.54 | 51.28 | 2.071 |
德文·布克 | 1.9 | 0.1 | 0.1 | 0.1 | 0 | 0 | 0.56 | 68.05 | 2.012 |
多诺万·米切尔 | 2.6 | 0.1 | 0.2 | 0.3 | 0 | 0 | 0.6 | 68.57 | 1.938 |
表11. 2023 - 24赛季起亚NBA年度关键球员投票结果
球员 | 第一名选票(5分) | 第二名选票(3分) | 第三名选票(1分) | 总得分 |
斯蒂芬·库里 | 45 | 18 | 19 | 298 |
德玛尔·德罗赞 | 34 | 27 | 21 | 272 |
谢伊·吉尔杰斯 - 亚历山大 | 11 | 29 | 18 | 160 |
尼古拉·约基奇 | 4 | 14 | 23 | 85 |
杰伦·布伦森 | 2 | 4 | 4 | 26 |
卢卡·东契奇 | 1 | 2 | 5 | 16 |
凯里·欧文 | 0 | 4 | 2 | 14 |
安东尼·爱德华兹 | 1 | 0 | 1 | 6 |
杰森·塔图姆 | 1 | 0 | 0 | 5 |
勒布朗·詹姆斯 | 0 | 1 | 0 | 3 |
4.2. 威胁到有效性和局限性
我们研究的主要局限性之一是数据的可用性和粒度。虽然我们尽可能纳入了许多相关统计数据,但缺乏详细的防守数据,如成功的投篮干扰、被迫传球和其他重要的防守贡献,限制了我们分析的全面性。这些元素对于全面评估关键表现至关重要,因为它们在关键时刻对比赛结果有重大影响。缺乏这些数据限制了我们完全捕捉球员在关键情况下的防守能力和整体影响的能力。
我们的分析主要集中在个体球员统计数据上,这在本质上假设了球员在关键时刻表现具有一定程度的独立性。然而,篮球是一项团队运动,球员之间的互动、策略和动态在决定结果方面起着重要作用。这种独立性假设忽略了协同效应以及队友和对手的影响,这可能导致对球员真实关键能力的高估或低估。未来的研究应该旨在整合考虑这些相互作用的模型,以提供更准确的关键表现描绘。
我们研究中对关键球员的定义在很大程度上依赖于胜率和个体性能指标。虽然胜率提供了一种实用的衡量方法,但它并没有完全涵盖关键表现的关键特性和多面性。一些球员可能在关键情况下表现出强大的个体表现,但由于各种因素,如球队实力和对手质量,并没有对胜负结果产生重大影响。这个局限性突出了需要一个更细致的定义,纳入更多的上下文因素和更广泛的性能指标。
我们当前的模型没有充分考虑球队的实力和支持阵容,这是影响关键表现的关键因素。被强大队友包围的球员可能受益于更好的环境、更少的防守注意力和更有效的整体团队策略,这可能会夸大他们的个体关键统计数据。相反,在较弱球队的球员可能面临更多的防守压力和更少的支持,这对他们的性能指标产生不利影响。这种疏忽对我们研究结果的有效性构成威胁,因为它未能将个体贡献从团队背景中分离出来。纳入考虑球队实力和支持球员作用的指标对于更平衡和准确的评估是必不可少的。
我们的研究涵盖了从1997年到2018年的二十年,在此期间篮球比赛发生了显著的演变。比赛风格、规则、训练方法和整个联盟的动态变化可能影响球员的表现和关键统计数据的解释。在不考虑这些变化的情况下比较不同时代的球员会引入时间偏差,这可能影响得出的结论的有效性。未来的研究应该考虑开发考虑时代调整的指标,以减轻这些影响并提供更一致的跨时期比较。
5. 结论和未来工作
本研究的结果强调了篮球关键动态的多面性,强调了个体表现和战略比赛元素的重要性。机器学习算法的应用阐明了对关键时刻成功有贡献的关键因素,为球队和教练在优化紧张比赛情况下的策略提供了有价值的见解。
EoCC指标的引入标志着在量化关键表现方面的重大进步,突出了某些球员在高压场景下的不成比例的影响。这个指标为进一步研究关键表现的心理和战术方面奠定了基础,可能指导更细致的教练策略和球员发展计划。
此外,本研究对关键时刻投篮选择策略的探索挑战了传统智慧,表明球队可能从比赛最后阶段多样化的得分方法中受益。这可能导致在比赛后期的战术演变,对球探、球员训练和比赛中的决策有影响。
在本研究中,调查集中在NBA球员在接近比赛的关键最后时刻的表现。“关键”概念在整个文献综述和实证分析中都很突出,强调了它的关键作用。体育领域中“关键”的难以捉摸的性质得到了承认,一些相关工作表明它代表了在压力下超越典型表现的能力,而另一些则质疑它的一致性并将其视为一种特殊表现的时刻。
对NBA最后几分钟的统计数据进行了探索,目的是对这一关键类别中的球员进行排名。研究的重点是识别提高球队在比赛最后时刻获胜机会的关键因素。引入了一种新的关键表现指标(EoCC)并应用于评估在可比条件下的各种球员。我们的分析没有包括球员在关键时刻的统计数据与他们在比赛其余部分的平均表现的比较,原因有二:首先,这方面在以前的研究中已经涉及;其次,将最后一分钟的比赛统计数据与比赛剩余的45分钟进行平均并对比可能会引入偏差。球队在结果至关重要时经常会大幅改变策略,一些教练会为这些 时刻保留特殊的战术来给对手惊喜。因此,研究专注于最后3分钟的时间段。
我们的研究挑战了传统观点,即关键表现仅仅反映了在比赛后期压力下的改进。受[5,6,9,13]等研究结果的影响,这些研究表明球员在关键时刻通常不会比在常规比赛中表现更好,我们开发了一个专注于绝对关键表现的指标。这种方法评估球员在关键比赛情况下如何保持强大的表现水平,识别那些在竞争激烈的场景中有效领导他们的团队的球员。它强调在压力下保持表现是关键能力的关键指标,提供了一个更客观的评估球员在关键时刻的影响的方法。
研究结果揭示了关于球员在最后几分钟的效率及其对实现积极结果的可能性的有趣见解。发现最有效的关键球员主要是中距离专家,大个子球员的贡献相对较少。这一观察结果与战术方法一致,即外线球员在考虑传球给内线之前先发起进攻。然而,观察到盖帽、进攻篮板和胜率之间存在显著的相关性,这表明中锋和大前锋在确保胜利方面虽然有时被忽视,但起着至关的重要作用。
在研究过程中,提出了关于比赛后期中距离投篮的普遍性的问题,在这种情况下,安全的决策可能会阻止球队尝试更受欢迎但风险更高的3分投篮。我们的研究结果表明,顶级关键球员在中距离比赛中表现出色,这提示了进一步调查的途径。还观察到了“数据填充”现象,即球员可能试图人为地提高他们的品性能指标。多年来统计性能的显著增加值得进行详细的检查,而不仅仅是假设存在数据填充。
EoCC案例研究的基准分析表明,我们的EoCC结果与NBA年度关键球员投票结果之间存在显著的重叠,特别是在前三名、前五名和前十名的排名中。这种一致性验证了我们的EoCC指标在识别真正关键球员方面的有效性和准确性,它不仅补充了现有的性能评估,而且提供了一个可靠的工具来评估球员在高压情况下的影响,增强了我们对NBA关键表现的理解。
还观察到了顶级关键性能与赛季球队成功之间的关系。发现球队在很大程度上依赖于一个单一的超级明星进行关键得分时,往往会产生最令人印象深刻的个体统计数据。然而,拥有多个可靠的关键球员的球队取得了更高的成功率和获胜百分比。例如,虽然最显著的个体表现通常归因于那些在有单一关键焦点的球队中的球员,但像迈阿密这样拥有多个关键球员,包括勒布朗·詹姆斯和德怀恩·韦德的球队,取得了更大的成功,包括赢得全国冠军。这表明虽然个体表现在比赛中至关重要,但它并不能单独决定球队的整体成功。
未来工作
未来扩展我们工作的想法已经被考虑,这取决于对大数据数据集的访问。一个被考虑但最终未实施的有趣概念是根据场内行动的时间为性能指标分配生物特征。具体来说,探索了这样一个假设:在比赛的最后20秒内投篮比在更早的时候投篮更具意义,以寻求其潜在的数学公式。
一个特别有吸引力的未来研究领域是区分和比较在比赛最后关键时刻的团队战术和个人单打战术。这种分析可能揭示拥有强大关键球员在一个团队中的重要性,可能引导教练朝着一个更平衡的阵容发展,能够集体应对关键情况,而不是仅仅依赖于一个超级明星。探索个体正负值评级,特别是在特定的情况和防守球员配对之间,呈现出另一个有趣的研究机会。这可能揭示某些球员是否在比赛决定胜负的时刻影响对手的决策。此外,将球分配给在特定比赛中表现最好的球员,而不管其通常的角色如何,是篮球爱好者之间争论的一个话题。这种直观合理但缺乏实证支持的方法值得研究。
在未来的研究迭代中,我们计划采用两步分析方法来加深我们对NBA比赛关键表现的理解。首先,我们将关注团队层面的成就,分析集体策略和动态,这些对在竞争激烈的比赛中取得成功有贡献。这个阶段将允许我们辨别在关键比赛时刻最有效的更广泛的战术模式和团队行为。随后,我们将进行个体层面的分析,以识别那些其行动对球队获胜机会有显著影响的特定球员。通过区分不同球员的贡献,我们可以确定哪些技能和决策在高压情况下最有价值。这种两步方法将提供一个对团队和个体表现的整体看法,极大地丰富我们对定义职业篮球关键成功的元素的理解。
总之,从心理因素到简单的篮球统计数据,体育分析领域仍然大部分未被探索。研究人员尚未就关键表现是否可以培养还是仅仅是偶然的达成共识。然而,随着先进的数据收集系统和足够的资源的获得,体育分析师有很大的空间为这个领域做出贡献,增强教练策略并拓宽我们对篮球世界的理解。
作者贡献
概念化:D.G.和V.S.;方法:D.G.和V.S.;软件:D.G.;验证:C.T.和V.S.;正式分析:V.S.;调查:D.G.和V.S.;资源:C.T.和V.S.;数据整理:V.S.;写作 - 原始草案准备:V.S.;写作 - 审查和编辑:C.T.和V.S.;可视化:D.G.和V.S.;监督:C.T.;项目管理:C.T.和V.S.所有作者都已读并同意发表的版本。
资金来源
本研究未获得外部资金。
数据可用性声明
部分数据在稿件中可用。
利益冲突声明
作者声明在研究、作者身份和/或发表本文方面没有潜在的利益冲突。本文符合指南并遵守道德标准。
附录A
表A1:篮球缩写及对应描述
缩写 | 篮球指标描述 |
+/- | 正负值 |
APM | 调整正负值 |
AST | 助攻 |
BLK | 盖帽 |
DD2 | 双二双(在2个篮球统计类别) |
DREB | 防守篮板 |
EoCC | 关键时刻能力评估 |
FGA | 投篮次数 |
FGM | 投篮命中数 |
FG% | 投篮命中率 |
FP | 幻想点数 |
FTA | 罚球次数 |
GP | 比赛场次 |
Min | 分钟 |
NBA | 美国职业篮球联赛 |
OREB | 进攻篮板 |
PER | 球员效率评级 |
PTS | 得分 |