(滑动30秒跳过开头。为了播放流畅,文章经过提炼和润色。如需精读原文请从正规渠道购买正版书籍。)
听书是我生活的一部分,但各大平台缺少体能专业相关书籍的播放资源。于是我将利用公众号的“听全文”功能,持续分享体能相关专业的书籍,希望大家可以利用零散时间了解体能知识。
第五部分 数据分析与交付
第20章 数据挖掘和非线性数据分析
数十年来,通过系统性的观测,竞技体育中的运动表现分析一直被用作一种量化运动员和团队表现的方法。由于计算方法与技术的相应革新,数据收集的方法和运动表现分析的过程已经发生了翻天覆地的变化。大量不同类型的数据以前仅限于在实验室利用笨重的设备进行收集,而这些革新意味着这些数据现在在训练或者比赛情境中就能得到。与其他许多行业中的情况一样,这些计算方法与技术的发展已经引起了训练科学领域的变革,尤其是运动表现分析的变革。
第1节 运动表现分析
作为这些发展的直接后果,3个与数据有关的主要考虑因素呈现在了当代科学训练师面前。
第一,竞技体育现在正在迅速产生大量且新型的数据。这为以前在竞技体育情景中未知或无法测量的现象提供了新的见解,并且发展没有减缓的迹象。事实上,全球的数据量每年大约会增长50%,相当于在10年后会增加约40倍。然而,这也意味着竞技体育组织需要在基础设施方面做好处理海量数据的准备。在竞技体育情境中,训练科学数据通常是最为庞大、多样和复杂的。数据的类型多样,从没有条理的比赛视频到第三方提供的运动员和团队统计数据,以及来自运动员、调查员以及教练员自己报告的定性的书面感想。
第二,一般来讲,数据的质量和准确性都在不断地提高。尽管这是一种积极的发展,但是它也为科学训练师带来了难题。训练实践人员得到某些数据的频率超出了实际所需的频率。因此,科学训练师需要对未来科技的发展方向有一些预见,这在开发用以存储、访问和分析数据的基础设施时是非常重要的。数据质量的改善以及数据量的增加还会对当前开发模型的长期相关性产生影响。科学训练师仅仅因为可以访问新型和更好的数据,就能得到针对复杂问题的新见解,而这些新见解可能会让当前已经被认可的模型和成型的做法变得冗余。这种高质量和大体量的数据可以供训练实践人员自由使用,但这些数据反过来会让对比和对照以前所开展的研究和做法成为难题。
第三,人们已经开发出了新型、改进的方法来处理数据。这些方法与数据的处理、存储和查询有关,当然还与数据的分析有关。这些发展主要基于计算机科学的进步,不仅在数据处理方面,还在如何从复杂数据中发现有意义的模式方面取得了新的进展。
这3个考虑因素共同表明,数据挖掘是可供科学训练师使用的最为有用的工具之一。
第2节 数据挖掘
虽然有时候被当作一系列分析技术及其相应输出的附属品,但是数据挖掘实际上是一个非常宽泛的学科,它包括处理、存储、报告、查询以及最终展示数据方面的理论。简单来说,数据挖掘包括在数据库中寻找模式和解决与数据相关的问题。因此,它强调的是以类人学习的方式进行学习。数据挖掘过程可以分解为4个阶段(见表20.1)。
虽然此4个阶段都很重要,但是由于第3阶段和第4阶段与科学训练师有具体的相关性,本部分将对这两个阶段进行详尽的阐述,此外还将对深度学习进行讨论。
小节2.1: 机器学习
数据挖掘具有许多优势,其中的一个优势是终端用户有各种可用的方法和技术来得到表20.1中第3阶段所提到的归纳和推断结果。其中的一种方法就是机器学习,它与计算机系统有关,这些系统可以在未收到明确指示或者明确受程序控制的前提下,从数据中了解信息。有时候术语“机器学习”可以与术语“数据挖掘”互换使用,但是两者也有区别,因为机器学习强调的是开发精确的和具有预测性的模型,而数据挖掘强调的是在数据库中发现新的信息和见解。
适用于训练科学的一个典型的机器学习框架如图20.1所示,图的第2行展示了不同的机器学习任务。基本上,机器学习任务经常按照是否受到监督来加以区分,不过也有半监督任务和强化任务。
监督任务与那些依赖于标注数据的任务有关,尤其是由成对输入和输出组成的数据。例如,对于每个动作或者每组动作,产生的输出或者事件也要被包含进去。标注好的数据集可以用于训练算法,从而实现对一个输出变量和其相应输入集之间的关系和相互依赖性进行建模。因此,监督任务通常用于预测性的问题。相比之下,非监督任务包括未标注的数据,因此一个输出变量要么是未知的,要么是不需要的。因此,它们往往更加适用于描述性的目的,或者在以前未探索过的数据集中揭露出新的模式。半监督任务也有所不同,不同之处在于它们包括标注和未标注的数据的某种组合。强化任务则需要将机器置于一个给定的情境中,目的是让它通过试错的迭代过程训练自己。
每种任务下面都有各种各样的方法系列,任务可以通过这些方法加以开展。这些方法系列有时候在文献中的考虑方式不尽相同,但是它们通常分为5类。监督任务通常采用的是关系建模和归类。非监督任务最常采用的是聚类和关联。半监督任务和强化任务可能会使用其他方法的组合,不过后者往往也会采用第5类方法,即控制法。每种单独的方法还存在各种各样的技术,根据预期的用途,每种技术都有各自的好处。
前面提到的方法中,关系建模可能是最常见的观测方法。它的工作原理是拟合一个方程或者模型,以最好地描述一组变量与感兴趣的具体结果之间的关系。回归分析是最著名的关系建模类型,有多种变式可供使用。神经网络已经成了一种更为复杂的关系建模形式,因与人类大脑神经系统的相似性而得名。相比于传统的回归方法,它们的主要优势在于可以考虑输入和输出变量之间非线性的相互作用,还可以在不用明确编程的前提下进行学习。这些模型的工作原理是包含多个节点,而这些节点能够在与它们相连的其他节点之间传递信息。然后,每个神经元的输出被表示为非线性函数,并且精确的权重信息会随着学习的进行而更新。根据所需的复杂程度,神经元可以被组合成各种不同的层数。
归类是监督任务常采用的另一种方法,旨在利用一组输入变量来预测某种给定的离散类输出结果。非监督任务使用的方法不存在与类成员有关的先验知识,而与之不同的是,在归类中该信息是已知的。训练科学中用来归类的信息可能包括比赛结果,运动员的位置、性别以及体重级别。常见的机器学习归类技术具体如下。
•支持向量机: 用来根据惯性测量单元数据区分各种专项运动,或者用来根据体能测试结果识别有天赋的运动员。
•决策树: 用来模拟发病率以及解释团队运动项目的比赛结果。
•随机森林: 我们在诸如球队选择和足球战术分析的实际应用中能看到它的影子。
聚类是一种非监督任务常使用的方法,其目的是仅利用数据的特征,而没有输出信息,将数据的关键特征归纳为不同的群组。聚类分析的结果是形成大量的群组,这些群组在某些情况下是由终端用户定义的。实例或项目根据特征的相似程度,或者它们与其他群组不相似的程度被组合在一起。这种方法常涉及以下度量。
•K均值: 用来根据表现指标编制出独具特色的球队介绍或者用来识别不同的压力中心模式。
•层次聚类: 用于考察运动员积极性与表现之间的关系和识别运动员技巧的认知结构。
•自组织映射: 用来诊断步态鳏上出现的疲劳,或者直观地展示比赛风格的改变以及团队运动项目中的共同运动。
关联规则挖掘旨在从数据中提取出有意义并且通常频繁出现的模式。规则挖掘的类型有很多。简单的规则挖掘旨在发现通常出现在不同状况之间的关联,而顺序规则挖掘还强调这类事件的时间历程或者顺序。模糊性通常也被纳入某些规则挖掘技巧之中。这种方法不同于其他机器学习方法经常使用的布尔逻辑,不同之处在于该方法允许在输入和输出中存在模糊性,而不是强制得出“是"或“否”、"真”或“假"的结论。常用的规则挖掘技术具体如下。
•Apriori算法: 用于识别出训练情境中的约束模式以及团队运动项目中首选的打法模式。
•FURIA算法: 用来度量生物医学数据集中的相似性网以及作为一种框架来监控运动员从膝盖损伤中康复的进程画。
•频繁模式增长算法: 用来检测生长激素的滥用以及运动员的营养监控。
小节2.2: 机器学习模型的评估
在机器学习中,模型的性能可以利用各种各样的方式进行评估,这些方式根据所用的方法类型而有所不同。例如,在关系建模中,绝对指标很普遍,而相对指标力图刻画输出变量上的变异,输出变量由预测变量加以解释。信息准则指标也可以用来提供有关模型拟合好坏程度的信息,因此可以用于模型的选择。
在归类问题中,混淆矩阵经常会被用到。它的作用是为不同场景下的矩阵性能提供综合评估。表20.2通过混淆矩阵展示了一种“是"或"否"的简单情况。
这种情况可以被认为是一个表现分析问题,该模型旨在预测一个团队是否能够赢下给定的一场比赛。在这种情况中,“是”表明团队预计会赢下比赛,“否”意味着团队预计会输掉比赛。表格显示,样本中总共有165场比赛,模型110次预测结果为“是”,55次预测结果为“否”工然而,表格显示,团队实际赢下比赛的次数是105次,输掉比赛的次数是60次。我们从表格中可以得到多条信息,其中有些信息是描述性的,而其他信息贝屿模型本身的性能有关。例如,“真正”TP,True Positive,与模型预7则团队会赢下比赛,并且实际确实赢下比赛的情况有关;“真负"TN,True Negative,指的是当模型预测团队会输,并且团队确实也输了的情况;“假正”FP,False Positive,指的是模型预测会赢,但是团队却输了;而当模型预测会输,但团队却赢了的时候会看到“假负”FN,False Negative。然后,模型的性能便可以通过从这种描述信息中提取出的不同比例来描述。例如,模型的准确性通过(TP+TN)/总数=(100+50)/165≈0.91确定。错误归类或者误差率由(FP+FN)/总数=(10+5)/165≈0.09确定。模型的敏感度由TP/实际赢的场数=100/105≈0.95确定,而其特异性按TN/实际输的场数=50/60≈0.83加以计算。精确性可以回答以下问题:当模型预测为“是”的时候,预测结果正确的频率是多少?它可以按照TP/预测为“是”的场次=100/110≈0.91进行计算。此外,流行率详细说明了这种情况在样本中出现的频率,并且按照实际赢的场数/总场数=105/165≈0.64进行计算。非监督任务常用的方法有各种不同类型的评估指标可供使用,这些指标根据所用技巧的不同而有所不同。例子包括聚类中心或者一系列不同指数之间的误差指标。例如,聚类中心之间的距离较大可能表明组别之间具有较大的异质性。人们认为该过程要比监督问题更力喉棱两可,尤其是在没有实况资料的时候。
与统计学类似,机器学习模型也需要检验和评估。该过程可以确保结果对于新数据和情况来说是可概括的。评估这些模型最常用的方法之一是验证。有各种各样的验证方法,具体如下。
•验证方法1: 分割样本验证将可用的数据分割为训练集和检验集。关于训练和检验的理想分割比例并没有达成一致意见,然而66%比33%和80%比20%这样的比例很常见。该模型仅利用训练集来建立,并记录结果。一旦建好了模型,训练后的模型性能便可以与检验集进行对比。训练和测试模型性能之间存在明显的差异表明过度拟合或者欠拟合,这在后面会进行更加详细的描述。这种验证方法通常用于较大的数据集上,其中训练和检验都具有足够的实例。
•验证方法2: K折验证将数据集划分为k部分或者“份”。通常采用的是划分为10份,划分成5份也很常见。模型根据k-1个部分建立,而留出的一个部分用来检验该模型。然后该过程被重复执行k次。根据所选的k值和数据集大小的不同,模型性能可能会有显著的变化。
•验证方法3: 留一验证所用的份数等于数据集中的实例个数。这种验证方法的优势在于它能够利用数据集中的所有数据点。然而,对于较大的数据集来说,它的计算成本过高。其统计学中的等价方法是刀切法。
过度拟合是机器学习遇到的主要问题之一,尤其是当样本数量较小的时候。过度拟合指的是一个模型对其训练数据的映射效果非常好,以至于在新数据上运行的时候,模型相对来说表现得要糟糕得多(见图20.2)。相比于线性分析方法,机器学习往往要更加易于出现过度拟合。出现这种情况的原因是,机器学习映射复杂数据的能力往往要更加灵活,因此对于给定的问题通常会得出更为具体的解决方案。与之相对是的是欠拟合,它通常指得到一个相对于输入数据来说过于简单的模型。当应用于包含复杂关系的数据集时,许多线性统计方法都会出现欠拟合。
一个有关训练科学过度拟合的示例是选材,即根据从以前成功的运动员身上收集到的历史数据构建一个用以预测运动员未来表现的模型。欠拟合的解决方案可能会使用图20.2所示的单个值或线性函数来划分这些“成功"或者“不成功”的运动员。例如,我们可以规定,为了在某项给定的运动项目中取得成功,运动员必须拥有最低的身高或者体重。针对相同问题的过度拟合解决方案可能会产生这样的一个场景,其中大量的先决条件必须被强制满足,这对某个群体或者体育运动的映射效果可能非常好,但是这种效果并不能拓展到新群体上面。幸运的是,为了减少或者避免过度拟合,许多机器学习技巧已经内置了大量的特征,这包括复杂度参数和剪枝法。
小节2.3: 深度学习法
深度学习是机器学习的一种发展,它旨在从多维度、非结构化的数据中发现并理解复杂的结构。非结构化的数据指的是没有按照有组织的方式加以排列,并且可以包括图片和视频等的数据类型。因此,深度学习已经带来了某些领域的进步,包括情感分析和语言翻译。前面讨论过的机器学习技巧,其能力相对限于处理原始格式的数据,并且在一系列问题上面已经被深度学习技术超越,包括图像和语音识别。
深度学习法的运行方式是学习表征。最著名的深度学习技术之一是卷积神经网络。在初始层级,原始输入被接收,并被转换成了更高级、更抽象的表征。多次转换之后,相当复杂的模型便可以被构建出来。图片分析是一个常见的例子。图片可以看作像素阵列。在初始网络层中对细粒度细节,例如图片某些位置的边缘加以表征。网络的第2层可能要通过识别这些边缘的模式来识别特征,而第3层将会把这些特征组合成人类查看起来更加熟悉的对象。更深的层次随即进行,并识别这些对象的组合。对于深度学习,一个重要的考虑因素是,该过程不需要人类的参与,它由算法固有的学习程序提供信息。
第3节 训练科学中的数据挖掘
数据挖掘越来越多地采用机器学习技巧,以从大数据集中得到优化的信息。这类技术的应用在训练科学中增加的一个原因是它们的应用范围很广。这让机器学习的应用拓展到了各种不同的领域,包括训练负荷、运动员培养模型、运动员专项动作的自动识别以及根据人体测量和性别差异对比赛需求进行定级。在赛场上,运动员的追踪数据结合赛事数据已经被用于理解传递网络、压力的定义和可视化、模拟队内的相对相位耦合以及概率化运动模型和控制区域。总而言之,数据挖掘方法可以用于帮助解决科学训练师遇到的几乎所有问题。
小节3.1: 决策支持系统
基本上,这里所列的大部分应用强调的是,改变个人或组织的决策过程或结果。由于竞技体育涉及无序、动态的环境,人们通常需要借助外部辅助手段。决策支持系统是最常见的将数据挖掘和机器学习融入体育组织运营结构之中的方式之一。这些系统为在这类环境中要做出的决策提供客观证据,通常根据机器学习算法所产生的输出结果,利用历史数据给出建议或评估。它们往往还会包含后台数据库,数据库中的信息不仅可以被访问和查询,还能被重新格式化,以用于多种目的。
决策支持系统相比于人类决策的优势已经在各种各样的任务中得到了证实。心理学家保罗米尔是这类系统的早期提倡者之一,引用其1954年的话:“相当一部分实际时间被不合理地耗费在了尝试做预测工作上……而通过系统性地构建复杂的统计方法……这类工作可以被完成得更为有效”。更多的研究工作进一步证实了该评论。一个例子包括对136项研究的多元分析。该例子将决策支持系统的模型与人类判断做了对比,结果显示,人类胜过模型的情况只有6%至16%。有关竞技体育情境的研究在美国职业篮球联赛,NBA,National Basketball Association,和美国国家橄榄球联盟,NFL,National Football League,的选秀和交易方面表现出了相似的结果。在NFL中,人类评委在信息量的利用方面达不到与分析模型相同的程度,这种限制也展现在了评估运动员的任务中。一个好的系统也有助于轻易地查询竞技体育组织的不同方面,例如探索表现数据与会员人数、市场营销或者社交媒体内容之间的关系。
因此,决策支持系统在竞技体育中正变得越来越常见。并且出于各种目的,例如运动员表现评估、比赛计划以及运动员监控,决策支持系统也出现在了文献之中。然而,虽然取得了相当可观的成功,但是其在某些情境中的应用仍然存在限制。我们必须克服大量的挑战,才能让决策支持系统被竞技体育组织采纳和持续使用。这些挑战具体如下。
•挑战1: 用户愿意接受推荐做法并按推荐做法采取行动。
•挑战2: 将该系统结构化地集成在组织的工作流程和网络基础架构之中。
•挑战3: 帮助用户克服对机器抢夺决策过程控制权的恐惧,或者克服自己的角色被代替的恐惧。
•挑战4: 促进训练实践人员常规和可靠地使用。
因此,一个好的决策支持系统将表现出以下特征。
•特征1: 它在解决问题方面是高度精确的,尤其会以一种比现有做法更加有意义的方式来解决问题。
•特征2: 它为用户提供多种格式,以考虑数据和分析输出。
•特征3: 在实用性、用户反馈、成本和职员培训时间方面,它会为组织提供更好的可行解决方法。
•特征4: 它提供有关输入数据质量的详细信息。
•特征5: 它允许输出简约的解决方法,从而消除冗余数据。
•特征6: 它允许在具体的推荐做法中识别出各种偏差的来源。
一个好的决策支持系统还应当具备通过不同的可视化形式表达结论的能力。这一点尤为重要,因为不管竞技体育情境中的模型复杂度如何,输出结果最终都会到达人类决策者的手中,而该决策者随后需要解读信息并按照信息采取行动。为了达到这个目标,可视化形式通常比详尽的书面报告更加有用,因为它们减轻了认知工作的负担,转而让人进行自动的感知处理。所以,设计合理的可视化形式可以提高效率,因为它可能只需要终端用户的认可,而不需要与书面报告相关的搜索和意识处理。因此,相比于通过书面报告得到的推荐做法,我们可以更快地解读以可视化形式输出的推荐做法,并更快地根据它采取行动。
当然,可视化形式并非总是可以代替原始数据和书面报告。它可能还具有误导性,作为分析的一部分,这甚至会在无意中出现。幸运的是,许多机器学习技术可以在输出结果的展示方式方面具有互换性和灵活性。在这一方面,考虑诸如信息等价和计算等价的概念很重要。前者可以通过两种可视化形式或者报告的例子来解释,其中一种形式包含的所有信息都可以从另一种形式中推断出来,反之亦然。尽管难以实现,但是有些用于快速决策的最佳可视化形式可以让用户得到与书面报告或者数据菸-样多的相关信息。计算等价性涉及生成包含相同级别信息的两个报告所需的处理和计算需求。在训练科学中,鉴于出现了影像以及其他需要额外计算能力的大数据类型,计算等价现在变得越来越重要了。
可视化形式应当还能够解释预测或推荐做法中的不确定性。同样已经确认的是,相比于书面报告,它们有助于促进对不确定性的解释。这比人们通常所意识到的要更加重要,因为当人们不能理解某种推荐做法的不确定性时,他们往往不会信任这种推荐做法。天气预报就是一个例子。当前有许多开放式访问、易于使用的可视化软件可供选择,这对科学训练师来说是一个有价值且容易提高技能的领域。
小节3.1.1: 优于人类决策
虽然决策支持系统的好处很多,但是从根本上讲,它们的主要目的是提高目前组织机构的决策水平。除了前面所列的特征,相比于人类,决策支持系统有可能在未来进一步提升自己的性能。这是因为在解决问题时,相比于人类,它们可以考虑更多和更复杂的信息,同时可以可靠地持续记录大量的历史数据。存在的潜在选项越多,数据的复杂度越高,或者利益相关者就什么是最佳做法的分歧程度越高,决策支持系统就会变得越有用。这是福格尔及其同事在20世纪90年代末认识到的,他们观察到:
•由于本身的性质,复杂的自适系统难以分析,并且它们的行为也难以预测。有的系统受控于数百甚至有可能数千个有目的因子的相互作用,我们希望,复杂的计算机模拟将提供有用的工具,用于精确地预测这类系统的行为,以便在混乱、动态的环境中实现目标。
有限理性理论也可以作为一种加深这种理解的方法。该理论认为,个体可以访问的数据、用于采取行动的时间有限和认知局限性都会对他们的决策产生影响。有限理性理论认为,在复杂的情况下,倾向于做出理性决策的个体一定会做出令人满意的选择,而不是做出最大化或者最优的选择。对于训练科学中的数据挖掘来说,这具有深远的影响。它有助于解释为什么在复杂的问题上,组织内以及组织之间会存在多种观点。这可能仅仅是由在面对某种决策时,这些组织或者组织内的个人对不同类型及数量的信息的考虑方式导致的。这反过来会对交叉学科高水平员工队伍的构建方式产生影响,因为来自不同学科的个体通常会接受不同的训练并接触多种理论。它还有助于解释,由于没有一个人能考虑到与具体问题相关的所有信息,所以永远得不到最优的解决方案。此外,在今天看来,适当的解决方案在未来可能会不再精确或者全面,尤其是随着科技的进步和数据量的增长。然而,数据挖掘和相应决策支持系统的应用应当至少可以让行业在某种程度上更加接近这种无法得到的最优解决方案。这可能是一个发人深省的想法,意识到这种情况应当会让当代的科学训练师保持谦虚。他们应当认识到自己无法考虑到所面临问题的所有相关信息。认识到这一点可以让他们秉持一种扩充自己知识库的心态,并且有可能对网络和开发新的技能形成一种开放的思维。这种意识对于所有训练领域科研人员的培养来说至关重要,并且未来对科学训练师的培训和正规教育应当强调这类品质。
小节3.1.2: 提高效率
人类为了改善结果和提高自己的工作效率会结合机器的功能,而数据挖掘的兴起还会对人类与机器功能的结合方式产生明显的影响。正如前面所讨论的,涉及人类和机器结合的主要研究倾向于强调人类的局限性。为了增加数据挖掘在实际场景中的应用,科学训练师可能需要制订出促进其应用的巧妙策略。我们不应该只专注于人类的局限性,相反,要培养人们对人类和机器在处理不同问题时在哪些地方有所不同以及为什么会有所不同的理解能力。这一点尤为有用,并且还会减轻人们对机器夺权的潜在焦虑。鉴于大部分人都不喜欢自己的局限性被不断地强调,为了让利益相关者将它们看作一种机会,而不是对自己判断的一种威胁,决策支持系统在早期应用阶段应当被看作一种补充性的资源。
另一个相关的问题是,科学训练师首先应当选择竞技体育情境中的哪些过程和操作来进行决策支持。我们可以根据各自的特征来定义每个过程,从而定义每个过程对决策支持的适宜程度(见图20.3),通过这种方式便可以回答上述问题。
常见的特征包括频率、对组织的相对重要性、复杂度以及进行特定程序需要或者耗费的时间。我们也可以根据组织的需求或者侧重点,考虑其他的存在部分。最受限制的过程可以被认为是最适合用于决策支持系统的过程。
对于许多由科学训练师开展的任务来说,在效率上随之而来的增益创造了要么完全卸去负担,要么让效率大幅提高的可能性。其中一些节省下来的时间可以用于发现和实施新型的方案。虽然科学训练师是竞技体育情境中少有的头衔中有“科学”这个词的角色之一,但是他们感觉自己有必要成为科技的专业用户,长期以来他们一直需要满足“技术使用专家”这一感知需求,这掩盖了他们在竞技体育领域中思考新举措的能力。因此,采用决策支持的结果是非凡的,这类系统有可能会从根本上改变当代科学训练师的典型角色架构。
总而言之,要注意的是,尽管从事竞技体育工作的人员都有望成为特定领域的专家,但是他们的专长中极少会包含决策方面的正规培训。因此,决策支持系统的应用提供了一种方式,这种方式让复杂的决定和流程的难度可以减小,转变为半自动甚至全自动的。从决策准确性和操作效率的立场来看,这将会对这些个体和组织大有帮助。
小节3.2: 计算思维
在竞技体育中,在一个问题上试用不同方法和技巧的优势是,它们各自提供的解决方案可能会有所不同,从而会为用户提供多种采取行动的选项。尽管大部分时候终端用户只想要一个最准确或者最高效的问题解决方案,但是在某些情况下,同样重要的是解决方案在给定的情境中要切实可行。这通常与输出结果性质和工作环境具体操作过程的对应程度有关。这可以称为解决方案的操作兼容性。
"计算思维是按照计算机可以有效执行的方式来构思问题,并表达其解决方式的思维过程。”它鼓励数据的逻辑组织、抽象和模式识别、重新阐述问题、提高过程效率以及自动化。这样做的主要好处之一是,该方法通常会为相同的问题提供多种解决方案。鉴于计算已经与理论和试验一起成为公认的第三大科学支柱,竞技体育组织的一个关键挑战在于招募具有计算思维的个人和团队,不管他们是否接受过该领域的正规培训。
计算思维为解决给定情境中所遇到的问题提供了一个理论框架。以前,人们往往会问计算机可以如何帮助他们开展科学研究,而现在开始问他们可以从计算机中学到什么科学知识。概念化以及最终以类似于计算机或机器的方式解决问题,是一种迫切需要在训练科学人力资源中培养的技能。如果源自科技的数据按照预期的那样持续增长,那么这种技能在未来只会变得愈发重要。
前面提到的分析性发展不仅为训练科学,也为一般的科学带来了认识论方面的挑战。如果数据持续以本章前面所描述的速度增长,那么显而易见的是,目前查询结构化数据库的方法将不再适用于得到新发现和学到新知识。当上述问题与深度学习和大数据计算的能力结合时,归纳法作为知识探索的一种科学方法,可以用来解决许多问题。这样,它可能会让科学探究背离其对理论开发的传统侧重点,而转向一种持续的模型升级和迭代。特别地,对于没有明确因果结构的复杂现象,理论应用将变得完全不适用和不可行。人们在人类表现方面仍然在获取大量的数据,在与人类表现相关的问题中,这还将让人们进一步背离现有的力求充分解释人类表现的工作模型。
然而,科学界可能需要一点时间才能习惯这种思维方式。现代的数据挖掘因将后收集数据的标准理论转换为先收集数据的方法而饱受批判。然而,如果对于复杂的现象来说,未来设计的模型将是递归的,那么就引出了一个问题-—到底为什么要理论化?而且,如果在大数据时代,“模式在问题的原因变得清楚之前出现”,那么先收集数据的方法可能实际上代表了一种前进路径。不论科学探索未来会发生什么,当应用于复杂任务时,机器学习和深度学习可能会持续出现胜过现有方法的进展,因为它们需要较少的人参与便能应对任何数据量和数据类型上的预期增长。
第4节 本章小结
数据挖掘应当成为当代科学训练师工具包的一部分。科学训练师为了引领研究的方向以及在应用环境中茁壮成长,最起码,现在有必要理解机器学习、决策支持系统等数据挖掘知识。本章总结了数据挖掘等的基础知识,并举例说明了这些领域如何让从事竞技体育工作的个人和组织直接受益。如果合理地加以使用,数据挖掘不仅有可能提高决策的准确度和效率,还有可能从根本上改变体育行业从业人员对训练科学的新理念进行概念化、落实以及评估的方式。
第20章 结束
赞赏将全部用于公益
截图时间:29/6/2024