面向娱乐活动的脑机接口——操控无人机
译:泰和利康-单家旭
主动(Active)脑机接口(Brain Computer Interfaces,BCI)允许人们对计算机系统施加自愿控制命令:经过一定时间的训练阶段(从10分钟到2个月),大脑信号被捕获,BCI把想象的动作(动作、概念)识别出来。目前,脑机接口被限制在实验室里,只有少部分经常在外面使用它们(例如帮助残疾人士)。我们提出了一种“联合学习脑机接口”(Co-Learning BCI,CLBCI),减少了训练量,使脑机接口更适合娱乐应用。我们复制了一个现有的实验,其中BCI控制无人机,并在三个实践期间(1天,1周,1个月)将CLBCI与其操作性条件作用(Operant Conditioning,OC)协议进行比较。我们发现,经过一个月的练习,OC的工作效率达到80%,而在此之前,OC的表现在60 - 70%之间。经过一周的实践,CLBCI的性能达到了75%左右。我们的结论是,CLBCI更适合娱乐用途。OC应该保留给主要关注性能的用户。
主动脑机接口(Brain Computer Interfaces,BCI)允许人们对计算机系统施加直接的自愿控制:他们的大脑信号被捕获,系统识别特定的想象动作(运动,想象,概念)。主动的脑机接口及其用户必须接受培训(10分钟至2个月)。这种技能也被称为脑机接口训练。这使得信号更容易被系统识别。这种获取可能需要10分钟到2个月的时间。因此,BCI可以应用于我们日常生活中的许多控制和交互场景,特别是与娱乐相关的场景[1]。
脑机接口主要用于实验室和医疗应用(例如闭锁综合症征患者的拼写器[1])。正如BNCI FP7路线图(脑/神经计算机交互FP7路线图)报告[2]所示,最多只有几十人在家中使用BCI。而且,作为一种新兴的新型交互技术,它们在激发人们的想象力和提供一种新的、愉快的交互方式方面具有良好的前景[3]。
例如,个人无人机的使用是一种新流行的现象,在我们的日常生活中扮演着越来越重要的角色。有一种“自拍无人机”,它可以从用户的手腕上起飞,拍摄“自拍”照片,这种无人机可以由BCI控制。最近新闻报道的BCI系统,控制无人机四轴飞行器[4]已经显示出在体验BCI控制的一般公众的浓厚兴趣。
在这个特殊的无人机驾驶应用程序中,BCI的训练协议被称为操作性条件作用(Operant Conditioning,OC),需要教会用户利用他们的大脑信号,并调整它们,使它们能够被计算机识别,这需要一到两个月的严格训练。脑机接口OC的替代方案是基于机器学习的训练协议,该协议记录一组心理行为或状态的典型大脑信号,并构建分类器来识别这些行为或状态。虽然训练时间较短(10-20分钟一次[5]),但这一过程需要用户持续集中注意力,比OC更容易出错,并且涉及到对用户的反馈[6],这并不吸引人。
这两种训练模式都不完全足以让人们以一种让他们想要再次尝试的方式来测试技术,甚至是为了享受而采用它。
在这项工作中,我们想要评估在短时间内产生交互式训练的BCI的可能性,并提供一种可行的替代OC和具备标准培训协议的方法。
我们引入了“联合学习BCI”(Co-learning BCI,CLBCI),它减少了BCI具备良好功能之前所需的初始训练量,并允许增量和交互式训练过程。我们想知道在完全使用BCI之前用户进行一次长时间的OC训练,还是在每次使用BCI之前进行一次短时间的CLBCI训练(质量、时间和控制程度的平衡)。我们特别感兴趣的是,通过评估OC和CLBCI是否能够兼容一个过度积极的用户体验,从长远来看会发生什么。此外,我们想知道什么时候OC比CLBCI更受青睐,反之亦然。
为此,我们在三个训练阶段各进行了一个实验:一天,一周,一个月。在所有的培训期间,我们将用户分成两组进行培训:一组使用CLBCI,另一组使用OC培训。我们想看看CLBCI是否在较短的训练周期内达到可接受的性能,同时将信号可变性的影响保持在最低限度。我们还要求用户填写非正式的问卷来分享他们的经历。
通过这个实验,我们想验证以下假设:
(H.1):在训练持续时间低于一个月的情况下,使用CLBCI比使用OC的任务表现更好。
(H.2):超过一个月的持续时间,OC会导致更好的任务绩效。
(H.3):尽管经过一个月的训练后,OC的表现会更好,但当用户想要使用BCI时,他们更愿意训练更短的时间,而不是花一个月的时间训练一次。
为了进行评估,我们将我们的系统应用于LaFleur等人[4]中使用的无人机驾驶任务,以驾驶AR.Drone(图1),并评估任务性能CLBCI与OC的比较。该任务和OC实现是LaFleur等人的实验协议的复制。我们使用相同的评估方法和培训方案。
我们首先介绍了脑机接口及其应用的背景信息,然后介绍了与控制应用和自适应脑机接口学习有关的一些相关工作。然后,我们提出了CLBCI系统,并继续实验方案和结果的分析和讨论。
在本节中,我们将介绍有关BCI系统的背景信息,然后继续研究人机交互和控制应用的最新技术和相关BCI研究。
·脑机接口
同步系统和异步系统之间存在一个明显的区别。在同步系统,在训练过程中,刺激总是以固定的时间间隔显示给用户,因为大脑的激活通常在刺激发生后以相对一致的延迟发生。在在线使用期间(训练后),在BCI生成输出命令之前,必须等待刺激发生[8]。在异步系统中,在线使用过程中没有刺激的同步,BCI可以在任何时刻使用,而不必等待刺激开始。额外的困难在于将目标活动与所有其他大脑活动的区分辨别[9]。脑机接口有许多范式,但在本研究中我们使用运动想象(Motor Imagery,MI)范式。MI要求用户在没有实际移动的情况下想象一个运动动作(向左/向右移动他们的手臂,轻敲他们的脚掌等)。这会引发了类似肢体移动了一样的激活,并可以被脑机接口检测到。MI是一种合适的模态,可以应用于直接控制应用,因为想象的动作与控制的方向相匹配(左手/右手向左/向右转,轻拍脚掌向下等)[1],因此与控制任务的固有语义相匹配。
·用于控制和娱乐应用的BCI
BCI的第一个应用领域是在HCI系统中使用它们进行直接进行控制[1],但也可以将它们结合在多模式设置中[10],结合一些更常见的交互模式(例如眼动追踪[11])。有很多实际应用:电子游戏,如《魔兽世界》、严肃游戏[12-14]、机器人和假肢[15,16];虚拟现实应用[17,18]。
有两种可能的控制范式:基于事件的控制(Event-Based Control),其中BCI用于触发接口中的离散事件;连续控制(Continuous Control),其中BCI用于直接控制接口中的对象或元素的移动(例如指针的移动)。
本文感兴趣的BCI的一个特定的连续控制应用程序,它用于驾驶无人机的3D导航。Royer等人[19]首先评估了在虚拟环境中对直升机进行二维控制的可行性,其次是Doud等人对3D控制的可行性[20]研究,其动机是实现远程呈现的手段。最后,LaFleur等人[4]将该技术应用于真实AR无人机的3D控制,通过对5名用户进行为期2个月的操作性条件反射训练,取得了良好的成功。最近,一个实际的二维BCI控制系统被证明[21,22]。该系统允许控制AR无人机,并在几分钟内完成一系列操作(左转/右转或起飞和降落)。这种类型的系统是异步的,并且在分类器和用户之间使用协同适应技术(Co-Adaptation),这是当前旨在将脑机接口带出实验室的研究工作的主要焦点。本研究中提出的系统也属于这一类,因此我们将回顾一些关于脑机接口协同适应技术的相关工作。
·异步BCI的协同适应技术
Scherer等[23]提出了一种异步BCI,通过三个MI类 + 一个非控制状态来控制虚拟环境。他们发现很难在异步情景中获得可靠的分类。为了解决这个问题,提出了几种方法。一种是通过对脑电信号进行协同适应,在脑机接口中增加一种新形式的特征选择过程,例如[24,25]扩展了Scherer等人的工作。初始同步校准阶段捕获来自每个类的无伪迹试次(Artifact-Free Trials),从而从六个可能的特征中选择一个特征来训练分类器。随后,在在线阶段,提供反馈,以便在新的无人伪迹试次可用时进行定期重新校准。
与其他最先进的方法相反,在我们的系统CLBCI中,共同适应阶段是由用户通过反馈回路驱动的,而不是由系统通过自动适应驱动的(我们称之为共同学习(Co-Learning)而不是共同适应(Co-Adaptation))。假设BCI也依赖于机器学习,并且反馈是基于从用户信号中增量捕获分类器的新训练样例。因此,CLBCI处于BCI自适应和交互式机器学习的交叉点[26],其中交互用于驱动分类器的训练。采用这种方法的动机是为用户提供更有吸引力的训练时间,因为仅仅按照固定间隔的指示进行长时间单调的训练会导致无聊和兴趣注意力的逐渐降低。虽然其他最先进的共同学习方法(Co-Learning)解决了需减少训练时间和最小化错误率的问题,但用户仍然是被动的:它不依赖于人类学习使用BCI的能力。
考虑到我们在实验中要评估的是人的学习成分,我们在实验中选择不对这些方法进行比较。
CLBCI系统与体系结构
CLBCI系统的体系结构基于最小距离分类(Minimum Distance Classification)。最小距离分类器(Minimum Distance Classifier,MDC)是一种简单的分类技术,它源于模式识别文献,被广泛使用(例如图像识别)[27]。它是最早应用于脑机接口的分类器之一,但大多被LDA线性判别分析(Linear Discriminant Analysis,LDA)或支持向量机(Support Vector Machine,SVM)等分类器所取代[8]。MDCs的缺点是对噪声和信号源分离不佳时很敏感,但它们已成功地与基于黎曼几何的散度(divergences based on Riemannian geometry)结合应用于脑机接口,并显现出达到最先进的性能[28]。在这项工作中,我们在其FastICA的实现中使用独立分量分析(Independent Component Analysis,ICA)在无监督环境中分离信号源,然后将距离测度应用于识别出的独立分量[29]。
·特征提取和分类
对于每次分类,我们取得当前的平均时段,并计算当前时段与每个类别参考信号之间的距离。分类结果将是距离当前时段最短的地方。然而,我们的间距度量在噪声信号下并不稳定。校准后,每个类别有一个单一的参考信号,但在提供反馈时,每个类别会添加更多的参考信号。当每个类别有多个参考时,将有多个距离测量,这种情况下,分类将由个别距离测量得出的分类输出的多数票决定。
类似地,假设使用多个EEG通道,如果我们使用单变量距离度量(single variable distance measures)(而不是多变量度量),我们将获得每个通道的一个距离值,其处理方式与在多个参考设置中相同。事实上,当有不止一个距离测量时,最小距离分类器变得类似于k近邻(k Nearest Neighbors,kNN)分类器。我们也可以考虑同时使用几种不同的距离度量,以达到相同的效果。本工作对该工作进行了扩展[30]。关于系统、接口和实现的所有细节都可以在[30]中找到。
该任务的目标是用户驾驶控制一架AR.Drone,并使其在5分钟的时间内连续通过大环(图2)。我们希望重现LaFleur等人[4]的实验,以便将OC(性能好,训练慢)与CLBCI的性能进行比较。我们想要观察用户的学习和性能是如何随着越来越长的训练时间(1天、1周、1个月)而变化的。我们认为,飞行四轴飞行器,尤其是带有BCI的四轴飞行器,是一项受用户欣赏的娱乐活动,这可以从之前的演示和展览的丰富程度中看出[21,22]。
·实验设置
我们使用了g.tec USBAmp脑电图放大器,放置了16个电极,采集率为512 Hz。我们在Win XP虚拟机上使用TOBI TiA3信号服务器,然后通过我们自己的TiA协议的java实现连接到我们的java BCI应用程序。
操作人员使无人机在实验开始时起飞,在实验结束时着陆。图4说明了无人机的命令。
·协议
我们比较了受LaFleur等人[4]启发的OC培训设置和我们的CLBCI架构在三种不同持续时间(1天,1周和1个月)下的用户学习(在多个会话中的性能进展)。因此,我们不能精确地复制LaFleur等人的实验[4],因为我们考虑的是更短的持续时间。
通过这个实验,我们想验证以下假设:
(H.1):在持续时间低于一个月的情况下,使用CLBCI比使用OC的任务表现更好。
(H.2):超过一个月的持续时间,OC会导致更好的任务绩效。
(H.3):尽管经过一个月的训练后OC的性能更好,但用户更喜欢在每次驾驶无人机之前训练5分钟,而不是花一个月的时间才能够第一次无人机驾驶。
我们对用户进行分组,他们在三种不同的OC和CLBCI持续时间内遵循相同的训练方案(6组)。
24名健康的年龄在23 - 44岁之间的脑机接口新手受试者参与了实验,因此我们将他们分成4人一组,每个Duration x System pair:
·1 day training (1.d): (1.d.CLBCI) CLBCI – 4 subjects; (1.d.oc) OC – 4 subjects;
·1 week training (1.w): (1.w.CLBCI) CLBCI – 4 subjects; (1.w.oc) OC – 4 subjects;
·1 month training (1.m): (1.m.CLBCI) CLBCI – 4 subjects; (1.m.oc) OC – 4 subjects.
在他们的论文中,对于操作性条件作用(Operant Conditioning),LaFleur等人遵循了一套精确的训练方案。首先,用户执行左/右方向和自上二下方向的1D指示任务,直到他们可以达到至少80%的性能。然后,用户执行一个2D光指示任务,将左、右、上、下组合在一起,直到达到80%的性能。然后,在实际驾驶无人机之前,他们的用户在无人机模拟器上进行了训练。他们的训练时间长达2个月,每次训练时间可能长达50分钟。选择80%作为理由是因为它是一个明显高于60%的可接受任务表现的任务表现(The rationale for choosing 80% is that it is a task performance that clearly lies above the performance and acceptable task performance of 60%)。60%被认为是可用的理由是,它远高于经验随机分类性能至少10%(4类45%,如本文中,Müller-Putz 等[31])。
对于我们的实验,对于OC条件,我们复制了相同类型的训练阶段,用户必须完成1D左/右指示(1D L/R)和上/下指示(1D U/D)训练,2D指示训练课程,无人机模拟器课程(DS)和无人机驾驶课程(RS)。
使用CLBCI,而不是遵循渐进式OC训练范式,我们要求用户一次对所有类进行4试次以上的单个训练,然后进行测试。测试阶段是直接包含用户参与的阶段:
·我们向用户解释如何循环使用这三种距离度量:这样他们就可以通过非正式地评估结果的分类准确性来确定导致最大数量的感知自我控制的度量。
·我们提供了调整分类器决策边界的可能性,以同样的方式在分类速度和准确性之间找到平衡。
·如果一些训练试次是错误的(用户报告他们分心或移动),我们可以实时删除单个训练试次。
一旦在最初的几个训练中确定了这些设置,用户就会记住它们,并开始使用自定义的BCI。
培训课程结束后,用户仍然执行模拟器课程(DS)和驾驶课程(RS)。我们将所有模拟训练长度固定为15分钟,将试驾训练长度固定为5分钟。在实验期间(1天,1周,1个月),我们将每种训练类型均匀分布,训练数相等,顺序如下:OC的1D L/R, 1D U/B, 2D, DS, RS, CLBCI的仅接口会话,然后是DS和RS。实验会话的确切时间表如图5所示。
·评估
我们像La Fleur等人一样,通过任务相关的度量来评估每个用户的内在表现:驾驶通过的环数(无人机成功通过的环数) - RA;当无人机与房间墙壁或环以外的物体碰撞的次数 - WC;环碰撞数 - RC;飞行时间:环间采集时间 - FT;训练长度,在一个训练期间的总飞行时间 - SL。从上述测量中,我们可以得出几个性能指标,这些指标将允许我们评估任务性能的不同方面。
·每次最大飞行的平均环数(Average Rings per Maximum Flight,ARMF),这允许我们在不直接考虑错误的情况下测量绝对任务性能。ARMF越高越好。
·平均环采集时间(Average Ring Acquisition Time,ARAT),ARAT越低,性能越好。
·正确率(Percent Total Correct,PTC),获取环数与环碰撞次数、壁面碰撞次数和获取环次数之和的百分比比较。PTC = RA/(RA+RC + WC)。
·有效正确率(Percent Valid Correct,PVC),获取环次数与撞墙次数和获取环次数的总和的百分比比较。因此,有效的环获取是没有直接发生墙壁碰撞的环获取。PVC = RA/(RA+ WC)。
·部分正确百分比(Percent Partial Correct,PPC),这里我们认为环碰撞是部分环获取,因此,PPC是环捕获和环碰撞次数之和除以环碰撞、壁面碰撞和环捕获次数之和的百分比。PPC = (RA+RC)/(RA+RC+WC)。
·BCI验证
我们执行了一个简单的验证,包括对一组未标记的信号进行分类,并使用10倍交叉验证将它们与每个类的一组参考信号进行比较。我们使用了系统中可以使用的三种距离测量方法,以便查看最佳距离(如果有的话)。这项分析是对两名受试者在10个疗程中捕捉到的信号进行的。现在我们可以查看离线分析的交叉验证结果,以根据表1中使用的距离度量来验证BCI系统。黑体是每个测量和每个科目的最佳结果。我们没有发现任何一种距离比其他距离有绝对优势:不同的实验对象的距离是不同的。因此,我们决定添加一个控件,允许动态切换在在线阶段使用的距离测量,以便它可以很容易地适应每个用户。
此外,我们为解释了99%方差的ICA组件计算ICA偶极子激活图,以检查激活不是由于人为因素造成的(图6)。我们可以看到,组件1-2对应于左手MI,而4-6对应于右手MI,尽管组件5和6似乎受到眼动伪像的轻微污染,但两者的累积方差百分比解释仅为5%。
·实验结果
考虑到每个条件的受试者数量,我们使用Shapiro-Wilk检验,发现p值p=0.234,这意味着没有足够的证据接受数据分布正态性的原假设是有效的。因此,我们使用Kriskal-Wallis检验来衡量显著的群体效应,然后使用Mann-Whitney-U检验进行事后两两分析,并对多重比较进行FDR p值调整。
图7以柱状图的形式显示了这五个指标的结果。误差条表示样本标准方差。所有三个百分比指标的总体趋势是CLBCI优于OC。总的来说,一天和一周的训练时间使CLBCI提高了约8%。然而,经过一个月的训练,OC表现更好(约3%的差异,OC为87%,CLBCI为84%)。虽然差异很小,但更多的训练(例如1-2个月)可能会给OC带来优势,然而,表现可能不会显著提高。我们观察到类似的ARAT趋势(1D和1W CLBCI的ARAT较低,然后OC的ARAT较低)和ARMF。一天的训练导致低PVC和PTC,但CLBCI的PPC是可以接受的。这意味着系统不是很好用。经过一周的训练,OC和CLBCI的表现提高了相同的量,因此它们保持了8%的差异。CLBCI具有75%以上的任务性能,一周后就可以使用了。
我们非正式地询问用户对体验的印象。大多数人觉得这个实验和经历很有趣,很愉快:这让他们很有动力表现得很好。一位用户说:“这真的很有趣!控制并不完美,但即使是我撞到东西的部分,至少可以说是相当有趣和令人兴奋的。”提出的主要问题是,BCI分类率缓慢,使四轴飞行器的平稳运动难以实现,此外,由于无人机用户的自动平衡系统觉得无人机的横向运动有时是突然的,“无人机有时表现得很奇怪”。来自OC组的用户抱怨说,训练任务有点无聊,他们希望能够更快地驾驶无人机。他们发现在训练结束时很难集中注意力。另一方面,来自CLBCI组的用户非常惊讶,他们可以驾驶无人机如此之快,并指出这激励他们走得更远,提高他们的表现。
从所有指标来看,CLBCI在训练时间长达一个月(H1)时表现更好,而OC训练在训练一个月后表现略优于CLBCI (H2)。这在我们的实验设置范围内验证了假设1和2。然而,在更广泛的用户实际使用范围内,我们没有足够的证据表明,在更长的训练时间内,OC的表现是否可能比连续使用CLBCI更好,或者CLBCI是否在更长的持续时间内超过OC。这意味着,要真正确定最佳培训实践,只需要非常长期的现场研究。
CLBCI在平均使用大约一周后达到可用性能,但是,当用户开始使用系统时,通过增加每个会话的训练量,我们可以在立即使用时获得更好的性能。
因此,我们可以进一步假设,随着时间的推移,如果我们对特定应用程序的分类性能感到满意,我们可以将训练时间与性能的增加成比例地减少,以便由于训练时间的缩短而获得恒定的性能和越来越舒适的使用。在这方面,从其他最先进的共同适应技术中集成隐性误差潜在检测将是有益的,并与我们自己的方法互补。当然,我们永远不能低于一次训练试验,这相当于几秒钟的训练。这一点是基本的,因为它意味着CLBCI和OC可能在用户中向相同的信号调制收敛。当然,不同之处在于长时间的培训,CLBCI允许已经拥有可用的系统,而使用OC则必须等到长时间的结束。
在关键的应用领域(再教育、假肢控制等),低于最佳可实现性能的任何东西都是不可接受的,因此,像CLBCI这样的系统在收敛到与OC相同的用户调制水平之前不会具有鲁棒性。然而,对于非关键任务,用户体验、舒适和享受是标准,那么像CLBCI这样的系统无疑是更可取的。基于来自CLBCI和OC组的非正式用户反馈,我们有一些证据表明我们的第三个假设(H.3)是正确的,然而,其准确性的明确证明将需要受试者内部实验设计和正式问卷评估,这与旨在评估绩效的时间演变的受试者之间设计不相容。
局限性和未来工作
主要的限制是信号的可变性。对于CLBCI,我们需要补充滤波来最小化噪声:我们的训练时间比监督系统短。处理成本很高:我们每秒可以分类两次,这限制了连续控制。训练时间的限制限制了我们在实际可用的系统中大约有四个动作。此外,低电极计数对于ICA来说并不理想,进一步的研究应该有完整的10-20个电极覆盖,以更好地执行CLBCI系统的验证。
构建信号数据库(从大量受试者为给定范式离线构建的脑电信号数据库,可用于生成无需训练的脑机接口)[32]可能有助于获得无需训练的脑机接口系统。
从技术限制出发,我们讨论了这项工作是初步的,因为评估是在体外(受控环境),持续时间相对较短。为了真正确定CLBCI和OC训练趋同的假设是否可能,需要进行长时间的原位实验。另一个限制是缺乏通过正式的问卷调查来定量研究用户体验。后续的现场研究应包括一份详细的调查问卷,以精确地衡量用户对培训方案的看法。最后,招募更多的受试者,并与同步监督系统进行比较,将有利于未来的实验。
我们提出了一种“联合学习脑机接口”(CLBCI),减少了初始训练量,使脑机接口更适合娱乐应用。我们复制了一个现有的实验,其中BCI控制无人机,并将CLBCI与他们的协议(OC)在三个实践持续时间(1天,1周,1个月)进行比较。我们发现,经过一个月的练习,OC的工作效率达到80%,而在此之前,OC的表现在60 - 70%之间。经过一周的实践,CLBCI的性能达到了75%左右。我们的结论是,CLBCI更适合娱乐用途。OC应该保留给主要关注性能的用户。实验是在一个相对短期的受控环境中进行的,为了有一个更准确的画面,我们需要在长期(1年以上)进行进一步的原位研究。根据我们的观察,很可能CLBCI(但更普遍的是共适应异步BCI)和OC最终收敛到相同的性能,用户已经学会了正确地调制他们的信号。总之,本文提出和讨论的挑战和方法表明,还有许多进一步研究的机会。我们已经为这一领域的研究人员确定了有希望的方向和可行的想法(更短的初始培训,共同学习)。因此,我们希望激发能够在日常应用中释放BCI全部潜力的工作。