与市场上的交互相关的几个常用词汇,如GUI、VUI和DUI。
GUI(图形用户界面)是市场上最常见的交互方法。触摸和滑动为主要的输入法。图像显示是主要的输出方式。
VUI (Voice User Interface)语音接口,通常用于无屏幕的智能扬声器/耳机,依赖于音轨输入和音轨输出。
DUI (Dialogue User Interface,对话用户界面)对话界面,当然还有一个术语叫CUI (Conversational User Interface,会话用户界面),比如苹果的SIRI或者某种对话机器人,它使用对话窗口作为主要的功能界面。这种方法是一种混合方法,包括熟悉的ChatGPT。
为了促进理解,使自己更容易沉浸在角色中,并理解交互模式,每个人都需要在有限的条件下体验它们。只有封闭自己的功能,才能达到身临其境的状态,从而理解两种不同形式的互动之间的差异。把自己想象成:
听力和发音正常的盲人,以及视力和四肢正常的聋哑人。
GUI(图形用户界面)图形界面
特点:使用鼠标和键盘,手指触摸为主要输入方式,图形显示为输出方式。简单地说:与硬件的实际交互。目前市场上最常见的交互方式。
VUI (Voice User Interface)语音接口
特点:语音作为输入,语音作为输出。如果你能听到和发音,那么你可以使用VUI。简单地说,移动耳朵和嘴巴与硬件相互作用。未来一定会以互动的方式进入我们的生活。
在日常生活中,有很多两手都被占用的场景。如果有一个好的VUI解决方案,那么就有交互空间。
解放双手是一种特性,不足以成为一种优势,而是针对特定情况的解决方案。
VUI的缺点是它只能在安静和私密的环境中使用。在公共场合使用时,难免会引起别人的注视,进而对自己造成心理压力。GUI没有输入压力问题,只依赖于光。
输入速度是VUI的一个巨大优势,只要说出你需要什么,然后通过ASR将其转换为文本,由计算机理解并通过命令执行。
GUI界面显示的信息过多。如果你不熟悉它,你需要确定在哪里点击(如果你教老年人如何使用智能手机来理解他们的痛苦)。有时候,还需要调用键盘,而且输入速度很慢。
触摸播放周杰伦的《烟花易冷》可能会非常昂贵(打开应用程序,搜索搜索框,输入特定信息,搜索,从列表中选择要播放的播放器)。而且使用VUI,成本非常低。
VUI可以忽略层次结构,用一句话直接达到目的。例如,打2020年NBA全明星赛第四节,或者打开应用的签到功能/活动页面,都可以直接到达熟悉的地点。
另一方面,GUI是一个预先确定的交互路径,它强制用户沿着单个路径完成操作。对于每一个正确或错误的操作都会给出反馈,并通过信息结构的层次来显示指定的内容,这非常方便人们学习和探索规则,所以这不是缺点,而是一个特点。
VUI的缺点是人的输入是不可控的,使得计算机很难理解。
用户的发音模糊;性能依赖于ASR(自动语音识别)技术。
人类的表情变化很大,而且不合逻辑。上下文表达可能使用指称关系,这可能导致歧义或双关。而计算机推理难度更大,这就考验了自然语言处理(NLP)的能力。
GUI的优点是输入精确,对任何操作都有边界约束,过程可控,选择清晰,便于计算机理解。
交互是一个双向的过程,语音作为输入动作确实非常快,而纯语音输出效率非常低。几乎没有人愿意做太多的等待行为。而且语音输出所携带的信息量非常小。
例如,展示2020年福布斯排名前10的结果,语音输出的效率是一个悲剧。视觉层面可以显示无限量的内容,可以以表格图形的形式显示,眼睛接收的效率也非常高。
在计算机输出的过程中,语音输出要求人们不要分心,消耗注意力,而视觉显示则不需要,即使分心,也没有压力。
在语音交互的过程中,如果有多轮交互,让计算机在说话后立即做出决策,势必会给人压力。GUI没有这个过程。
例如,一个简单的票务业务查询结果可以帮助您查找从[城市]到[城市]的出发时间。你需要预订这张票吗?
语音回放完成后,我需要思考和比较吗?如果我想更新查询条件,我应该如何处理语音?这是留给GUI的,它很容易处理。
在此基础上,让我们来全面了解一下这两种交互形式的优缺点。
基本特征
VUI语音交互的特点是解放双手,用嘴来操作。在某些业务场景中,当双手都被占用时,需要通过语音命令来实现目标。(作者指出:GUI交互永远无法被编写出来。真奇怪,你不用动嘴也不用靠光就能解决问题。)
VUI语音交互依赖于安静私密的环境,在公共场所使用它存在压力。声音输入和声音输出都可以通过空气这一介质传播。尽管耳机可以管理计算机的输出行为,但人的输入行为仍然可以吸引旁观者。这限制了VUI的使用场景。
掌握了VUI的基本特性后,就有了寻找VUI使用场景的方向,即
照明不是很好,不方便触摸和操作。
两只手都被占用了,不方便触摸。
隐私,安全,没有场景
无压力语音的场景
所以目前看来,卧室、客厅、汽车等相对私密的空间是VUI的主要互动场合。
驾驶时双手都被占用,VUI有发挥的空间。
当骑自行车或跑步锻炼时,VUI有改进的空间。
我晚上关了灯,不想让我的眼睛睁开。VUI有发挥的空间。
当快递员/快递员送东西时,VUI就有发挥的空间。
输入性能
GUI是预设的交互路径,而VUI关注的是如何利用语言和图像的强大力量,使用人们的日常语言进行交流。
GUI需要人工适配工具。VUI是一种适应人的工具。
语音输入的门槛非常低,只要会说话就可以模仿,而且输入速度快,相比GUI有巨大的优势。图形化界面有相当大的学习门槛,难点在于利用老年人了解手机的委屈状态,比如“这个上面有这么多字,这么多按钮,不知道该点哪里”、“记不起来太多了”。
VUI的另一个优点是它没有UI层次结构,可以直接用一句话表达,这对于熟悉的东西有很大的优势。没有必要像GUI那样通过层次关系进行所有的操作。GUI的特点是过程清晰,对于复杂的过程,层次关系解释得很清楚。
VUI的巨大缺点是用户输入的表情是不可控的,这是自然语言处理的核心,即如何让计算机理解人类的各种表情。另一方面,图形界面具有非常可控的输入,并且易于计算机理解。
交互性能
VUI语音输出效率很低,且依赖于注意力。这是一个巨大的劣势。对于GUI来说,这是一个巨大的优势,不需要人们太过关注。
VUI反馈设计注定不会输出大量的内容,表现最好的仍然是GUI。在多轮对话中,尽量控制用户的表达范围,以获得更好的体验。
基于输入表示和交互表示,我们获得了处理VUI交互的方向,即
用户可以用一句话处理熟悉的任务
决策压力小的任务。
管理用户输出,让他们做多项选择或填空问题。
语音输出的内容不宜过长。
不允许用户执行挑剔的任务。
总之,只有了解它的优点和缺点,才能方便开展业务。
附件是智能音箱的当前技能列表。作者总结了他们的理解,这是目前市场上比较成熟的语音交互技能。
作者:饭大官人
来自嗡嗡设计中心公众号