当我们阅读英文时,如果单词之间没了空格,一个句子在我们看来会变成!@#¥%……&*()这样的一串近似乱码的字符。然而,当我们在中文句子的词与词之间添加空格时,似乎又显得有些冗余,例如 当 你 看到 这 句 话 的 时候……
不加空格的英文与加空格的中文
(图片来源:编辑自制)
事实上,即使对于英语母语者来说,用空格分隔单词对阅读也是十分必要的。那么,为什么英语需要空格来分隔单词,而中文却不需要呢?这种差异背后有什么深层原因?中国科学院心理研究所的科学家们通过研究,发现这里面有一个“经济”问题。
空格自带“信息量”,中英文里还不一样
英语作为一种字母书写系统,每个字母表示一个音素,通常由多个字母组成一个单词。英语文本用空格清晰而明确地标记了一个词的起始和结束位置,即词边界。中文就不需要标记词边界么?
中文是一种典型的表意书写系统,每个汉字表示一个音节或语素。中文文本由连续的汉字组成,不同的词之间没有用空格分隔。大多数中文词可以用一到两个汉字表示,词长较短且变化较小(平均词长为1.40个汉字,标准差为0.57)。因此,中文读者在阅读时容易预测词的长度,从而更快识别词的开始和结束位置,即中文词边界位置的不确定性较小。
相比之下,英语单词往往由多个字母组成,且词长的变化较大(平均词长为3.78个字母,标准差为2.04),这使得英语读者较难预测每个单词的开始和结束位置,即英语词边界位置的不确定性较大。
研究者基于大规模语料库,运用信息论方法量化了27种语言中空格为确定词边界提供的信息量。研究结果表明,不同书写系统是否采用空格标记词边界与空格提供的词边界信息量有关:在采用空格的书写系统如英语中,空格提供的信息量更大(2.90比特);而在不采用空格的书写系统如中文中,插入的空格提供的信息量更小(1.10比特)。
27种语言中词间空格为确定词边界提供的信息量
空格信息量差异的根本原因与不同书写系中词边界位置的不确定性有关。中文词边界位置的不确定性较小,即使在词和词之间插入空格,其为确定词边界提供的额外信息有限;而英语词边界位置不确定性较大,词间空格可以为确定词边界提供更多的信息量。
空格的“信息量”,对读者到底有啥用?
空格为词边界提供的信息量反映了在阅读无空格文本时,读者为词切分付出的认知努力。
在没有空格的情况下,读者需要将一行连续的字符串切分为不同的词,即词切分,也就是平时我们所说的“断句”。在这个过程中,读者需要利用语境信息和语言知识进行词切分。并且在一些情况下词切分的结果可能是错误的,这时读者需要检测和修正词切分错误。例如,不少读者在看到“世界杯中日韩进入16强”这一新闻标题时,会将其切分为“世界杯/中日韩/进入16强”。而在阅读了新闻内容后,读者发现新闻并不像预想的那样,从而意识到切分错误,并将标题的切分修正为“世界杯中/日韩/进入16强”。
读者在词切分过程和检错纠错过程中付出的认知努力都将影响阅读速率。英语的空格信息量较大,文本去掉空格后,读者需要付出更多认知努力进行词切分,更容易出现词切分错误;但中文如果在文本中插入空格,空格提供的信息量较小,读者不需要付出太多认知努力切分无空格文本。因此,英语倾向于使用空格以减少词切分的认知负担,而中文则选择不使用空格。
与该研究发现一致,以往研究表明改变词边界的标记方式对不同语言读者的阅读效率产生了不同影响。这些研究发现,在空格信息量较大的书写系统(如英语)中去掉空格,阅读速率大幅下降约50%;而在空格信息量较小的书写系统(如中文),即使插入空格,阅读速率也不会显著提升。
词边界的标记方式对阅读效率的影响
用空格与不用空格,都是为了更“经济”?
英语选择用空格,中文选择不用空格,这可能都是为了实现阅读的经济性而做出的选择。
在阅读时,一个注视点的视觉感知范围有限,空格的插入会导致读者在一个注视点上感知的字符变少,从而降低视觉感知效率。对中文而言,插入的空格提供的信息量小,读者不需要付出太多的认知努力切分无空格的文本。因此,在中文中空格为词切分带来的效益不足以抵消它在视觉感知方面导致的代价,故中文不采用空格是更经济的。相对地,英语等字母书写系统中空格提供的信息量较大,去掉空格会导致读者付出更多的认知努力进行词切分。因此,对于英语,空格为词切分带来的效益远大于它在视觉感知方面导致的代价。
由此可见,虽然不同书写系统或采用或不采用空格标记词边界,但都是为了达到高效阅读,在权衡词切分需要付出的认知努力和阅读时的视觉加工效率后,选择了更经济的词边界标记方式。
历史演化的证据
从字母书写系统的演化历史来看,人们逐渐改革书写系统,以实现最经济的词边界标记。
历史上,字母书写系统并非始终使用空格标记词边界。由于转录的口语中没有词边界信息且书写材料昂贵,早期书写文本中没有空格。读者为了理解文本意义不得不出声阅读,导致阅读效率较低。这一时期的书写系统仅由少数抄写员或传教士使用。直到文艺复兴时期,随着大众阅读需求增加,这些书写系统才逐渐加入词间空格,提高了识字率和阅读效率。由此可见,字母语言中加入词间空格这一书写系统的变革逐渐适应了人类的认知需求,更符合经济性原则。
相较之下,中文文本在历史上一直没有使用空格来标记词边界。标点符号的使用降低了中文文本的阅读难度,使句子边界更加清晰,帮助读者更快理解句子的结构和意思,从而提高了阅读效率。
然而,即使在使用标点符号后,中文仍未像字母语言那样采用词间空格。这表明标点符号的使用足以减轻中文读者阅读中的认知负荷,而空格带来的额外效益不足以抵消其对视觉加工效率的负面影响。中文这种与字母书写系统不同的演化路径也同样遵循了经济性原则,在保留原有书写形式的基础上,通过较少的改动有效提升了阅读效率。
由于微信公众号乱序推送,您可能不再能准时收到墨子沙龙的推送。为了不与小墨失散,请将“墨子沙龙”设为星标账号,以及常点文末右下角的“在看”。
转载微信原创文章,请在文章后留言;“转载说明”在后台回复“转载”可查看。为了提供更好的服务,“墨子沙龙”有工作人员就各种事宜进行专门答复:各新媒体平台的相关事宜,请联系微信号“mozi-meiti”;线下活动、线上直播相关事宜,请联系微信号“mozi-huodong”。
墨子是我国古代著名的思想家、科学家,其思想和成就是我国早期科学萌芽的体现。墨子沙龙的建立,旨在传承、发扬科学传统,倡导、弘扬科学精神,提升公民科学素养,建设崇尚科学的社会氛围。
墨子沙龙面向热爱科学、有探索精神和好奇心的普通公众,通过面对面的公众活动和多样化的新媒体平台,希望让大家了解到当下全球最尖端的科学进展、最先进的科学思想,探寻科学之秘,感受科学之美。
墨子沙龙由中国科学技术大学上海研究院及浦东新区南七量子科技交流中心主办,受到中国科大新创校友基金会、中国科学技术大学教育基金会、浦东新区科学技术协会、中国科学技术协会及浦东新区科技和经济委员会等支持。
关于“墨子沙龙