为什么 中文 不 需要 空格

文化   2024-11-10 16:26   河南  

当我们阅读英文时,如果单词之间没了空格,一个句子在我们看来会变成!@#¥%……&*()这样的一串近似乱码的字符。然而,当我们在中文句子的词与词之间添加空格时,似乎又显得有些冗余,例如 当 你 看到 这 句 话 的 时候……


不加空格的英文与加空格的中文

(图片来源:编辑自制)


事实上,即使对于英语母语者来说,用空格分隔单词对阅读也是十分必要的。那么,为什么英语需要空格来分隔单词,而中文却不需要呢?这种差异背后有什么深层原因?中国科学院心理研究所的科学家们通过研究,发现这里面有一个“经济”问题。


空格自带“信息量”,中英文里还不一样


英语作为一种字母书写系统,每个字母表示一个音素,通常由多个字母组成一个单词。英语文本用空格清晰而明确地标记了一个词的起始和结束位置,即词边界。中文就不需要标记词边界么?


中文是一种典型的表意书写系统,每个汉字表示一个音节或语素。中文文本由连续的汉字组成,不同的词之间没有用空格分隔。大多数中文词可以用一到两个汉字表示,词长较短且变化较小(平均词长为1.40个汉字,标准差为0.57)。因此,中文读者在阅读时容易预测词的长度,从而更快识别词的开始和结束位置,即中文词边界位置的不确定性较小


相比之下,英语单词往往由多个字母组成,且词长的变化较大(平均词长为3.78个字母,标准差为2.04),这使得英语读者较难预测每个单词的开始和结束位置,即英语词边界位置的不确定性较大


研究者基于大规模语料库,运用信息论方法量化了27种语言中空格为确定词边界提供的信息量。研究结果表明,不同书写系统是否采用空格标记词边界与空格提供的词边界信息量有关:在采用空格的书写系统如英语中,空格提供的信息量更大(2.90比特);而在不采用空格的书写系统如中文中,插入的空格提供的信息量更小(1.10比特)。


27种语言中词间空格为确定词边界提供的信息量


空格信息量差异的根本原因与不同书写系中词边界位置的不确定性有关。中文词边界位置的不确定性较小,即使在词和词之间插入空格,其为确定词边界提供的额外信息有限;而英语词边界位置不确定性较大,词间空格可以为确定词边界提供更多的信息量。


空格的“信息量”,对读者到底有啥用?


空格为词边界提供的信息量反映了在阅读无空格文本时,读者为词切分付出的认知努力。


在没有空格的情况下,读者需要将一行连续的字符串切分为不同的词,即词切分,也就是平时我们所说的“断句”。在这个过程中,读者需要利用语境信息和语言知识进行词切分。并且在一些情况下词切分的结果可能是错误的,这时读者需要检测和修正词切分错误。例如,不少读者在看到“世界杯中日韩进入16强”这一新闻标题时,会将其切分为“世界杯/中日韩/进入16强”。而在阅读了新闻内容后,读者发现新闻并不像预想的那样,从而意识到切分错误,并将标题的切分修正为“世界杯中/日韩/进入16强”。   


读者在词切分过程和检错纠错过程中付出的认知努力都将影响阅读速率。英语的空格信息量较大,文本去掉空格后,读者需要付出更多认知努力进行词切分,更容易出现词切分错误;但中文如果在文本中插入空格,空格提供的信息量较小,读者不需要付出太多认知努力切分无空格文本。因此,英语倾向于使用空格以减少词切分的认知负担,而中文则选择不使用空格。


与该研究发现一致,以往研究表明改变词边界的标记方式对不同语言读者的阅读效率产生了不同影响。这些研究发现,在空格信息量较大的书写系统(如英语)中去掉空格,阅读速率大幅下降约50%;而在空格信息量较小的书写系统(如中文),即使插入空格,阅读速率也不会显著提升。


词边界的标记方式对阅读效率的影响


用空格与不用空格,都是为了更“经济”?


英语选择用空格,中文选择不用空格,这可能都是为了实现阅读的经济性而做出的选择。


在阅读时,一个注视点的视觉感知范围有限,空格的插入会导致读者在一个注视点上感知的字符变少,从而降低视觉感知效率。对中文而言,插入的空格提供的信息量小,读者不需要付出太多的认知努力切分无空格的文本。因此,在中文中空格为词切分带来的效益不足以抵消它在视觉感知方面导致的代价,故中文不采用空格是更经济的。相对地,英语等字母书写系统中空格提供的信息量较大,去掉空格会导致读者付出更多的认知努力进行词切分。因此,对于英语,空格为词切分带来的效益远大于它在视觉感知方面导致的代价。


由此可见,虽然不同书写系统或采用或不采用空格标记词边界,但都是为了达到高效阅读,在权衡词切分需要付出的认知努力和阅读时的视觉加工效率后,选择了更经济的词边界标记方式。


历史演化的证据


从字母书写系统的演化历史来看,人们逐渐改革书写系统,以实现最经济的词边界标记。


历史上,字母书写系统并非始终使用空格标记词边界。由于转录的口语中没有词边界信息且书写材料昂贵,早期书写文本中没有空格。读者为了理解文本意义不得不出声阅读,导致阅读效率较低。这一时期的书写系统仅由少数抄写员或传教士使用。直到文艺复兴时期,随着大众阅读需求增加,这些书写系统才逐渐加入词间空格,提高了识字率和阅读效率。由此可见,字母语言中加入词间空格这一书写系统的变革逐渐适应了人类的认知需求,更符合经济性原则。


相较之下,中文文本在历史上一直没有使用空格来标记词边界。标点符号的使用降低了中文文本的阅读难度,使句子边界更加清晰,帮助读者更快理解句子的结构和意思,从而提高了阅读效率。


然而,即使在使用标点符号后,中文仍未像字母语言那样采用词间空格。这表明标点符号的使用足以减轻中文读者阅读中的认知负荷,而空格带来的额外效益不足以抵消其对视觉加工效率的负面影响。中文这种与字母书写系统不同的演化路径也同样遵循了经济性原则,在保留原有书写形式的基础上,通过较少的改动有效提升了阅读效率。


参考文献:

[1] Bai, X., Yan, G., Liversedge, S. P., Zang, C., & Rayner, K. (2008). Reading spaced and unspaced Chinese text: Evidence from eye movements. Journal of Experimental Psychology: Human Perception and Performance, 34(5), 1277–1287.

[2] Gibson, E., Futrell, R., Piandadosi, S. T., Dautriche, I., Mahowald, K., Bergen, L., & Levy, R. (2019). How efficiency shapes human language. Trends in Cognitive Sciences, 23(5), 389–407.

[3] Huang, L., & Li, X. (2020). Early, but not overwhelming: The effect of prior context on segmenting overlapping ambiguous strings when reading Chinese. Quarterly Journal of Experimental Psychology, 73(9), 1382–1395.

[4] Huang, L., & Li, X. (2023). The effects of lexical-and sentence-level contextual cues on Chinese word segmentation. Psychonomic Bulletin & Review, 31, 293–302.

[5] Huang, L., Reichle, E. D., & Li, X. (2024). Comparative Analyses of the Information Content of Letters, Characters, and Inter-Word Spaces Across Writing Systems. Annals of the New York Academy of Sciences, 1537(1), 129–139.

[6] Huang, L., Staub, A., & Li, X. (2021). Prior context influences lexical competition when segmenting Chinese overlapping ambiguous strings. Journal of Memory and Language, 118, 104218.

[7] Li, X., Huang, L., Yao, P., & Hyönä, J. (2022). Universal and specific reading mechanisms across different writing systems. Nature Reviews Psychology, 1(3), 133–144.

[8] Ma, G., Li, X., & Rayner, K. (2014). Word segmentation of overlapping ambiguous strings during Chinese reading. Journal of Experimental Psychology: Human Perception and Performance, 40(3), 1046–1059.

[9] Rayner, K., Fischer, M. H., & Pollatsek, A. (1998). Unspaced text interferes with both word identification and eye movement control. Vision Research, 38(8), 1129–1144.

[10] Shannon, C. E. (1948). A mathematical theory of communication. Bell System Technical Journal, 27(3), 379–423.

[11] Veldre, A., Reichle, E. D., Yu, L., & Andrews, S. (2023). Understanding the visual constraints on lexical processing: New empirical and simulation results. Journal of Experimental Psychology: General, 152, 693–722.


作者:黄林洁琼
作者单位:中国科学院心理研究所



文章首发于科学大院,仅代表作者观点,不代表科学大院立场。转载请联系cas@cnic.cn




来源:科学大院

编辑:网络科普部  嘉铭

审核:网络科普部  艺雯


免责声明:本微信公众号所发表内容注明来源的,版权归原出处所有。转载内容(文字、图片、视频等)主要用于科学传播和普及,如有侵权,请联系本公众号删除。



欢迎关注河南省科技馆

地址:郑州市郑东新区郑开大道100号
邮箱:henankejiguan@sina.com


河南省科技馆
在这里体会科学的乐趣,在这里品尝知识的味道!欢迎来到河南省科学技术馆~
 最新文章