//
随着大语言模型技术的不断发展,解决语言表示和效率的不平衡问题变得至关重要。
1
你讲的语言是高资源还是低资源
2
低资源语言在大语言模型
中的代表性仍然不足
3
英语是大语言模型
最有效的“编程语言”
翻译同一文本后的长短
有人对公共互联网上谷歌隐私政策的不同语言翻译进行了评估。
以下是按字符总数排名的语言示例:
语速和简洁度
另一项研究测量了说话的速度,基本假设是“不简洁的语言要更快的说”。
研究发现,说西班牙语和日语的人语速很快,而说汉语和越南语的人语速很慢。如果以越南语的简洁度为1,那语言简洁度有以下排名:
4
ChatGPT的词汇主要是英语
写作效率 != 提示效率
ChatGPT对语言的编码凸显在了在token的使用效率上。例如,中文字符“猫”由三个token(十六进制值:\xe7、\x8c、\xab)表示,而英语单词“cat”则仅需一个token表示。
两个其他语言的例子:克林贡语(Klingon)和爪哇语(Javanese)
大语言模型对一个语种的支持取决于该语种是否被包含在标准字符编码系统 Unicode中。如果Unicode缺少了某种语言,那大语言模型也不会支持这种语言。
克林贡语(Klingon)
克林贡语是《星际迷航》宇宙中的一种人造语言,但Unicode中却没有这种语言。
因此,由于缺乏Unicode支持,ChatGPT等大语言模型无法读取或处理克林贡语脚本。如果人类在ChatGPT基础上实现了通用人工智能(AGI),那在马斯克发往火星的飞船上听到了克林贡语是理解不了的。
爪哇语(Javanese)
印度尼西亚爪哇岛有6800万人口使用爪哇语,它与编程语言Java有着独特的历史联系。
尽管Java在推动Unicode在编程语言中的采用方面发挥着关键作用,但爪哇语言本身直到2009年才得到Unicode的正式支持(Unicode 5.2版)。这种延迟的纳入凸显了非西方语言在获得 Unicode 等全球标准认可方面所面临的挑战。
5
甚至美国参议员也认识到“en”
与其他语言的不平衡
6
总结