(来源:网易https://m.163.com/all/photoview/0096/66232.html)
最近一段时间,各地一些公文开始频繁出现“砸锅卖铁”这个词,主要是源于网上流传的重庆璧山县和青海德令哈的文件,如果搜关键词,则会发现有更多地方成立“砸锅卖铁专班”。再仔细搜搜,你大概率也会知道这是哪个年代的人讲出来的话,深一点想想,也就不难理解为什么会如此干脆直接到有些粗俗的语言出现在官方文件中了。
从个人角度出发,我当然是非常不赞成这样的文风的。过去的公文写作经历,让我养成了对于文字严格推敲的职业习惯,以及对于文字所要表达内容的追求。
老实讲,我就是因为很多材料不符合公文文体,甚至符合最低标准的讲人话,所以厌恶公文写作以至辞职。从本质上来说,我厌恶的,就是不能好好说话。
1
语言作为工具,最主要的目标是交流。衡量语言的交流效果,用三个维度较为合适:简洁性、密度和精度。
简洁性:用更少的词汇表达相同的意思;
密度:单位时间内传递的信息量、某个词或短语传达的信息量;
精度:接收方对于信息的理解程度以及对于上下文的依赖程度。
而现在我所感受和体会到的,是汉语(普通话),越来越只在意简洁性,而“一刀切”式地忽略了信息密度和精度,以一种牺牲汉语潜力和发展的方式。
你可能没有明白我这句话是什么意思,但你一定理解在上句话中,“一刀切”是什么意思吧?
对,这就是我想说的,在铺天盖地的舆论引导中,“一刀切”这个词语完成了它的精度普及。作为接收者,我们在不知不觉中理解了这个词语的用法、表达方式、上下文等等。换句话说,我们再舆论引导中完成了一种别人刻意制造的语言的学习。
这意味着语言不再是自然生长、自然使用,拥有同一原则框架基础上的百花齐放,而成为了一种轨道式、指导式、定式的文法规矩。
这重要吗?这当然重要。
为什么重要?
2
因为语言即权利。
这也是我想讲的第二点。
学习大语言模型的缘故,这一年接触了一些语言学的知识,同时因为生活在瑞士德语区,所以多多少少对于德语和德语文化有一些了解。
鱼老师曾经说过他学习德语的感受,我觉得特别适合分享出来。他觉得德语里有一些词,通过组合的方式表达某种特殊的感受与情绪非常美。
例如:
Waldeinsamkeit,这个词由Wald(森林)和Einsamkeit(孤独)组成,它描述了一个特定的状态,指一个人独自在森林中漫步时产生的孤独感,以及与大自然的亲近的感受。
Fernweh,由Fern(远方)和Weh(精神的痛苦)组成,这是一个和思乡之情(Heimweh)相对的概念,在思乡之情中,Heim是家乡的意思,Heimweh则是对家乡的思念与痛苦。而Fernweh表达则是一种对未知与遥远彼岸的向往,一种未曾到过的远方的乡愁。
Sehnsucht,由Sehn(渴望)与Sucht(上瘾)所组成,一种痛苦渴望的疾病,表示的是一种对某些难以实现或不可及事物的深切而强烈的情感,常常用于形容一种深切的、无法满足的愿望,这种愿望是混合着欢乐和痛苦的复杂情感。
Wanderlust,由Wander(闲逛)和Lust(兴趣)组成,指的是一种旅行欲望,想要探索世界和旅游的强烈愿望。
再比如,在德语中,数字一是Ein,二是Zwei。Einsamkeit指的是(一个人的)孤独,那么Zweisamkeit指的则是一种二人世界的亲密感,描述的是与另一个人在一起时的亲密和亲近的感受,一种独特的只有二人的氛围。
再比如,最后还有就是一个Weltschmerz:世界之痛,也就是世界(Welt)和Schmerz(痛苦),形容一个人对世界的痛苦或不满感到的忧郁或悲观,一种对世界本质的深刻怀疑,一种更广泛的、与整个世界和人类状况相关的情感。
很美,对吗?
这实际上源于德语的一个特点,复合词。它能够让德语通过简单的叠加创造出新的词。
虽然在英文中也有类似于toothbrush,football,日语里也有"電子レンジ"(微波炉,直译为“电子炉”)这样的词,但无法像德语一样做到能够几乎是任意地将单词写在一起。
豆瓣网友曾经举过一个例子,德语中有一个词,长度创吉尼斯世界纪录:Donaudampfschifffahrtselektrizitätenhauptbetriebswerkbauunterbeamtengesellschaft。看起来很复杂对吧,但不过就是Donau(多瑙)dampf(蒸汽)schiff(船)fahrts(运输)elektrizitäten(电气)haupt(总)betriebswerk(车间)bau(建造)unter(附属)beamten(管理处)gesellschaft(协会)这些名词叠加起来而已,它的意思是:多瑙河汽轮电气服务行政管理处附属协会。
或许看到这里你依然不觉得有什么问题。
那我再告诉你几个词,都是二战时期德国纳粹使用的:
一个是:Endlösung der Judenfrage(犹太人最终解决方案)。其中,die Endlösung,不是the final solution,而是End(最终)Lösung(解决方案);
die Judenfrage, 不是the problem of the Jews, 不是 the Jewish problem,是而Juden(犹太人)Frage(问题)。
另一个是:der Judentransporte(犹太人转运),不是the transportation of the Jews,而是Juden(犹太人)Transporte(转运)。
还有一个是:das Konzentrationslager(集中营),不是 the concentration camp,而是Konzentrations(集中)Lager(营)。
通过复合词的形式,一个可能有些不合常理和荒缪的概念在语言体系中获得了完全的合法性和不容质疑的权威性。与此同时,组成语言的单词却又保持了相对的纯洁。Konzentration, Lager, End, Lösung 本身的意义没有被污染,依然能够很好地在任何语境中被中性地使用。
也正因如此,这些复合词被创造出来的时候,有相当大的迷惑性,没有人再去追问:为什么犹太人是一个问题?为什么犹太人需要被转运?为什么要把犹太人集中起来并最终将这个问题解决?
德语与中文其实极其相似,相似到我有时会觉得害怕。
一方面,应接尽接、静态管理、全域静默、围合式管理、三消一静措施、敲门行动、网格化管理、扫街扫楼扫村、即采即走即追......已成为新的语言在刻意引导下被接受;
另一方面,“肉夹馍挺住、热干面来了”“呕泥酱”“南方小土豆”等低幼化的词语,又显出精神的麻木。
金宇澄做客《十三邀》的时候讲过一段话:
年轻读者已经被培养成对三观不正特别敏感。还有一个最不好的词,叫‘渣男’。我特别不喜欢这样的话,人本身是非常复杂的东西,比如说《安娜·卡列尼娜》里的渥伦斯基,按照现在的口吻就是渣男,把这么复杂的人性变化用这么低能的一个词去涵盖,这太简单了。当然这可能因为是在网络上,用这么一个词就可以简单地来定义。但是分析文学作品,或者从事影视这一块,如果也用这个标准的话,真的是太幼稚了。
砸锅卖铁,说的就是这样一种幼稚。
3
好好说话,还有一个重要的原因,是因为人工智能时代的到来。
语言学中有一个名词叫类型学(typology),其中有个类型叫做指代密度(Referential density),讲的是语言在与它们往往忽略的事物相关的类型维度上有所变化。可以省略代词的语言称为代词省略(pro-drop)语言。一般来说,倾向于使用更多代词的语言比使用更多零(即不使用代词,零指代)的语言具有更高的指代密度。指代稀疏语言,例如中文或日语,需要听众进行更多推理工作以恢复先行词,也称为冷语言 (cold language);更加明确的语言以及使听众更容易使用的语言称为热语言(hot language)。
因为书写成本高,中文力求简约。与大多数字母文字相比,中文具有更强大的信息容量和压缩能力。同样的内容,汉语比英文要减少30%以上的页面。同时汉字数量庞大、笔画复杂、意音断裂、多音多意、语境微妙,使汉语成为世界上几乎最难以掌握的语言。我们虽然常说,中文博大精深,但如果从语言学这个角度出发,其实中文的口语与书面语处于严重分裂状态;这种分裂从某种程度上影响了中国在逻辑、哲学、法律和科学等领域的发展和进步,仅有文学和书法不受影响,保持了畸形的繁荣。
语言决定性格,所以从这个维度来说,为什么东亚文化相比于西方文化更加“含蓄”,或许也正是因为对话双方以及听众需要不断地去“揣摩”并且进行推导,而非热语言的直给。再发散一些来说,冷语言或许要比热语言更加有力量——无论是骂人还是褒奖,大量的留白和省略都给对方以充足的想象空间,如同水墨山水,理解多少,全凭见闻者本事。
但我们不是要去骂人,我们要面对的,是人工智能时代。
自然语言处理(NLP)是计算机科学和人工智能中的一个重要领域,专注于让计算机理解和使用人类语言。过去几十年,NLP 技术经历了许多变化,从最初的规则方法,到统计学习,最后到现在的深度学习。深度学习技术,尤其是像 GPT 这样的预训练语言模型的出现,使得 NLP 领域取得了很大进展。预训练模型是在大量文本上训练出来的神经网络,能够完成多种语言任务,比如文本分类和情感分析。
中文自然语言处理是自然语言处理领域的一个重要分支,涉及对中文文本的处理和理解。随着中文在全世界范围内的普及和使用,中文自然语言处理技术显得愈发重要。但,中文自然语言处理对于繁简转换、分词、词性标注等问题,仍然是一个挑战。换句话说,中文在自然语言处理的问题上,具有先天劣势。此外,中文语言的语法和表达方式也与英文等其他语言存在较大差异,这进一步增加了中文自然语言处理的难度。
而在另一面,以ChatGPT3 的训练语料库为例,汉语占比极低,仅有0.1%,而英语占到92%以上。这些语料主要来源于图书馆和互联网,其中互联网占据了绝大多数。
GPT-3训练数据集各语言占比情况
(来源:ChatGPT论坛,https://openaizh.com/?thread-157.htm)
在人工智能时代,汉语本身就面临着中文自然语言处理的天然劣势,而在这种先天劣势基础上,中文使用者还不能好好说话,一边搞低幼化,一边搞引导,语言被规训成为一种轨道文本,丧失活力和丰富性,雪上加霜地,进行阉割、屏蔽和和谐,包括一些大厂对内容做封闭等等......
如果一种文化或语言的资料不能被公开检索,那么它们在人工智能时代将面临被排除在外的风险。这种封闭性可能导致某些文明的语言变得如同古语版本,就像今天的少数民族语言一样。
我不愿意看到这一天到来,我想你也是。
RECOMMENDS