澳大-南师 语料库与数字人文暑期学院
第一讲
如何测试ChatGPT的语义理解与常识推理水平
时 间:2024年8月10日
14:30-17:00
主讲人:袁毓林
澳门大学人文学院中国语言文学系 讲座教授
直播链接:http://live.bilibili.com/1728480216
内容提要
ChatGPT 等大语言模型在语义理解和常识推理方面表现优秀,其技术奥秘在于模型开发者在对词语进行向量表示时,遵循分布式语义学原理,采用了“嵌入”这种代数方法。但是,经典的测试语言运用等智能水平的“图灵测试”,难以识别欺骗回避等作弊手段,因此,计算机科学家设计了“新图灵测试”,其中的威诺格拉德模式挑战与语言学关系密切。这一模式以代词消歧为测试点设计句子对和问题,但是经过大规模语料训练的语言模型可以凭借词汇上的统计相关性,而不是靠真正理解句子的意义来给出正确答案。为克服这一缺陷,学者们又发展出WinoGrande数据集,提高了数据的规模和难度,确保它们无法通过网络搜索等手段来得到正确答案。我们用威诺格拉德模式设计了无偏向双重句子对测试 ChatGPT,展示了大语言模型在语义理解和常识推理方面已达到接近人类的水平。当然,从具身模拟假说来看,大语言模型不可能像人一样富有体验性地理解人类自然语言。最后,我们呼吁:语言学家应该积极参与构建WinoGrade测试集之类的工作,在人工智能时代扩展自身的学术研究领域。
主讲人简介
主办单位
澳大-南师 语料库与数字人文暑期学院