报告介绍
01
可信大模型的测试与评估
以 ChatGPT 为首的大模型迅速渗透到了人们的学习,工作和生活中。其表现出强大的通用人工智能能力让它们获得“人类历史上用户增长最快的软“1980年以来最大的技术革命”“第四次工业革命的件”开始”等诸多称号。可以说大语言模型将会成为下一代人工智能的重要基座模型,以及下一代智能软件的智能核心。
然而,大模型的输出并不是完全可靠的,经常会输出带有事实型错误,偏见,毒性的内容。考虑到其巨大的用户数量和广阔的应用场景,这种不可靠的回复将会产生诸多严重负面影响,尤其是将其应用到医疗,金融,法律和智能代码等领域。
本次报告介绍了作者最近两年对大模型可靠性和安全性方向的探索工作,分别从自动化软件测试和自然语言处理两个角度,研究了大语言模型的错误,毒性和偏见内容的检测和修复。
王文轩
香港中文大学计算机系博士
扫码备注「LLM安全」
一键预约直播
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧