上海话大模型
一款名为“小沪”的上海话大模型于11月9日在上海大学举行的第六届中国数字人文年会上亮相。当用英语或者是普通话与之对话的时候,它能“听懂”,还能用上海话进行交流,让人感觉进入了上海话版电视剧《繁花》的意境,能感受到独特的海派文化魅力。
被命名为“小沪”的上海话大模型是上海大学打造数字城市上海“繁花”大模型的组成部分,是上海大学集中学科优势攻关地方特色的方言大模型的一项重大成果。这一带有卡通数字人形象的智能体由上海大学上海美术学院教授何晶晶设计。著名语言学家、上海话研究专家钱乃荣教授编撰了《上海话大辞典》,发明了上海话输入法。作为上海话研究重镇,以“上海”城市命名的上海大学长期以来积累了这样最优质最丰富的上海话语料,该模型基于钱乃荣等方言专家“听说读”大量语料。同时,大学配备了实验语音学实验室、AI集成与部署专家。
发布会照片
虽然此次惊艳亮相,但是“小沪”的真正上市与广泛应用,还有一段较长的道路需要去跋涉。团队成员介绍说,上海话资源相对较少,最大难点是要建设高质量的数据集。目前团队正在攻关开发语音识别和人工转写系统,构建更大规模的高精度上海话语料库,希望上海市相关部门和社会各界给予关心和帮助。
团队经过近半年的语料收集和标注,上千小时的语音训练以及对比测试等,研发人员初步建成上海话大模型1.0版本。智能体“小沪”的形象设计灵感来自上海市市花白玉兰与上海大学校徽,由上海美术学院建模与设计完成。
小沪形象
未来团队还将对模型进行升级,根据计划,经过改进后的2.0版本,将实现上海话与上海话之间的顺畅交流,并开发男生、童声等个性化的版本。发展到3.0版本的“小沪”,将增加演唱方言歌曲的功能。随着技术的不断升级,“小沪”的应用场景和领域也会不断拓展,社会服务功能不断增强,可广泛用于上海话AI助手——助老语音服务、上海话主播、上海话语伴、上海话客服、上海话教学、上海话与外语的即时互转互译等。
发布会现场
上海话大模型研发团队负责人曾军表示,团队希望将这个项目做成有利于人才培养、科学研究、社会服务和文化传承的项目。近期他们在筹划准备发布基于上海话模型的创新创业大赛的项目,希望有更多的有志青年能够加入到团队,参与到这个大工程中来,做好更多的成果转化。
发布会现场
对于小沪的应用前景,曾军表示:“希望能够通过上海话模型的成功实践,转化到其他的垂类模型的训练过程之中,实现人文社会科学的知识创新AI赋能,这可能是我的想法。让AI学会讲上海话不是目的,真正的目的是让上海话更好地在人类语言中获得传承、创新和发展,这才是我们真正的目标。”
上海话专家、上海大学中文系副教授丁迪蒙近年来为推广海派文化,传承和保护上海话做出了大量的努力。她表示,随着普通话的普及和年轻人接触上海话机会的减少,上海话的使用群体呈下降趋势,特别是年轻一代逐渐不再使用或掌握上海话,保护方言迫在眉睫。通过AI大模型保护和开发上海话,可实现上海话作为上海城市文化更新与文明实践的基础性设施地位和功能。
作为小沪视觉形象的主要设计,何晶晶教授介绍了她的重视角色个性与情感表达的艺术设计理念,表示在未来会在上海话系列智能体数字人视觉形象的设计中,秉持上述理念,创作出更多更丰富的角色艺术形象。
小沪形象
视频来源:“中国日报网”视频号
投稿邮箱:yuyanbaohu@163.com
重点推荐
你“在看”我吗?