北京师范大学古汉语大语言模型
“AI太炎 2.0”发布会成功举办
2024年8月27日上午,北京师范大学古汉语大语言模型“AI太炎2.0”发布会暨数智时代应用语言学学科建设路径与方法座谈会在京隆重举行。教育部语言文字信息管理司司长刘培俊、北京师范大学常务副校长王守军、北京大学中文系系主任杜晓勤、北京师范大学汉字汉语研究与社会应用实验室学术委员会主任华学诚等领导专家出席会议并致辞。课题负责人、文学院院长王立军教授对项目进行了介绍。语言学和人工智能领域的三十余位专家学者以及来自俄罗斯、西班牙、爱尔兰、德国、韩国、英国等国的十余位汉学家参加会议研讨,他们为“AI太炎”的研发、应用提出了宝贵建议,并围绕数智时代应用语言学学科建设和人才培养问题发言讨论。北京师范大学文学院党委书记周云磊主持发布会,北京师范大学文学院教授刘利作会议总结。
参会嘉宾合影
“AI太炎”是北京师范大学科研团队研发的专门适用于古汉语文本理解的大语言模型,属于国家语委重大项目“古籍整理智能化关键技术研究”(ZDA145-9)的阶段性成果。该模型具有较强的古典文献释读能力,支持字词释义、文白翻译、句读标点、用典分析等多种具有挑战性的文言文理解任务,兼容繁简中文输入。为了致敬近代国学大师章太炎先生,秉承章黄学派弘扬中华优秀传统文化的宗旨,该模型命名为“AI太炎”。
此前,“AI太炎”1.0版于2023年11月进入内测阶段。在众多老师同学的帮助和推介下,海内外学术科研、基础教育、编辑出版等不同行业领域的4000余名用户参与内测,为模型分析结果提出改进意见。研究团队在此基础上对模型进行了持续迭代优化,并于2024年8月27日发布了“AI太炎2.0”公众版,以期更好地助力古籍整理、文言文教学和古汉语信息处理研究。
内测用户来自全国34个省级行政区和海外十余个国家,在半年多的内测时间中,用户通过邀请码访问系统,并以点击页面底部按钮和撰写留言的方式为“AI太炎”的成长提供了数万字宝贵建议❤️
嘉宾代表刘利、周建设、杜晓勤、华学诚与项目负责人王立军、主持人周云磊共同启动系统,“AI太炎2.0”公众版正式发布!
王立军教授在发布会上介绍,课题团队针对古汉语信息处理任务“低资源”“富知识”的特点,从头构建了专门适用于古汉语文本理解的大语言模型。通过合理的模型设计、数据处理、基座训练及微调,仅使用1.8B参数量即可取得较好效果。小型大语言模型可以极大地降低模型研发、迭代和使用成本,并兼顾效果和效率平衡。值得一提的是,在辅助古籍整理、辞书编纂和语言研究等方面,模型表现出较大应用潜力。
目前,用户可通过文末地址访问“AI太炎2.0”公众版,输入待分析的古籍文本后,系统能够根据用户选择进行释读(无需输入提示词),包括解释文本中的疑难字词含义或背后的文化常识,将文言文翻译为现代汉语,对文本进行高精度的句读标点,或识别其所用典故。
字词释义
文白翻译
句读标点
识别用典
“AI太炎”诞生不足一载,经过内测阶段诸多贤达的悉心指点,虽已初具古汉语理解之能,但仍在“襁褓”之中,有很大的成长空间。
尽管如此,我们笃信,在用户的使用与反馈中,TA将逐步完善。您的每次点击与意见反馈,都是TA成长的宝贵助力。诚挚地邀请您参与“AI太炎”的成长历程,共同致力于新一代古汉语AI研究,探寻科技与文化的交融之美!
使用说明
“AI太炎2.0”公众版访问地址:https://t.shenshen.wiki
1. 因现阶段技术的局限性和生成式AI的特殊性,在分析文本时,TA无法确保完全准确和完整,且可能生成一些具有误导性的内容。
2. 建议输入完整的句子或段落,和人一样,TA也需要根据语境来理解文本。输入50-60字好于10-20字。
3. 欢迎点击页面底部的按钮提交您的反馈。
如有任何问题,请联系:shen@mail.bnu.edu.cn。
致谢
诚挚感谢在资源建设、模型评估、内测和发布上为“AI太炎”提供巨大帮助的老师同学们!
资源建设倾力付出
评估模型不辞辛劳
内测阶段集思广益
真知灼见助我成长
特别鸣谢
敦和基金会
章黄国学
有深度的大众国学
有趣味的青春国学
有担当的时代国学
北京师范大学汉字汉语研究与社会应用实验室
北京师范大学文学院古代汉语研究所
北京师范大学文学院古代文学研究所
微信号:zhanghuangguoxue
文章原创|版权所有|转发请注出处
公众号主编:孟琢 谢琰 董京尘
责任编辑:高洁
我知道你 在看 哦