首批人工智能技术基准评测榜单发布

健康   2024-11-18 20:40   广东  
Artificial Intelligence Industry News
随着国内大模型纷纷进入到各领域的训练、服务和应用,针对大模型对场景应用的能力评测变得越来越有指导意义。在相关部门的支持下,鹏城实验室、广东省人工智能产业协会、广州数据交易所、广东联通、数据堂(北京)科技股份有限公司联合发起了大模型应用评测的战略合作,并邀请联通(广东)产业互联网有限公司、广电运通集团股份有限公司、广州云从人工智能技术有限公司、中科紫东太初(北京)科技有限公司 、开普云信息科技股份有限公司、北京北大英华科技有限公司、京华信息科技股份有限公司、广州视源电子科技股份有限公司、摩诃脉动、深圳市未来清研科技有限公司等10余家国内各领域大模型公司参与场景应用评测。


本次评测方式


1.客观题:通过程序对比大模型的回答结果与标准答案,统计和分析两者一致的比例,获得大模型在不同领域回答的准确性并给出评测结果。


2.主观题:采用triple-check人工评测的方式,评测人员分为独立三组,比对问题和模型回答,同时参考人工标注的标准答案进行评分,最终评测结果取三组的平均分。评分细则如下:



面向政务、教育和法律

三个重点应用场景


政务场景例题




(1)主观题:在经济全球化的大背景下,地方经济如何通过创新驱动实现可持续发展,包括具体的策略、实施计划、预期挑战及解决方案,进行深入分析和规划。

(2)主观题:我村党员***从2023年5月20号开始违章建筑300平方左右钢架房,我们已多次向**城建办反应,给予反馈是勒令停工,反复反应,给予答复都是一样的。至今钢架棚已经修建完工!2023年10月19日又开始切砖垒高墙,望领导明察,给我们普通老百姓主持公道。


法律专场例题




(1) 主观题:未经同意录音录像合法吗?

(2) 多选题:《中华人民共和国监察法》规定,监察对象对 (____) 进行报复陷害的依法给予处理。
选项:A.控告人 B.检举人 C.证人 D.监察人员


教育专题例题




(1)选择题:某公司有员工A、B、C、D、E,他们分别负责不同的工作。已知A负责市场部,B负责财务部,C负责人力资源部,D负责研发部,E负责生产部。如果市场部需要与研发部合作,那么最有可能需要与E合作的是()
选项:A.A  B.B  C.C  D.D



广东省人工智能产业协会联合鹏城实验室、广州数据交易所、广东联通、数据堂共同发布首批人工智能技术基准评测榜单。


详情请垂询:

李先生

020-36660930


END



相关精彩:

广东省人工智能产业协会第一批首席人工智能官(CAIO)正式诞生!

协会专家库丨广州大学网络空间安全学院教授徐光侠

职称评审 | 关于2024年度广东省人工智能工程技术人才职称评审继续教育相关事宜的通知

Artificial Intelligence Industry News


广东省人工智能产业协会
广东省人工智能产业协会是按照《广东省行业协会条例》的规定,于2017年10月23日,经广东省民政厅正式批准注册成立的具有独立法人资格的非营利性社会组织。协会致力于打造AI全生态产业服务平台。
 最新文章