本次评测方式
1.客观题:通过程序对比大模型的回答结果与标准答案,统计和分析两者一致的比例,获得大模型在不同领域回答的准确性并给出评测结果。
2.主观题:采用triple-check人工评测的方式,评测人员分为独立三组,比对问题和模型回答,同时参考人工标注的标准答案进行评分,最终评测结果取三组的平均分。评分细则如下:
面向政务、教育和法律
三个重点应用场景
政务场景例题
法律专场例题
教育专题例题
广东省人工智能产业协会联合鹏城实验室、广州数据交易所、广东联通、数据堂共同发布首批人工智能技术基准评测榜单。
详情请垂询:
李先生
020-36660930
END
相关精彩:
广东省人工智能产业协会第一批首席人工智能官(CAIO)正式诞生!
协会专家库丨广州大学网络空间安全学院教授徐光侠
职称评审 | 关于2024年度广东省人工智能工程技术人才职称评审继续教育相关事宜的通知