今天openai有好几个相关新闻哎,标题对应的是openai最新开源的数据集openai/MMMLU (多语言大规模多任务语言理解 (MMMLU))
MMLU 是广泛认可的人工智能模型获得的常识基准。它涵盖 57 个不同类别的广泛主题,涵盖初级知识到法律、物理、历史和计算机科学等高级专业学科。
我们使用专业翻译人员将 MMLU 的测试集翻译成 14 种语言。依靠人工翻译人员进行评估可以增加对翻译准确性的信心,尤其是对于约鲁巴语等资源匮乏的语言。我们正在发布专业的人工翻译和用于运行评估的代码。
这项努力体现了我们致力于提高人工智能模型的多语言能力,确保它们在跨语言中准确执行,特别是对于代表性不足的社区。通过优先考虑高质量翻译,我们的目标是让人工智能技术对全球用户更具包容性和有效性。
其他新闻:
根据泄露Openai今晚就会发布GPT4o高级语音模式 Berkeley Function Calling Leaderboard发布了 V3 ,专注于多步函数调用。O1 mini 的表现比较糟糕,差gpt4-turbo-240409好些分,但是没有测试 O1 preview。 https://gorilla.cs.berkeley.edu/leaderboard.html 与上一条冲突的是,在LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench中,部分实验结果验证了O1整体的规划能力优异 o1 系列模型和一张显示测试时计算的缩放定律的图表 - 但是遗憾的是没有标记 x 轴,所以网友进行了重建 奥特曼发博客我们来到了智能的时代:The Intelligence Age :https://ia.samaltman.com