首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
每日经济新闻大模型评测报告(第2期):国产“黑马”逆袭,计算能力差成通病
财富
2024-09-06 20:12
四川
在每日经济新闻于6月25日发布的
《每日经济新闻大模型评测报告》第1期
中,15款国内外主流大模型在“财经新闻标题创作”“微博新闻写作”“文章差错校对”“财务数据计算与分析”四大实战场景进行了比拼。
随着大模型的迭代更新和大模型新秀的涌现,
《每日经济新闻大模型评测报告》第2期如期而至
。
第2期评测延续首期评测的宗旨,立足实战,力求为用户展现大模型在具体工作场景中的真实表现,为用户在工作、学习和生活中选择最佳大模型助手提供可靠参考。
本期评测设置了三个应用场景:
(1)金融数学计算;(2)商务文本翻译;(3)财经新闻阅读。
每经大模型评测小组为每个场景制定了相应的评价维度和评分指标。每日经济新闻10名资深记者、编辑根据评价维度和评分指标,对各款大模型在三大场景中的表现进行评分,汇总各场景得分,最终得到参评大模型总分。
不同于首期,
第2期评测中的任务以客观题为主,绝大多数题目都有标准答案。同时,评价维度和评分标准也更加突出客观性,尽量避免主观性评价。
需要特别指出的是,本期评测是通过各款大模型的API端口,并在默认温度下完成。与公众用户使用的大模型C端对话工具存在差异。但评测结果对用户在具体场景中选择合适的大模型工具,依然具有重大参考价值。
本期评测在“雨燕智宣AI创作+”测试台上进行,参评模型包括GPT-4o、智谱GLM-4、百度文心ERNIE-4.0-Turbo等15款国内外明星大模型。
本期评测时间为2024年8月12日,因此上述参评大模型中的所有国内大模型均为截至8月12日的最新版本。
谁能在三大评测场景中脱颖而出?
经过激烈角逐,评测结果新鲜出炉!
报告完整版以及测评题目,评分指标细则及部分案例,可访问:
每日经济新闻大模型评测报告 (第2期)
或点击文章底部“
阅读原文
”。
评测结果显示,
“黑马”幻方求索DeepSeek-V2以237.75的总分位居榜首,紧随其后的是腾讯混元hunyuan-pro(237.08分)和Anthropic Claude 3.5 Sonnet(234.42分)。
在专项能力方面,各模型展现出了不同的优势。
金融数学计算方面,
腾讯混元hunyuan-pro以78分的成绩领先其他模型,排名第一,
幻方求索DeepSeek-V2和商汤商量SenseChat V5.5紧随其后。相比之下,零一万物的Yi-Large、百度的文心ERNIE-4.0-Turbo以及昆仑天工的SkyChat-3.0则在金融数学计算方面表现稍显逊色,分别位列倒数第三、倒数第二与倒数第一的位置。
商务文本翻译场景中,
Anthropic Claude 3.5 Sonnet凭借其91.67分的卓越成绩,显著领先于其他竞争对手,
谷歌Gemini 1.5 Pro、GPT-4o及字节豆包Doubao-pro-32k紧随其后,展现了不俗的翻译实力。然而,腾讯混元hunyuan-pro、智谱GLM-4与昆仑天工SkyChat-3.0在该场景下的表现则稍显逊色,分别位于榜单的后三位。
转至财经新闻阅读场景,
昆仑天工SkyChat-3.0以87.75分的佳绩拔得头筹,GPT-4o与Anthropic Claude 3.5 Sonnet紧随其后。
相比之下,智谱GLM-4、百度文心ERNIE-4.0-Turbo及讯飞星火Spark 4.0 Ultra在此方面的表现则稍显不足,分列该场景排名的后三位。
结论一:大模型之间差距明显
本次评测结果显示,幻方求索DeepSeek-V2、腾讯混元hunyuan-pro、Anthropic Claude 3.5 Sonnet、GPT-4o和商汤商量SenseChat V5.5构成第一梯队。值得注意的是,
排名靠前的模型中,国产大模型表现突出,与顶级海外模型实力相当。
然而,从第一名幻方求索DeepSeek-V2(237.75分)到第十五名讯飞星火Spark 4.0 Ultra(197.83分),总分差距达到了近40分,反映出
大模型间仍存在显著差距。
结论二:数学计算能力成普遍短板
各款大模型数学计算方面普遍存在不足。
15款参评模型中,仅有腾讯混元hunyuan-pro、幻方求索DeepSeek-V2、商汤商量SenseChat V5.5、字节豆包Doubao-pro-32k这4款大模型超过60分。即使是在其他场景表现出色的模型,如Anthropic Claude 3.5 Sonnet和GPT-4o,在此项测试中也仅得到59分。
具体而言,
腾讯混元hunyuan-pro表现较为突出,从第1期评测这个计算题第六名一跃成为本期第一;字节豆包Doubao-pro-32k从第八名提升到第四名。
同时,经过版本更新的
商汤商量SenseChat系列
,在第2期评测中也以SenseChat V5.5的新姿态亮相,并
实现从原先第十四名到第三名的巨大跨越。
上一期的“黑马”幻方求索DeepSeek-V2依然表现出突出且稳定的计算能力,在两期评测的计算题中均排名第二名。
与之形成鲜明对比的是,
零一万物Yi-Large在上期评测的计算题中排名第三,但在此次评测中跌落至倒数第三。
从具体题目分析,对于用一步计算即可得到答案的简单计算题,15款大模型均表现良好。然而,
面对计算公式复杂、步骤较多的题目时,不少大模型表现并不理想。
此外,
许多大模型在处理特定数学逻辑与表达规范上存在局限。
例如,不能准确区分百分数作差结果应采用的正确表示方式——即应该使用百分点而非直接以百分数形式来表达。
结论三:国内大模型需提高外语能力
整体来看,在商务文本翻译场景中,
参评大模型表现了较高的翻译水平,平均分达到了84.5分。海外大模型展现出明显优势,
包揽了该场景下的前三名。
不过,国内外大模型在英译汉中的得分差距不大,真正使总分拉开差距的是汉译英。
Anthropic Claude 3.5 Sonnet、谷歌Gemini 1.5 Pro和GPT-4o在汉译英任务中得分均超过90分。
而国内大模型表现相对逊色,尤其是在“意思准确”与“术语一致性”维度上有待提升。此外,在“意思完整”维度上,幻方求索DeepSeek-V2、昆仑天工SkyChat-3.0相对来说,表现欠佳。而在“细节准确性”维度上,腾讯混元hunyuan-pro、月之暗面moonshot-v1以及字节豆包Doubao-pro-32k的表现有待提升。
结论四:通用大模型各项能力却不均衡
第2期评测与第1期评测的场景、维度和标准不同,导致部分模型排名变化显著。尽管都是通用大模型,但存在各项能力不均衡,“偏科”现象严重的情况。
具体而言,
零一万物Yi-Large两期评测的表现波动较大。
在第1期评测中,零一万物Yi-Large位居榜首。然而在第2期评测中,其表现大幅下滑,总排名也跌至倒数第四。
本期评测新加入的大模型
昆仑天工SkyChat-3.0,
在文章阅读及问答中排名第一,但在金融数学计算以及商务文本翻译中却垫底。
腾讯混元hunyuan-pro的表现则展现了明显的进步。
在第1期评测中,其排名相对靠后。但在第2期评测中,腾讯混元hunyuan-pro总分位列第二,尤其在金融数学计算场景中以78分的成绩领先其他大模型。
相比之下,
幻方求索DeepSeek-V2在两次评测中都表现出色。
在第1期评测中,幻方求索DeepSeek-V2排名第三;而到了第2期评测,更是跃居榜首。在计算能力方面,幻方求索DeepSeek-V2均保持了高水平的发挥。
海外大模型中,
Anthropic公司的Claude在两期评测中都表现不俗,
但排名有所变动。在第1期中,Anthropic Claude 3 Opus排名第二;在第2期中,Anthropic Claude 3
.5 Sonnet尽管在商务文本翻译任务中表现出色,但总体排名略有下降,排在第三位。
每日经济新闻大模型评测小组
2024年9月
未来,每日经济新闻将基于评测报告,精选各场景下的优秀大模型,开发相应的功能,在每经App上线,为用户带来高效、高质的AI工具与全新体验。
同时,“每日经济新闻大模型评测小组”将继续深入探索大模型的无限可能,从实际应用场景出发,对各个大模型进行全方位的评测,并定期推出专业报告,带来最前沿的洞察和发现。
在此,我们诚挚地邀请您,加入评测项目。
如果您是研发企业,想要展示自家大模型的实力,与其他大模型进行比拼,请将参评大模型的详细信息发送至我们的邮箱:
damoxing@nbd.com.cn
。
如果您是大模型的使用者,请告诉我们您希望在哪些场景中使用大模型,或者希望我们测试大模型的哪些能力。打开
每日经济新闻App
,在
“
个人中心”——“意见反馈”
栏中留下您的想法和需求。
期待您的参与,共同探索大模型的无限可能。
本文转载自
每日经济新闻App
感谢关注每日经济新闻,每天都有精彩资讯
http://mp.weixin.qq.com/s?__biz=Mzg3NTA5MjkyNQ==&mid=2248361997&idx=2&sn=f25c3e593d2ad4f3430132b3f5b729f0
每日经济新闻
中国主流财经全媒体。互联网新闻信息服务许可证编号:51120190017 。
最新文章
“头对头”击败全球药王,康方生物没接住泼天的富贵,却让SMMT4个月涨12倍!海外权益卖亏了1000亿?
港姐决赛现场被追问月饼事件,曾志伟避而不谈!小杨哥、美诚礼网店已下架相关产品!市监局:是否涉及“虚假宣传”仍在查
一辆小米SU7冒烟起火!小米汽车回应:驾驶人操作不当,导致车辆冲出车道撞向隔离花坛区,撞击导致电池底部严重受损
落马女干部陈育霞,被双开!她隐瞒入党前严重错误,还为谋取不正当利益给予国家工作人员以财物……
有空调外机被吹悬半空,千吨阻尼器摆幅可见……上海一地风力达13级,陆地罕见!又有新台风在西北太平洋面生成,路径可能类似“贝碧嘉”
清华大学发布讣告
用铅块替换,金店女店员3年偷走90多斤黄金首饰,变现近1900万元!带“任务”的她常常主动加班,最后一个离开
成都楼市多个项目取证,到访人数明显增加,有开发商称“比较有信心”
百万粉丝网红,直播现场被抓!其亲生母亲扮演精神失常的“养母”
武汉大学瓦片,在二手平台被炒到数百元,保卫处此前提醒:不能捡!不少瓦片属于文物,留作纪念也不行
热搜!于适严正声明!名下代言涉及这些上市公司……
伯克希尔突发!巴菲特副手大笔抛售,近10亿元
1949年以来最强,“贝碧嘉”登陆上海!台风中心将经过苏州,拙政园管理处:已对古建筑进行排查加固
灌木丛中发现有枪口指向特朗普!嫌疑人身份、照片曝光
突发!特朗普俱乐部附近发生交火,嫌疑人距特朗普约450米,警方发现AK-47步枪,联邦调查局:疑似暗杀特朗普未遂
财经早参丨迎战“贝碧嘉”!上海高速实施封闭管控;前员工涉内幕交易,光大证券回应;孙颖莎击败王艺迪夺冠
特斯拉电动卡车在美撞树起火,用了190吨水才扑灭!“电池温度537°C,喷出有毒烟雾,封路16小时”!驾驶辅助系统未运行
小杨哥带货的“香港月饼”系广东造,香港买不到?公司回应:并无法律规定香港品牌不能在内地生产!律师:可能涉嫌虚假宣传和欺诈消费者
消息传来:知名演员徐少强去世,小30岁的妻子随后也离世!知情人士称“他夫人帮他办完后事,也不幸去世”
广州一区域全面放开限购?记者探访……
最新!台风预计将在浦东至舟山一带登陆,舟山、崇明万人大撤离!上海、杭州紧急通知:非必要不外出!江苏:必要时果断停课
投行大佬内幕交易,结果亏损532万元,被罚460万元,10年市场禁入!光大证券回应
金价猛涨,有金店却扛不住了!上海一店主:整个上午只进来10余个顾客,已考虑年底闭店转型
这一省会城市楼市重磅消息!取消限购,取消转让限制年限,取消普通住宅和非普通住宅标准……
女童确诊疾病,未做肝脏活检被保险公司拒赔,法院:要赔!
“1元月饼”突然火了!多款销量10万+,某销售人员:很多公司采购用作发福利
翻了7倍!平时最低87元一晚的酒店,台风期间涨价至最低600元,官方通报:拟罚款20万元!
“100句话99句都是暗语”,北京一村委会主任贪腐细节披露
梅德韦杰夫:不排除摧毁基辅!
“贝碧嘉”即将登陆!影响可达内蒙古、青海等地,上海迪士尼公告:明天暂时关闭!台风叠加天文大潮,这些地方要注意→
财经早参丨商务部发声!美方错上加错;金融监管总局最新部署;初创公司数量下降98%?数据服务商回应
月销5000万元的香港高端月饼,偏偏香港买不到?小杨哥、曾志伟带货,罗永浩确定“退一赔三”!广州当地市监所已介入调查
“跨境业务违规”,违法所得38.73万元,被罚8432万元!公司去年营收近19亿元,净利润8128万元
突发!“晋江崩了”冲上热搜,年营收超十亿元!火速回应:请用户暂缓报错
四大一线城市中,只有上海新房价格涨了
“AI教母”李飞飞融资2.3亿美元启动初创;美联储降息50个基点预期升温;美或“松绑”乌武器使用限制|一周国际财经
海口的“泼天富贵”,来了?
湖南严肃查处洞口县棚改项目涉假造假问题,追责问责88名公职人员
中秋假期来了,台风“贝碧嘉”也要来了!长三角或迎猛烈风雨,中央气象台:不要心存侥幸,该准备的准备
24小时筹款4700万美元,“霉霉”公开支持,哈里斯“稳赢”了?专家:2016年希拉里筹款和民调领先,但结果很惨痛
100%毛利率,超越所有A股公司,这家公司怎么做到的?
热搜第一!演员李纯发文怒斥:母亲被困电梯50分钟!物业:紧急停电从近到远救人,不可能说先去救明星
突发!美国大幅上调对华产品关税!电动汽车上调至100%
高合汽车创始人丁磊现身直播间:没有跑路!高管:公司很多在岗员工月薪只有2690元
先进制造下的湖南长沙,人与城的双向奔赴
3名中国公民遇难,“不排除人为纵火”,店铺老板称曾遭勒索!领馆凌晨发声
“早上我要中杯热美式+鸡蛋……” 员工拒为部门领导买早餐被辞退?公司回应:涉事领导已辞退
游客投诉小龙虾不新鲜,商家“叫20人过来”威胁?当地通报
苹果官网一度被挤崩!iPhone 16开抢,这款机型秒没!网友:嘴上说不买,结果比去年难买多了
财经早参丨纳指五连涨,金价续创新高;财政部、证监会宣布:对普华永道罚没超4亿元;小米回应摄像头里出现陌生男子说话
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉