首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
ChatGPT能给出有价值的同行评审意见吗?
学术
2024-11-06 19:02
北京
自2022年底ChatGPT发布以来,有人注意到了一个趋势:
ChatGPT越来越多地被用于论文的同行评审中
。
有几个明显的迹象。AI工具撰写的审稿意见往往
语气正式、文字冗长
,这通常与大语言模型(LLMs)的写作风格有关。例如,现在同行评审中诸如“commendable
[值得称赞]
”和“meticulous
[一丝不苟]
”之类的词比2022年之前
多出十倍
。AI生成的审稿意见往往也是
肤浅而笼统
的,通常没有针对该论文的特定意见,且缺乏参考文献。
来自美国斯坦福大学的研究者检查了2023-2024年约5万篇计算机领域会议论文的同行评审。根据写作风格和某些单词出现的频率,
估计7-17%的句子是由LLMs撰写
。
原文链接:https://proceedings.mlr.press/v235/liang24b.html
时间不够可能是审稿人使用LLMs撰写审稿意见的原因之一
。在截止日期前提交的评审意见中,LLMs撰写的比例更高。这种趋势估计还会加剧。
LLMs的使用应该限于某些任务,如
纠正语法、回答与论文相关的简单问题、识别某些信息
。如果不负责任地随意使用,LLMs可能会破坏科学的完整性。因此,学术界亟需制定规范,以指导如何在同行评审过程中合理使用这些模型。
首先,必须认识到,
目前的LLMs无法取代审稿人
。尽管LLMs具有一定的能力,但它们无法进行深入的科学推理,有时还会进行无意义的回复。《NEJM AI》的一项研究显示,
研究者普遍抱怨LLMs的审稿意见缺乏深度,尤其是在评审论文的研究方法时
。此外,LLMs也很容易忽视论文中的错误。
原文链接:https://ai.nejm.org/doi/10.1056/AIoa2400196
LLMs可能适合某些场景。对于审稿人,AI聊天机器人可以帮助在提交审稿意见前提供建议,使得模糊的建议更具操作性;或者对论文中可能被审稿人遗漏的部分进行强调。对于编辑,
LLMs可以检索和总结相关论文,以帮助他们了解研究背景,并验证论文的提交是否遵循了清单
(例如,确保正确报告统计数据)。这些环节使用AI的风险相对较低,如果实施得当,可以节省编辑和审稿人的时间。
不过,即使在执行低风险的信息检索和任务总结时,LLMs也可能会犯错。因此,LLMs输出的内容应被视为起点,而不是最终答案。用户仍
应对LLMs输出的内容进行检查
。
期刊和会议可能会尝试使用AI算法来检测同行评审和论文中LLMs的使用情况,但其效果有限。此类检测可以突出显示AI生成的文本,但很容易产生误报。例如,
将非英语母语研究者撰写的文本标记为“AI生成”
。检测器通常很难区分LLMs的合理使用(如论文润色)和不恰当使用(如使用聊天机器人撰写整篇报告)。
归根结底,防止AI主导同行评审的最佳方法可能是在此过程中促进更多的互动。
OpenReview
(网址:https://openreview.net/)等平台鼓励审稿人和作者进行匿名互动,通过多轮讨论解决问题,目前已被一些会议和期刊采用。
在学术写作和同行评审中使用LLMs是无法阻止的。为应对这一转变,期刊和会议应制定明确的指南。
期刊至少应要求审稿人披露在审稿过程中是否以及如何使用LLMs
。还需要适应AI时代的创新型交互式同行评审平台,从而能够限制LLMs的任务范围。与此同时,还需开展更多研究,以探索AI如何更精准地协助完成同行评审任务。建立规范将有助于确保LLMs既有利于编辑、审稿人和作者,又不损害科学完整性。
本文整理自:https://www.nature.com/articles/d41586-024-03588-8
http://mp.weixin.qq.com/s?__biz=MzI2OTQyMzc5MA==&mid=2247521718&idx=1&sn=1a4a97e5d1d7170c5b9bbba16a784e98
医咖会
详细的医学统计教程;实例讲解临床研究设计;咨询临床研究方法学大咖;研究进展、临床指南、专家观点和循证医学案例...
最新文章
一预印本文章因共同作者“内讧”而撤稿,合著者称未征得其同意就发表
《eLife》将失去明年的影响因子,或被ESCI部分收录!
【直播预告】回顾性研究设计在临床科研中的应用
扭曲短语、不相关内容…这篇包含大量造假信号的论文引发“众怒”
一研究者被《Science》调查揭露数十篇论文造假,甚至鼓励实验室人员篡改数据
IF=35.5!每天5分钟改久坐为跑步,就可能降低血压
AI可以生成看似真实的论文图像,如何识别造假图片?
ChatGPT能给出有价值的同行评审意见吗?
如果你还没发SCI,那我真心建议你看看...
医学预测模型方法这么多,我该选择哪一个?
影响因子2.3,接受病例报告,欢迎投稿!
【视频】UK Biobank包含哪些数据?
JAMA子刊发布中国癌症30年发病率趋势,甲状腺癌发病率增长最大!
【直播预告】UK BioBank介绍及应用研究
根据科研诚信分析工具,这些期刊拥有最多的“可疑”论文!
《eLife》被on hold,警惕Clarivate的对学术公平的破坏
Web of Science暂停收录《eLife》(中科院1区),期刊硬刚回应“从未想要”影响因子
2024 ESC《血压升高和高血压管理指南》的10大要点
因太多的异常引用,期刊撤回一大学校长相关的75篇论文
这几种新型肿瘤试验设计,你都知道吗?
最新2024 AHA/ASA指南:卒中的一级预防
【公益讲座】外科临床研究与顶刊投稿经验分享(内附威科医学期刊APC折扣码)
JAMA:一图展示AI在临床中的10种应用场景
如何使用ChatGPT辅助快速列出写作提纲
美国一大学校长20年前发表的博士论文被指控剽窃:50多处未注明参考来源
收稿范围广,近两年发文量增长明显!JCR 2区期刊《Digital Health》诚邀中国作者投稿
想要开展一项回顾性研究,有哪些注意事项?
想利用AI检索和梳理文献?这几个工具值得一试!
【开课倒计时四天】利用公开数据库发顶刊SCI:老年健康调查“八库”训练营
柳叶刀发布最新综述:甲减的诊断和治疗
UKB最新研究:光睡眠时长达标还不够,睡眠不规律也会增加糖尿病风险(IF=14.8)
一病例报告因使用了患者外院的病历信息,发表后被人指控抄袭
2024“临床-统计交叉融合”学术交流,3天精彩讲座,不要错过!
内科学年鉴:代谢综合征患者限时进食,可以改善血糖!
Web of Science暂停收录《Cureus》和《Heliyon》期刊文章,来看两个期刊近年发文特征
顶尖研究者被质疑132篇论文有问题,目前已被撤职
利用公开数据库发顶刊SCI:老年健康调查“八库”训练营
非劣效性试验的关键统计学考虑
JAMA子刊:做科研的美国医生中,83.6%的人每周只能花不到10%的时间用于研究
真讽刺!号称要提升论文严谨性的论文因为不严谨而被撤稿...
慢阻肺合并心血管疾病领域的10大研究重点:美国胸科学会的研究声明
周末集中运动还是每天运动?只要量够,都与多种疾病风险降低相关!
Nature:130篇论文存在数据问题,均来自同一作者
期刊编辑:盘点论文中常见的统计错误
一项新研究指出:每7篇论文可能就有1篇造假
柳叶刀子刊发表全球卒中数据:卒中为全球第3大死因
UKB数据库分析:每天3杯咖啡,或显著降低心脏代谢疾病风险
2024年美国住院医薪酬调查:大多数住院医认为应该拿更高的薪水
诺奖风向标之拉斯克奖公布:“减肥神药”GLP-1的发现者获奖
NEJM:报告敏感性分析结果的四点建议
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉