Bringing medical advances from the lab to the clinic
关键词:生成式AI;学术出版;内容授权;数据训练;Nature随着生成式AI技术的迅速发展,大型语言模型(LLMs)作为AI工具的核心,需要大量的数据来训练和优化。在大众的普遍印象中,学术出版物是质量极高的AI训练源。微软公司也是如此理解,并于2024年7月即爆出与Taylor & Francis出版集团的商务合作,用其学术论文于AI训练【1】。🔷 显著的经济收益和新的商业模式:
实际上,学术出版商与科技公司之间的合作日益增多,它们通过授权协议允许后者使用学术内容来训练大型语言模型(LLMs),这一趋势带来了显著的经济收益。在Informa(Taylor & Francis的母公司)与微软签订的这项价值千万美元的协议中,Wiley从与一家未具名的AI模型开发公司签订的协议中获得了2300万美元的收入,并预计本财年将从此类协议中再获得2100万美元。这些合作关系不仅限于一次性交易而是长期战略,一些出版商正在创建新的部门和项目,以更深入地与技术公司合作开发AI应用。但从项目公布的7月份开始,这个项目就受到了版权机构的关注。他们要求,出版商采取措施,确保在与AI开发者达成正式协议的过程中,作者的权益得到保护。例如,Taylor & Francis表示将向作者支付版税,并在AI合作协议中设置了严格的界限,确保数据和内容仅用于训练,且不会被复制。同时,一些出版商已经实施了措施,防止AI工具在未经许可的情况下从网络上抓取其内容。另一些出版商已经开始更直接地与作者沟通,让他们了解内容授权给AI开发者的好处,并在一些情况下获得了作者的明确同意。图. 微软与Taylor & Francis出版社达成1000万美元的协议,利用其的论文训练其AI系统IT工程师所不知道的内情:
IT工程师显然忽略了学术出版物的大量学术不端。目前已经披露的信息中,尚未见到对有问题论文的关注。
“问题论文”比例有多高呢?我们做过大数据分析。而近期Nature发布了针对Cochrane数据库中meta分析的研究,结果更是触目惊心。
由 60 多名研究人员组成的团队仔细研究了 Cochrane 组织发表的 50 篇系统评价,他们对审核论文中 25% 的临床试验“有些担忧”,对其中 6% 的试验“严重担忧”。
要知道,meta分析有“证据中的证据”之称,而临床试验是医学研究中设计最科学、最严谨的方式;仍然有这么高比例的研究数据存在问题。
这不由得让我想起好多年前听詹教授讲meta的时候说的“Trash In, Trash Out”。如今,学术论文中充斥着造假、虚构及被编辑过的数据,让我们还如何敢相信由这些源文件训练出来的AI?
2024上半年SCI论文撤稿大数据:中国作者撤稿占到全球的54%!主要涉及这四大原因。。。
Nature:生物医学研究论文撤稿,欧洲作者20年间增长4倍;为啥?
原文链接:
【1】https://doi.org/10.1038/d41586-024-04018-5
【2】 https://www.nature.com/articles/d41586-024-04206-3
作者:Amber Wang;助理:ChatGPT;编辑:Jessica,微信号:Healsanq,加好友请注明理由。美国Healsan Consulting(恒祥咨询),专长于Healsan医学大数据分析(Healsan™)、及基于大数据的Hanson临床科研培训(HansonCR™)和医学编辑服务(MedEditing™)。主要为医生科学家、生物制药公司和医院科研处等提供分析和报告,成为诸多机构的“临床科研外挂”。点击👆;From Bench to Bedside, Healsan Paves the Path.更多阅读
(点击👆图片,进入自己感兴趣的专辑。或点击“资源”,浏览本公众号所有资源。)如果您在从研究结果到撰写SCI论文的过程中,面临语言或编辑的困扰,可以与美国MedEditing的客服沟通,获得帮助。