微软千万美元投资,购买学术论文训练AI;显然,IT工程师并不了解,生物医学领域有超大量的垃圾文章。。。

学术   2024-12-20 07:37   美国  

Bringing medical advances from the lab to the clinic



关键词:生成式AI;学术出版;内容授权;数据训练Nature

随着生成式AI技术的迅速发展,大型语言模型(LLMs)作为AI工具的核心,需要大量的数据来训练和优化。
在大众的普遍印象中,学术出版物是质量极高的AI训练源。微软公司也是如此理解,并于2024年7月即爆出与Taylor & Francis出版集团的商务合作,用其学术论文于AI训练【1】。


🔷  显著的经济收益和新的商业模式

实际上,学术出版商与科技公司之间的合作日益增多,它们通过授权协议允许后者使用学术内容来训练大型语言模型(LLMs),这一趋势带来了显著的经济收益。
在Informa(Taylor & Francis的母公司)与微软签订的这项价值千万美元的协议中,Wiley从与一家未具名的AI模型开发公司签订的协议中获得了2300万美元的收入,并预计本财年将从此类协议中再获得2100万美元。
这些合作关系不仅限于一次性交易而是长期战略,一些出版商正在创建新的部门和项目,以更深入地与技术公司合作开发AI应用。

🔷  作者权益的考虑
但从项目公布的7月份开始,这个项目就受到了版权机构的关注。他们要求,出版商采取措施,确保在与AI开发者达成正式协议的过程中,作者的权益得到保护。
例如,Taylor & Francis表示将向作者支付版税,并在AI合作协议中设置了严格的界限,确保数据和内容仅用于训练,且不会被复制。
同时,一些出版商已经实施了措施,防止AI工具在未经许可的情况下从网络上抓取其内容。另一些出版商已经开始更直接地与作者沟通,让他们了解内容授权给AI开发者的好处,并在一些情况下获得了作者的明确同意。

图. 微软与Taylor & Francis出版社达成1000万美元的协议,利用其的论文训练其AI系统

IT工程师所不知道的内情:

IT工程师显然忽略了学术出版物的大量学术不端。目前已经披露的信息中,尚未见到对有问题论文的关注。

“问题论文”比例有多高呢?我们做过大数据分析。而近期Nature发布了针对Cochrane数据库中meta分析的研究,结果更是触目惊心。

由 60 多名研究人员组成的团队仔细研究了 Cochrane 组织发表的 50 篇系统评价,他们对审核论文中 25% 的临床试验“有些担忧”,对其中 6% 的试验“严重担忧”

要知道,meta分析有“证据中的证据”之称,而临床试验是医学研究中设计最科学、最严谨的方式;仍然有这么高比例的研究数据存在问题。

这不由得让我想起好多年前听詹教授讲meta的时候说的“Trash In, Trash Out”。如今,学术论文中充斥着造假、虚构及被编辑过的数据,让我们还如何敢相信由这些源文件训练出来的AI?

2024上半年SCI论文撤稿大数据:中国作者撤稿占到全球的54%!主要涉及这四大原因。。。

Nature:生物医学研究论文撤稿,欧洲作者20年间增长4倍;为啥?


原文链接:

【1】https://doi.org/10.1038/d41586-024-04018-5

【2】 https://www.nature.com/articles/d41586-024-04206-3

作者:Amber Wang;助理:ChatGPT;编辑:Jessica,微信号:Healsanq,加好友请注明理由。
美国Healsan Consulting(恒祥咨询),专长于Healsan医学大数据分析(Healsan™)、及基于大数据的Hanson临床科研培训(HansonCR™)和医学编辑服务(MedEditing™)。主要为医生科学家、生物制药公司和医院科研处等提供分析和报告,成为诸多机构的“临床科研外挂”。
网址:https://healsan.com/
更多精彩,点击左下角“阅读原文”。

点击👆;From Bench to Bedside, Healsan Paves the Path.

更多阅读

▼ 临床科研技巧及文献更新
(点击👆图片,进入自己感兴趣的专辑。或点击“资源”,浏览本公众号所有资源

▼ 广而告之。
如果您在从研究结果到撰写SCI论文的过程中,面临语言或编辑的困扰,可以与美国MedEditing的客服沟通,获得帮助。

Hanson临床科研
美国的七位生物医学科学家主持。通过专家讲座,交流医学课题选题思路及SCI论文撰写规范;通过经典论文解读,分享临床科研技巧和突破性进展;通过大数据分析,解析生物医学发展趋势及行业动态。只提供以数据为基础的客观报告,及专业、独立的思考。
 最新文章