小贴士
以后做研究先用Synthea或者其他GAN算法生成一波数据,然后Cursor上提分析需求,然后Chatgpt看模版读结果写论文。如果有个论文智能体,一键生成就好了。
有人说这不好,但是JAMA正面肯定合成数据,Nature正面肯定AI写作,Cursor/ChatGpt-o1那是已经大量被使用中,可能未来论文就没啥用处,论文最终回归科研交流本质了(也是好事)。
我们先来读一读JAMA这篇关于合成数据的年底观点吧~
============================
“虽然生成式人工智能(GAI)是否会真正变革临床决策这一核心医疗活动还有待观察,但它已经进入了医疗实践。例如,基于人工智能的医疗记录工具(如 Nabla、Abridge 和 Ambience)正在努力自动化处理出院小结和转诊记录等行政任务,从而减轻医生的工作量。最近的一项调查显示,许多医疗从业者已经开始使用公开的大型语言模型(作为生成式人工智能的一种),以协助完成文档编制、鉴别诊断和探索治疗方案。
生成式人工智能通过学习数据模式创建新内容(如文本或图像),而“传统”人工智能主要侧重分类和预测。要有效应用于医疗领域,生成式人工智能需要大量高质量、特定领域的数据。然而,随着公开医疗数据逐渐枯竭,对私人健康数据的需求将增加,由此引发重大隐私问题。
合成数据是一种解决方案,它模拟真实患者特征但不会暴露可识别信息。合成数据可以通过规则驱动技术、统计建模或基于生成对抗网络(GAN)的生成模型来创建复杂的合成数据集。然而,生成算法可能“记住”其训练数据的部分内容,这种现象被称为“记忆”,可能导致敏感私人信息的意外泄露。
医疗数据因其结构化和重复性更容易受到“记忆”的影响,特别是稀有病例更易暴露隐私风险。此外,合成数据的市场正在快速增长,预计到2028年将达到28.9亿美元,但医疗领域的应用仍然有限。
合成数据虽有潜力,但仍存在偏差放大、难以生成稀有情况数据及隐私风险等问题。例如,通过“成员推断”或“链接攻击”等技术可以识别数据来源。目前,生成和评估合成数据的标准尚未完全确立。
2024年8月1日生效的《人工智能法案》在欧盟推动负责任的人工智能发展,将合成数据作为隐私保护的替代方案。然而,该法案并未明确界定合成数据的隐私标准,这对法律和实践都提出了新的挑战。
尽管没有针对生成式人工智能隐私风险的“万能药”,结合多种策略可以减轻风险。例如,开放源码模型提供了更大的透明度,将模型托管在私有云基础设施上可以进一步降低风险。此外,采用隐私增强技术(如联邦学习、同态加密)以及制定明确的数据管理政策也很重要。”
来源:朱导小组会