【牛津大学博士论文】通过贝叶斯实验设计实现自动化数据采集

学术 2024-11-24 17:01 北京

来源：专知
本文约1000字，建议阅读5分钟
本论文专注于开发可扩展且计算效率高的贝叶斯实验设计方法，以克服这些挑战。

获取高质量数据是科学和工程中的一大挑战。数据收集，无论是通过大规模在线调查还是精心进行的实验室实验，往往成本高、耗时且受限于资源有限。因此，设计最佳实验以收集信息丰富且有价值的数据，对于资源的有效分配以及最终做出更好的决策至关重要。

贝叶斯实验设计（BED）提供了一个原则性数学框架，用于设计实验以高效学习感兴趣的现象。本论文聚焦于信息论的贝叶斯实验设计，采用期望信息增益（EIG）作为设计标准。最大化 EIG 确保收集到的数据对于潜在的科学问题或假设是最具信息量的。这一方法有潜力显著提高数据采集的质量和效率，从而解决高成本、时间限制和资源有限等关键挑战。

尽管潜力巨大，BED 的实际应用历来受到显著计算挑战的限制。主要挑战在于计算 EIG，对于大多数现实问题而言，这是不可行的。此外，自适应实验设计利用从先前实验中获得的信息来指导后续实验的设计，这进一步增加了计算复杂性。

本论文专注于开发可扩展且计算效率高的贝叶斯实验设计方法，以克服这些挑战。我们引入了一种新方法称为基于策略的贝叶斯实验设计（PB-BED），它利用深度学习充分摊销自适应实验设计的成本，实现实时设计决策。此外，我们还引入了一种半摊销的方法，允许在实验过程中根据实际收集到的数据对设计策略进行定期优化。这种方法增强了 PB-BED 框架的适应性和稳健性，确保随着新信息的收集，设计策略保持最佳状态。

最后，我们引入了一个统一的与模型无关的框架，用于利用信息论原则设计大规模的上下文实验。本论文的贡献代表了朝着自动化和可靠的实验设计策略迈出的一步，这些策略有潜力加速科学发现，改善各个领域的数据驱动决策。

数据在现代世界中扮演着关键角色，成为科学发现和工业进步的基础。近年来，基于大型数据集训练的复杂统计模型被越来越多地用于以自动化和自主的方式指导决策过程（Araujo et al., 2020; Bogert et al., 2021; Adlung et al., 2021）。然而，用于训练这些模型的数据质量和相关性可能差异显著。数据集可能受到噪声、冗余或偏见的影响，或者可能不直接适用于特定的任务。当模型在次优数据上进行训练时，它们往往会继承甚至加剧其中存在的偏见和局限性。结果，模型可能产生偏见的分析和预测，这可能导致误导性的结论和糟糕的后续决策（Barocas and Selbst, 2016; Corbett-Davies et al., 2017; Ntoutsi et al., 2020; Paullada et al., 2021; Mehrabi et al., 2021; Budach et al., 2022）。因此，高质量和相关数据在现代数据驱动的环境中是一项无价的资产（Hutchinson et al., 2021; Paleyes et al., 2022; Priestley et al., 2023）。

在某些情况下，数据完全由外部来源生成，无法控制数据获取过程，必须按原样使用现有数据。然而，在许多情况下，有机会影响数据获取过程，从而有可能提高收集数据的质量。这些机会包括仔细选择调查问题、为药物发现试验选择有前景的化合物、对实验室设备进行校准以实现精确测量，以及在机器学习任务中战略性地选择注释数据点。这些可控变量为最大化获取数据的有效性和质量提供了关键机会。这个受控的数据获取过程可以通过最优实验设计的视角进行形式化（Fisher, 1935; Ryan and Morgan, 2007）。在这项工作中，我们采用贝叶斯实验设计的方法（Lindley, 1956; Chaloner and Verdinelli, 1995; Ryan et al., 2016; Rainforth et al., 2024），因为它提供了一个统一、连贯且自洽的框架。贝叶斯实验设计（BED）是一个基于模型的框架，能够有效整合所有可用信息，使其在多步骤自适应实验设置中尤其有利，在这些设置中，决策是随着不完整信息的顺序进行的。这使得对模型进行一致的更新成为可能，确保每个决策都与对实验系统的不断演变的理解相一致。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

数据派THU

清华大数据研究中心官方平台，发布团队科研、教学等最新动态及大数据领域的相关信息~

最新文章

深入理解多重共线性：基本原理、影响、检验与修正策略

类GPT化学语言模型，9秒生成100种化合物，微软AI药物设计平台登Nature子刊

【阿姆斯特丹博士论文】优化、博弈与泛化界

独家｜ChatGPT搜索如何为AI代理铺路

普林斯顿王梦迪团队提出蛋白水印方法，助力AI蛋白生成的版权保护与安全

【NeurIPS2024】注意力迁移对视觉Transformer的惊人有效性研究

报名 | 揭秘AI科研神器，解锁跨学科创新密码！

独家｜在大型语言模型中对于 “涌现属性 ”的合理性检查

清华软件论坛 | 清华大学杰出访问教授樊文飞院士分享“AI = 机器学习 + 逻辑推理”

【博士论文】基于车载3D LiDAR的几何与语义场景理解深度学习研究

NeurIPS 2024 || GLBench: 面向大模型的图学习基准测试集

Token化一切，甚至网络！TokenFormer，Transformer从来没有这么灵活过！

【阿姆斯特丹博士论文】科学模拟的机器学习：推理与生成模型

基于LLM Graph Transformer的知识图谱构建技术研究：LangChain框架下的文本-图谱双模式转换机制实践

为什么卷积现在不火了：CNN研究热度降温的深层原因分析

【NeurIPS2024】SAFE: 慢速与快速参数高效调优用于基于预训练模型的持续学习

TSMamba：基于Mamba架构的高效时间序列预测基础模型

【阿姆斯特丹博士论文】在视觉挑战条件下的多模态学习

大数据系统软件国家工程研究中心共同主办首届北京数字人才发展大会

NeurIPS 2024 | 重新审视时间戳信息在时序预测中的作用

通过pin_memory 优化 PyTorch 数据加载和传输:工作原理、使用场景与性能分析

【牛津大学博士论文】通过贝叶斯实验设计实现自动化数据采集

基于MCMC的贝叶斯营销组合模型评估方法论：系统化诊断、校准及选择的理论框架

当视觉大模型陷入认知失调，马里兰大学构建了一个幻觉自动生成框架

【NeurIPS2024】通过超球面能量最小化 CKA 增强贝叶斯深度学习中的多样性

数据派志愿者招募 | 寻找最志同道合的你！

综述 | 时空图神经网络模型在时间序列预测和分类中的应用

LoRA、完全微调到底有何不同？MIT 21页论文讲明白了

【NeurIPS2024】强化学习梯度作为在线微调决策变换器的维生素

报名 | 全球证书项目Innovation and Entrepreneurship for the Al Economy

NeurIPS 2024 | 经典GNNs是强有力的节点分类基线模型

从哈佛哲学系到蛋白质设计大师，David Baker：AlphaFold令我深刻认识到深度学习的力量

【CMU博士论文】交错离散搜索与连续优化用于运动规划中的动力学运动规划

IoTDB 航空航天解决方案：从制造到试飞，助力国之重器翱翔长空

深度学习工程实践：PyTorch Lightning与Ignite框架的技术特性对比分析

【CMU博士论文】使用数据不确定解释的可信学习

通知 | 清华大学大数据能力提升项目“RONG”奖学金开始申请啦！

一文解读：时序基础模型的缩放定律

基于Liquid State Machine的时间序列预测:利用储备池计算实现高效建模

【NeurIPS2024】通过分解编码和条件控制增强文本到视频生成中的运动效果

原创 | 展望大语言模型在AGI时代的发展前景

10种数据预处理中的数据泄露模式解析:识别与避免策略

【阿姆斯特丹博士论文】缓解多任务学习中的偏差

清华软件论坛 | 樊文飞：AI = 逻辑推理 + 机器学习

勾股定理还能这样证明？高中生一连发现10种证明方法，陶哲轩点赞

基于PyTorch的大语言模型微调指南：Torchtune完整教程与代码示例

【CELL】用AI智能体推动生物医学发现

科普之旅｜大语言模型与量子计算的融合

Github上的十大RAG(信息检索增强生成)框架

【NeurIPS2024】将连续潜在变量模型扩展为概率积分电路

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉