AI算命技术或能预知寿命?丹麦研究团队基于全国600万人的公开资料,运用Transformer模型训练出一款大型AI模型,准确预测了人们的寿命和性格特征。
研究团队利用2008至2015年间230万35至65岁人群数据预测寿命,算法成功预测78%的人能否活过2020年。life2vec模型准确性领先,比其他模型高至少11%。
论文链接:
https://arxiv.org/abs/2306.03009,
项目链接:
https://github.com/SocialComplexityLab/life2vec
Sune Lehmann指出,「此模型旨在探究:基于过往条件和事件,我们能够预测未来事件的程度有多大?」
作者旨在利用AI技术为广大民众提供命理预测服务。
研究者将人生轨迹描绘为按时间顺序排列的生活事件序列,其结构类似于自然语言。
借助Transformer模型的强大表征力,能有效捕捉生活事件的语义,进而构建个人生活序列的浓缩向量表示。
丹麦600万人口的健康与劳动力数据助力,研究者打造了基于Transformer的「life2vec」模型。
模型输入涵盖个人出生日期、籍贯、教育背景、健康状态、职业及收入等,输出则关联至“意外风险”与“性格细微特征”等密切影响个人生活的领域。
该研究团队依托生活序列数据,对个体生活事件进行预测,其模型效果显著超越现有各项技术。
相较于其他模型,life2vec在捕捉性格细微差异方面展现出卓越的预测能力。
研究论文强调,模型的概念域及个体特征域皆具解释力,有助于提出新理论,助力个性化干预的实施。
人的一生也许是可以预测的
人类步入预测时代的核心,源于海量数据与先进机器学习算法的涌现。
近十年来,机器学习得益于数据集的日益庞大,推动了复杂模型的实现,从而在图像与文本处理领域引发了革命性变革。
语言处理进步迅猛,Transformer架构已有效捕捉众多非结构化词序中的复杂模式。
尽管这些模型源自自然语言处理,但它们捕捉语言结构的能力已拓展至其他类似序列。
因数据量不足,Transformer模型尚未拓展至行业外多元社会经济数据的跨模态应用。
研究人员的数据集实现了这一变革。其庞大的规模让团队得以构建序列级别的个体生命轨迹表征,详尽描述了个人随时间的变化路径。
研究人员可观察个人生活如何在多样化事件中演变,如心脏病发作与加薪、迁居农村等信息的交织。
序列时间分辨率高且数量充足,使基于transformer的模型有效预测生活事件结果成为可能。
这预示着表征学习将在崭新领域发挥效用,助力我们深化对人类生活演化和趋势预判的认知。
研究人员运用类似Bert的架构,分别预测了人类生活中截然不同的两个领域:生命终结时刻与个性微妙差异。
研究发现,该模型在预测早期死亡方面,准确度较现有最佳方法提升约11%。
为精准预测,研究人员模型基于生活事件的统一嵌入空间—轨迹。
如同探索语言模型的嵌入空间能深化对人类语言的洞察,研究嵌入空间能揭示日常事件间不平凡的关联。
接下来,研究人员揭示了由此生活事件概念空间的见解,同时证实了该空间及模型的双重特性:强大与清晰。
Transformer模型生成的个体嵌入,如文本的矢量总结,通过显著图和TCAV等工具证实其意义,展现了作为行为表型的潜力,有助于提升医学图像分析等个人预测任务的准确性。
模型预测结果
研究团队以简洁的符号系统对庞杂数据进行了编码。
处理多源时态数据的原始数据流带来重重方法论难题,涉及不规律采样、数据稀疏性、特征间的复杂关联及高维度挑战。
经典时间序列分析方法(如支持向量机、ARIMA)因伸缩性差、灵活性不足及需繁复数据预处理而变得复杂繁琐。
通过转换技术,研究人员可省去手动构建特征,转而以模拟语言相似性的方法对数据进行编码。具体而言,研究人员将各类离散与离散连续特征构建成词汇表。
此词汇表与时间编码并置,使研究者能将每项生活事件及其详尽限定,以合成词汇或概念符号构成句式表述。
研究人员针对每起事件,分别记录了参与者当时的年龄及事件发生的具体时间,具体可见下图表。
2020年9月,弗朗西斯科于埃尔西诺尔城堡担任警卫期间,获得2万丹麦克朗。
在寄宿中学三年级时,赫敏修读了五门选修课。本质上,个体的生命历程可由这类描述串联成独特的生命轨迹。
研究人员的方法可广泛记录个人生活事件的详细信息,同时保留数据的完整结构和内容。
life2vec模型
研究团队以transformer模型构建个人生活的紧凑描述,命名为life2vec深度学习模型。
Life2vec模型依托Transformer架构,凭借其高效压缩上下文信息及融入时间与空间维度,完美适用于生命序列的表征。
Life2vec的训练分两步走。起初,研究团队同步运用...
(1) 该遮蔽语言模型任务促使模型运用标签符号和语境数据。
(2) 针对序列排序预测任务,重点在于提升序列时间上的连贯性以训练模型。通过预训练,模型掌握概念空间,并学会识别生命序列结构中的规律。
跨领域的准确预测
首要检验模型性能的便是其预测效果。life2vec模型不仅超越了同类最佳,还能在多个领域精准分类预测。研究团队已在两项任务中验证了该框架的效能。
预测早期死亡率
研究团队计算了2016年1月1日后四年内个体存活概率,这是统计建模中的常规任务。鉴于死亡率预测与多种健康预测紧密相连,life2vec模型在构建个人健康轨迹及工作历史方面至关重要,以确保准确预测。
life2vec基于序列数据预测个体在研究人员序列终止后四年(至2016年1月1日)的生存概率。
研究者聚焦于预测30至55岁年龄段人群,该年龄段的死亡率较为难以预估。
研究团队展示了应用经优化的马修斯相关系数C-MCC61的模型效果,该模型通过调整MCC以应对未标注样本的问题。
Life2vec超出基线11%。扩大RNN模型规模不增其效能。
图2.D进一步细化了各类子组的性能表现,包括按年龄和性别交叉分组,以及按序列长度划分的组别。
预测个性的细微差别
死亡目标明确界定,衡量标准清晰。
为验证life2vec的多面性,研究人员正预测“个性细微差异”,这代表光谱另一端个体内在特质,通常通过问卷进行评估。
个性虽难衡量,却深刻影响人的思想、情感及行为,并预测生活走向。尤其在内外向维度,研究者聚焦于外向特质,因其构成西方世界几乎所有人格结构模型的基础。
研究人员基于「丹麦个性和社会行为小组」(POSAP)研究中广泛代表性的群体数据集进行数据研究。
研究团队随机挑选一项涉及个性微妙差异的项目,针对每个外向特质预测个体答案水平。
图示揭示,应用Life2vec于生命序列研究,不仅可预测早期死亡率,还能有效捕捉个体差异的微妙之处。
Life2vec在所有项目上的表现均优于RNN,仅在项目2和3上差异显著。针对特定任务训练的RNN也能捕捉个性相关信号,这表明尽管变压器模型强大,但Life2vec的通用性主要源于数据集本身。
概念空间:理解概念之间的关系
该算法的创新之处在于,它学习构建一个包含人类生活中所有可能事件的多维联合空间。研究团队以可视化手段开启了对此空间的深入探究。
全局视野
图中,通过PaCMAP将280维概念映射至二维平面,有效维持了高维数据中的局部与整体结构。
在这里,每个概念都根据其类型进行着色。
此色彩鲜明揭示,整体布局遵循合成语言的核心要素如健康、职业等编排,同时巧妙区分如出生年份、收入、社会地位等人口关键数据。该空间架构极具韧性,能在多种情境下稳定重现。
精细的概念空间结构蕴含深意。研究人员通过深入全局布局分析,揭示模型掌握了邻近概念间错综复杂的联系。
研究团队运用邻域分析法探究这些局部结构,此法以原始高维空间中概念间的余弦相似度作为相似性基准。
个人情况分析
个人状况可视为一个向量,全面反映其生活事件的本质要素。
摘要跨越了研究者嵌入的空间,模型针对具体任务挑选相关方面。因此,人称摘要依赖于特定预测任务。目前,研究聚焦于死亡概率的摘要。
该模型将个体按估计死亡率从低到高排列。图示中,红色菱形标示实际死亡事件,点的大小代表预测置信度(小点代表低置信度)。颜色从黄到绿渐变展示概率估计。在低概率死亡区域,最接近区域1的5个死亡原因依次是:两起意外、脑部恶性肿瘤、宫颈恶性肿瘤和心肌梗死。
论文链接:https://arxiv.org/abs/2306.03009