• FiveThirtyNine,一款基于GPT-4o的AI预测机器人,其预测准确率已达到人类专家群体水平,甚至超越个体专家。
• FiveThirtyNine通过模拟“预测超人”,利用搜索引擎查询信息,汇总关键事实,并进行正反推理得出预测结果。
• FiveThirtyNine有望改善决策和公共话语,应用于聊天机器人、社交媒体和新闻报道等领域。
预测的挑战与机遇 & AI预测的崛起
在当今信息爆炸的时代,如何从海量信息中提取有价值的内容,并对未来做出准确的预测,成为了政府、企业乃至个人都面临的重大挑战。尤其是在当今世界格局复杂多变、科技发展日新月异的背景下,传统的预测方法往往显得力不从心,决策者们在处理复杂议题时常常感到力不从心。
一方面,政府和企业高层在制定重大决策时,需要对各种因素进行综合考量,例如政治经济形势、市场竞争格局、技术发展趋势等等。然而,这些因素往往相互交织、错综复杂,即使是经验丰富的专家也难以做出完全准确的预测。
另一方面,网络的普及使得信息传播更加便捷,但也导致了信息过载和信息茧房现象。人们更容易接触到符合自身偏好的信息,而忽略其他观点,这使得网络讨论环境日益极化,偏见和极端观点盛行,导致网络讨论质量下降。
AI预测系统的出现为解决这些问题带来了新的希望。 AI预测系统能够快速整合和分析新闻和观点来源,生成更快、更具成本效益的预测。一些研究表明,AI预测系统在历史问题上的预测准确率已经可以与人类专家群体相媲美。
FiveThirtyNine:比肩人类专家的AI预测系统
FiveThirtyNine 简介及功能
FiveThirtyNine是由人工智能安全中心(CAIS)开发的一款基于GPT-4o的AI预测机器人。它能够对用户输入的任何查询提供概率预测,包括一些备受关注的议题,例如:
• 特朗普会赢得2024年总统大选吗? (点击查看 FiveThirtyNine 的预测)
• 加州人工智能安全法案 SB 1047 会被签署成为法律吗?
FiveThirtyNine的预测准确率已经与经验丰富的人类预测员群体表现相当,甚至超越个体专家,达到了超人类水平。
FiveThirtyNine 的方法:检索与处理
FiveThirtyNine 的方法主要分为两个阶段:信息检索和信息处理。
1. 信息检索: FiveThirtyNine 首先会根据用户提出的预测问题,自动生成一系列搜索引擎查询语句,用于检索相关的新闻和观点文章。这些查询语句会被设计成包含新闻和观点关键词,以确保检索结果的全面性和多样性。
图1:FiveThirtyNine 使用 GPT-4o 生成的搜索引擎查询示例
2. 信息处理: 检索到相关信息后,FiveThirtyNine 会将这些信息输入到一个经过精心设计的处理流程中。这个流程包括以下步骤:
• 提取关键事实: FiveThirtyNine 会从检索到的文章中提取关键事实信息,并将其汇总成一个事实清单。
• 分析正反理由: FiveThirtyNine 会根据事实清单,分析支持和反对预测结果的理由,并评估每个理由的强度。
• 综合考虑并调整偏差: FiveThirtyNine 会综合考虑所有正反理由,并根据新闻来源的负面和耸人听闻偏差进行调整,最终输出一个预测概率。
图2:FiveThirtyNine 汇总的关键事实信息示例
图3:FiveThirtyNine 分析特朗普赢得2024年总统大选的反对理由
图4:FiveThirtyNine 输出的暂定预测概率和最终预测概率
图5:FiveThirtyNine 对预测结果进行的反思和最终预测结果
FiveThirtyNine 的评估与优势:比肩人类专家群体
为了评估FiveThirtyNine的性能,研究人员在Metaculus预测平台上的问题上对其进行了测试。Metaculus是一个知名的预测平台,汇聚了大量经验丰富的预测员。研究人员将FiveThirtyNine的预测结果与Metaculus上预测员群体的预测结果进行了比较,发现FiveThirtyNine的预测准确率与人类专家群体相当。
在177个事件的预测中,Metaculus群体的准确率为87.0%,而FiveThirtyNine的准确率达到了87.7% ± 1.4。这表明FiveThirtyNine的预测能力已经达到了人类专家群体水平。
相比于传统的预测市场,FiveThirtyNine 具有以下优势:
• 速度更快: FiveThirtyNine 可以在几秒钟内做出预测,而预测市场则需要等待预测员群体进行预测和更新。
• 成本更低: FiveThirtyNine 的运行成本远低于预测市场,因为它不需要支付预测员的报酬。
• 准确性相当: FiveThirtyNine 的预测准确率与预测市场相当,甚至在某些情况下更高。
AI预测机器人的应用前景:重塑信息世界
FiveThirtyNine的出现,标志着AI预测技术进入了一个新的发展阶段。未来,AI预测机器人有望在各个领域发挥重要作用,重塑我们的信息世界。
改善决策:为决策者提供可靠的概率评估,帮助量化和预测风险
AI预测机器人可以为政府、企业等机构的决策者提供可靠的概率评估,帮助他们更好地了解各种因素的影响,并对未来做出更加理性的决策。例如,AI预测机器人可以帮助政府预测经济增长趋势、社会发展趋势等等,为制定宏观经济政策提供参考。
促进理性讨论:充当中立的智能第三方,缓和极端和两极分化的观点
在网络讨论中,AI预测机器人可以充当中立的智能第三方,为用户提供客观的预测信息,帮助他们更好地理解事件的来龙去脉,并避免被偏见和极端观点所左右。例如,在讨论“气候变化”等议题时,AI预测机器人可以提供关于气候变化趋势的预测数据,帮助用户理性地看待这个问题。
提升信息透明度:在社交媒体和新闻报道中提供预测信息,帮助用户更好地理解事件
AI预测机器人可以被集成到社交媒体和新闻报道中,为用户提供关于各种事件的预测信息,例如选举结果、体育比赛结果等等。这可以帮助用户更好地了解事件的发展趋势,并做出更明智的判断。
图6:AI 预测机器人可以集成到社交媒体帖子中,提供事件预测信息
图7:AI 预测机器人可以集成到新闻报道中,提供事件预测信息
AI预测的未来:机遇与挑战并存
尽管AI预测技术拥有巨大的潜力,但我们也应该看到其发展过程中存在的局限性和潜在风险。
FiveThirtyNine的局限性
FiveThirtyNine目前还处于发展初期,存在一些局限性:
• 未经微调: FiveThirtyNine目前只是通过一个精心设计的提示来引导GPT-4o进行预测,并没有进行针对性的微调。如果对其进行微调,其预测准确率可能会进一步提高。
• 可能导致自动化偏见: 人类在使用AI预测机器人时,可能会过度依赖其预测结果,从而忽视自己的判断,这被称为“自动化偏见”。
• 不适用于个人理财等: FiveThirtyNine目前主要用于预测政治、经济、社会等宏观事件,并不适用于个人理财等领域。
• 缺乏拒绝选项: FiveThirtyNine 目前无法判断查询的有效性,即使是无效的查询也会尝试进行预测。
• 对新兴事件预测能力不足: FiveThirtyNine 的知识库截止到特定日期,对于预训练数据截止日期之后出现的事件,例如仅在某些特定平台上讨论的事件,其预测能力会下降。
AI预测的潜在风险
除了FiveThirtyNine自身的局限性之外,AI预测技术还存在一些潜在风险:
• 可能被滥用: AI预测技术可能会被用于操纵舆论、干预选举等非法活动。
• 可能导致过度依赖: 人类可能会过度依赖AI预测的结果,从而丧失独立思考的能力。
• 可能加剧信息不对称: 拥有先进AI预测技术的机构或个人可能会获得信息优势,从而加剧信息不对称。
• 数据隐私和安全问题: AI预测系统依赖于海量数据的训练和分析,这可能涉及到个人隐私和数据安全问题。例如,如果预测系统的数据被泄露或被滥用,可能会对个人造成严重损害。
• 算法偏见: AI预测系统的算法可能存在偏见,导致其预测结果对某些群体不公平。例如,如果预测系统的数据集中存在种族或性别偏见,那么其预测结果也可能会带有这些偏见。
AI预测助力人类走向更智慧的未来
AI预测技术是一项具有巨大潜力的新兴技术,它有望帮助我们更好地理解世界、做出更明智的决策。FiveThirtyNine的出现,标志着AI预测技术进入了一个新的发展阶段。
当然,我们也应该看到AI预测技术发展过程中存在的局限性和潜在风险。为了确保AI预测技术能够更好地服务于人类,我们需要对其进行持续的研究和改进,并制定相应的伦理规范和监管政策。
相信在不久的将来,AI预测技术将会在各个领域发挥越来越重要的作用,助力人类走向更智慧的未来。
相关链接
• FiveThirtyNine Demo: https://forecast.safe.ai/
• FiveThirtyNine Technical Report: https://drive.google.com/file/d/1Tc_xY1NM-US4mZ4OpzxrpTudyo1W4KsE/view?usp=sharing
• Superhuman Automated Forecasting | CAIS: https://www.safe.ai/blog/forecasting