1. LLM在金融和交易领域的现状
大型语言模型(LLMs)驱动的自主智能体通过模拟人类流程和工作流,为决策提供了全新的思路。通过为语言智能体配备工具并使其与其他智能体协作,将复杂问题拆解为可管理的部分,从而提升了解决问题的能力。
金融市场是这些自主智能体框架的一个重要应用场景:一个高度复杂的系统,受公司基本面、市场情绪、技术指标和宏观经济事件等多重因素影响。
1.1 传统算法交易系统
传算法交易系统通常依赖定量模型,这些模型难以全面捕捉各种因素间的复杂关系。基于深度学习的交易系统往往解释性较差,因为它们依赖难以解释的隐藏特征来驱动决策。
而LLMs 擅长处理和理解自然语言数据,使其在需要文本理解的任务中表现出色,例如分析新闻、财报和社交媒体情绪。
1.2 LLMs在金融领域的应用(LLMs as Financial Assistants)
1.2.1 LLMs 作为金融助手
通过微调金融数据或在金融语料库上训练,应用于金融领域。增强了模型对金融术语和数据的理解,使其成为专门的分析支持、洞察和信息检索助手,而非交易执行工具。
1.2.1.1 金融领域的微调LLMs
微调显著提升了LLMs在金融领域的表现。
• FinMA 在136K条金融指令上微调了LLaMA;
• FinGPT 使用LoRA对LLaMA和ChatGLM进行了微调,使用了50K个金融样本;
• Instruct-FinGPT 则在10K条金融情感分析指令上进行了微调。
这些模型在金融分类任务中超越了其基础版本和其他开源LLMs,如BLOOM和OPT,甚至在多项评估中超越了Bloomberg GPT。
然而,在生成任务中,它们的表现与GPT-4等通用模型相当或稍逊,表明需要更多高质量的金融领域数据集。
1.2.1.2 从零开始训练的金融LLMs
在金融特定语料库上从零开始训练大型语言模型,例如:Bloomberg GPT、XuanYuan 2.0以及 Fin-T5等模型在预训练中结合了公共数据集和金融特定数据。
• 以Bloomberg GPT 为例,同时在通用文本和金融文本上进行训练,并使用 Bloomberg 的专有数据来提升其在金融基准测试中的表现。
这些模型在市场情绪分类和摘要生成等任务中表现优于通用模型如 BLOOM-176B 和 T5。尽管无法与 GPT-3 或 PaLM等更大的闭源模型相媲美,但在类似规模的开源模型中,提供了具有竞争力的性能,同时不损害通用语言理解能力。
1.2.2 LLMs 作为交易高手
LLMs 通过分析新闻、财报和股价等外部数据,直接做出交易决策。架构包括新闻驱动、推理驱动和强化学习(RL)驱动。
1.2.2.1 新闻驱动型智能体
新闻驱动架构通过将股票新闻和宏观经济更新融入LLM提示,预测股价走势。
基于情感评分的简单多空策略在闭源模型(如GPT-3.5、GPT-4)和开源LLM(如Qwen、Baichuan)中表现优异。
FinGPT和OPT等微调LLM通过领域特定对齐提升了性能。
先进方法则通过总结新闻数据并分析其与股价的关系,进一步优化预测。
1.2.2.2 推理驱动型智能体
推理驱动型智能体通过反思和辩论等机制提升交易决策。
• 反思驱动型智能体:如 FinMem 和 FinAgent 利用分层记忆和多模态数据将输入转化为记忆,辅助决策并整合技术指标,在减少幻觉的同时实现不错的回测表现。
• 辩论驱动型智能体:如异构框架中的智能体和 TradingGPT,通过不同角色的智能体之间的LLM辩论,增强推理能力和事实准确性,优化情感分类并提升交易决策的稳健性。
1.2.2.3 强化学习驱动型智能体
强化学习方法通过回测奖励机制,将LLM的输出与预期行为对齐。
• SEP 结合记忆与反思的强化学习,基于市场历史优化LLM预测。
经典强化学习方法也被用于交易框架,将LLM生成的嵌入与股票特征结合,并通过近端策略优化(PPO)等算法进行训练。
1.2.3 LLMs 作为 Alpha 挖掘者
LLMs 不仅用于直接交易决策,还能生成 alpha 因子。
• QuantAgent 通过内循环和外循环架构展示了这一点。
• 内循环中,编程智能体(Writer Agent)根据交易者的想法生成脚本,评价智能体(Judge Agent)则提供反馈。
• 外循环中,代码在真实市场中进行测试,交易结果进一步优化法官代理。
这种方法逐步逼近最优行为。
• AlphaGPT 提出了类似的人类在环框架,用于 alpha 挖掘。
以上应用展示了 LLM 驱动的 alpha 挖掘系统的有效性,通过生成和优化 alpha 因子来自动化和加速交易策略开发方面的潜力。
1.3 金融与智能体框架
金融领域的多智能体框架取得了显著进展,展示了其在解决这些问题上的潜力。这些框架构建了可解释的 AI 系统,决策过程由证据和透明的推理支持,展现了其在金融应用中的广阔前景。
然而,当前金融领域的智能体框架面临两大问题:
• 1.缺乏真实的组织建模:许多框架未能模拟真实交易公司中智能体的复杂互动。往往只关注特定任务的表现,与组织工作流和已验证有效的人类操作流程脱节,限制了其复制和受益于现实交易实践的能力。
• 2.低效的通信接口:大多数现有系统以自然语言为主要通信媒介,依赖消息历史或非结构化信息池进行决策。这种方法容易导致“电话效应”,即随着对话延长,细节丢失,状态混乱。智能体难以保持上下文并过滤无关信息,降低了处理复杂动态任务的能力。此外,非结构化信息池缺乏明确指令,智能体间的逻辑通信和信息交换仅依赖检索,破坏了数据的关系完整性。
针对以上问题,本文作者设计了TradingAgents,模拟了专业交易团队的多智能体决策过程,结合了现实交易公司的组织结构,设计了多个智能体:基本面分析师、情绪/新闻分析师、技术分析师和不同风险偏好的交易员。看涨和看跌的辩论者评估市场状况,提供平衡建议,而风险管理团队确保风险控制在可接受范围内。
2. TradingAgents
通过给智能体应用分配明确且定义清晰的角色和具体目标,能够将复杂目标分解为更小、可管理的子任务。
金融交易正是这种复杂性的典型代表,需要整合多种信号、输入和专业知识。在真实场景中,依赖专家团队协作并做出高风险决策,充分体现了任务的多面性。
在典型的真实场景中,会收集大量数据,包括财务指标、价格变动、交易量、历史表现、经济指标和新闻情绪。这些数据随后由量化专家(quants)进行分析,包括数学家、数据科学家和工程师,使用先进的工具和算法来识别趋势并预测市场走势。
受此启发,Trading Agents在模拟交易公司中定义了七个不同的智能体角色:
• 基本面分析师
• 情绪分析师
• 新闻分析师
• 技术分析师
• 研究员
• 交易员
• 风控经理
每个智能体都有特定的名称、角色、目标和约束条件,以及根据其功能量身定制的上下文、技能和工具。
如上图,交易智能体的整体框架组织:
• I. 分析师团队:四名分析师同时收集市场信息。
• II. 研究团队:团队讨论并评估所收集的数据。
• III. 交易员:根据研究人员的分析,交易员做出交易决策。
• IV. 风险管理团队:风险守护者根据当前市场状况对决策进行评估,以降低风险。
• V. 基金经理:基金经理批准并执行交易.
2.1 分析师团队
分析师团队(图 2)由专业的智能体组成,负责收集和分析各类市场数据,以支持交易决策。每个智能体专注于市场分析的不同方面,共同构建出对市场状况的全面视角.
• 基本面分析师智能体:通过分析财务报表、收益报告、内部交易等数据,评估公司的基本面,识别被低估或被高估的股票,揭示其长期投资潜力。
• 情绪分析师智能体:处理大量社交媒体内容,提取情绪评分和内部人士情绪,衡量市场情绪,预测短期内投资者行为对股票价格的影响。
• 新闻分析师智能体:分析新闻、政府公告和宏观经济指标,评估市场宏观经济状况、重大事件和公司变化,识别可能引发市场波动的新闻事件,帮助预测市场动态的突变。
• 技术分析师智能体:计算并选择适合特定资产的技术指标,如MACD和RSI,分析价格模式和交易量,预测未来价格走势,协助确定交易时机。
2.2 研究团队
研究团队负责对分析师团队提供的信息进行批判性评估。团队由持有看涨和看跌观点的智能体组成,通过多轮辩论来权衡投资决策的风险与收益。
• 看涨研究员:突出积极的指标、增长潜力和有利的市场环境,倡导投资机会,并支持在某些资产中建立或维持头寸。
• 看跌研究员:关注潜在的不利因素、风险和不利的市场信号,提供谨慎的见解,质疑投资策略的可行性,并强调可能的负面结果。
通过辩证过程,研究团队对市场状况形成平衡的理解。深入的分析有助于识别最有前景的投资策略,同时预见可能的挑战,从而为交易员智能体提供明智决策的依据。
2.3 交易团队
基于分析师团队的全面分析和研究团队的深入见解,负责执行交易决策。综合评估定量数据和定性信息,以确定最佳交易策略。
交易智能体的交易员职责包括:
• 评估分析师和研究人员的建议与见解。
• 确定交易时机和规模,以最大化收益。
• 在市场上执行买入或卖出指令。
• 根据市场动态和新信息调整投资组合。
交易员智能体在潜在收益与风险之间找到平衡,在瞬息万变的市场中迅速决策。他们的行为直接影响公司业绩,因此需要极高的精准度和战略思维。
2.4 风险管理团队
风险管理团队负责监控和调控公司对各类市场风险的敞口,持续评估投资组合的风险状况,确保交易活动在预设风险范围内,并符合监管要求。
风险管理团队的职责包括:
• 评估市场波动、流动性和对手方风险等因素。
• 实施风险缓解策略,如设置止损或分散持仓。
• 向交易代理反馈风险敞口,并建议调整交易策略。
• 确保整体投资组合与公司的风险承受能力和投资目标一致。
通过监督和指导,风险管理团队帮助维护公司财务稳定,抵御市场不利事件。在资产保护和确保长期可持续表现中扮演关键角色。
以上所有智能体均采用ReAct提示框架,融合了推理与行动,共享并监控环境状态,从而采取适合上下文的行动,如研究、交易、辩论或风险管理。这一设计确保了协作、动态的决策过程,真实反映了现实世界的交易系统。
2.5 通信协议(Communication Protocol)
大多数基于LLM的智能体框架主要依赖自然语言进行通信,通过结构化的消息历史或代理生成的消息集合。
然而,仅靠自然语言往往难以应对需要长期规划的复杂任务。纯粹的自然语言通信容易像电话游戏一样,经过多次迭代后,初始信息可能因上下文长度限制和文本过载而被遗忘或扭曲,导致关键细节丢失。
为解决这一问题,借鉴了MetaGPT等框架的结构化通信方法,提出了一种结构化的通信协议来管理智能体交互。
通过明确定义每个智能体的状态,确保每个角色仅提取或查询必要信息,处理后返回完整报告。这种简化流程减少了冗余步骤,降低了消息损坏的风险,使交互更加专注高效,即便在复杂、长期的任务中也能保持高效运作。
2.6 智能体交互类型
与以往依赖自然语言对话的多智能体交易框架不同,TradingAgents 的智能体主要通过结构化文档和图表进行交流。
文档以简洁、组织良好的报告形式封装了智能体的观点,保留关键内容,同时避免了无关信息。
通过使用结构化报告,智能体可以直接从全局状态中查询必要的细节,消除了冗长对话的需求,这些对话可能会导致信息稀释、消息状态无限延长以及数据丢失。
文档类型及其包含的信息如下:
• 分析师团队:基本面、情感、新闻和技术分析师将他们的研究和发现汇编成针对其专业领域的简洁分析报告。报告包括基于其专业分析的关键指标、见解和建议。
• 交易员:审查和分析分析师提供的报告,经过仔细考虑后生成清晰的决策信号。附上详细报告,解释其决策理由和支持证据,这些报告随后被风险管理团队使用。
智能体仅在智能体间对话和辩论时进行自然语言对话。这些简洁、集中的讨论被证明可以促进更深层次的推理并整合多样化的观点,从而在复杂、长期的情景中做出更平衡的决策——这种方法适用于复杂的交易环境。
通信类型如下:
• 研究团队:每个研究智能体查询全局代理状态以获取分析报告,并仔细形成自己的观点。两名研究人员代表相反的观点:一个看涨,一个看跌。他们进行 n 轮自然语言对话,由辩论协调代理决定。结束时,协调者审查辩论历史,选择主导观点,并将其记录为通信协议中的结构化条目。
• 风险管理团队:风险管理团队与研究团队类似,查询交易员的决策和附带报告。然后从风险寻求、中性和风险保守三个角度进行审议,以在风险限制内调整交易计划。他们在协调智能体的指导下进行 n 轮自然语言讨论。
• 基金经理:审查风险管理团队的讨论,确定适当的风险调整,并在通信协议中更新交易员的决策和报告状态。
2.7 大语言模型
为了应对任务的多样性和速度需求,根据大型语言模型(LLMs)的优势进行战略选择。
快速思考模型:如 gpt-4o-mini 和 gpt-4,擅长处理快速、低深度的任务,如摘要、数据检索和表格数据转文本。
深度思考模型:如 o1-preview 则在推理密集型任务中表现卓越,如决策制定、基于证据的报告撰写和数据分析。通过多轮推理,生成逻辑严密、深入的见解。
此外,优先选择已验证可靠性和可扩展性的模型,以确保在各种市场条件下的最佳性能。我们还使用辅助专家模型来处理情感分析等专门任务。
3. 效果对比
3.1 效果对比实验设计
3.1.1 回测模拟
为了模拟真实的交易环境,采用了一个多资产、多模态的金融数据集,涵盖苹果、英伟达、微软、Meta、谷歌等股票。数据集包括:
• 历史股价:2024年1月1日至3月29日的开盘价、最高价、最低价、收盘价、成交量和调整后收盘价。
• 新闻动态:每日新闻来自彭博社、雅虎、EODHD、FinnHub和Reddit等平台,涵盖公司动态、全球事件、宏观经济趋势和政府更新。
• 社交媒体与情绪:Reddit、X/Twitter等平台的帖子,以及由辅助语言模型计算的帖子情绪得分。
• 内部情绪与交易:基于公开信息(如SEDI交易和公司文件)的情绪分析。
• 财报与收益:公司提交的季度和年度报告。
• 公司概况与财务历史:第三方提供的公司简介、目标行业和财务历史。
• 技术指标:每个资产的60个标准技术分析指标,如MACD、RSI、布林带等。
3.1.2 测试基准
我们对比了 TradingAgent 与多个基准的表现:
• 买入并持有(B&H):在所有选定股票中均等投资,并在模拟期间持续持有。
• MACD:通过MACD线与信号线的交叉点生成买卖信号的趋势跟踪策略。
• KDJ与RSI(相对强弱指数):结合KDJ(随机振荡器)和RSI(相对强弱指数)指标的动量策略,用于识别超买和超卖条件以生成交易信号。
• ZMR(零均值回归):基于价格偏离并回归零参考线的均值回归交易策略。
• SMA(简单移动平均线):通过短期与长期移动平均线的交叉生成交易信号的趋势跟踪策略。
3.1.3 评估指标
为了全面评估TradingAgents框架的性能,采用了一系列广泛认可的指标,评估Trading Agents策略的风险管理、盈利能力和安全性。
• 累计回报率(Cumulative Return):用于衡量模拟期间的总回报。
• 年化回报率(Annualized Return):将累计回报率按年数进行归一化。
• 夏普比率(Sharpe Ratio):通过比较投资组合的超额回报与无风险利率的波动性,衡量风险调整后的回报。
• 最大回撤(Maximum Drawdown):最大回撤用于衡量投资组合价值从峰值到谷底的最大下降幅度
3.2 性能对比
3.2.1 累计和年度回报
从上面的两个图可以看出,TradingAgent 在盈利能力上显著优于现有基于规则的交易基准,尤其是在回报方面。
TradingAgent 在三只样本股票上实现了至少23.21%的累计回报和24.90%的年度回报,比表现最好的基线高出至少6.1%。特别是在AAPL股票上——由于测试期间的市场波动,这是一个极具挑战性的案例——传统方法表现不佳,而 TradingAgent 在不到三个月内实现了超过26%的回报。
3.2.2 夏普比率
夏普比率的表现表明 TradingAgent 在风险调整回报上的不错的表现,其在AAPL、GOOGL和AMZN上的夏普比率至少为5.60,比次优模型高出至少2.07点。
这一结果证明了 TradingAgent 在平衡回报与风险方面的有效性,这是可持续投资增长的关键。
通过超越买入持有等市场基准和KDJRSI、SMA、MACD等高级策略,交易代理展示了其在各种市场条件下的适应性和稳健性。
在最大化回报的同时保持可控风险的能力,为多智能体和基于辩论的自动交易算法奠定了坚实基础。
3.2.3 最大回撤
虽然基于规则的基准在控制风险方面表现出色,但在捕捉高回报方面表现不足。
这种风险与回报的权衡表明 TradingAgent 的平衡优势。尽管高回报通常伴随高风险,TradingAgent 的最大回撤仍保持在较低水平,不超过2。
通过风险控制智能体之间的辩论实现的有效风险控制机制,确保了回撤在可控范围内。展示了 TradingAgent 在最大化回报和有效管理风险之间的稳健平衡能力。
3.2.4 可解释性
深度学习方法的一个显著缺点是架构复杂,导致交易代理的决策难以理解。该问题源于AI可解释性,对 TradingAgent 尤为关键,因为它们在涉及大量资金的金融市场中运作,错误决策可能导致严重后果。
相比之下,基于LLM的 TradingAgent 框架提供了变革性优势:操作和决策以自然语言传达,高度可解释。
来源 | 大语言模型论文综述