AI金融科技的前沿进展

文摘   2024-08-22 10:33   福建  
在金融科技发展下,金融机构虽重视智能风控硬实力建设,但软实力如算法能力易被忽视。本文专注智能风控的“算法能力”,首先阐述算法逻辑、应用经验,再探讨场景、数据、算力下的算法选择。内容分四部分:
  1. 关于智能风控算法的观点:后浪需重视算法能力,避免后发劣势;前浪不可自满,需创新;算法发展经历三阶段;算法选择需理性,考虑场景需求、数据基础、科技算力。

  2. 人工智能发展与算法进化,介绍金融领域应用。

  3. 算法在智能风控领域的经验与思考,指出六大发展趋势:深度学习普及、多模态数据应用、图数据库与图网络落地、联邦学习落地、自动化建模升级、算法可解释性重视。

  4. 算法工程师必备算法知识与文献推荐,覆盖图学习、联邦学习、集成学习等12种算法的原理与应用经验。


一. 关于智能风控领域算法的四个观点

在金融科技迅猛发展的浪潮中,金融机构已纷纷投身于智能风控体系的建设。然而,在这场后浪追逐前浪的竞赛中,笔者深感双方对算法人才的培养和算法能力的建设均未能给予足够的重视。这一现状可能会引发两大误区:后浪可能因盲目模仿前浪而陷入“后发劣势陷阱”,前浪则可能因满足于现状而陷入“建模套路化”的泥沼。而算法能力的培育无疑是摆脱这些误区的关键所在。

(一)对于后浪而言,必须警觉“后发劣势陷阱”的威胁,并在数据与算法能力的培养上倾注心力。此陷阱的核心在于,由于缺乏实践经验,后浪往往只模仿前浪的表面和易实现的部分,而忽视了背后的基础工作。例如,他们可能过分关注IT系统的采购,而忽视了数据基础、科技整合和算法能力的提升。因此,后浪需要“俯首甘为孺子牛”,勤奋地挖掘和整理数据;需要“横眉冷对千夫指”,勇敢地改革和创新科技系统;需要“甘做幕后英雄”,持之以恒地培育和提升算法能力。只有这样,才能避免金玉其外败絮其中的局面,将金融科技转化为真正的核心竞争力。

(二)对于前浪而言,切不可满足于现状,必须保持对算法领域变化的敏锐洞察和与时俱进的步伐。特别是在“建模套路化”的问题上,要意识到一套固定的模型和算法并不能应对所有复杂的业务场景。在场景金融中,金融机构与场景方之间的流量分发和准入模型是既合作又对抗的关系,因此,套路化的模型可能导致风控失去实质的甄别能力。

(三)智能风控领域的模型算法发展经历了从“专家评分卡”到“逻辑回归(高维逻辑回归)”再到“集成学习、深度学习”的三个阶段。这一演变过程不仅反映了人工智能算法在风险评估领域的应用深度,也预示了未来的发展方向。

(四)在选择算法时,必须根据“场景需求”、“数据基础”和“科技算力”进行理性判断。这不仅是技术层面的要求,也是对每个算法工程师的挑战。然而,在实际操作中,我们往往会受到个人主观倾向的影响。例如,对高维逻辑回归和集成学习的依赖、对深度学习的偏爱以及对专家规则的无奈等情感因素,都可能影响我们做出最佳的决策。因此,我们需要学会平衡个人情感与理性判断,以确保算法选择的准确性和有效性。对于专家规则,并非怀揣着爱或恨,而是一种难以言表的无奈。每每叹息:“倘若数据足够丰盈,何需倚赖专家规则?”然而,这份无奈并非源于专家规则的效力不济。实际上,在某些数据背景下,或在特定的应用场景中,专家规则仍能展现出其效用。然而,它的核心短板在于“无法自我更新”!随着业务的变迁,风险的演进,专家模型却停滞不前,那些曾经的助力可能转变为业务发展道路上的绊脚石。


因此,每次我运用专家规则进行建模,心中总会涌起一股难以言喻的感慨:“曾有一模型任务在眼前,我选择了专家规则,待到模型建成,却追悔莫及。人世间最痛之事,莫过于此。若得命运垂青,重获一次选择之机,我定会再次审视数据基石,若仍旧钟情于专家规则,我必定为这份无奈设定一个期限——半年后重新评估!”半年后,当业务数据再次积累,我将开启月光宝盒,在月华之下,我会大声呼喊“般若波罗蜜”……


二. 人工智能的发展与算法的进化

作为首批人工智能领域的博士,毕业十年之际,我深感人工智能的迅猛发展:“十年前,人工智能仅存在于书页之间,如今它已深深融入资本市场;昔日,我仅用其完成作业,现今人们已纷纷利用人工智能开拓创业新天地!”十年之间,人工智能的腾飞尤其显著于算法与应用的两大方面。

(一)人工智能发展的背景

  1. 人工智能、机器学习、深度学习的概念辨析

(1) 人工智能(Artificial Intelligence)

“人工智能”一词源自1956年的Dartmouth学会,其愿景是构造具备人类智慧本质的机器。起初,这一领域涵盖机器人、语言识别、图像识别、自然语言处理及专家系统等。随着科技的飞跃,人工智能的五大主流技术已演变为:生物特征识别、机器学习、自然语言处理、计算机视觉、知识图谱。

(2) 机器学习(Machine Learning)

机器学习是人工智能的实现途径之一。它不同于传统的固定算法,而是利用海量数据“训练”模型,从中学习完成任务的方法。从学习方法上划分,机器学习包括监督学习、无监督学习、半监督学习、集成学习、深度学习和强化学习等。

(3) 深度学习(Deep Learning)

深度学习,作为机器学习的重要分支,其技术基础在于神经网络。初期,受限于数据和计算能力,深度学习并未展现出显著优势。然而,随着数据和计算力的迅猛增长,加之如残差网络等创新算法的提出,深度学习已独领风骚。

(4) 人工智能、机器学习、深度学习三者的关系:

三者如同“俄罗斯套娃”,相互包含而非简单级联。面对“机器学习的终点是深度学习”的误解,我坚信技术永无止境。正如Yoshua Bengio所言:“科学不是战争,而是合作。我们彼此借鉴,共同构建。科学是对周围世界之美的热爱,是分享与共建的热爱。这使得科学在情感上成为一项高度满足的活动。”在人工智能领域,博采众长方能引领风潮。

  1. 人工智能的主流算法与研究热点

传统的算法如决策树、聚类、贝叶斯分类等,虽曾辉煌,但现今已被新一代技术所替代。当前主流的人工智能算法涵盖了图学习、联邦学习、集成学习、因子分解机、自动化机器学习、结构化数据深度学习、概率预测、迁移学习/元学习、半监督学习和强化学习等领域,展现出强大的生命力与发展前景。在金融领域,人工智能的投入正呈现出愈发旺盛的态势,预示着其将在金融业务中更加深入地渗透,并逐步从辅助人工迈向价值创造的巅峰。根据研究人员的统计,人工智能在金融领域的研究热点已然明确:

  • 金融文本发掘(Financial Text Mining)

  • 算法交易(Algorithmic Trading)

  • 风险估计(Risk Assessment)

  • 情感分析(Financial Sentiment Analysis)

  • 投资组合管理(Portfolio Management)

  • 欺诈检测(Fraud Detection)

(二)人工智能在金融领域的璀璨应用

  1. 人工智能在金融领域的精妙应用简析

  2. 人工智能在金融领域发展的五大驱动力

人工智能在金融领域的迅猛发展,背后离不开以下五大驱动因素:

(1) 监管的积极引导

在政策层面,倡导“科技向善”的理念,积极鼓励人工智能、大数据等前沿技术的落地实施,全力支持金融与科技的深度融合与发展。

(2) 金融机构的广泛认可

金融机构对于人工智能的技术价值给予了高度评价,金融业务创新愈发依赖于大数据和人工智能技术。金融科技水平已然成为金融企业不可或缺的核心竞争力。

(3) 基础算法的卓越进步

人工智能领域汇聚了一批顶尖的研究精英,他们在理论层面不断推动着算法能力、数据能力和科技算力的提升。算法基础理论的每一次突破,都为人工智能在金融领域的应用实践注入了新的活力。

(4) 大数据的跨界融合

金融数据与其他跨域数据的相互融合,不仅提高了金融机构的营销与风控模型的精准度,还催生了更多基于实际场景的金融产品,推动了行业间的深入交叉合作,从而带来了更广泛的商业价值与社会效益。

(5) 黑产手段的严峻挑战

当前,各类金融场景中的欺诈行为正逐步呈现产业化、职业化、精准化、移动化和多样化的特征。这种日益激烈的“攻防战”,正是推动算法技术不断进步的强大动力。


三. 人工智能算法在智能风控领域的经验与思考

(一)智能风控领域中的算法选择之道

在智能风控领域中,人工智能算法的应用是金融创新与稳定的关键。要实现其高效运作,场景、数据、算法、算力需紧密融合,确保:场景需求精准匹配,数据资源量体裁衣,算法选择量力而行。

  1. 从“场景需求”探寻“算法精髓”

模型的算法,实则源于场景与业务需求的直接映射。由“场景需求”到“算法要求”的转化,需经历两个关键步骤:

  • 第一步,深入理解场景业务特点,精确提炼场景需求;

  • 第二步,将场景需求抽象化为算法要素。

通常而言,这些算法要素涵盖了样本量、预测时间、模型周期、泛化能力、优化目标及可解释性等方面。为了更直观地理解,以广告推荐、信用评估、智能投研等场景为例,我们可以清晰地看到场景对算法选择的深远影响。

  1. 从“数据瑰宝”到“特征锻造”

在智能风控领域,主流模型之基在于特征工程。数据源丰富多样,包括征信报告、资产状况、基本信息、多头借贷、运营商数据、地理信息、设备信息等。通过精心设计的特征工程,我们能从这些数据中提炼出统计量特征、离散化特征、时间序列特征、组合特征等宝贵资源。在此过程中,我们不禁想起军训教官的教导:“铁打的营盘,流水的兵”。数据如同流水,时而波动、时而清澈;而特征则是营盘,稳定且坚实。只有稳定的特征,才能确保模型输出的稳定与可靠。

(1) 特征工程的艺术之旅

在特征工程的实践中,笔者总结了一套行之有效的处理流程,戏称为“三步放进冰箱的大象”——这里的“大象”象征着庞大的数据体系,而“冰箱”则是实用的特征库。

  • 第一步:特征探索,从海量数据中筛选出真正有价值的特征;

  • 第二步:特征变换,将原始特征转化为模型更易识别的形式,并进行维度扩展;

  • 第三步:特征选择,结合业务需求,挑选出最具影响力的特征。

(2) 特征工程的智慧分享

在特征工程的道路上,笔者积累了一些宝贵的经验,愿与读者分享:

  • 经验建议1:珍视数据中的“缺失之美”

数据缺失并非全然是问题,它本身也是一种特征。要关注缺失数据的业务含义,并据此构造缺失值特征。在衍生二代征信变量的实践中,构造“客户特征缺失数量”作为一个特征,不仅优化了模型效果,还揭示了数据缺失的潜在价值。

  • 经验建议2:挖掘“时间差”的奥秘

时间差特征,如最近一次消费距今时长、最大单笔交易与最小单笔交易的时间差等,蕴含着丰富的信息。在开发贷中模型时,笔者发现最近一次消费距今时长与客户违约率高度相关,这一发现为模型优化提供了重要线索。

  • 经验建议3:融合“离散”与“连续”的智慧

将离散变量与连续变量结合,构造聚合特征,如将职业、卡类型、贷款类型等分类变量与贷款金额、消费金额等数值变量进行聚合汇总,能有效提升模型效果。在贷款违约模型的开发中,这一方法的应用使模型性能得到了显著提升。

  • 经验建议4:善用“外部数据”的力量

外部数据是金融数据的宝贵补充,特别是在反欺诈和二次营销方面。引入这些外部数据能够极大提升模型效果与实用性。

  1. 算法选择经验之精华

(1) 顺应数据类型的算法选择

金融领域的数据具有“多源异构”的特点,包括时间序列数据、网络图谱数据、结构化数据、文本数据、图像数据、视频数据、语音数据等。在实践中,我们应针对不同的数据类型选择适宜的算法。以下是根据笔者实践经验总结的算法选择指南:

(2) 算法选择的数据驱动策略

在实际应用中,我们常常面临数据方面的诸多挑战,如样本稀缺(尤其是黑样本)、数据维度不足、高昂的人工标注成本、标签稀缺或错误等。面对这些数据“困境”,合适的算法选择至关重要,能够显著提升工作效率。以下是笔者在实践中针对不同数据状况总结的算法选择经验,详见下表。

(3) 基于经验的数据驱动算法选择

在智能风控领域的算法实践中,笔者总结了以下经验:

  • 经验建议5:针对结构化数据

  • 当连续特征占据主导地位时,集成学习是明智之选。

    • 当离散特征占据多数时,集成学习与深度学习表现相当。

    • 若离散特征丰富(如大量ID类特征),深度学习则是优选方案。

  • 经验建议6:面对时间序列数据

  • 纯时间序列数据下,“时序特征+集成学习”的策略通常优于深度学习。

    • 高维稀疏的时间序列数据则让深度学习与集成学习各有千秋。

  • 经验建议7:针对图数据结构

  • 对于高度依赖关联关系的应用场景(如图反欺诈),建议以GNN模型训练节点特征。

    • 若对关联关系要求较低(如图关系特征辅助信用评估),则可直接学习节点Vector,并将其编码至原始特征中,采用集成学习进行训练。

  1. 建模方法论的智慧结晶

在建模方法论上,笔者有几点心得与读者分享,欢迎指正。

  • 经验建议8:数据质量之基

  • 数据是模型之根,若数据质量有严重缺陷,后期难以通过算法弥补。因此,建模前务必关注数据质量,准确评估其对模型的影响。

  • 经验建议9:专家经验与规则的平衡

  • 专家经验与规则虽难以自我更新,但在“有效期”内,它们是宝贵的“标尺”。我们应以此标尺为参照,对算法进行必要的纠偏。

  • 经验建议10:模型迭代与算法创新的智慧

- 创新是算法的灵魂,迭代是模型的动力。但在追求创新与迭代前,首先要确保达到“及格线”。对于算法创新,要确保经典算法的有效性;对于模型迭代,则要选好基线模型作为起点。


(二)智能风控领域的人工智能算法展望

基于工作经验,笔者对人工智能算法在智能风控领域的发展趋势进行了思考。

  1. 趋势1:深度学习算法的广泛应用

 (1) 随着数据量的激增与计算能力的飞跃,深度学习模型的优势日益凸显。

   随着数据资源的丰富与计算能力的持续增强,传统的评分卡模型在大数据风控中的不足逐渐显露。与此同时,DeepFM类和Transformer类深度学习算法在智能风控中展现出了强大的潜力。DeepFM类模型凭借其在广告推荐领域的迁移经验,在自动化特征组合和客户ID类数据处理上的优势,成为用户行为欺诈检测的重要工具;而Transformer类模型则通过平衡表征能力与可解释性,获得了越来越多的关注和应用。

 (2) 深度学习模型对用户行为具有出色的表征能力,能够实现自动化的特征组合和精细的行为刻画。

   一方面,深度学习模型通过特征表征、元素点积、注意力机制等技术手段,实现了特征的自动化组合。另一方面,通过RNN等模型对用户行为进行序列建模,能够更加精准地捕捉用户行为的细微变化。Tencent、FeedZai等公司均利用RNN类模型进行交易反欺诈与信用评估,其高效且精准的性能得到了业界的广泛认可。

 (3) 深度学习模型在处理各种数据场景时展现出良好的可扩展性,特别是在处理无标注数据、标注不准确数据、增量数据、不同分布数据以及小样本数据等方面,具有独特的优势。在无标注数据、标注不准确数据、增量数据、不同分布数据、小样本数据的挑战下,传统算法的效果显著受限,而深度学习模型凭借其神经网络结构的巧妙设计与损失函数的精细优化,展现了对元学习、迁移学习、在线学习、半监督学习、持续学习等模型场景的强大适应性,其探索性与可配置性尤为出色。

  • 面临建模样本稀缺的困境时,Transfer Learning或Meta Learning的策略能助力模型设计;

  • 当样本标注成本高昂时,Active Learning的方式则为样本建模提供了有效路径;

  • 当样本标签出现误差时,Learning With Noisy Label的方法能够确保模型训练的稳健性;

  • 当仅有部分样本拥有标签时,Semi-supervised learning的方式可助您构建高效模型。

  1. 趋势展望:多模态数据将大放异彩

算法与数据的发展相得益彰,深度学习算法的进步正推动多模态数据在风控领域大放异彩。

  • 从算法层面看,传统风控模型仅依赖信贷记录,而深度学习模型却能挖掘多模态数据中隐藏的风险信息;

  • 从数据层面看,图像、语音、文本、图等多样化数据为结构化数据提供了有力补充,能够精准识别信贷记录中难以察觉的风险。

因此,多模态数据在风控领域的价值日益凸显。

  1. 趋势洞察:图数据库与图深度网络将广泛落地

(1) 网络图谱以“关系视角”革新反欺诈策略

网络图谱用“事物间关系属性”替代“事物本身属性”,重新定义事物特征。这种视角对识别团伙欺诈、线上反欺诈具有重要价值。例如,线上反欺诈侧重于团伙欺诈,其核心在于“羊”与“羊头”之间的关系属性,这正是网络图谱的独到之处。

(2) 网络图谱衍生图特征在风控领域的深度应用

网络图谱衍生图特征分为三类:

  • 基于专家经验的特征:具有可解释性,通过业务经验构建节点与边的属性特征,用于风险预测模型;

  • 基于机器学习的特征:通常不可解释,通过图表示方法将用户/企业风险水平结构化为向量表达;

  • 端到端的风险预测模型:融合结构化特征,通过图神经网络算法直接训练风险预测模型。

前者已在金融机构广泛落地,后两者则更多应用于互联网大厂,但随着金融机构对智能认知的加深,其应用也将逐渐普及。

(3) 网络图谱成为金融机构的“新数据源”

通过将评分体系构建在网络图谱特征上,我们发现两者效果相当。此外,随着图谱构建算法的进步,网络图谱能从有限数据源中挖掘更多内部关系,形成新的“关系数据源”。

  1. 趋势预测:联邦学习将全面普及

在数据作为生产资料、模型算法形成生产力的今天,联邦学习作为一种新型生产关系,将充分整合数据生产资料与模型算法,形成强大的生产力。联邦学习,作为一种前沿的计算框架,在严格确保数据隐私的前提下,让数据和算力得以在本地保留,从而高效进行联合模型训练。在金融领域,隐私与数据安全的保护始终是重中之重。而联邦学习正是在这样的背景下,促进了场景生态与金融生态的跨领域、企业级数据合作,不仅孕育出联合建模的新业态、新模式,更预示着未来大规模的实施与落地。

  1. 趋势5:模型风险管理平台将成自动化建模平台新形态

前文所提及的“后发劣势陷阱”警示我们,金融机构在IT系统产品采购的热潮中,应警惕基础数据、科技整合、算法能力等方面的忽视。当前,金融机构纷纷引入了自动化建模平台,但如何充分利用这一平台,实则涉及到一个核心问题、两个应用感受及三个重要发展趋势。

(1) 首要核心:责任明确划分。自动化建模产出的模型若出现贷款不良,责任的归属亟待明确。因此,将模型风险管理流程嵌入平台,是确保责任划分的关键。

(2) 应用感受双璧:

  • 感受1:建模如解数学题,风控之本质被忽略。

  • 感受2:担忧“建模套路化”的新趋势。

(3) 发展趋势三向:

  • 趋势1:数据清洗、特征工程自动化成焦点。在模型构建过程中,这两大环节往往占据大部分时间,自动化处理将极大提高效率。

  • 趋势2:自动化算法作为模型验证的有效挑战者。其公正性使之成为模型验证的基准线,有效减轻验证工作负担。

  • 趋势3:模型风险管理平台升级。自动化建模平台与风险管理流程相结合,将数据处理、特征工程、模型验证等环节纳入其中,显著提升建模的敏捷性与准确性。

  1. 趋势6:算法可解释性日益受到关注

风控领域对模型解释性的需求远超其他领域,尤其在关键决策时。机器学习(深度学习)模型因其解释性不足而在风控应用中受限。因此,增强算法的可解释性成为智能风控研究的重点。然而,我们也需要辩证地看待可解释性,不应牺牲算法的智能性过度追求解释性,因为智能的本质在于从数据中挖掘未被发现的信息。

四.算法工程师的算法知识与经验分享

在本章,笔者将对金融领域常用的算法进行总结,分享个人经验,并推荐一些值得自学的参考资料,如图学习算法等,旨在帮助读者更深入地理解和掌握这些算法。

(一)图学习算法、经验及应用

  1. 图学习算法简介:图学习算法是一种专门用于处理图结构数据的机器学习技术,它在金融领域具有广泛的应用前景。谈及图学习,我在达摩院2020年十大科技趋势预测白皮书中发现的一段关于图网络的描述深深吸引了我:“大规模图神经网络被公认为推动认知智能发展不可或缺的推理利器。图神经网络不仅将深度神经网络的应用范围从传统的非结构化数据(如图像、语音、文本序列)扩展至更为高级的结构化数据(如图结构)。大规模的图数据蕴含着人类丰富的常识和专家规则,其节点如同符号化的知识载体,不规则的图拓扑结构则揭示了节点间错综复杂的依赖、从属和逻辑规则。以保险与金融风险评估为例,一个完善的AI系统不仅要基于个体的履历、习惯和健康状况进行分析,还需借助其亲友、同事、同学间的交互数据和相互评价来更精准地评估信用和做出推断。图结构学习系统凭借其独特的优势,能够精准地捕捉用户间、用户与产品间的互动,从而进行深入的因果和关联推理。”

在数学领域,有一个为人熟知的六度空间理论,它揭示了人与人之间的联系,任何两个人之间不会超过六个中介。这恰恰说明了关系的重要性。图网络正是这一理念的体现,它提供了一种通用的数据表示方法,几乎所有事物的联系都可以用“节点+关系”来刻画。同时,大量的实际问题都可以转化为图上的计算任务来解决。可以说,图数据是业务场景中最贴切的数据表达方式。

近年来,学术界对图神经网络的研究热度持续升温,这也吸引了工业界的广泛关注。DeepMind曾提及深度学习未来的展望:“生物学中的先天与后天因素相辅相成,同样地,我们认为‘人工构造’与‘端到端’学习并非二选一,而是应融合二者之长,互补共赢。”图神经网络正是这一理念的完美体现,它融合了人工构造的属性特征信息和复杂的网络结构信息,实现了人工构造与端到端学习的和谐统一。在图的世界中,我们可以进行多层次的关系推理,而传统的CNN、RNN等深度神经网络则无法有效处理非欧式空间的图数据,这正是图学习算法的魅力所在。

按照网络知识的本质,图学习算法可细分为两大分支:网络表示学习算法与图神经网络算法。前者致力于得到节点的有效表征以服务于下游任务,其输出为顶点或边的向量化表示,具有通用性,如DeepWalk、LINE等算法;后者则针对特定任务进行网络学习,通过端到端的训练获得具体表征,如GCN、GAT等算法。

接下来,我想分享一下图学习算法的经验。在传统的客户建模中,客户与客户之间被视为独立的存在,但在风控场景中,这种观念显然不再适用。大量的复杂关系如交易、转账、亲属关系等使得个体的属性不仅与其自身特性相关,还与其发生交互的个体紧密相连。结合我的实践经验,我提出以下算法建议供参考:

首先,GBDT与GNN的结合是一种有效的策略。这种结合有三种方式:GBDT的输出作为GNN的特征输入,GNN的输出作为GBDT的特征输入,以及二者的联合训练。其中,联合训练的方式由于实现了任务的统一,因此模型效果更为出色。Catboost的作者曾在一篇文章中详细阐述了这种方式的算法原理,并通过与其他方法如GBDT的对比,证明了联合训练的优势。

其次,图网络与时间序列的结合也是一个值得探讨的方向。在风控、营销、投资等领域,时序图网络的作用日益凸显。如何构建亿节点级别的网络、实现知识图谱的融合以及关键节点的辨识、推理和控制,进而达到风险预警和防范的目的,是当下研究的热点。

最后,针对金融领域的图网络算法设计也是一个重要的课题。我们将继续深入探索这一领域,为金融行业的风险管理、欺诈检测等方面提供更为精准和有效的解决方案。图网络通常与具体场景紧密相连,电商与社交网络虽同为图网络,却在数据构成与模型计算上存在显著差异。惟有基于业务属性精研算法,方能触及业务核心问题。针对金融图网络数据,研究者们已设计出如HACUD、MAHINDER、AMG等专用算法,这些算法无疑值得模型开发者深入学习与探索。

  • 不同类型边的处理

前文已提及,风控领域内的关系错综复杂,从资金流动到家庭纽带,再到社交与中介关系,无一不考验着图算法的智慧。然而,当前许多算法在计算时往往只看重节点属性,忽略了边类型的微妙差异。因此,我们在实际应用中不能简单地“拿来就用”,而应深入场景分析、精心设计网络关系与算法逻辑,以确保方案的有效性与针对性。

  • 图的分布式计算能力

头部互联网公司与金融机构客户基数庞大,由此构建的客户关系网络可能达到数十亿节点、数百亿边的规模。在这样的大数据环境下,图网络的计算能力变得至关重要,有时甚至超过算法设计本身。唯有将高效的图神经网络算法与强大的计算能力相结合,我们才能培育出真正卓越的模型。

  1. 经典资料(个人推荐)

【1】图网络学习: http://cse.msu.edu/~mayao4/dlg_book/

【2】图网络论文: https://github.com/thunlp/GNNPapers

【3】BTC: Ivanov, Sergei, and Liudmila Prokhorenkova. Boost then Convolve: Gradient Boosting Meets Graph Neural Networks. arXiv preprint arXiv:2101.08543 (2021).

【4】HACUD: Hu B, Zhang Z, Shi C, et al. 基于属性异构信息网络的现金提现用户检测:层次注意力机制的研究[C]//AAAI Conference on Artificial Intelligence. 2019: 946-953.

【5】MAHINDER: Zhong Q, Liu Y, Ao X, et al. 通过多视图属性异构信息网络在线信贷支付中的金融违约者检测[C]//The Web Conference. 2020: 785-795.

【6】AMG: Hu B, Zhang Z, Zhou J, et al. 基于多重图学习的贷款违约分析[C]//ACM International Conference on Information & Knowledge Management. 2020: 2525-2532.

(二) 联邦学习算法、经验及应用1. 联邦学习算法概览

在数据流通与数据产业的繁荣中,数据共享无疑是其重要基石。然而,数据孤岛与数据安全隐私问题成为了共享之路上的绊脚石。当前基于云的共享方式,不仅面临数据泄露和垄断的威胁,还伴随着高昂的资源与成本。因此,寻求创新技术来化解这些难题势在必行。

联邦学习,由Google率先引领,通过分布式机器学习技术,为跨域数据共享与隐私保护提供了崭新思路。其研究不仅聚焦于机器学习算法的改进,还深入探讨了密码学技术。

谈及算法改进,联邦学习涵盖了联邦线性回归、联邦梯度提升树、联邦深度学习等。以联邦线性回归为例:

  • 起始,A、B两个联邦进行参数初始化,由第三方生成密钥,并向A、B发送公钥。

  • 随后,联邦A、B各自计算子损失函数,拥有Y标签的一方汇总误差并分发,进而生成A、B各自加密的梯度。

  • 最后,第三方解密梯度并发至A、B,更新各自参数,循环往复直至满足迭代次数或准确率要求。

在密码学技术方面,联邦学习涉及加密样本对齐与同态加密等。加密样本对齐通过RSA与Hash编码,实现了不同联邦间的客户关联;而同态加密则保障了数据层面的信息安全,无论是直接处理密文还是处理明文后再加密,其结果均保持一致。

根据参与方特性,联邦学习可分为三类:

  • 横向联邦学习:用户特征相同而用户各异;

  • 纵向联邦学习:用户特征各异而用户相同;

  • 联邦迁移学习:用户特征与用户皆不相同。

(1) 横向联邦学习:

算法定义:特征维度高度重叠而样本重叠较少的数据集,进行横向切分,提取出特征一致而样本不同的部分作为训练数据。

理解:以银行反欺诈为例,A、B银行分别建模,选择不同客户预测欺诈,云端控制方聚合模型参数,最终形成统一的欺诈模型。

(2) 纵向联邦学习:

算法定义:在用户重叠多而特征重叠少的情况下,选择用户相同而特征不同的数据进行训练。

理解:A银行与C公司合作,信贷记录与电商数据虽用户重叠,但特征交集少。纵向联邦学习通过加密技术聚合不同特征,增强模型能力。

(3) 联邦迁移学习:

算法定义:在用户特征与用户重叠均少的情况下,借助迁移学习克服数据或标签不足的问题。

理解:A金融机构与D电商的数据与用户均无重叠,此时需通过联邦迁移学习解决单边数据规模小和标签样本小的问题。

  1. 联邦学习算法实践之鉴

联邦学习算法的实践并非仅限于技术层面,还需考虑管理制度、多方科技系统整合等因素:

  • 奖惩机制设计:因数据资源分布不均,各方贡献度不同,需制定合理的奖惩机制。

  • 多方工程优化:面对不同科技资源,联邦学习在各方实施时可能遇到集群配置、网络配置等问题,需重视工程优化。

  1. 推荐资源

【1】联邦学习白皮书:【链接更新】

联邦学习白皮书v2.0

【综述推荐】

Kairouz, Peter等人撰写的《联邦学习进展与开放问题》,这篇预印论文为我们提供了对联邦学习前沿知识的深入了解(arXiv preprint arXiv:1912.04977,2019)。

【资料收集】

联邦学习相关资源集合:GitHub仓库

(三)集成学习算法:原理、经验与应用

1. 集成学习算法概览

集成学习算法,作为风控领域的佼佼者,其核心思想是通过多个弱分类器的组合构建出强大的分类器。其中,GBDT类算法及其衍生算法Xgboost、Lightgbm、Catboost、Snapboost等,已成为行业内的明星之选。这些算法巧妙地将Boosting机理转化为函数的梯度下降问题,支持多样化的损失函数,并通过算法优化大幅降低了计算复杂度。

  • Xgboost算法凭借牛顿法优化损失函数,结合正则项、缩减系数和采样步骤,增强了模型的泛化能力。

  • Lightgbm算法运用稀疏与稠密数据的混合存储策略,借助OpenNMP实现并行加速。

  • CatBoost算法针对类别变量进行了特殊处理,并采用高效的并行算法提升计算速度。

  • Snapboost算法则通过异构弱分类器的优化,依据概率质量函数进行采样选择。

2. 集成学习算法的经验之谈

集成学习算法以其独特的树结构,将特征衍生与集成学习融为一体,实现了两大优势:

  • 首先,它实现了特征生成与算法决策的紧密结合,增强了算法的稳定性与效果。

  • 其次,由于特征排序可并行处理,GBDT类算法支持分布式数据读取与模型训练,兼容GPU高效训练,并可灵活转换为PMML等格式,实现动态部署。

因此,GBDT类算法在智能风控、智能营销、智能投顾等领域得到了广泛应用,并成为智能风控领域的首选算法。

3. 经典资料推荐

  • GBDT算法经典之作:Yoav Freund. Boosting a weak learning algorithm by majority. Information and computation, 121(2):256–285, 1995.

  • Xgboost算法的深度解读:Chen, Tianqi, and Carlos Guestrin. Xgboost: A scalable tree boosting system. In KDD, pages 785-794, 2016.【3】Lightgbm:Ke Guolin, Meng Qi, Finley Thomas, Wang Taifeng, Chen Wei, Ma Weidong, Ye Qiwei, 和 Liu Tie-Yan合著的《LightGBM:一种高效梯度提升决策树》。在NIPS会议上,其论文占据显著篇幅,页数为3149–3157,于2017年发布。

【4】Catboost:Liudmila Prokhorenkova, Gleb Gusev, Aleksandr Vorobev, Anna Veronika Dorogush, 和 Andrey Gulin共同研发的《CatBoost:具有类别特征的无偏提升》。该论文在NIPS会议上大放异彩,页数为6638–6648,发表于2018年。

【5】Snapboost:Parnell, Thomas等人联合撰写的《SnapBoost:一种异构提升机》。该论文在NIPS会议上引起了广泛关注,页数为33,发布于2020年。

(四)因子分解机算法、经验及应用

  1. 因子分解机算法介绍

本章所提的因子分解机算法,主要涵盖DeepFM及其变种算法,如WDL、NFM、AFM、DCN、DIN、DIEN、xDeepFM等。DeepFM之精髓在于类别型变量的向量表征与特征间交叉组合,尤其适用于离散特征繁多的场景。

以金融市场为例,我尝试阐述因子分解机类算法的思路:

  • 向量表征思想(Embedding):它将复杂、动态的事件通过模型转化为高维度的向量表达。在金融市场,面对多变的事实与事件,我们可以依赖神经网络将它们转化为向量形式。

  • 分类处理思想(Wide Deep):这种思想利用FM与DNN网络分别对离散型与连续型数据进行学习。金融市场中,行业分类等离散数据与交易金额等连续数据并存,需根据不同数据类型设计不同的模型结构。

  • 特征交叉思想(Feature Crossing):指特征间的内积或外积运算。在特征有限的情况下,通过特征交叉能自动组合形成新特征,从而发现更多有效特征。

  • 注意力思想(Attention):它赋予时间序列与非时间序列不同的注意力机制。在金融市场中,不同特征在不同市场环境下的重要性不尽相同,模型会根据市场情况自动“关注”不同的特征。

  1. 因子分解机算法经验

因子分解机类算法在搜索推荐广告领域具有显著作用,同样在金融领域,对于金融信息的推荐与理财产品的推荐也具备强大的应用潜力。与集成学习模型相比,该类模型具有以下优势:

  • 优势1:支持大数据训练,无需依赖庞大的大数据集群。

  • 优势2:能够精细刻画用户的特征。

在实践过程中,我积累了以下经验:

  • 经验1:增加离散特征的比例。由于离散变量易于发挥向量表征的优势,更适合使用因子分解机类算法进行建模。

  • 经验2:增加客户细粒度的行为数据。为确保模型稳定收敛,作为深度学习模型,需要丰富的客户行为数据作为支撑。

  1. 经典资料(个人推荐)【1】深度学习在CTR预估中的卓越应用:https://zhuanlan.zhihu.com/p/59340370

【2】CTR预估入门及多种模型精彩介绍:https://www.mayi888.com/archives/54482

【3】深度CTR特征自动组合机制演变史的探索:https://zhuanlan.zhihu.com/p/52876883

(五)自动化机器学习算法的魅力、实践经验与应用领域

  1. 自动化机器学习算法:赋予机器学习全新活力

金融机构在建模过程中,常常面临两大挑战:一是业务人员缺乏机器学习知识,二是算法人才稀缺且建模流程繁琐、成本高昂。自动化机器学习算法(AutoML)应运而生,旨在实现流程的完全自动化,让领域专家轻松驾驭机器学习,同时也为算法工程师快速推进业务应用提供有力支持。

自动化机器学习,这一备受工业界瞩目的技术,当前研究的热点聚焦于自动特征组合与神经网络结构搜索两大领域。

(1) 自动化特征组合

在资源有限的情境下,自动特征组合致力于高效构建衍生特征。通过生成大量高阶组合特征,结合优化算法进行特征选择,将筛选出的新特征与原始特征共同用于模型构建。由于特征的可解释性强,风控建模中特别适用,可以清晰追踪到衍生特征的来源。

(2) 神经网络结构搜索(NAS)

神经网络结构搜索致力于在限定的时间与资源中,稳健而高效地探寻最佳模型结构。谷歌通过结合进化算法与强化学习,成功应用于视觉分类任务,探索出适宜的神经网络结构。该方法主要包括基于强化学习、遗传算法、梯度优化的多种策略,尤其适用于图像识别、文本识别等神经网络结构复杂的任务。

  1. 自动化机器学习算法的实践与经验

在自动化机器学习领域,自动特征组合算法(如SAFE算法、AutoCross算法)因其清晰的特征构造逻辑和出色的分布式计算能力,特别适用于风控建模。笔者在实际工作中,常用到蚂蚁金服的SAFE算法与第四范式的AutoCross算法。

(1) 倾心于“SAFE算法”

SAFE算法源自蚂蚁金服,通过一系列特征构造手段,包括特征组合排序、特征IV值筛选、皮尔逊相关系数冗余处理,实现自动化特征提取。其常用的特征构造方法涵盖一元特征、二元特征、群组统计特征,为模型构建提供了丰富的素材。

(2) 钟情于“AutoCross算法”

AutoCross算法则由第四范式贡献,采用Beam search方法生成数据,进行高阶特征组合,并通过Filed-wise logistic regression和Successive mini-batch gradient descent进行特征评价,从而筛选出有效的特征组合,为下游建模任务提供有力支撑。

(3) 自动化机器学习算法在数据清洗与特征工程中的潜力

在风控领域,数据清洗和特征工程至关重要。笔者认为,自动化机器学习算法未来的发展应更加注重这些基础环节,以全面提升模型的性能和准确性。一方面,在构建模型的过程中,数据清洗和特征工程常常占据了60至80%的时间,而对算法进行微调的时间则相对较少,通常不足5%。

另一方面,部分任务因其独特性质,如行业特定知识,难以完全自动化。

(4)神经网络结构搜索(NAS)的可解释性挑战

在实时性和可解释性要求极高的风控场景中,我认为,基于深度学习的自动化机器学习算法要广泛推广应用,还需经过必要的“雕琢”。

  1. 经典资料推荐

【1】SAFE: Shi, Qitao等人. Safe: 适用于工业任务的可扩展自动特征工程框架. IEEE第36届国际数据工程会议. 2020.

【2】AutoCross: Luo, Yuanfei等人. Autocross: 现实世界应用中针对表格数据的自动特征交叉. 第25届ACM SIGKDD国际知识发现与数据挖掘会议论文集. 2019.

【3】AutoML综述: Zller, Marc-André与Marco F. Huber. 自动化机器学习框架的基准测试与综述. 《人工智能研究杂志》. 2021.

【4】NAS综述: Elsken, Thomas, Jan Hendrik Metzen, 与Frank Hutter. 神经架构搜索:综述. 《机器学习研究杂志》. 2019.

(六)结构化数据深度学习算法、经验及应用

  1. 结构化数据深度学习算法概览

结构化数据,与图形数据、文本数据、语音数据等非结构化数据相对,指能够通过关系型数据库存储的高度结构化信息。在这个传统领域中,仍然不乏新的深度学习算法的涌现,这些算法大致可分为两大类别:

(1) 仿树型结构网络(Tree-based network)

此类算法以神经网络模拟树模型的损失函数,其中的佼佼者DeepGBM算法来自微软亚洲研究院。DeepGBM算法通过神经网络拟合树模型索引的输出,将稀疏的类别型特征输入CatNN子网络,将稠密的连续型特征输入GBDT2NN子网络,最终合并两子网络的输出,使用神经网络进行目标学习。

(2) 注意力类算法(Attention-based network)

此类算法通过引入注意力机制来进行网络设计,其中包括TabNet算法、TabTransformer算法和NODE算法等。

  • TabNet算法:源自谷歌,其通过引入注意力机制进行网络设计,效果卓越,不仅超越了其他神经网络和树形模型,而且兼顾了可解释性的要求,在某些场景中相较于Xgboost算法有着显著的提升。

  • TabTransformer算法:同样来自谷歌,它运用自注意力机制(Self-attention)来处理结构化数据,并在半监督任务上表现出色,显著优于GBDT算法。- NODE算法:源自俄罗斯顶尖搜索门户Yandex的智慧结晶,该算法汲取了图像处理领域的DenseNet框架精髓,巧妙构建了基于结构化数据的DenseNet模型,展现出卓越的效能。

  1. 结构化数据深度学习算法经验

结构化数据深度学习算法,已成为风控与营销模型的不可或缺之选。与传统集成算法相比,它的独特之处表现在:

  • 优势1:轻松应对大数据训练,无需庞大集群支持,为仅有风险数据集市的金融机构提供了宝贵的支持。

  • 优势2:可自由设定优化目标,无论是半监督还是自监督等特殊数据场景,都能游刃有余。

  • 劣势:调参过程相对复杂,且模型的可解释性有待提高。

  1. 经典资料(个人推荐)

【1】DeepGBM: Guolin Ke, Zhenhui Xu, Jia Zhang, Jiang Bian, Tie-Yan Liu. 在KDD ’19大会上,他们提出了Deepgbm,一种以GBDT为基础提炼的深度学习框架,专为在线预测任务设计。

【2】TabNet: Sercan O Arik, Tomas Pfister. TabNet,一个注重可解释性的表格数据学习模型,以其独特的注意力机制而备受瞩目。

【3】TabTransformer: Huang X, Khetan A, Cvitkovic M, et al. TabTransformer,利用上下文嵌入对表格数据进行建模,展现了强大的性能。

【4】NODE: Sergei Popov, Stanislav Morozov, Artem Babenko. 他们提出的NODE模型,在表格数据深度学习领域开辟了新天地,引领了新的潮流。

(七)概率预测算法、经验及应用

  1. 概率预测算法介绍

布莱恩·阿瑟,复杂经济学的奠基人,曾言不确定性是经济世界的核心旋律。今日,我们将一同探讨这充满不确定性的世界。

统计学中,频率学派与贝叶斯学派各有侧重。频率学派专注于样本数据的分布,坚信模型背后存在唯一的真实参数;而贝叶斯学派则另辟蹊径,他们探究的是参数的分布,认为参数本身也带有不确定性,以概率分布的形式存在。概率预测算法正是与贝叶斯学派的思想相契合,它提醒我们,世界充满变数,无需强求精确的预测数值,而应以分布的视角来洞察其可能性,毕竟,一切皆有可能,只是概率不同罢了。

概率预测包含两大核心部分:基于结果的分布预测和基于参数的分布预测。前者先预设预测值的分布形态,再探寻相关的参数;而后者则是从模型参数的分布入手,推导其涉及的参数,最终求得预测值的分布。例如,若以正态分布为预设,则关注的参数即为分布的均值和方差。基于结果的分布预测是基于一种概率分布的假设,即预测结果遵循特定的概率分布规律。与直接输出预测值的值预测不同(如左图所示),概率预测更倾向于描述预测值的潜在分布范围(如右图所示)。为实现这种预测,通常需要确定预测分布的类型,例如高斯分布或均匀分布,随后的问题便转化为学习这些分布的参数。

传统的机器学习算法在处理复杂的数据分布和表征能力上存在一定的局限性,往往难以有效解决分布参数的问题。而神经网络,以其出色的非线性拟合能力,逐渐受到更多关注。在分布预测领域,亚马逊的DeepAR算法、SDE-Net算法等神经网络模型表现尤为突出。例如,亚马逊运用DeepAR算法进行货物需求预测,这种预测不仅服务于补货,更侧重于在最大需求情况下预测所需库存。这种预测并非简单的平均值,而是基于概率分布的极端值预测,通过预测结果的分布,并选取分布的极端值,以满足库存需求。

图片来源: http://www.indiana.edu/~kruschke/BMLR/。

另一类预测方法——基于参数的分布预测,则是假设模型的参数本身也遵循某种概率分布。如上图所示,预测结果y是多个分布的加权结果。贝叶斯神经网络就是该方法的典型代表。贝叶斯神经网络假设网络的每一个参数都是一个分布,计算过程实际上是这些分布之间的相互作用。通过蒙特卡洛模拟,贝叶斯神经网络可以将不同分布预测的期望形式转化为离散平均加和的形式,从而提供预测结果的分布。相较于非贝叶斯深度学习,贝叶斯深度学习不仅因采用多种结果求期望平均而具有更强的鲁棒性,还因其概率预测的特性,能够提供更丰富的不确定性信息。腾讯在其广告系统中就运用了贝叶斯深度学习,以提供快速、准确的用户偏好学习方法。

  1. 概率预测学习算法的经验表明,通过预测值的分布进行建模,该方法不仅适用于各类回归问题,更能在极端情况下为风险管理提供定量的风险平衡途径。在我看来,概率预测在风控业务中的应用前景广阔,如:

  • 资金需求量预测:通过预测范围区间内的极端值,既能确保资本储备充足,又能避免资金浪费。

  • 可信度评估:例如,在资金需求预测中,根据疫情等外部因素调整预测的可信度,从而实现对宏观风险的量化评估。

  1. 经典资料(个人推荐):

【1】贝叶斯神经网络综述:Goan, Ethan, and Clinton Fookes. Bayesian Neural Networks: An Introduction and Survey. Case Studies in Applied Bayesian Data Science. 2020. 45-87.

【2】DeepAR模型:Salinas, David, et al. DeepAR: Probabilistic forecasting with autoregressive recurrent networks. International Journal of Forecasting. 2020. 1181-1191.

(八)迁移学习/元学习算法、经验及应用

  1. 迁移学习算法是一种允许从一个任务中学习到的知识或模型应用到另一个不同但相关的任务中的方法。接下来,我们将深入探讨这种学习算法的详细情况。迁移学习巧妙地运用了过往知识的力量,将已有知识应用于新问题。其核心在于洞察新问题与原问题之间的相似性,从而简化复杂流程,节省宝贵时间。在风控领域的实际应用中,面对新业务B的建模需求,我们无需从零开始,只需在业务A的成熟模型基础上进行微调,即可迅速响应,实现新业务模型的快速部署。

迁移学习可细分为样本迁移、模型迁移、特征迁移。以风控业务为例,我们可以更加深入地理解这三种迁移方式。

  1. 元学习算法揭秘

元学习,即学习如何学习,旨在设计一种经过多样化任务训练后,能快速适应并泛化至新任务的机器学习模型。形象地说,元学习就像一个经验丰富的智者,凭借其过往积累的知识,能够迅速掌握新任务的精髓。尽管元学习更侧重于任务的概念,但在实际应用中,它与迁移学习殊途同归,共同推动着机器学习领域的进步。

  1. 迁移学习算法经验分享

(1) 迁移学习的场景经验

笔者认为,迁移学习在风控领域具有广泛的应用前景。特别是在业务A、B数据特征大部分一致但标签特征重要程度不同的情况下,迁移学习能够快速实现新业务风控模型的构建。例如,保险贷与房贷客群特征构造逻辑相似,但由于客群分布差异,直接应用保险贷模型于房贷并不合适。此时,迁移学习便可大展身手,助力房贷模型快速成型。

(2) 迁移学习的应用经验

在实际应用中,笔者经常将迁移学习应用于紧急业务的冷启动和模型的结构迁移与参数微调。前者助力新业务迅速起步,后者则在业务积累一定标签后优化风控模型。

(3) 迁移学习的算法实践

笔者建议从逻辑回归算法优化、树模型算法参数微调以及深度学习算法模型结构设计三个角度逐步实践迁移学习。通过优化逻辑回归算法的目标设计、树模型算法的参数初始化和深度学习算法的网络结构,我们可以不断提升模型的泛化性能和业务适配能力。

  1. 经典资料(个人推荐)

【1】迁移学习简介: https://github.com/jindongwang/transferlearning

【2】元学习简介:https://zhuanlan.zhihu.com/p/146877957

(九)半监督学习算法、经验及应用

  1. 半监督机器学习算法概述

在数据世界中,有标签的样本稀缺而无标签的样本充裕。半监督学习算法正是巧妙地利用了这两者的特点,结合有标签数据和无标签数据在分布上的连续性与一致性进行设计。半监督机器学习涵盖了自训练算法、基于图的半监督算法、半监督支持向量机等多种形式;而半监督深度学习则包括半监督分段网络、半监督一体化网络等结构。接下来,我们将深入探讨其中的一种关键算法——自训练算法。通过采用标签化样本训练的模型,我们对无标签样本实施预测,从而赋予它们伪标签。接着,基于某种策略,我们将其中可信的样本挑选出来,并纳入训练集以进一步精炼模型。

基于图的半监督学习

基于节点特性与图网络的内在结构,我们深入探索了标签数据与非标签数据间的联系,精准预测出无标签节点的标签。

半监督支持向量机

我们运用无标签数据的空间分布特性来微调SVM的决策超平面,这是支持向量机在面对无标签样本时的一种革新。

(2) 半监督深度学习

半监督分段网络

这一方法分为两大步骤:首先,通过无标签数据进行预训练;接着,凭借有标签数据对模型进行微调。例如,通过自编码器进行预训练后,再将中间层的数据输入网络分类器。或者,借鉴自训练算法的思路,将神经网络作为分类器,生成伪标签并再次训练模型。

半监督一体化网络

此方法创建了一个整合的损失函数,以实现端到端的训练。我们将有无标签作为一个0-1参数,并赋予不同的权重,构建了一个适用于有标签与无标签数据的通用损失函数,实现了网络的全方位训练。

2. 半监督机器学习算法经验

半监督学习算法通过融入无标记样本,优化了监督分类算法的效果,并在与新样本的持续互动中更新算法。在我看来,半监督学习在风控领域的未来应用方向应当包括:

(1) 半监督学习与主动学习的融合

半监督学习捕捉了无标签数据中的确定性信息,而主动学习则挖掘了其中的不确定性信息,两者形成了完美的互补。两者的结合可以迅速基于已标记数据构建模型,并应用于未标记数据,进而利用这些数据来强化模型训练。阿里支付宝便采用了这一结合方法,有效提升了套现交易的识别率。

(2) 半监督学习在拒绝推断与风控回捞中的应用

半监督学习为拒绝的客户赋予伪标签,用于更新风控模型,带来了两大益处:首先,训练出一个无偏的风险模型,避免了由于缺少拒绝客户数据而导致的模型偏差;其次,从拒绝客群中识别出优质客户,提高了客户通过率,为银行挽回了更多客户。

3. 经典资料(个人推荐)

【1】半监督机器学习总结: https://zhuanlan.zhihu.com/p/252343352

【2】半监督学习综述: https://arxiv.org/abs/1905.11590

【3】主动学习与半监督学习在风控应用: https://developer.aliyun.com/article/582125

(十)强化学习算法、经验及应用

1. 强化学习算法介绍

在强化学习中,智能体(agent)与环境(environment)扮演着核心角色。智能体通过策略函数(policy function)选择行动(action),同时,价值函数(value function)对当前状态进行奖励(reward)评估。

强化学习是一个连续决策的过程,奖励信号并不直接对应于当前的行动,可能是早期行动在后来产生的奖励,当前行为也可能在未来某个时刻产生回报。模型的目标是找到最佳的策略空间,以便在未来实现最大的回报。强化学习显著提高了在线学习的效率,使智能体能够快速适应环境并作出新的决策。在量化投资的前沿领域,研究员们巧妙地运用强化学习算法,有效解决了商品期货、股票指数、固定收益和外汇市场中的投资组合构建难题。传统的量化模型通常划分为模型与策略两部分,两者目标的不统一往往导致实施过程中的困难。而强化学习却将这两部分巧妙地融为一体,直接以收益作为终极目标,从而赋予模型更强的针对性和实用性。

在信贷公平性的探索中,研究员们借助强化学习模拟了不同信贷策略的实际影响。在贷款审批过程中,银行面临着两种主要策略:利益最大化和机会均等。前者基于总体利润最大化原则设定贷款准入门槛,后者则通过确保TPR相等来实现不同群体中应偿还贷款者的贷款比例均等。值得注意的是,银行利润与借贷者信用的平均最优值并不总是同步,这意味着即使在信贷群体信用最佳时,银行利润也未必能达到最大。ICML2018的最佳会议论文《Delayed Impact of Fair Machine Learning》深入剖析了不同信贷策略的公平性问题,而谷歌的近期研究《Fairness Is Not Static: Deeper Understanding of Long Term Fairness via Simulation Studies》则进一步通过模拟研究探讨了这些策略对决策系统长期影响的复杂性。强化学习以其独特的优势,自然成为了模拟这一长期影响过程的理想工具。研究结果显示,利益最大化策略的阈值相对稳定,而机会均等策略则随着TPR的变化而灵活调整准入阈值。

谈及强化学习在金融领域的应用经验,一方面它在量化投资中展现出巨大的潜力;另一方面,在信贷公平性仿真中也发挥了重要作用。在此,我提出几点建议供读者参考:首先,强化学习在金融领域的应用离不开对金融本质的深刻理解和将金融问题转化为强化学习模型的能力。其次,量化投资领域的广阔前景为强化学习提供了广阔的舞台,众多公募基金和私募基金正积极尝试利用强化学习技术来追求市场的超额收益,而算法的独特性则是战胜市场的关键。

以下是我精心挑选的几份经典资料,希望能为您的学习和研究提供有益的参考:

【1】Fairness is not static: D'Amour, Alexander, et al. 深入探讨了长期公平性的非静态性,通过模拟研究为我们提供了更深刻的理解。刊登于2020年公平、问责制和透明度会议论文集。

【2】RL for Trading: Fang, Yuchen, et al. 该研究聚焦于利用强化学习进行交易策略的开发,特别是订单执行的普遍方法。发表于arXiv预印本,编号:2103.10860,2021年。

【3】RLForFinanceBook: 斯坦福大学提供的强化学习在金融领域应用的全面教材,详细阐述了相关理论与实践。可访问链接:http://stanford.edu/~ashlearn/RLForFinanceBook/book.pdf

(十一)运筹优化算法、经验及应用

运筹优化算法作为决策科学的核心,一般可划分为精确解算法与启发式算法两大类。

(1) 精确解算法:此类算法更侧重于建模理论的严谨实现,如分支定价、拉格朗日松弛等方法,由于篇幅限制,此处不再详述。(2) 启发式算法

(2)启发式算法实质上是一种精心选择的穷举法,它更为注重编程能力的发挥,主要包括邻域搜索算法和群体智能算法两大分支。

  • 邻域搜索算法

邻域搜索算法在每一次迭代中,都致力于在当前解的“邻域”范围内探寻更优解,如模拟退火、禁忌搜索、迭代局部搜索、变邻域搜索、自适应大邻域搜索等算法,它们各自独特,却都秉持着对更优解的执着追求。

  • 群体智能算法

群体智能算法则深受生物群体行为的启发,它通过模拟生物群体中个体间的信息交流与协作来实现寻优目标。例如,遗传算法、粒子群算法、蜂群算法等,都是群体智能算法的杰出代表。

(3) 利率定价领域的卓越应用

在利率定价领域,组合优化技术大放异彩,它能帮助我们确定基于风险的最优利率,使得贷款组合的期望利润最大化。在构建这一优化模型时,风险响应关系与逆向选择均被纳入考量,以确保利润定价的合理性。风险响应关系揭示了不同定价下客户响应概率的差异,而逆向选择则揭示了违约概率与利率之间的函数关系。这两大关系相互交织,共同影响着组合优化的最终结果。然而,实际情况中的多种优惠条件约束使得利率定价的优化问题更显复杂。

(4) 资产配置领域的卓越实践

在资产配置领域,均值方差优化(Mean Variance Optimization, MVO)技术独领风骚。它能够在给定的风险水平下实现组合收益的最大化,或在给定的收益水平下实现组合风险的最小化。由于投资者风险承受能力的千差万别,风险厌恶系数成为衡量这一能力的重要指标。通过施加卖空限制、上下限约束、资金投入比例限制以及指数增强偏离限制等条件,我们可以构建出更加全面而精细的资产配置组合优化模型。

运筹优化算法的经验分享

运筹优化算法在金融领域的应用广泛而深入,既涉及风险定价领域,又涵盖资产配置领域。在运用运筹优化算法解决金融问题时,我有以下几点建议:

(1) 明确问题属性

首先,根据业务情况与数据特点,明确问题是否属于运筹优化范畴,或是机器学习问题,亦或是两者的融合。准确的问题定义是解决业务痛点的关键。例如,信贷领域的定价问题通常属于运筹优化范畴,而广告领域的定价问题则更多涉及机器学习;物流领域的库存分配问题则是运筹优化与机器学习相结合的典范(先预测销量再优化库存)。

(2) 精确设定优化目标与约束条件

运筹优化算法的核心在于如何设定优化目标与约束条件。这需要结合业务知识和数据情况进行综合考量与设计。以信贷风险定价为例,我们不仅要考虑风险响应关系、逆向选择和负担能力等因素,还要思考如何将这些因素融入目标函数与约束条件之中。

  1. 经典资料(个人力荐)

【1】基于学习的运筹优化算法进展与发展趋势:https://bbs.huaweicloud.com/blogs/175251

【2】低调的运筹学,与金融业的契合点在哪里? https://www.shanshu.ai/article/41


AI科技前沿
关注最重要的科技前沿!
 最新文章