【保险学术前沿】文章推荐:保险中的数据科学

财富   2024-11-10 10:02   天津  


声明:本系列文章基于原期刊目录和摘要内容整理而得,仅限于读者交流学习。如有侵权,请联系删除。


本文基于以下论文整理而得:


Sood, K., Grima, S., Sharma, G., & Balusamy, B. (Eds.). (2024). The Application of Emerging Technology and Blockchain in the Insurance Industry (1st ed.). River Publishers. https://doi.org/10.1201/9781032630946.


作者:Kuldeep Singh Kaswan(加尔各答科技大学计算机科学与工程学院), Sandeep Lal(旁遮普理工学院), Jagjit Singh Dhatterwal(科内鲁·拉克什马亚教育基金会), Simon Grima(马耳他大学), Kiran Sood(博士后研究员,乌萨克大学,奇卡拉大学)


全球目前正有大量数据被创造,近年来数据输出以前所未有的速度增长。这些额外的信息大多是以新颖的方式收集的,技术发展使其能够比平时更有效地存储和分析。在此背景下,最近关于大数据和数据科学的讨论很多。这是一种比以往任何时候都更快地从各种来源的越来越多的数据中分析和得出有价值含义的能力。数据科学已经改变了现代生活的许多方面,它在促进保险业的创新方面具有巨大的潜力。保险公司传统上会收集信息,以便更好地了解保费和风险。数据科学,再加上计算机容量的增加,使保险公司能够更深入地持续观察这些风险,从而为脆弱性评估带来了巨大的变化。这可以使保险公司和保单持有人受益,在保险的呈现和定价以及索赔管理方面有创新的空间。随着客户对各种信息的渴望、快速响应的能力和开展业务的方式的提高,他们对保险业的期望也会提高。本章讨论了许多用于有效分析保险索赔并使用各种标准比较其性能的机器学习算法。


1 大数据背景


近年来数据输出呈指数级增长。根据2015年的估计,每天产生不少于2.5万亿字节的数据(即25万亿字节)。为了证明增长率,据估计,当时存在的所有数据中有90%是在前三年产生的。我们不仅见证了数据量的增加,还见证了数据以新的方式被收集:

—通过谷歌等互联网搜索引擎收集大量客户信息;

—通过脸书和推特等社交网站创建的数据增加;

—手机、平板电脑、智能手表、电信通信设备和配件获取的数据。


2 保险中的数据科学与机器学习


保险公司在更丰富的数据和加密方法环境中工作,在这种环境中,处理能力的提高使计算机能够更有效地收集、转换和分析数据。数据科学和机器学习使精算师能够开发既定的精算领域,同时采用新的方法来改善各种业务活动、治理程序和客户满意度。为了在这个快速变化和要求苛刻的业务中竞争,保险公司必须投资商业智能。


2.1 数据科学家与精算师


保险公司越来越要求员工具备数据科学技能。机器学习通常有三个组成部分:编程、计算机研究和领域专业知识。虽然计算可以实现数据转换和算法开发,但数学原理使其能够利用数据构建模型和预测未来事件。此外,机器学习必须能够理解实际事件和规则,以解决真正的问题。因此,数据科学涵盖了整个数据管理领域,而不仅仅是机器学习和科学技术。如图1所示,这些素质,再加上专业的精算能力和对监管的理解,在会计师的就业中越来越受欢迎。

图1 数据科学框架


尽管计算机科学和参数化建模有许多相似之处,使精算师的职业能够很好地利用新兴的数据分析方法,但它们在计算机科学家和精算师在现实中的表现方式上有所不同。主要区别在于创建和执行合理的解决方案。精算师经常利用他们的领域专业知识来选择相关模型,然后再专注于调整适合实现目标的特征。另一方面,数据工程师在计算合适的模型参数之前,会花费时间和精力测试几种算法。此外,这些领域之所以不同,是因为精算师创建了经济模型,但计算机科学家经常依赖外部专家来掌握知识组成部分。因此,在验证假设、选择特征和评估模型拟合的方式上存在差异。


3 大数据:挑战与机遇


海量数据的处理对保险公司仍然是一个重大的困难,因为使用典型的技术很难分析混乱和波动的数据。除了获取重要的商业信息外,大数据还需要创造性的技术和方法来捕获、存储和解释大量数据,如图2所示。

图2 大数据框架


大数据的发展促使保险公司和政府为其使用制定最佳实践。在关于“5V”的大数据文献中,解释组织面临的主要问题是很典型的。

数量(Volume)—数据量大幅增长,并将继续增长。例如,国际财务报告准则第17号(I17)标准将提高信息要求,因为需要以更细粒度汇总法规,并改进数据技术以直接相关。

多样性(Variety)—数字数据库可以从具有不同数据架构的各种来源创建。从历史上看,保险公司严重依赖于组织关系数据库系统中的数据,但随着智能手机等远程信息处理设备的激增,无监督学习已经发展起来,提供了有关产品、服务和消费者的额外信息。

速度(Velocity)—数据不仅必须快速获得,还必须快速分析和解释。快速理解和分析数据可以帮助组织加快决策操作,并在竞争激烈的市场中保持其地位。

准确性(Veracity)—随着数据量和多样性的增加,保证数据的可信度和可依赖性至关重要。数据必须可靠且正确理解,以便数据库管理员和精算师提供相关分析,从而做出高质量的判断。

价值(Value)—大数据分析驱动的管理决策应有助于经济收益和产品差异化


信息量(以及不断增长的存储容量)要求使用云计算技术进行外部信息管理。云计算为保险公司提供了移动创新,以管理稳步增长的数据量并改善数据存储。云计算显然给IT部门、数据库管理员及其支持的业务流程带来了新的责任,但它们也可能在整个保险过程中提供巨大的价值:

承保—使用更大的数据集,比竞争对手更有效地确保风险,并通过更精确的预测建模方法优化营销策略。

欺诈检测涉及确定在健康保险市场期间比其他人更有可能实施欺诈的投保人,并监控申请文件的隐瞒或伪造。大数据也可用于跟踪保险公司的索赔。社交媒体上潜在欺诈行为的迹象。

索赔管理正在建立依赖互联网经验和数据的系统,以有效筛查可疑索赔,加快索赔周期,降低成本。

社交网站上的显性信息可以帮助保险公司收集保单持有人对商品的想法,从而制定提高客户参与度的战略。


3.1 从经典统计到机器学习


统计学家在许多代人中都使用了复杂的统计方法,但在现代化的企业中,这些方法正在变得过时。例如,GLM以前在非人寿保险业务中用于定价和保存,以确定关键变量(如索赔的规律性和严重性)如何随评级标准而变化,在人寿保险行业也有应用,精算师经常使用它们来表示最重要的风险因素,并影响折旧假设的校准。

然而,GLM有自己的一套限制。它们是依赖于预定义的威布尔分布和连接函数的参数模型。此外,它们不适合识别变量之间的关系和复杂的连接。这种限制可能会导致拟合度差,对未来数据的预测不正确。

为了克服这些限制,随着技术的快速进步,机器学习(ML)在保险行业的应用越来越多。在没有明确编程的情况下,机器学习可以构建算法来识别复杂的模式,做出明智的决策,并根据数据输入生成有根据的预测。从本质上讲,机器学习可以从过去的经验信息中学习,并在不需要人机交互的情况下提出建议。

这使得在属性和后果之间建立比标准模型允许的更复杂的联系成为可能。详细分析提高满意度,减少业务中异常检测的工作量。对系统架构和实际业务条件的变化做出快速反应。机器学习算法通常根据其实现的问题类型分为三类

监督学习方法的目的是使用大量输入测量来预测输出测量的未来值。由于存在控制教育过程的内生结构,学习过程受到监督。例子包括回归、机器学习和基于树的方法,如随机森林。无监督分类中没有评估工具;其目的只是解释一组输入之间的相关性和模式。聚类分析和主成分分析(PCA)是两个例子。

强化学习将预期结果整合到算法中,以增强下一步的预测。随着时间的推移,该算法的预测会有所改善,因为它了解了它所处的环境,并且它使用的模型会定期更新。目前,它在金融和会计领域并不常用,尽管随着统计方法和处理能力的提高,这种情况可能会发生变化。

惩罚回归(例如,lasso、ridge和弹性网)试图减少变量的数量,是一种特殊类型的监督学习机器学习方法,可以克服GLM的一些缺点。通过限制和减少参数,这些方法可以以可忽略的偏差为代价,最大限度地减少估计的可变性。

其他机器学习方法,如决策树、随机森林等,也进入了概率和统计领域。承保是一个可以用作预测方法的领域,用于对新保单持有人进行分类,并决定是接受还是拒绝标准条件。同样的方法也可用于市场营销发展;例如,历史投保人数据,如实际索赔金额和周期,可用于优化营销策略和预测未来损失。

机器学习建模通常用于独立或结合其他多元方法(如聚类和PCA)制定建议,以优化某些研究要素。聚类和PCA是标准的探索性分析技术,用于减少计算负担和消除重复特征。降低训练输入集的维度可能会增加训练时间,数据集可以减少到只有几个参数,使数据可视化变得简单明了。

聚类分析也可用于改进模型点的生成。由于时间和处理能力的限制,经常需要使用分组模型变量而不是整个数据运行的参数模型。这种方法通过识别具有可比较的独特性和差异性特征的规则分组,在不需要人工干预的情况下创建了用户定义数量的类似优势。软件公司已经开发了新的软件包,以满足对更复杂的数据分析方法和更广泛的机器学习方法选择的日益增长的需求。

尽管如此,机器学习在保险业务中的发展仍处于早期阶段。保险公司对放弃传统统计模式而采用如图3的机器学习技术持谨慎态度,原因有几个。首先,线性模型是一种简单而众所周知的统计方法,用于实施这些方法的标准化软件工具很容易获得。其次,保险公司最近开始建立商业情报团队;因此,公司范围内的目标和计划仍在制定中。由于数据科学专家经常分散在各个组织中,因此专业知识和运营没有得到充分的联系和组织。大数据和复杂分析的出现需要对新技术进行投资,提供专业培训,并实施额外的管理。

图3 基于机器学习的保险


3.2 收获益处


精算能力与发展技能和对可视化工具的理解相结合,可以帮助保险公司实现系统改进和提高客户参与度的优势。数据分析和机器学习可以显著提高信息检索和对客户风险状况的理解。重组系统以促进有效的方式识别可以提供未来不利事件和可能费用的明确信号。实施尖端的机器学习解决方案将使保险公司能够提高生产率并获得相对的收益。可能的应用涉及精算建模的许多部分,包括模型点创建、定价、备用、索赔管理和报告自动化。此外,通过转换系统以了解数据趋势、发现新情况并做出适当反应以自主分析每种情况,这些技术可以帮助承保正确计算的风险并检测可能的虚假指控。这使保险公司能够在程序大多为手动的领域节省时间和金钱,同时提供快速高效的客户体验。预测建模还可以消除猜测,有助于快速识别关键市场类别和客户群,以及预测客户行为,使保险公司能够根据客户的具体需求量身定制商品和营销。

选择一个提供合理解决方案的供应商将为企业带来实际价值,特别是:内部技术和开发—不断研究将方法应用于现实生活中。向所有利益相关者明确表示,不要对技术或模拟模型抱有天真的信念。方法比较—仅在必要时增加复杂性。需要多次验证才能对准确性和解释有信心。开发和部署的灵活性—使解决方案在商业上可行。


4 保险中的数据科学:数字化经验带来的

效益


根据风险,将确定合适的付款方式。另一方面,数据科学使保险公司能够更深入地了解申请人的风险状况。这种更详细的危害识别应该会导致更明智的承保人选择,并允许保险公司设定与相关风险程度更恰当的费率。在某些情况下,更精确和彻底的风险管理可能会增强或减少医疗保险,例如当风险在广泛评估下被拒绝,但根据更多细节被认为可以接受时。例如,更清楚地了解潜在的风险程度可能会导致年轻司机被分配到最大和最小风险组,后者可能能够更安全地驾驶。为了在汽车保险上获得更好的交易,一些有残疾的客户也可能从更彻底的风险评估中受益。如果保险公司的大部分信息都是立即获得的,数据科学还可以最大限度地减少接收保险报价所需的时间和精力,从而减少客户必须回答的直接问题的数量。更精确的承保也可能意味着更少的不准确解雇,使保险公司能够减少申请人利用公司尚未掌握的信息的机会。


4.1 加强与消费者互动


在保险期限内,消费者的参与度也可能提高,这对客户和提供商都有利。如果用户的风险状况增加,可以向他们提供较低的费率,例如,在车辆保险的情况下通过远程信息处理设备,在健康保险的情况中通过健身追踪器小工具。此外,较低保费的激励可能会促使保单持有人降低其生活方式的“风险”。数据科学通过以这种方式奖励保险用户,提供了明显的社会优势。消费者互动也被“按需”保险推向了一个新的水平:至少有一家汽车保险公司已经能够通过手机打开和关闭保险范围。


4.2 数据科学:保险潜在创新


数据科学可以促进保险业务在如何以及向谁出售保单方面的重大创新。风险管理是保证的基础,承销商收集数据来分析他们承保的威胁和风险。数据科学为保险公司提供了脆弱性评估的一个方法,使他们能够比通常更详细地了解他们所保险的物品(如汽车、人员或财产)的危害。它还可以发现隐藏在数据中的连接,并创建新的连接。由于不断更新更大的数据集,预测更加准确。精算师已经在各种保险技术中使用了高级分析,例如汽车保险中的远程信息处理设备、健康和护理保险中的可穿戴健身设备,以及人寿保险中改进的公司治理(对经验丰富的分析进行更广泛的分析)。

数据科学在责任保险生命周期的每个阶段都使客户受益,包括更好的:

●消费者细分和代表任务;

●脆弱性评估、承销商和定价;

●覆盖范围内的消费者互动;

●索赔管理,包括欺诈的检测和预防。


4.3 更好的消费者定位/产品设计


保险公司可以利用新的数据源来针对特定客户群体推广特定、有效且可能更合适的产品。通过研究信息检索模式或社交媒体信息,有助于预测客户的偏好和行为。这些研究结果可以用来将人们与特定产品联系起来,偏好和期望的类似移动平均值加强了保险公司对客户需求变化的意识。整个社区对智能应用程序的增加使用,以及保险公司对其使用的研究,可能使得不同消费者群体更容易获得保险,包括满足对医疗保障需求未被开发的领域。对客户及其需求的更全面视角可能意味着他们不会错过重要的医疗保险或在某些地方重复保险。


4.4 更准确的风险评估、承保和定价


数据科学在保险业务中的许多承诺与在危险识别过程中获得的更深入理解有关。长期以来,保险公司一直有收集申请人(或其房主)属性数据的做法,并用它来预测索赔的可能性和费用。之后,承保人会做出决定:按常规条款承担风险、在修改条款下批准,或拒绝。


4.5 更好的索赔管理


数据科学可以通过更有效地改进保险结算管理和相关投诉程序来帮助保险公司和保单持有人。数据分析可以用来优先处理索赔,简单的案例优先快速解决,而更复杂的情况则被标记为需要索赔评估员进一步调查。社交媒体互动和关系分析也可以有效地用来检测虚假陈述活动,这些活动是由一群个体合作制造的,基于未经证实的索赔连续发生。随着客户对各种计算机、适应能力强和商业方式的期望上升,他们对保险行业的期望也会上升,无论是在索赔管理方面还是更广泛的意义上。最后,发展中的高科技“保险科技”企业有潜力影响保险行业。这样的保险科技企业可能在他们的营销策略中非常灵活,具有数据驱动的思维方式和计算机化的视角。


4.6 数据:保险公司的财产还是个人的?


另一个问题是,谁保留了关于保单持有人获得的数据。这些数据是由相应的保险公司拥有,还是由保险单拥有?如果保险公司拥有通过远程信息处理或可穿戴设备收集的数据,这可能会限制消费者在其他地方获得更好价格的机会。如果这些数据是消费者的财产,他们在更换提供商时,是否会被迫分享之前的数据?


4.7 透明度与判断


围绕数据科学及其相关分析可能缺乏开放性,理解分析“黑箱”下的内容可能很困难。随着数据科学使用的增加,保险公司和客户之间的未解决问题可能会扩大。还有过度依赖分析模型输出的风险:没有任何模型能完全取代人类知识和判断。人类判断引发了额外的公共利益考量。随着数据科学变得更加普遍,风险评估中偏见(或偏差)的风险也随之增加。因为一些复杂的定价模型依赖于算法而不是清晰的评级变量,可能无法判断是否正在使用某种定价策略。另一方面,增加风险的可见性可能通过使判断更加数据驱动来减少对分析师偏见的依赖。

随着数据科学进一步渗透到保险业务中,关于伦理和更广泛的公共利益的担忧也随之产生。保险公司和客户可能会以新颖和不可预测的方式受到影响,可能导致不可预见的影响和健康保险行业的效率低下。


4.8 某些人无法获得保险?


普通人群中的某些特定群体可能会发现数据科学对他们的保险成本或可获得性产生了负面影响。如果保险公司对个人特征有更好的把握,特定市场细分的用户可能会发现更难或更昂贵地获得保险。例如,几乎没有驾驶记录的年轻司机可能发现很难获得汽车保险;发病率和死亡率较高的人可能会发现医疗保险变得难以负担;年长的旅行者可能需要保险单,这意味着用来设定保费和免赔额的方法通常在环境中是粗略的,而不是详细的。这因此引发了一个根本性的公共政策问题,需要解决。根据个人的风险来确定保费可能被认为是对消费者适当的对待。另一方面,由于他们无法控制的内在因素或情况变化,个人或他们的财产可能处于“更大的危险”中。如果这种危险因为以公平价格获得保险的可用性受限而被视为市场失灵。防止这种情况将需要行政、法规或保险行业本身的参与。


4.9 风险池的减少


数据科学可能会影响风险池的概念。风险池,或在风险概况大致相似的保单持有人之间共享风险,是保险的一个长期组成部分。预计数据科学的增长将逐渐减少每个池的体积,降低不同保单持有人之间当前的交叉补贴水平。在英国,现在有一种趋势,即在保险中进行更精确的风险评估,例如在20世纪90年代中期引入的受损生命和修改预期寿命,为吸烟者或有健康问题的人提供更多的收入。这种趋势可能在数据科学中发展,风险分类变得更加精细和不那么复杂。风险可以被分成越来越小的部分。

然而,社会可能要求一定程度的交叉补贴,通过保持风险池来实现这一点,当这被认为是“公平”的。由于性别不平等,欧盟在2012年禁止了性别身份保险定价。在英国,建立洪水再保险(Flood Re*)承认,当洪水风险增加时,处于最高危险中的个人和企业都需要时间来响应;在这种情况下,由风险较低的保单持有人向风险增加的人提供过渡性补贴。


4.10 价格歧视


随着对个人获取的数据量增加,保险公司进行价格歧视的范围也可能增加。价格歧视是指不仅仅基于个人的风险水平和相关费用,还基于更广泛的标准,如价格敏感度和品牌忠诚度来确定保险费的做法。这不是一个新概念,但扩大这种敏感性的广度增加了这种行动可能对部分脆弱消费者产生负面影响的可能性。

随着保险公司收集越来越多的个人数据,它们可能被视为过度侵犯隐私。同样重要的是,保险公司在使用数据时必须诚实,以避免削弱保单持有人对它们的信任度,因此限制了保单持有人愿意让保险公司访问的数据范围。然而,如果保险公司向保单持有人传达数据收集的实际好处,例如通过使用远程信息处理设备预期降低保险费率,他们可能会得出结论,这比任何安全问题都更重要。


4.11 网络风险


最后,网络风险是一个主要的新兴风险领域,随着更多数据的产生,数据科学增加了保险公司对其的敏感性。特别是数据丢失、损坏或被盗的危险,是数据应用领域的用户需要解决的关键考虑因素。需要创建足够防范黑客和其他未经授权人员访问这些信息的程序。


5 数据保护法规


数据科学严重依赖于现有的和即将出台的数据保护法规。通用数据保护条例(GDPR)将于2018年5月25日在英国生效。英国的数据保护法律可以追溯到1990年代,而在这些年中已经发生了很大的变化。我们进一步强调,英国政府已经宣布,英国退出欧盟的决定不会影响GDPR在英国的实施。然而,由于保险公司在全球范围内运营,它们将面临符合众多数据隐私标准的额外问题。

数据使用许可的概念至关重要,但用户必须了解已收集数据的界限。例如,保单持有人和社交媒体网站是否必然同意将从社交媒体活动中获得的数据用于保险评估或促销目的?收集的信息还应该与它被使用的目的相关。如前所述,还有关于所有权和访问权的额外担忧。因此,保险公司需要有强大的数据管理系统和适当的控制措施,以确保相关处理符合现有和不断发展的数据隐私法规。数据科学也引发了保险公司潜在行为风险的担忧。他们需要评估产品开发和定价,以及数据科学的更广泛使用,是否优先考虑了客户的需求,是否符合广大公众的最佳利益。如果未能这样做,可能需要监管行动来解决潜在的利益冲突或增强客户后果。


5.1 为公共利益规范精算师


鉴于数据科学日益增长的使用所带来的可能的伦理和更广泛的公共利益挑战,评估在这一领域工作的个人的法规至关重要,无论他们是精算师、计算机工程师、风险管理师还是其他人。IFoA(精算师协会)规范我们的成员以保护公共利益,同时促进商业和技术。确保公共利益意味着保护广大公众和社会整体,但它也包括通过维护其良好声誉来保持公众对专业世界的信任。遵守高质量工作标准的保险公司和提供这些工作的精算师的专业技能,服务于人民。


6 保险中的数据科学


通过整合机器学习和来自汽车、房屋和可穿戴设备的大量额外数据集,可以更深入地了解当前和潜在的威胁。有了这些信息,保险公司可以更准确地设定价格,甚至是在人际基础上,优化客户吸引力和公司绩效。为了做出明智的投资组合选择,更清晰地了解公司整体潜在风险。


6.1 承保和索赔处理


自动化常规交易以提高敏捷性、降低成本和提升客户满意度。许多保险申请和投诉文件可以在没有人的参与下处理。由机器学习驱动的算法寻找异常或担忧的信号,并在适当时加快处理不复杂的情况或提供关键的上下文数据。


6.2 欺诈检测


数据科学可以有效地遏制不诚实的申请和索赔。机器学习可以检查庞大的数据集和交互,以识别可能表明欺诈行为的模式和异常。通过这种能力,保险公司可以更有效地预防和检测欺诈行为,从而减少损失并保护客户和公司的利益,以发现并标记潜在的错误和/或重复索赔,比人工评估更有效。在提交索赔后,可以利用新的数据源,如在线和社交渠道,提供欺诈行为的证据。


7 总结


数据科学已经在改变保险行业,对保险公司、被保险人和公众都有明显的影响。然而,数据科学的大量增加使用为保险公司、监管机构、行政机构和其他相关当局带来了一些潜在的公共利益问题需要考虑。例如,某些普通人群的子集可能会发现生物信息学对保险的成本或可获得性有负面影响。当前的创新不断进入众多商业行业。在这方面,保险业并不落后于竞争。统计学长期以来一直在保险业中使用。因此,保险公司积极使用数据科学分析并不令人惊讶。本质上,保险中使用数据科学分析的目标与其他行业相同:增强广告策略,提高组织绩效,增加收入,减少开支。


更多推荐文章


《期刊The Geneva Papers on Risk and Insurance 2024年第4期目录与摘要》


《期刊Journal of Risk and Uncertainty 2024年第3-4期目录与摘要》


《期刊NBER 2024年3月-5月保险精选文章目录与摘要》


《期刊NBER 2024年6月-8月保险精选文章目录与摘要》


《期刊Journal of Development Economics 2021-2024年保险精选文章目录与摘要》



入驻平台:雪球、头条号、微博、百家号、知乎

邮箱:thirteenactuary@163.com

小编微信号:xxjss13

查询海量保险资料关注13精资讯

13个精算师
介绍保险知识,发表与保险财务、精算和投资有关的学术论文和评论
 最新文章