摘要 - 随着人工智能和机器学习的发展,电动汽车电池管理系统(BMS)中电池状态估算技术不断进步。在BMS的多个状态中,确定剩余容量对确保电动汽车安全稳定运行至关重要。本研究提出一种基于遗传算法(GA)优化随机森林(RF)回归器的锂离子电池剩余容量自适应估算器,在应对不同热条件,通过优化关键参数(估算器数量和每叶最小样本数)提高模型准确性和鲁棒性,以准确估算电池荷电状态(SOC)。
1.简介
SOC估算背景与需求:由于化石燃料短缺、个人出行需求上升、污染排放和全球变暖,地面交通发展亟需改进。锂离子电池因高成本成为电动汽车研究重点,其自放电率低、能量密度和功率效率高,但需要更经济设计抵消高初始成本。电池管理系统(BMS)对监控电池组内单个电池至关重要,而确定电池荷电状态(SOC)是确保电动汽车安全可靠运行的关键,SOC通过剩余容量与标称容量的比较得出:传统SOC估算方法如库仑计数法和开路电压法虽常用但有局限,库仑计数法受初始SOC不准确和未考虑自放电及温度影响而积累误差,开路电压法需静置期且受温度和老化因素影响。基于模型的方法(如等效电路模型和电化学模型)和基于滤波器的方法(如扩展卡尔曼滤波器和粒子滤波器)虽各有优势,但也存在计算复杂、难以实时应用或资源需求大等问题。SOC估算面临温度敏感性、电池老化、实时应用和不同条件下泛化等挑战,机器学习方法在应对这些挑战方面有潜力,因其能提供高精度并克服选择等效电路模型参数的困难。相关研究总结:近年来机器学习技术在电动汽车电池SOC预测中受到关注。多种方法被研究,如结合长短期记忆网络(LSTM)和无迹卡尔曼滤波器(UKF)的方法,其在室温下RMSE和MAE误差分别为1.06%和0.93%;基于贝叶斯优化双向长短期记忆神经网络的方法在45°C下循环块的RMSE和平均绝对百分比误差(MAPE)分别为0.89%和6.56%;粒子群优化LSTM(PSO - LSTM)方法在特定条件下MAE和RMSE分别为0.4307%和0.5816%;基于贝叶斯超参数优化框架调整堆叠双向长短期记忆(BiLSTM)神经网络的方法在不同数据集上有不同的MAE和RMSE范围;深度神经网络(DNN)对不同容量电池有不同的平均误差;Fb - Ada - CNN - GRU - KF模型通过集成多种技术提高了SOC估算精度,在不同驾驶循环下MAE有显著降低。表1.SOC估算先前研究中误差率的比较。
本研究贡献:本研究提出基于遗传算法优化随机森林回归器的SOC估算模型,针对锂离子电池,通过优化随机森林关键超参数(估算器数量和最小样本分裂)提高模型性能。在不同环境热条件和输入特征集下严格评估模型性能,展示其在多样操作场景中的鲁棒性。使用LGHG2 18650(H - NMC)锂离子电池在UDDS驱动循环条件下的数据,在 - 20°C到25°C宽温度范围内评估模型性能,解决了当前SOC估算方法的一些局限,实现了高准确性和计算效率的同时提升。文章后续将依次讨论基于GA的剩余容量估算框架、数据获取、实验设置、实现细节、结果与讨论以及研究总结和未来方向。2.剩余容量估算的建议框架
随机森林回归器用于SOC估算
基本原理与优势:随机森林(RF)是一种常用的通用机器学习技术,适用于回归和分类任务。在本研究中,利用其强大的回归能力来精确估算电动汽车电池的SOC。RF由Leo Breiman于2001年提出,是决策树的高级形式。它通过在训练数据的随机子集(有放回抽样)上训练每个决策树,然后组合所有树的输出以获得最终预测,这种bagging方法提高了模型的泛化能力,有效降低了过拟合风险。RF在处理大规模、高维度数据集,应对噪声数据,以及处理缺失值和异常值方面表现出色,因此非常适合SOC估算任务。 图1.随机森林回归过程示意图。
其中是最终预测输出,N是决策树总数,Ti(x)是第i个决策树对输入x的预测。特征重要性计算公式为:其中是树i中因特征f导致的分裂标准的改进。森林中的树的数量是影响模型性能的关键超参数之一,本研究针对SOC估算任务对超参数进行了调整,以确定最佳配置。遗传算法用于参数优化
理论基础与编码方法:遗传算法(GA)由John Holland于1975年创建,其理论基础源于遗传学和进化论。GA采用高效的编码方法,可将解决方案向量表示为二进制字符串或实编码字符串,在不同问题领域有不同用途。GA被视为一种强大的全局优化器,能够识别潜在的优化区域,定位最优解(全局最小值)。 操作算子与优化流程:GA通过三个关键操作算子来实现优化功能。选择操作基于适者生存原则,优先选择适应度高的个体(后代),使其基因得以传递给下一代。交叉操作模拟个体间的交配,通过随机选择一对个体并在随机交叉点交换基因,产生新的个体,从而增加种群的多样性。突变操作通过随机翻转某些染色体位,向后代插入随机基因,以维持种群的多样性。其优化流程包括初始化种群其中P是由n个个体组成的种群)、选择(通过适应度评估函数确定个体xi的适应度)、交叉(先根据适应度选择种群子集其中是随机交叉参数)、突变中选择替换上一代部分或全部个体)以及终止(当达到最大世代数或解收敛时算法停止)。图2展示了GA的工作流程。在本研究中,GA用于优化RF模型的关键超参数,以提高SOC估算的准确性和模型性能。图2.遗传算法优化过程。
3.数据采集、实验设置和实施细节
数据收集与电池规格:使用标称容量为3Ah、采用锂镍锰钴氧化物(LiNiMnCoO₂)化学体系的LG 18650HG2锂离子电池收集用于SOC估算的实验数据集,该电池具有长寿命和高比能量,其关键规格在表2中列出。表2.本研究中使用的锂离子电池的规格。
驱动循环与测试环境:利用上述电池评估所提出的RF - GA模型的有效性,采用从麦克马斯特汽车资源中心(MARC)聚合的开源数据集,测试包括US06、LA92、UDDS和HWFET等汽车行业标准驱动循环。电池在气候室中于 - 20°C、 - 10°C、0°C、10°C、25°C和40°C六个不同温度下进行测试,记录温度、电压、电流和安时等参数。每次测试后施加50mA截止电流,然后以1C充电至4.2V,且在每个新驱动循环前电池完全放电,采用CC - CV(1C恒流、恒压)充电。通过在六个温度下进行的LA92驱动循环测试数据评估模型性能,以确保模型在不同热条件下的鲁棒性,同时给出了LG 18650HG2电池在UDDS循环条件下的特性曲线(图3)。图3.UDDS在不同温度条件下的驱动循环特性。
特征选择
提出的SOC估算模型利用电池端电压(V)、电流(I)、电池温度(T)等感测数据以及基于电池物理原理新开发的特征。研究了特征选择对模型准确性的影响,设计了三个测试案例:
平均电压和平均电流特征使用Python的滚动平均方法(窗口大小为450)计算,该方法能在减少噪声的同时保留数据重要趋势,通过对最近450个数据点求平均提供数据的平滑表示,有助于捕捉电池动态行为并提高SOC估算能力,不同测试案例使用的电池特征在表3中列出。表3.用于SOC估算的测试用例概述,详细说明输入特征和配置。
数据归一化:为解决电池参数(如电压、电流和SOC)在量级和单位上的差异,采用最小 - 最大缩放函数将测量值转换到(0, 1)范围,公式为:(其中Xmin和Xmax是实际测量数据中的最小值和最大值,x是实际测量数据,x^*是归一化后的数据),以提高模型训练效率和性能。数据分割:将数据按70%用于训练、30%用于测试的比例分割,这是评估模型泛化能力的标准做法。尽管训练和测试在相同温度条件下进行,但期望模型能在类似热环境中良好泛化。由于使用了强大的机器学习技术RF,模型能够捕捉电压、电流和温度之间的复杂关系,确保在各种操作条件下可靠运行。实验实施细节
第一组实验使用RF回归模型估算SOC,输入为电压、电流和温度三个特征,不使用GA优化超参数,固定最小样本叶值;
第二组实验使用GA优化RF模型超参数(估算器数量和最小样本分裂),输入特征相同;
第三组实验使用不同输入特征组合(测试案例I、II、III)的RF回归模型,不进行GA优化。
表4.SOC估计模型中选择用于优化的超参数列表。
GA用于优化RF模型的关键超参数(估算器数量和最小样本分裂),通过同时评估超参数组合,考虑参数间耦合,基于SOC估算性能确定最优参数值。优化范围选择广泛,涵盖使模型简单(决策树和分裂少)和复杂(决策树和分裂多)的值,以探索多种配置,防止模型过拟合或欠拟合,实验在配备Core i7 3.60GHz处理器和32GB RAM的计算机上使用Scikit - learn库执行,模型工作流程在图4中展示。 图4.使用GA调谐随机森林回归的SOC估算模型的工作流程。
性能评估指标:使用平均绝对误差(MAE)、均方根误差(RMSE)和最大误差(MAX ERROR)评估RF - GA模型的有效性,其定义分别为:4.SOC估算结果及讨论
不同温度下RF与GA - RF模型的SOC估算结果
结论:GA通过进化过程系统优化超参数,基于适应度标准(如最小化SOC估算MAE)选择超参数集,应用交叉和突变探索搜索空间,最终收敛到最优值,这提高了模型捕捉输入数据(电压、电流、温度)模式的能力,增强了预测准确性并显著降低了SOC估算MAE。同时,电池温度升高使电池内电化学反应更稳定,减少电压和电流读数波动,有助于更准确估算SOC。估算结果通过SOC曲线(参考SOC、RF估算SOC、GA - SOC算法估算SOC)和误差结果图展示。图5.SOC估算曲线,比较不同环境温度下的参考SOC和估算SOC值。
图6.在不同环境温度下SOC估算误差结果的图形表示。
不同输入特征下RF模型的SOC估算结果
根据表3中的输入组合设计了三个测试案例,使用麦克马斯特大学在 - 20°C、 - 10°C、0°C、10°C和25°C温度下的数据集进行实验,通过电池电压和电流创建额外输入(平均电压和平均电流),将其纳入训练阶段改善了估算结果。 表6.在不同输入特征条件下,不同环境温度下RF回归器SOC估算的性能指标。
结果表明测试案例II优于测试案例I,测试案例III远优于前两者。在 - 20°C时,测试案例III的MAE相比测试案例I降低了67.24%,相比测试案例II降低了77.19%,RMSE分别降低了86.58%和71.62%;在 - 10°C时,MAE分别降低了91.73%和72.97%,RMSE分别降低了84.58%和66.67%;在0°C时,MAE分别降低了91.86%和70.83%,RMSE分别降低了84.81%和66.19%;在10°C时,MAE分别降低了91.80%和73.68%,RMSE分别降低了84.54%和69.64%;在25°C时,MAE分别降低了89.47%和69.25%,RMSE分别降低了81.42%和64.86%。 表7.不同温度和测试用例下的SOC估算性能比较,以及与其他广泛使用的SOC估算模型的比较分析。
推断:电压和温度传统上对SOC估算重要,但电流及其滚动平均值同样关键,电流直接影响充放电速率,是SOC估算的基本因素。纳入电压和电流滚动平均值可减轻短期尖峰和波动,提高模型稳定性和准确性。RF模型输入属性增加时,MAE降低,因为模型能更好捕捉模式和关系,更多输入提供更长序列供分析,增强识别长期模式能力,使其更适应不同条件,即使有变化或意外情况也能更准确预测。引入电压和电流历史样本可显著降低MAE、RMSE和MAX值,因为模型能捕捉电池时间依赖性和动态行为,理解趋势和模式,基于过去行为预测未来状态,提高SOC估算准确性和可靠性。比较实验表明纳入电流和电压滚动平均值及其他特征可显著提高SOC估算准确性,滚动平均值为模型提供更平滑、一致的输入,更好代表电池在UDDS循环等动态条件下的整体行为。 图7.SOC估算曲线,比较不同输入特征条件下不同环境温度下的参考SOC和估算SOC值。
图8.在不同环境温度和不同输入特征条件下SOC估算误差结果的图形表示。
通过与其他广泛使用的SOC估算模型进行比较(以MAE为关键性能指标),结果表明本研究中的RF模型(尤其是GA优化后的)在MAE方面相比传统RF模型和其他机器学习方法有显著改进,突显了RF - GA方法在估算锂离子电池SOC方面的有效性和稳健性。5.总结
本研究提出了一种基于遗传算法(GA)优化随机森林(RF)回归器的模型,用于锂离子电池荷电状态(SOC)估算。该方法有效应对了SOC估算中的复杂性问题,相比先前方法在准确性和可靠性方面有显著提升。通过整合多种输入特征并利用历史电压和电流数据,模型显著降低了平均绝对误差(MAE)、均方根误差(RMSE)和最大误差(MAX ERROR)等误差指标。实验结果验证了RF - GA模型在适应不同操作条件方面的稳健性,使其成为电池管理系统实际应用的有力候选方案。研究局限性分析:尽管取得了较好成果,但当前方法存在一些局限性。在超参数调整过程中需要大量计算资源,这可能阻碍其在资源受限环境中的部署。随着新电池技术的出现,模型可能需要重新训练或调整以保持有效性,这凸显了在该领域持续研究的必要性。