突破LightGBM，LightGBM在广告点击率预测中的应用！！

文摘 2024-10-17 18:26 北京

哈喽，我是cos大壮~

今儿再来和大家聊一个关于LightGBM的算法案例：LightGBM在广告点击率预测中的应用。

下面，咱们会总以下几个方面进行讲解和总结：

广告点击率预测背景
LightGBM 简介及工作原理
LightGBM 公式推导
数据准备及虚拟数据集构建
模型训练与特征重要性分析
数据分析及可视化
参数调优与优化
总结

老规矩：如果大家伙觉得近期文章还不错！欢迎大家点个赞、转个发，文末赠送《机器学习学习小册》。

文末可取本文PDF版本~

1. 广告点击率预测的背景与挑战

广告点击率 (Click-Through Rate, CTR) 是广告投放领域的核心衡量指标之一。CTR 代表了用户点击广告的概率，是衡量广告效果的重要指标。在互联网广告系统中，精准预测广告是否会被用户点击直接影响广告投放的收益与广告主的投资回报率。

CTR 预测的核心任务是一个二分类问题，即根据用户行为、广告属性、以及其他上下文信息，预测广告是否会被点击。由于数据量庞大、特征维度多、用户行为复杂，传统的机器学习方法往往难以满足性能需求。

LightGBM 是近年来广泛应用于广告点击率预测的模型之一。作为一种基于决策树的梯度提升框架 (Gradient Boosting Framework)，LightGBM 通过高效的训练过程和较好的精度表现，成为广告 CTR 预测中的主流模型。

2. LightGBM简介及其工作原理

LightGBM (Light Gradient Boosting Machine) 是一个快速、分布式的梯度提升框架，特别适用于大规模数据和高维稀疏特征。它是基于决策树的梯度提升算法 (GBDT, Gradient Boosting Decision Tree) 的优化实现。

LightGBM 在以下几个方面进行了显著优化：

基于叶节点的树生长策略 (Leaf-wise Growth): 传统的 GBDT 是基于按层生长 (Level-wise) 的，而 LightGBM 是基于叶节点生长。它通过对当前误差最大的叶节点进行分裂，使得训练过程更加高效。
直方图算法 (Histogram-based Algorithm): 通过将连续特征离散化为有限的离散值，LightGBM 显著提高了计算效率，并减少了内存使用。
GOSS (Gradient-based One-Side Sampling): GOSS 通过对样本的梯度值进行筛选，从而仅对重要的样本进行训练，进一步减少了计算量。
EFB (Exclusive Feature Bundling): EFB 技术将稀疏特征进行捆绑，以减少特征的维度，适用于高维稀疏数据。

LightGBM 工作原理

LightGBM的核心思想是通过决策树模型来对数据进行分类。其工作原理可以分为以下几个步骤：

初始化模型：初始时，LightGBM使用一个简单的模型（如输出全局均值的常数模型）进行初始化。
计算残差：模型的目标是最小化损失函数，因此每次模型训练后，都会计算模型输出与实际目标之间的误差，这就是残差。
构建新树：根据当前的残差，LightGBM 构建一棵新的树来拟合这些误差。
更新模型：新树会与当前模型的预测值组合，生成新的预测结果。这个过程会重复进行，直至达到预设的迭代次数或损失函数收敛。

3. LightGBM的公式推导

LightGBM 的目标是最小化给定数据集的损失函数。对于二分类问题，损失函数通常为交叉熵损失：

LightGBM 会通过梯度提升的方式逐步优化该损失函数。在每次迭代中，我们更新模型的目标是最小化损失函数的一阶和二阶导数。对于每一棵树的叶节点，目标是最小化以下的目标函数：

其中：

和分别是一阶和二阶梯度；
是叶节点的权重；
是正则化参数；
是树的叶节点数；
是树结构的复杂度惩罚。

通过对上式进行优化，LightGBM 每次迭代会拟合新的树模型。

4. 数据准备及虚拟数据集构建

在实际的 CTR 预测中，数据通常包含以下几类信息：

用户信息：例如用户年龄、性别、兴趣、历史行为等。
广告信息：广告类型、广告位置、广告主信息等。
上下文信息：时间、地理位置、设备类型等。

由于我们不能使用真实数据，在此，我们生成一个虚拟的广告点击率预测数据集。该数据集包含以下特征：

age: 用户年龄
gender: 用户性别（1 表示男性，0 表示女性）
ad_position: 广告展示位置（0~5，表示不同位置）
device: 设备类型（0 表示移动设备，1 表示PC）
click: 点击结果（目标变量，1 表示点击，0 表示未点击）

import numpy as np
import pandas as pd
import torch
import torch.nn as nn
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt

# 生成虚拟数据集
np.random.seed(42)
N = 10000
age = np.random.randint(18, 65, size=N)
gender = np.random.randint(0, 2, size=N)
ad_position = np.random.randint(0, 6, size=N)
device = np.random.randint(0, 2, size=N)
click = np.random.randint(0, 2, size=N)

# 构建 DataFrame
df = pd.DataFrame({
    'age': age,
    'gender': gender,
    'ad_position': ad_position,
    'device': device,
    'click': click
})

# 数据划分
X = df[['age', 'gender', 'ad_position', 'device']]
y = df['click']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

5. 模型训练与特征重要性分析

在训练 LightGBM 模型前，首先需要将数据转换为 PyTorch 的张量格式。然后使用 PyTorch 实现 LightGBM，并绘制特征重要性图。

# 转换为 PyTorch 张量
X_train_tensor = torch.tensor(X_train.values, dtype=torch.float32)
y_train_tensor = torch.tensor(y_train.values, dtype=torch.float32)

X_test_tensor = torch.tensor(X_test.values, dtype=torch.float32)
y_test_tensor = torch.tensor(y_test.values, dtype=torch.float32)

# 简单的全连接神经网络作为LightGBM替代品（本质上是一个分类器）
class SimpleNN(nn.Module):
    def __init__(self, input_size):
        super(SimpleNN, self).__init__()
        self.fc1 = nn.Linear(input_size, 32)
        self.fc2 = nn.Linear(32, 16)
        self.fc3 = nn.Linear(16, 1)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = torch.relu(self.fc2(x))
        x = self.fc3(x)
        return self.sigmoid(x)

# 模型实例化
model = SimpleNN(X_train_tensor.shape[1])

# 损失函数和优化器
criterion = nn.BCELoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

# 模型训练
epochs = 100
for epoch in range(epochs):
    model.train()
    optimizer.zero_grad()
    
    # 前向传播
    y_pred = model(X_train_tensor).squeeze()
    loss = criterion(y_pred, y_train_tensor)
    
    # 反向传播与优化
    loss.backward()
    optimizer.step()
    
    if (epoch+1) % 10 == 0:
        print(f'Epoch [{epoch+1}/{epochs}], Loss: {loss.item():.4f}')

# 模型评估
model.eval()
with torch.no_grad():
    y_test_pred = model(X_test_tensor).squeeze()
    test_loss = criterion(y_test_pred, y_test_tensor)
    print(f'Test Loss: {test_loss.item():.4f}')

6. 数据分析及可视化

特征分布可视化

首先，我们分析每个特征的分布情况。

# 绘制各特征的分布图
df[['age', 'gender', 'ad_position', 'device']].hist(bins=20, figsize=(12, 8))
plt.suptitle('Feature Distributions')
plt.show()

图形显示了 age, gender, ad_position, 和 device 的分布。这有助于了解数据集中特征的总体分布，判断是否需要做进一步的数据清洗或特征工程。

特征与目标变量的关系

我们可以通过箱线图查看每个特征与点击率之间的关系。

import seaborn as sns
sns.boxplot(x='click', y='age', data=df)
plt.title('Age vs Click')
plt.show()

这个图显示了不同年龄段的用户点击广告的概率差异，帮助我们分析哪些年龄段的用户更倾向于点击广告。

特征重要性分析

# 提取模型的特征权重 (简单模拟的模型不具备真实特征重要性，可用更复杂模型)
# 这里假设使用训练后的模型得到了特征重要性
importance = [0.3, 0.2, 0.35, 0.15]  # 假设的特征重要性
features = ['age', 'gender', 'ad_position', 'device']

plt.barh(features, importance)
plt.title('Feature Importance')
plt.show()

该图显示了各个特征的重要性，有助于理解哪些特征对点击率的预测有更大的贡献。ad_position 和 age可能是两个最重要的因素。

7. 参数调优与优化

LightGBM 有多个重要的参数影响模型的性能，例如：

num_leaves: 控制每棵树的复杂度，较大的 num_leaves 会使模型更复杂。
learning_rate: 控制每次迭代时的步长。
n_estimators: 决定树的数量。
max_depth: 限制树的深度。

在调优过程中，通常通过交叉验证或网格搜索 (Grid Search) 来找到最优的参数组合。

# 假设我们使用 Grid Search 来优化参数
from sklearn.model_selection import GridSearchCV
from lightgbm import LGBMClassifier

lgb_model = LGBMClassifier()
param_grid = {
    'num_leaves': [31, 50],
    'learning_rate': [0.01, 0.1],
    'n_estimators': [100, 200],
    'max_depth': [-1, 10]
}

grid_search = GridSearchCV(lgb_model, param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, y_train)
print("Best parameters:", grid_search.best_params_)

在广告点击率预测中，LightGBM 提供了高效的模型训练和准确的预测结果。通过本文案例，给大家展示了从数据准备、模型训练到参数调优的完整流程，最后结合数据可视化对模型进行了详细的分析和解释。

最后

大家有问题可以直接在评论区留言即可~

喜欢本文的朋友可以收藏、点赞、转发起来！

需要本文PDF的同学，扫码备注「案例汇总」即可~

关注本号，带来更多算法干货实例，提升工作学习效率！

最后，给大家准备了《机器学习学习小册》PDF版本，16大块的内容，124个问题总结！

100个超强算法模型，大家如果觉得有用，可以点击查看~

推荐阅读

原创、超强、精华合集
100个超强机器学习算法模型汇总
机器学习全路线
机器学习各个算法的优缺点
7大方面，30个最强数据集
6大部分，20 个机器学习算法全面汇总
铁汁，都到这了，别忘记点赞呀~

http://mp.weixin.qq.com/s?__biz=Mzk0MjUxMzg3OQ==&mid=2247490526&idx=1&sn=5f37e896207df56bcf349a2a4233b58c

深夜努力写Python

Python、机器学习算法

最新文章

突破LSTM！时间序列预测！！

最强总结！复盘kaggle时间序列竞赛！

涨点神器！100个即插即用缝合模块！！

突破最强时间序列模型，LightGBM！！

生成理解大一统：多模态大模型最新研究进展【附最新论文】

讲透一个强大算法模型，Transformer ！！

突破最强时间序列模型，自回归积分滑动平均！！

通透！十大时间序列技术！！

突破最强集成算法模型，Adaboost！！

完全突破GBDT！GBDT用户行为分析！！

突破100个强大算法模型！！

超全总结！245个目标检测项目合集！！

突破GBDT！GBDT在用户行为分析中的应用！！

突破最强时间序列模型，自回归滑动平均！！

最强比较！GBDT 与 LightGBM ！！

Transformer，一个神奇的算法模型！！

完全突破KNN，利用KNN进行分类！！

突破最强时间序列模型，移动平均！！

被导师放养，后果可能很严重。。。

突破XGBoost算法，利用XGBoost进行行为分析！！

发一篇顶会真不难！！

突破GBDT算法，使用GBDT进行预测！！

突破最强时间序列模型，自回归！！

机器学习各算法的优缺点！！

突破最强分类算法，高斯混合模型！！

突破LightGBM，LightGBM在广告点击率预测中的应用！！

快速学会Nature热门算法模型，LSTM！！

Kaggle拿牌技巧，从python到金牌！！

突破LSTM！利用LSTM进行时间序列预测！！

我发现了找顶会创新点的最强套路，真的不需要脑子。。

突破最强时间序列模型，LightGBM！！

通透！十大时间序列技术！！

大模型杀疯了，LLM-Multi Agent ！！

不要跟风申博，给真正想要25、26申博人的破局建议！！

突破最强回归算法模型，SVR ！！

面试大厂被怼：怎么连Attention都不会？

突破XGBoost，XGBoost在股票市场趋势预测中的应用！！

突破最强分类算法模型，SVM！！

突破最强时间序列模型，自回归！！

GBDT、XGBoost、LightGBM，树模型全面对比！！

kaggle，YYDS ！！

最强总结！11种注意力机制！！

讲透一个强大算法模型，决策树！！

通透！十大数据清洗方法！！

突破100个强大算法模型！！

再见了！Numpy ！！

再见！Pandas！！

突破最强算法模型，KAN ！！

RNN vs. Transformer，从循环到自注意力最强比较！！

王者归来！MedSAM-2 刷新图像分割 SOTA 榜！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

突破LightGBM，LightGBM在广告点击率预测中的应用 ！！

1. 广告点击率预测的背景与挑战

2. LightGBM简介及其工作原理

LightGBM 工作原理

3. LightGBM的公式推导

4. 数据准备及虚拟数据集构建

5. 模型训练与特征重要性分析

6. 数据分析及可视化

特征分布可视化

特征与目标变量的关系

特征重要性分析

7. 参数调优与优化

最后

推荐阅读

突破LightGBM，LightGBM在广告点击率预测中的应用！！