科大讯飞 | 短视频精准推荐挑战赛Baseline

科技 2024-08-13 08:00 新加坡

嘿，记得给“机器学习与推荐算法”添加星标

转自: Coggle数据科学

赛题名称：短视频精准推荐挑战赛
赛题类型：推荐系统
赛题任务：预测该用户下一天最有可能会点击观看哪N个视频

报名链接：https://challenge.xfyun.cn/topic/info?type=short-video-recommendation

unsetunset赛题背景unsetunset

在数字化时代，短视频平台迅速崛起，成为人们获取信息、娱乐和社交的重要渠道。随着用户数量的激增和内容创作的多样化，如何精准地推荐用户感兴趣的短视频内容，提升用户体验，成为短视频平台面临的关键挑战。

为了增强平台的用户粘性和内容分发效率，本次算法挑战赛聚焦在“短视频精准推荐”，旨在推动短视频推荐算法的创新和优化。

unsetunset赛题任务unsetunset

赛题将提供用户历时观看行为、视频信息、用户信息等数据，需要选手构建模型预测用户所喜欢的视频。

给定某平台实际短视频业务中脱敏和采样后的的用户行为数据，即平台展示给用户多个短视频，保留用户存在点击并产生停留的行为。任务目标预测该用户下一天最有可能会点击观看哪N个视频，其中N=5。

请必须推荐5个视频，且推荐视频不能重复。若对新用户掌握的信息不足以推荐5个，可结合热门视频推荐。

unsetunset数据说明unsetunset

本次大赛基于短视频业务脱敏和采样后的数据信息，预测用户将点击的视频。参赛队伍需要设计相应的算法进行数据分析和预测。本次比赛提供了海量的数据集，包含用户历史点击观看行为数据，视频相关信息数据。

特征字段	字段描述
uid	用户行为id，唯一表示，无重复
vid	视频id
cid	视频类别id
playtime	观影时长
duration	视频时长
date	点击时间，如20230101
rank	uid当天点击排序，rank为1则表示当天最后一次点击观看

unsetunset评价指标unsetunset

本次竞赛的评价标准采用MRR(Mean Reciprocal Rank)指标，评估代码参考：

def calculate_mrr(df_sorted, df_clicked):
    mrr_score = 0.0
    total_queries = len(df_clicked)

    for index, row in df_clicked.iterrows():
        # 获取当前用户的所有推荐
        recommendations = df_sorted[df_sorted['uid'] == row['uid']].reset_index(drop=True).head(5)
        # 检查点击的视频是否在推荐列表中，并且计算其排名
        if row['vid'] in recommendations['vid'].values:
            rank = recommendations[recommendations['vid'] == row['vid']]['vid'].index[0] + 1
            mrr_score += 1 / rank

    # 计算平均MRR
    return mrr_score / total_queries if total_queries > 0 else 0

unsetunsetBaseline 思路unsetunset

对于训练集中的数据，构建一个频率字典 freq，记录每个视频 vid 后面跟随的视频 vid 的频率。遍历训练集中每个用户的最后3个点击，使用构建的频率字典预测用户可能感兴趣的前5个视频。

频次统计

freq = {}
for u, df in tqdm(train_data.groupby('uid')):
    for v1, v2 in zip(df['vid'].values[:-1], df['vid'].values[1:]):
        if v1 not in freq:
            freq[v1] = {v2:1}
        else:
            if v2 in freq[v1]:
                freq[v1][v2] += 1
            else:
                freq[v1][v2] = 1

测试集预测

submit = []
for u, df in tqdm(uid.groupby('uid')):
    if u not in example['uid'].values:
        continue

    df10 = df.tail(3)
    pred_freq = merge_dicts_by_adding_values(*[freq[x] for x in df10['vid'].values if x in freq])
    pred_vids = [k for k, v in sorted(pred_freq.items(), key=lambda item: item[1])][::-1]
    pred_vids = pred_vids[:5]

    for v in pred_vids_top5[:5]:
        submit.append([u, v])

代码地址：https://github.com/datawhalechina/competition-baseline/tree/master/competition/%E7%A7%91%E5%A4%A7%E8%AE%AF%E9%A3%9EAI%E5%BC%80%E5%8F%91%E8%80%85%E5%A4%A7%E8%B5%9B2024

http://mp.weixin.qq.com/s?__biz=MzA4NTUxNTE4Ng==&mid=2247524539&idx=2&sn=817285a425adb85d8e8d6c2b0f6d6ae3

机器学习与推荐算法

专注于分享经典的推荐技术，致力于传播基础的机器学习、深度学习、数据挖掘等方面的知识。

最新文章

当MoE邂逅图学习: AnyGraph解密图大模型的Scaling Law

KDD2024 | 最佳学生论文: 以数据为中心的序列推荐方法

Kaggle大模型文本预测竞赛入门分享

CIKM2024 | 属性感知匹配的文本序列推荐算法

论文周报[0902-0908] | 推荐系统领域最新研究进展(15篇)

「小而美」的EasyRec来啦, 推荐系统迈入语言模型时代？

学术顶会变成了“大厂”顶会?

大模型推荐最新进展 | 含KDD, RecSys, CIKM, ACL等顶会文章

KDD2024推荐系统/计算广告/大模型论文整理(研究专题)

KDD2024推荐系统/计算广告/大模型论文整理(应用专题)

近期大模型时序预测顶会论文总结

SIGIR2024 | 对齐很重要! 大模型增强知识赋能传统序列推荐

论文周报[0826-0901] | 推荐系统领域最新研究进展(16篇)

ICML2024 | 维度坍塌视角下的大规模推荐系统

CIKM2024 | LightGODE: 挑战传统图推荐范式, 基于轻量级图ODE推荐算法

图像分割模型SAM-2在医疗领域应用总结

LEARN: 大模型知识增强的工业级推荐模型

论文周报[0819-0825] | 推荐系统领域最新研究进展(26篇)

KDD2024 | 用户图增强的联邦推荐系统

多模态融合最新前沿方向进展总结

RecSys2024 | 蒸馏很重要! 大模型赋能传统序列推荐

论文周报[0812-0818] | 推荐系统领域最新研究进展(16篇)

只要敢捞“偏门”，篇篇都是顶会顶刊！

抖音 | 搜索推荐算法工程师招聘

KDD2024 | PolygonGNN: 多边形几何形状的表征学习

RecSys2024推荐系统论文整理

科大讯飞 | 短视频精准推荐挑战赛Baseline

论文周报[0805-0811] | 推荐系统领域最新研究进展(21篇)

浙大数据智能团队最新综述: 生成式AI时代下表格数据增强进展与展望

导师放养, 偷偷发了顶会。。。

CIKM2024 | TWIN-V2: 超长用户行为序列建模在快手的应用

KDD2024 | GFN4Retention: 基于生成流网络的用户留存建模

想中稿顶会？来看看顶会审稿人怎么说

LLM101n 硬核代码解读: 超详解读numpy实现多层感知机MLP

论文周报[0729-0804] | 推荐系统领域最新研究进展(19篇)

最新综述 | 图压缩技术: 如何压缩图数据从而加速GNN训练？

IJCAI2024 | 利用基础模型的联邦推荐系统

CIKM2024 | COLT: 面向完整性的大模型工具检索

KDD2024 | 基于双重意图转换的搜索推荐联合模型

论文周报[0722-0728] | 推荐系统领域最新研究进展(14篇)

首届国家智慧教育平台 | 用户行为序列个性化推荐竞赛

ACM MM2024@Oral | DiffMM: 当多模态推荐遇上Diffusion Model

KDD2024 | 兴趣点推荐中的隐私风险研究

最新开源Transformer压缩与量化方法总结

2024年推荐系统技术全面综述：历史、现状、分类、应用与展望

论文周报[0715-0721] | 推荐系统领域最新研究进展(15篇)

SIGIR2024 | SelfGNN: 自监督图学习序列推荐

大模型微调与对齐在推荐系统中的应用总结

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉