ModelCube数据集 | 真实/虚假职位发布预测数据集

文摘   2024-10-21 08:16   浙江  

ModelCube(modelcube.cn)是博雅数智自主研发的一站式人工智能科研平台。为全国高校和科研机构的大数据和人工智能科研团队提供一站式科研服务。基于MLOps的实践和企业核心技术,实现了科研场景中全类型数据管理与标注,实验环境快速获取与灵活定制,模型的全生命周期管理,科研成果的管理与发布,以及 AI驱动的论文检索和学习等功能。

介绍

该数据集包含18K份工作描述,其中约800份是伪造的。该数据集可用于构建分类模型,该模型可学习欺诈性的工作描述。

字段说明

字段名称字段说明
job_id职位ID
title招聘广告的标题
location招聘广告的地理位置
department公司部门(例如销售)
salary_range参考薪资范围(例如 50,000-60,000 美元)
company_profile公司简介
description招聘广告的详细描述
requirements列出的职位空缺要求
benefits雇主提供的福利
telecommuting是否需要远程办公
has_company_logo是否有公司logo
has_questions如果存在筛选问题,则为真
employment_type雇佣类型,全日制、兼职、合同制等
required_experience所需经验,行政人员、初级人员、实习生等
required_education所需教育程度,博士、硕士、学士等
industry行业,汽车、IT、医疗保健、房地产等
function功能,咨询、工程、研究、销售等
fraudulent目标,0:非欺诈,1:欺诈

数据集来源

爱琴海大学,信息与通信系统安全实验室.

数据集的用途

该数据集非常有价值,因为它可以用来回答以下问题:

  1. 创建一个使用文本数据特征和元特征的分类模型,并预测哪些工作描述是虚假的或真实的。

  2. 识别工作描述中具有欺诈性质的关键特征/特征(词语、实体、短语)。

  3. 运行上下文嵌入模型来识别最相似的工作描述。

  4. 对数据集执行探索性数据分析,从该数据集中识别有趣的见解。

数据文件


下载数据集请登录ModelCube

http://modelcube.cn/dataset/dataset-detail/10173

数据科学人工智能
聚焦数据科学,大数据,人工智能,区块链和云计算等话题。技术资料分享,院士名家观点分享,前沿资讯分享。
 最新文章