如何高薪？基于应届生薪资数据采集与分析

文摘 2024-12-06 10:02 上海

2024秋复旦大学《信息内容安全》PJ展示（一）

该课程以互联网大数据采集、处理和挖掘为核心技术，并围绕网络舆情为应用场景，帮助学生掌握爬虫技术、网络大数据技术、文本分析技术、舆情分析方法。课程也可以简称为爬虫课、舆情课。教材《Python爬虫大数据采集与挖掘》（曾剑平，清华大学出版社）。

杨培杰、马超、刘佳铄和曹天啸四位针对当下大学生就业这个热点问题进行数据采集与分析，从微博、小红书、B站以及四个招聘网站获取相关数据，结合课程中学过的爬虫、Web信息提取、文本预处理、情绪分析、词云分析等技术，对该热点问题进行剖析。文章最后的词云是重点。

首先，是小红书相关的就业现状的分析，可以看到“就业”难、“难难”、“没有”“工作”这些热点词汇。同时，“面试”、“实习”、“经验”、“专业”、“学历”、“能力”、“城市”这些与工作好坏相关的词汇也多多少少蕴藏的词云中。此外，提成、创业、进厂、3K、月薪、加班、压力、单休、双休等体现了就业的多种选择和学生对工作环境的要求。词云需要慢慢琢磨着看，欢迎大家留言补充。

小红书就业现状评论词云

这是B站评论文本，使用了SnowNLP的情绪分析方法，该方法是基于各类评论文本训练的分类器。这里暂且用来做就业评论的情绪分析，可以看到积极的方面比消极的多，人就是要这样，再难也要积极面对。

B站就业的情绪统计

接下来，重点介绍一下更多人关注的薪资分析。

爬虫的目标是收集有关应届大学生招聘薪资相关的数据进行分析。数据来源包括前程无忧招聘网、BOSS直聘招聘网、中国公共招聘网和智联招聘网，共超过4千条针对应届生的招聘月薪资数据和对应的招聘要求文本。

数据来源

由于网站爬虫检测，没有采用页面分析跟踪的方法，而是用Drissionpage爬虫架构，类似于selenium模拟浏览器，模拟人工点击避免人工疲劳造成数据失真，同时也降低采集频次避免对网站的影响。Drissionpage对比 selenium，有以下优点：

无WebDriver特征和无需考虑版本兼容性问题，运行更快。
支持跨iframe查找元素、多个标签页操作，逻辑更清晰。
可以直接读取浏览器缓存、截图包括视口外的部分、处理非open状态的shadow-root。
简洁的语法和集成常用功能，代码更优雅，元素定位更稳定。
自动等待和重试机制，提高程序稳定性。
提供强大的下载工具，支持浏览器复用，简化调试过程。
配置通过ini文件保存，简化配置管理。
内置lxml解析引擎，提升解析速度。
支持POM模式封装，便于扩展和测试。

使用中，针对滑块验证，通过drissionpage内置的hold和move进行模拟，会导致失败，研究后发现是因为直线匀速轨迹的问题，然后编写了一个会上下颤动不规律变速右移的轨迹成功通过。针对识别验证码字符，采用一个ddddocr库来进行OCR，获取字符后再通过xpath锁定输入口，将识别的内容输入，再click确定键。

下面是每个招聘网站的职位和平均薪资，反正就大概这个数，知足常乐吧。

第一张词云展示应届生招聘要求，整体来看，可以看出对于应届生的招聘，负责任、懂管理、具备相关技能、有工作经验都是很关键的。但是，这对于刚毕业的大学生确实有很大难度，特别是懂管理、工作经验。由于词云表达能力有限，这里应该是管理个人的能力更合适。

普通词云

最后的词云图才是重点，使用月薪作为权重来调节词汇展示，词汇越大对应的薪资越高，反之亦然。因此，这个词云反映了高薪的工作应该具备的能力。可以看出工作经验、之前工作内容、学历、具备专业相关技能、工作时间、团队合作能力等，这也告诉了应届生努力的方向。相比于上图，“管理”在工薪岗位中已经不突出了，毕竟这需要多年的工作积累来提升。

高薪词云

更多的爬虫案例请翻阅本公众号历史推送。

“脆皮大学生”的数据分析与启示

迪斯尼攻略: 基于Python采集与挖掘的实现

...

互联网大数据处理技术与应用

互联网大数据与安全相关的各种技术，包括爬虫采集提取、大数据语义、挖掘算法、大数据安全、人工智能安全、相关技术平台以及各种应用。同时也会分享相关技术研究和教学的心得体会。

最新文章

如何高薪？基于应届生薪资数据采集与分析

我的美餐（诗三首）

计算机相关专业中那些形象有趣的词汇

2024《网络数据安全管理条例》来了，对爬虫设计运营有什么影响？

OpenAI o1来了，值得关注的三个显著变化！

人工智能安全课程讲什么？来看看新版PPT！

从大数据的角度看ChatGPT

为什么现在大多数的大模型都是decoder-only？

口令中竟包含哪些隐私信息，需要在破解中采取隐私保护技术？

程序员们，老板让你抓高德地图数据，你该怎么办？辞职吗？

人工智能安全课程讲什么？来看看新版PPT！

“脆皮大学生”的数据分析与启示

维特根斯坦对【AI未来】的16条启示

全民国家安全教育日|三句话聊安全

郑维民|算力的互联与互通

RAG、大模型、Gemini与知识库

思考|为什么大模型看起来很全能？

奇怪了，上证指数最近走势和这个公众号(IntBigData)关注人数变化的相关性达0.8

网络伦理和社会伦理双重标准分析

OpenAI奥特曼被解雇的背后：人工智能安全与商业赢利之争

CESI：知识图谱与大模型融合实践研究报告

基于大模型的可解释股票收益序列预测

和AI一起创作中秋的诗与图

基于大模型的金融风险预测：画像微调

金融风控大模型：从规则对抗到模型对抗

AlphaTensor的矩阵乘法算法自动化解读

人工智能安全（PPT、Python实例、概要视频）

智能时代必读的《人工智能安全》

爬虫案例: 网络安全顶刊（TIFS/TDSC）十年的热点变化

数字经济的核心技术：数据定价

MIT Technology Review 2022年“全球十大突破性技术”之（口令、权益证明与AI合成数据）解读

元宇宙里还有爬虫吗？

数据分析: 茅台视角下的半导体-国产软件-大数据-网络安全上市公司

自动编码器：DAE、VAE、CoAE、Adversarial AE ...

论文导读：自然语言处理中的后门攻击

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉