2024秋复旦大学《信息内容安全》PJ展示(一)
该课程以互联网大数据采集、处理和挖掘为核心技术,并围绕网络舆情为应用场景,帮助学生掌握爬虫技术、网络大数据技术、文本分析技术、舆情分析方法。课程也可以简称为爬虫课、舆情课。教材《Python爬虫大数据采集与挖掘》(曾剑平,清华大学出版社)。
杨培杰、马超、刘佳铄和曹天啸四位针对当下大学生就业这个热点问题进行数据采集与分析,从微博、小红书、B站以及四个招聘网站获取相关数据,结合课程中学过的爬虫、Web信息提取、文本预处理、情绪分析、词云分析等技术,对该热点问题进行剖析。文章最后的词云是重点。
首先,是小红书相关的就业现状的分析,可以看到“就业”难、“难难”、“没有”“工作”这些热点词汇。同时,“面试”、“实习”、“经验”、“专业”、“学历”、“能力”、“城市”这些与工作好坏相关的词汇也多多少少蕴藏的词云中。此外,提成、创业、进厂、3K、月薪、加班、压力、单休、双休等体现了就业的多种选择和学生对工作环境的要求。词云需要慢慢琢磨着看,欢迎大家留言补充。
小红书就业现状评论词云
这是B站评论文本,使用了SnowNLP的情绪分析方法,该方法是基于各类评论文本训练的分类器。这里暂且用来做就业评论的情绪分析,可以看到积极的方面比消极的多,人就是要这样,再难也要积极面对。
B站就业的情绪统计
接下来,重点介绍一下更多人关注的薪资分析。
爬虫的目标是收集有关应届大学生招聘薪资相关的数据进行分析。数据来源包括前程无忧招聘网、BOSS直聘招聘网、中国公共招聘网和智联招聘网,共超过4千条针对应届生的招聘月薪资数据和对应的招聘要求文本。
数据来源
由于网站爬虫检测,没有采用页面分析跟踪的方法,而是用Drissionpage爬虫架构,类似于selenium模拟浏览器,模拟人工点击避免人工疲劳造成数据失真,同时也降低采集频次避免对网站的影响。Drissionpage对比 selenium,有以下优点:
无WebDriver特征和无需考虑版本兼容性问题,运行更快。
支持跨iframe查找元素、多个标签页操作,逻辑更清晰。
可以直接读取浏览器缓存、截图包括视口外的部分、处理非open状态的shadow-root。
简洁的语法和集成常用功能,代码更优雅,元素定位更稳定。
自动等待和重试机制,提高程序稳定性。
提供强大的下载工具,支持浏览器复用,简化调试过程。
配置通过ini文件保存,简化配置管理。
内置lxml解析引擎,提升解析速度。
支持POM模式封装,便于扩展和测试。
使用中,针对滑块验证,通过drissionpage内置的hold和move进行模拟,会导致失败,研究后发现是因为直线匀速轨迹的问题,然后编写了一个会上下颤动不规律变速右移的轨迹成功通过。针对识别验证码字符,采用一个ddddocr库来进行OCR,获取字符后再通过xpath锁定输入口,将识别的内容输入,再click确定键。
下面是每个招聘网站的职位和平均薪资,反正就大概这个数,知足常乐吧。
第一张词云展示应届生招聘要求,整体来看,可以看出对于应届生的招聘,负责任、懂管理、具备相关技能、有工作经验都是很关键的。但是,这对于刚毕业的大学生确实有很大难度,特别是懂管理、工作经验。由于词云表达能力有限,这里应该是管理个人的能力更合适。
普通词云
最后的词云图才是重点,使用月薪作为权重来调节词汇展示,词汇越大对应的薪资越高,反之亦然。因此,这个词云反映了高薪的工作应该具备的能力。可以看出工作经验、之前工作内容、学历、具备专业相关技能、工作时间、团队合作能力等,这也告诉了应届生努力的方向。相比于上图,“管理”在工薪岗位中已经不突出了,毕竟这需要多年的工作积累来提升。
高薪词云
更多的爬虫案例请翻阅本公众号历史推送。
...