《信息内容安全》结课了,按惯例展示若干学生作品。本应该上学期末发布,延误到如今。今天先展示“脆皮大学生”数据分析案例。
该课程以以信息内容安全分析为应用背景,以互联网大数据采集、分析、挖掘技术为核心。在核心技术讲课的基础上,允许学生就信息内容安全的相关问题采用数据分析方法进行探讨。刘淇、王雨菲、张雯祺、安柏超和李佳琳同学组成的小组以“脆皮大学生”这一热点话题为背景探讨了多源社交媒体数据采集、提取、处理、可视化以及心得,值得一读。转载请注明来自公众号:互联网大数据处理技术与应用。
背景介绍
“上厕所喜提骨折、打喷嚏至腰椎间盘突出、憋笑至鼻动脉破裂、打耳钉成一只耳……”这些让人哭笑不得的意外伤害,在社交媒体上疯狂传播,而事件的主人公又多是大学生,因此“脆皮大学生”成为这一群体的新外号,用以形容他们脆弱易受伤。2023年,郑州一家医院急诊科在9月接诊了1700多名18到25岁的年轻人,症状包括外伤、腹痛、胸闷、过度换气综合征等等,社交媒体上关于年轻人发生意外伤害的病例也层出不穷。这一现象值得大学生、父母以及社会各界的思考。脆皮有哪些症状?产生脆皮的原因是什么?大学生们如何自省与改变?
数据采集
由于脆皮大学生这个话题和大学生高度相关,因此我们选择了一些大学生活跃的平台,一共爬取了6个平台的数据,包括微博、B站、抖音、小红书、知乎和豆瓣,筛选去重后一共25000个样本数据。在选择爬取内容时,根据目的的不同分别选择了不同的爬取角度:
为了更好的了解具体内容,我们爬取了文章内容、评论、图片、视频封面。
为了对用户更好的进行画像,我们爬取了用户名、ip属地、性别等。
为了分析话题的热度趋势,我们爬取了转发数、点赞数、评论数、收藏数、百度热词统计等。
在实现技术上,大都是教材《Python爬虫大数据采集与挖掘》中介绍的技术,包括WordCloud、lxml、json、selectolax、jieba、openpyxl和requests等。
症状分析
通过正则表达式匹配症状,计算词频,词汇来源包括百度健康、ChatGPT。针对微博和B站匹配的症状展示如下。
与长辈对比分析
我们在查看文本内容时,还看到了一个有趣的讨论:人们一边看着脆皮大学生们的“倒霉经历”,一边想起身边的长辈们,说“70岁的大爷健步如飞,20岁的年轻人系个鞋带起来两眼一黑”,于是我们对这些表现也进行了提取,得到了一些描述长辈的文本,可视化如下。
长辈身体比当代年轻人好很多的原因值得每个人思考,这里不再详述。
原因分析
通过提取关键词并进行拓展、设想,我们统计了大部分可能与脆皮大学生产生原因相关的词汇。如:“熬夜”、“手机”、“游戏”、“外卖”、“通宵”、“自嘲”,等等。通过对社交媒体文本的分析,我们将原因归为六类,它们分别是:学习压力、电子产品、工作压力、作息(熬夜)、运动、饮食(外卖)等方面,值得一提的是刷手机、打游戏已经成为脆皮的一大原因。
情感分析
当代社交媒体的流行使得表情包成为了人们丰富表达情感和传达信息的一种方式。脆皮大学生使用的表情包更是独具特色,反映着他们独特的文化和态度。要对这些表情包进行深入分析,我们可以借助数据处理和可视化工具,挖掘出其中的趋势和特点。这里重点关注了微博和B站的用户使用的表情包,B站上使用最多的表情为[笑哭],微博上使用最多的表情为[泪], B站的评论更加偏向于调侃,如[狗头]、[藏狐]、[辣眼睛]等,而微博的评论中更加“沉重”,出现[跪了]、[裂开]等表情为主。
大众态度分析
这里直接给出分析结果
心得与启示
1.为何有“脆皮”大学生?
在当下的社会和校园环境下,大学生们的压力似乎与日俱增,学习、科研、实习、就业......构成了大学生活最朴实又最忙碌的图景。心理压力和生理压力同时增大,久坐不动、失眠焦虑等影响着大学生们的身心健康。
2. 面对“脆皮”,学会自省与改变
偶有的放纵可以理解,压力下的“摆烂”亦能共情,但同时我们也需要明白,对自己的身体健康负责,积极地锻炼身体,才能在未来拥有更长久、更持续的幸福生活。
面对“脆皮”,让我们学会自省与改变,多一些规律,多一些锻炼,多一些自我激励与互相鼓励,让我们的大学生活更加丰富、充实、明亮、充满积极向上又蓬勃美好的回忆!
正如复旦大学新闻学院院长张涛甫教授所说:“每个人都是时代的过客和产儿,身处时代的千山万壑,个人别无选择,接受时代的给与和选择,有好运,也有差运,但个人并非被动的应受者,而是能动的变量,关键看以何种心态和姿态去面对和接纳,即便运气不济,也并非被命运锁定,逆境也是人生的正面战场,穿越人生千丘万壑,相信所有阅历皆是修行。”
以往的作业展示请在公众号里查阅。