爬虫 | Python爬取实习僧网岗位招聘数据

科技科技 2024-12-09 08:10 天津

点击上方"蓝字"，关注"Python当打之年"

后台回复"1"，领取众多Python学习资料

大家好，我是欧K~

本期给大家分享一下如何用python爬取实习僧网岗位招聘数据，包含标题、岗位、公司、城市、学历、福利、工作周期、实习时间等几部分信息，希望对大家有所帮助，如有疑问或者需要改进的地方可以联系小编。

可视化部分见：

【Pandas+Pyecharts | 实习僧网Python岗位招聘数据分析可视化】

所有内容仅供参考，不做他用。

1. 网页分析

目标网址实习僧，分析网页各区域信息：

一共是30页数据，每页20条，共600条。

接下来，按 F12 或者查看网页信息：

这里我们可以看到页面所有招聘信息。

接下来搜索第一条信息中望软件公司的python实习生岗位：

这里可以看到招聘信息中的各字段信息。

2. 爬取数据

2.1 导入模块

import time
import requests
import pandas as pd

2.2 请求网页数据

def get_data():
    req = requests.get(url,headers=headers)
    soup = BeautifulSoup(req.text, 'lxml')
    coms = soup.find_all(attrs={'class':'intern-wrap interns-point intern-item'})
    job = coms[0].find(attrs={'class':'f-l intern-detail__job'})

结果：

'\ue1ee\ue501\uecee\ue29e\uee46\uefc0实习\ue776 \uf072\ue961\ue884-\ue07d\ue884\ue884/天 广州 | \ue000天/周 | \uef61个月'

这里需要注意，数据是经过某种个格式编码过得，所以不能直接获取到。。。

实际从上图中也能看出来数据是密文形式，我们找另一个网页看一下：

这个页面可以，我们直接采集这个页面就可以了。

2.3 采集数据

def get_data(url,headers):
    res = requests.get(url, headers=headers)
    soup = BeautifulSoup(res.text, 'lxml')
    # 标题
    title = soup.title.text
    # 岗位
    job = title.split("招聘")
    # 公司
    company_name = soup.select('.com_intro .com-name')[0].text.strip()
    # 城市
    address = soup.select('.job_position')[0].text.strip()
    # 学历
    academic = soup.select('.job_academic')[0].text.strip()
    # 福利
    good_list = soup.select('.job_good_list')[0].text.strip() 
    # 工作周期
    workday = soup.select(".job_week.cutom_font")[0].text.strip()
    # 工作时间
    worktime = soup.select(".job_time.cutom_font")[0].text.strip()
    # 薪资
    salary = soup.select(".job_money.cutom_font")

2.4 保存文件

def insert2excel(filepath,allinfo):
    if not os.path.exists(filepath):
        tableTitle = ['标题','岗位','公司','城市','学历','福利','薪资','工作周期','实习时间']
        wb = Workbook()
        ws = wb.active
        ws.title = 'sheet1'
        ws.append(tableTitle)
        wb.save(filepath)
        time.sleep(3)
    wb = load_workbook(filepath)
    ws = wb.active
    ws.title = 'sheet1'
    for info in allinfo:
        ws.append(info)
    wb.save(filepath)

2.5 结果

3. 源码+数据

👉 公众号后台回复【可视化项目源码】获取全部代码+数据

END

以上就是本期为大家整理的全部内容了，喜欢的朋友可以点赞、点在看也可以分享让更多人知道。

往期推荐

源码下载 | 【01-50】Pthon可视化系列文章资源(源码+数据)

爬虫 | Python爬取某平台杭州二手房数据

爬虫 | Python搞定软科中国大学排名

爬虫 | Python爬取胡润百富榜数据

爬虫 | Python爬取微博实时热搜榜信息

爬虫 | Python爬取B站榜排行榜信息

可视化 | Flask+Mysql+Echarts 豆瓣电影Top250数据分析系统

55 | 实习僧网Python岗位招聘数据分析可视化

54 | 2024年美国总统大选数据分析可视化

53 | 基于Lasso回归和随机森林的上海链家二手房房价预测

53 | 上海链家二手房数据分析可视化

52 | 基于KNN近邻和随机森林模型对用户转化进行分析与预测

51 | 深圳市共享单车数据分析可视化

01-50 | Pthon可视化系列文章资源(源码+数据)

Pandas+Pyecharts | 全国热门旅游景点数据分析可视化

可视化 | 再分享一套Flask+Pyecharts可视化模板二

可视化 | 分享一套Flask+Pyecharts可视化模板

可视化 | Python直观展示中国代表团冬奥会荣耀时刻

用Python分析了3W+《独行月球》影评数据，看看观众们怎么说~

Matplotlib | 世界足球俱乐部排名可视化

40000+条考研信息数据可视化（学校、专业分数分布）

点【在看】的您又变好看了呢

Python当打之年

当打之年，专注于各领域Python技术，量的积累，质的飞跃。后台回复：【可视化项目源码】可获取可视化系列文章源码和数据

最新文章

爬虫 | Python爬取实习僧网岗位招聘数据

可视化大屏 | 实习僧网Python岗位招聘数据分析可视化大屏

Pandas+Pyecharts | 实习僧网Python岗位招聘数据分析可视化

【009-免费分享100套实用可视化大屏模板】

Pandas+Pyecharts | 2024年美国总统大选数据分析可视化

【01-50】Pthon可视化系列文章资源(源码+数据)

可视化 | Python绘制精美动态水球图

【01-50】Pthon可视化系列文章资源(源码+数据)

机器学习 | 基于Lasso回归和随机森林的上海链家二手房房价预测

Pandas+Pyecharts | 上海链家二手房数据分析可视化

Pandas+Pyecharts | 全国热门旅游景点数据分析可视化

Pandas+Pyecharts | 2024年巴黎奥运会奖牌数据分析可视化

Pandas+Pyecharts | 预热双十一，某平台美妆销售数据分析可视化

又来赠书啦 | ggplot2基于R语言的数据可视化

机器学习 | 基于KNN近邻和随机森林模型对用户转化进行分析与预测

可视化大屏 | 上海市餐饮数据分析可视化大屏(Flask版)

【008-免费分享100套实用可视化大屏模板】

【007-免费分享100套实用可视化大屏模板】

Pandas+Pyecharts | 深圳市共享单车数据分析可视化

可视化系统 | Flask+Pyecharts高校大数据可视化大屏系统案例一

【006-免费分享100套实用可视化大屏模板】

【005-免费分享100套实用可视化大屏模板】

工具分享 | 免费分享国庆节专属半透明五星红旗图像制作工具

技巧 | 分享100个Pandas常用基础指令

可视化大屏 | 某直聘平台招聘信息数据可视化大屏(普版+Flask版)

可视化大屏 | 中国大学综合排名分析可视化大屏(普版+Flask版)

可视化大屏 | 北京某平台二手房数据分析可视化（普版+Flask版）

可视化大屏 | 全国热门旅游景点数据分析可视化(普版+Flask版)

【免费分享100套实用可视化大屏模板-004】

可视化 | 近十年比特币价格走势动态时间序列分析

Pandas+Pyecharts | 暑期档电影票房数据分析可视化

Python实战系列 | 正则提取数据并绘图

Pandas+Pyecharts | 平均预期寿命数据可视化

《黑神话·悟空》员工工资收入曝光，我慕了

《黑神话：悟空》Steam用户评测数据词云【文末附源码】

Pandas+Pyecharts | 软科中国大学排名分析可视化

可视化 | Python分析中秋月饼，这几种口味才是YYDS!

可视化 | 1896-2024年历届奥运会参赛国奖牌数据动态时间序列图

可视化 | Python绘制2024巴黎奥运会中国军团夺金时刻（完整时刻）

又来赠书啦 | Python数据可视化科技图表绘制

Pandas+Pyecharts | 2024年巴黎奥运会奖牌数据分析可视化

文末赠书啦 | 豆瓣9.8，这本Python书为啥畅销近20万册？

可视化 | Python绘制2024巴黎奥运会中国军团夺金时刻！

Pandas+Pyecharts | 成都大运会奖牌数据分析可视化

Pandas+Pyecharts | 2020东京奥运会奖牌数据可视化

《抓娃娃》《默杀》热映电影观众评论词云

【免费分享100套实用可视化大屏模板-003】

Pandas+Pyecharts | 第七次人口普查数据分析可视化

【免费分享100套实用可视化大屏模板-002】

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉