爬虫 | Python爬取实习僧网岗位招聘数据

科技   科技   2024-12-09 08:10   天津  

点击上方"蓝字",关注"Python当打之年"
后台回复"1",领取众多Python学习资料

大家好,我是欧K~

本期给大家分享一下如何用python爬取实习僧网岗位招聘数据,包含标题、岗位、公司、城市、学历、福利、工作周期、实习时间等几部分信息,希望对大家有所帮助,如有疑问或者需要改进的地方可以联系小编。
可视化部分见:
【Pandas+Pyecharts | 实习僧网Python岗位招聘数据分析可视化】

所有内容仅供参考,不做他用。


1. 网页分析

目标网址实习僧,分析网页各区域信息:

一共是30页数据,每页20条,共600条。

接下来,按 F12 或者查看网页信息:

这里我们可以看到页面所有招聘信息。

接下来搜索第一条信息中望软件公司的python实习生岗位:

这里可以看到招聘信息中的各字段信息。


2. 爬取数据

2.1 导入模块
import time
import requests
import pandas as pd

2.2 请求网页数据

def get_data():
    req = requests.get(url,headers=headers)
    soup = BeautifulSoup(req.text, 'lxml')
    coms = soup.find_all(attrs={'class':'intern-wrap interns-point intern-item'})
    job = coms[0].find(attrs={'class':'f-l intern-detail__job'})

结果:

'\ue1ee\ue501\uecee\ue29e\uee46\uefc0实习\ue776 \uf072\ue961\ue884-\ue07d\ue884\ue884/天 广州 | \ue000天/周 | \uef61个月'

这里需要注意,数据是经过某种个格式编码过得,所以不能直接获取到。。。

实际从上图中也能看出来数据是密文形式,我们找另一个网页看一下:

这个页面可以,我们直接采集这个页面就可以了。

2.3 采集数据

def get_data(url,headers):
    res
= requests.get(url, headers=headers)
    soup = BeautifulSoup(res.text, 'lxml')
    # 标题
    title = soup.title.text
    # 岗位
    job = title.split("招聘")
    # 公司
    company_name = soup.select('.com_intro .com-name')[0].text.strip()
    # 城市
    address = soup.select('.job_position')[0].text.strip()
    # 学历
    academic = soup.select('.job_academic')[0].text.strip()
    # 福利
    good_list = soup.select('.job_good_list')[0].text.strip()
    # 工作周期
    workday = soup.select(".job_week.cutom_font")[0].text.strip()
    # 工作时间
    worktime = soup.select(".job_time.cutom_font")[0].text.strip()
    # 薪资
    salary = soup.select(".job_money.cutom_font")

2.4 保存文件

def insert2excel(filepath,allinfo):
    if not os.path.exists(filepath):
        tableTitle = ['标题','岗位','公司','城市','学历','福利','薪资','工作周期','实习时间']
        wb = Workbook()
        ws = wb.active
        ws.title = 'sheet1'
        ws.append(tableTitle)
        wb.save(filepath)
        time.sleep(3)
    wb = load_workbook(filepath)
    ws = wb.active
    ws.title = 'sheet1'
    for info in allinfo:
        ws.append(info)
    wb.save(filepath)

2.5 结果


3. 源码+数据

👉 公众号后台回复【可视化项目源码】获取全部代码+数据

END

以上就是本期为大家整理的全部内容了,喜欢的朋友可以点赞、点在看也可以分享让更多人知道。

 往期推荐 

源码下载 | 【01-50】Pthon可视化系列文章资源(源码+数据)

爬虫 | Python爬取某平台杭州二手房数据

爬虫 | Python搞定软科中国大学排名

爬虫 | Python爬取胡润百富榜数据

爬虫 | Python爬取微博实时热搜榜信息

爬虫 | Python爬取B站榜排行榜信息

可视化 | Flask+Mysql+Echarts 豆瓣电影Top250数据分析系统

55 | 实习僧网Python岗位招聘数据分析可视化

54 | 2024年美国总统大选数据分析可视化

53 | 基于Lasso回归和随机森林的上海链家二手房房价预测

53 | 上海链家二手房数据分析可视化

52 | 基于KNN近邻和随机森林模型对用户转化进行分析与预测

51 | 深圳市共享单车数据分析可视化

01-50 | Pthon可视化系列文章资源(源码+数据)

Pandas+Pyecharts | 全国热门旅游景点数据分析可视化

可视化 | 再分享一套Flask+Pyecharts可视化模板二

可视化 | 分享一套Flask+Pyecharts可视化模板

可视化 | Python直观展示中国代表团冬奥会荣耀时刻

用Python分析了3W+《独行月球》影评数据,看看观众们怎么说~

Matplotlib | 世界足球俱乐部排名可视化

40000+条考研信息数据可视化(学校、专业分数分布)

【在看】的您又变好看了呢

Python当打之年
当打之年,专注于各领域Python技术,量的积累,质的飞跃。后台回复:【可视化项目源码】可获取可视化系列文章源码和数据
 最新文章