大家好,我是欧K~
所有内容仅供参考,不做他用。
接下来,按 F12 或者查看网页信息:
这里我们可以看到页面所有招聘信息。
接下来搜索第一条信息中望软件公司的python实习生岗位:
import time
import requests
import pandas as pd
2.2 请求网页数据
def get_data():
req = requests.get(url,headers=headers)
soup = BeautifulSoup(req.text, 'lxml')
coms = soup.find_all(attrs={'class':'intern-wrap interns-point intern-item'})
job = coms[0].find(attrs={'class':'f-l intern-detail__job'})
结果:
'\ue1ee\ue501\uecee\ue29e\uee46\uefc0实习\ue776 \uf072\ue961\ue884-\ue07d\ue884\ue884/天 广州 | \ue000天/周 | \uef61个月'
这里需要注意,数据是经过某种个格式编码过得,所以不能直接获取到。。。
实际从上图中也能看出来数据是密文形式,我们找另一个网页看一下:
这个页面可以,我们直接采集这个页面就可以了。
2.3 采集数据
def get_data(url,headers):
res = requests.get(url, headers=headers)
soup = BeautifulSoup(res.text, 'lxml')
# 标题
title = soup.title.text
# 岗位
job = title.split("招聘")
# 公司
company_name = soup.select('.com_intro .com-name')[0].text.strip()
# 城市
address = soup.select('.job_position')[0].text.strip()
# 学历
academic = soup.select('.job_academic')[0].text.strip()
# 福利
good_list = soup.select('.job_good_list')[0].text.strip()
# 工作周期
workday = soup.select(".job_week.cutom_font")[0].text.strip()
# 工作时间
worktime = soup.select(".job_time.cutom_font")[0].text.strip()
# 薪资
salary = soup.select(".job_money.cutom_font")
2.4 保存文件
def insert2excel(filepath,allinfo):
if not os.path.exists(filepath):
tableTitle = ['标题','岗位','公司','城市','学历','福利','薪资','工作周期','实习时间']
wb = Workbook()
ws = wb.active
ws.title = 'sheet1'
ws.append(tableTitle)
wb.save(filepath)
time.sleep(3)
wb = load_workbook(filepath)
ws = wb.active
ws.title = 'sheet1'
for info in allinfo:
ws.append(info)
wb.save(filepath)
2.5 结果
👉 公众号后台回复【可视化项目源码】获取全部代码+数据
以上就是本期为大家整理的全部内容了,喜欢的朋友可以点赞、点在看也可以分享让更多人知道。
往期推荐
源码下载 | 【01-50】Pthon可视化系列文章资源(源码+数据)
可视化 | Flask+Mysql+Echarts 豆瓣电影Top250数据分析系统
53 | 基于Lasso回归和随机森林的上海链家二手房房价预测
52 | 基于KNN近邻和随机森林模型对用户转化进行分析与预测
Pandas+Pyecharts | 全国热门旅游景点数据分析可视化
可视化 | 分享一套Flask+Pyecharts可视化模板
用Python分析了3W+《独行月球》影评数据,看看观众们怎么说~