王者网页源码，中文显示乱码，尝试多种编码都不行，该怎么解决？

科技 2024-11-01 09:01 湖南

点击上方“Python爬虫与数据挖掘”，进行关注

回复“书籍”即可获赠Python从入门到进阶共10本电子书

今

日

鸡

汤

朱雀桥边野草花，乌衣巷口夕阳斜。

大家好，我是Python进阶者。

一、前言

前几天在Python最强王者交流群【向阳】问了一个Python网络爬虫乱码的问题。问题如下：

各位王者网页源码，下面爬出来中文显示乱码，尝试过encoding-utf-8、gbk、gb2312都不行，请问是什么问题？

下面是具体的运行代码：

import requests
from bs4 import BeautifulSoup


def main():
    href_lists = []
    # 从首页获取所有章节的url
    head = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36 Edg/130.0.0.0"
    }
    url = 'https://www.shicimingju.com/book/sanguoyanyi.html'
    # 获取响应
    page_text = requests.get(url, headers=head).text
    # 实例化bs
    bs = BeautifulSoup(page_text, 'lxml')      
    # 数据解析
    url_lists = bs.find_all('a', class_="tabli")
    for href in url_lists:
        href_lists.append(href['href'])
    # print(href_lists)
    for i in range(len(href_lists)):
        href = href_lists[i]
        detail_url = 'https://www.shicimingju.com' + href
        # print(detail_url)
        response = requests.get(detail_url, headers=head).text
        bs2 = BeautifulSoup(response, 'lxml')
        print(bs2.h1)
        # title = bs2.find('h1').text
        # print(title)

        break


if __name__ == '__main__':
    main()

上面代码为什么爬出来中文显示乱码：

ç¬¬ä¸åÂ·å®´æ¡åè±ªæ°ä¸ç»ä¹ æ©é»å·¾è±éé¦ç«å

二、实现过程

这里【吴超建】给了一个指导，如下所示：

response = requests.get('https://www.shicimingju.com/book/sanguoyanyi.html', cookies=cookies, headers=headers)
response.encoding = response.apparent_encoding
print(response.text)

顺利地解决了粉丝的问题。

后来【莫生气】也给了三种方法，其实历史文章中有写，这里继续放上来，给大家参考学习，屡试不爽。

如果你也有类似这种Python相关的小问题，欢迎随时来交流群学习交流哦，有问必答！

三、总结

大家好，我是Python进阶者。这篇文章主要盘点了一个Python网络爬虫中文乱码处理的问题，文中针对该问题，给出了具体的解析和代码实现，帮助粉丝顺利解决了问题。

最后感谢粉丝【向阳】提出的问题，感谢【吴超建】给出的思路，感谢【莫生气】等人参与学习交流。

【提问补充】温馨提示，大家在群里提问的时候。可以注意下面几点：如果涉及到大文件数据，可以数据脱敏后，发点demo数据来（小文件的意思），然后贴点代码（可以复制的那种），记得发报错截图（截全）。代码不多的话，直接发代码文字即可，代码超过50行这样的话，发个.py文件就行。

大家在学习过程中如果有遇到问题，欢迎随时联系我解决（我的微信：pdcfighting1），应粉丝要求，我创建了一些高质量的Python付费学习交流群和付费接单群，欢迎大家加入我的Python学习交流群和接单群！

小伙伴们，快快用实践一下吧！如果在学习过程中，有遇到任何问题，欢迎加我好友，我拉你进Python学习交流群共同探讨学习。

------------------- End -------------------

往期精彩文章推荐：

欢迎大家点赞，留言，转发，转载，感谢大家的相伴与支持

想加入Python学习群请在后台回复【入群】

万水千山总是情，点个【在看】行不行

/今日留言主题/

随便说一两句吧~~

http://mp.weixin.qq.com/s?__biz=MzU3MzQxMjE2NA==&mid=2247513225&idx=1&sn=26195f4923a34342e11ebfac11d841d3

Python爬虫与数据挖掘

人生苦短，我用Python。该公众号专注于分享Python网络爬虫、数据挖掘、数据分析、数据处理、数据可视化、自动化测试、运维、大数据、人工智能、云计算、机器学习等工具资源、热点资讯、相关技术文章、学习视频和学习资料等，期待您的加入~~~

Python网络爬虫过程中，构建网络请求的时候，参数`stream=True`的使用

盘点Python列表在删除时候的一个坑

盘点一个Pandas中explode()爆炸函数应用实际案例

数据可视化学习者的福音！“对比Excel”畅销书系第5本新书来啦，轻松学习Python数据可视化

手把手教你使用Python提取快递信息