MediaCrawler，轻松爬取抖音小红书评论数据！

科技 2024-09-02 22:53 浙江

星标下公众号，

获取更多优质教程

按上图操作星标后，凭截图，可以领取本文测试数据和源码，及老表1v1问答服务。

星标公众号后，

微信里私聊回复：小红书爬虫

大家好，我是老表。

今天给大家介绍一个Python爬虫实战的项目，MediaCrawler。

可以实现小红书爬虫，抖音爬虫，快手爬虫， B站爬虫，微博爬虫，百度贴吧...。

目前能抓取小红书、抖音、快手、B站、微博的视频、图片、评论、点赞、转发等信息。

项目地址：

https://github.com/NanmiCoder/MediaCrawler

原理：利用playwright搭桥，保留登录成功后的上下文浏览器环境，通过执行JS表达式获取一些加密参数通过使用此方式，免去了复现核心加密JS代码，逆向难度大大降低。

下面就来介绍下如何使用~

首先使用conda创建虚拟环境，Python版本3.9。

激活环境后，安装相关的依赖。

# 创建conda环境
conda create --name MediaCrawler python=3.9

# 激活环境
conda activate MediaCrawler

# 安装相关依赖
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

# 安装playwright浏览器驱动
playwright install

其中Playwright是微软推出来的一款自动化测试工具，是专门为满足端到端测试需求而创建的。

最后还需要安装nodejs，版本为v16.20.2，要不然运行会报错。

数据保存有三种方式，数据库、CSV、JSON。

数据库地址可以在db_config.py文件里配置。

支持redis、mysql、sqlite3。

整个项目代码开源，项目代码结构如下。

一些常见的问题，大家可以看看。

环境搭建好以后，就可以执行代码啦~

# 从配置文件中读取关键词搜索相关的帖子并爬去帖子信息与评论
python main.py --platform xhs --lt qrcode --type search

# 从配置文件中读取指定的帖子ID列表获取指定帖子的信息与评论信息
python main.py --platform xhs --lt qrcode --type detail

# 其他平台爬虫使用示例, 执行下面的命令查看
python main.py --help

具体的配置可以去base_config.py文件里修改。

这里以小红书作为例子，来实验一下。

命令行运行代码，结果如下。

成功保存了csv数据，包含帖子及评论信息。

下一步就是对数据进行分析处理了，大家可以自行去学习使用。

项目源码，星标后，凭截图，可以领取本文测试数据和源码，及老表1v1问答服务。

星标公众号后，

微信里私聊回复：小红书爬虫

爬取这些平台（小红书、抖音、快手、B站、微博）的笔记、视频评论和帖子评论可以为多个领域创造价值。下面举几个例子说明：

① 市场研究和消费者洞察

通过分析这些数据，企业可以获得有关消费者偏好、兴趣、反馈和行为趋势的深入洞察。这为产品开发、市场定位和优化营销策略提供了数据支持。

② 品牌舆情监控

企业可以实时监控和分析公众对其品牌、产品或服务的看法和情绪变化。这有助于快速响应可能的负面舆论，维护品牌形象。

③ 竞争对手分析

通过比较分析竞争对手在上述平台的表现，企业可以了解竞争对手的市场策略、客户反馈以及优缺点，从而调整自己的策略以保持竞争优势。

④ 内容策略优化

了解哪些主题或视频类型最受欢迎，可以帮助内容创造者、营销人员和媒体公司制定更符合用户需求和喜好的内容策略。

⑤ 社交媒体趋势分析

分析评论数据可以揭示当前的社交媒体趋势、热议话题和病毒内容，为内容创新提供灵感。

⑥ 顾客服务和产品反馈

直接从用户评论中提取问题和反馈，可以让企业迅速改进产品和服务，提升顾客满意度。

注：使用这些数据时，要特别注意遵守相关法律法规（如数据保护法），尊重用户隐私，确保数据的合法、合规获取和使用。不当的数据使用不仅可能违反法律，还可能对企业声誉和用户信任造成伤害。

万水千山总是情，点个 👍 行不行。

10分钟上手，搞定Python自动化神器Pandas

10分钟上手，5篇Python入门文章，一看就懂

10分钟上手，5个Python自动化案例，附源码

简说Python

号主老表，自学，分享Python，SQL零基础入门、数据分析、数据挖掘、机器学习优质文章以及学习经验。

最新文章

太顶了！Jupyter Agent 让我大开眼界！

赠书｜周鸿祎作序推荐，AI帮你赢！

万人追读，未出版就爆火，这本机器学习漫画小抄终于出版了！

7天时间，我们干到了35万元！

Linux | 大文件上传/下载麻烦、容易中断，如何分割上传/下载

赠书｜清华大学刘知远团队新作，未出版就爆火，28位AI天才们的热血传奇，比番剧更燃！

被字节索赔800万的实习生，夺得NeurIPS 2024最佳论文奖！

wow-rag学习｜打造个人RAG，零基础也能快速搭建检索生成系统

MySQL必知必会的7大实用技巧

只有 1% 的聊天 GPT 用户知道这些秘密提示

一款好用AI阅读神器，从微信直接导入文章，使用分享

理发羞耻综合症，从剪发变成发型设计后

终于“打造”出了一个可以随时随地编程的工具

使用AI用Python写了一个基于向量库的项目路径管理系统，v0.1

想读，AI和阅读有一个碰撞

经济下行，数据分析师还有前途吗？字节70w年薪大神这么说

开源分享｜ Crawl4AI: 使用AI让抓取数据、整理合二为一！

《霍比特人3：五军之战》34765条影评数据可视化分析

一个超级好用的免费提示词生成器

用Python写了一个实时获取上证指数的利器

这20个Python自动化办公工具，赶紧用起来

GPT 4、GPT4o、Claude 使用教程

阿里云新加坡区域的可用区C机房发生火灾，现已恢复

ChatGPT 4、GPT4o、Claude 无限制对话！

Python 自动化手册，解决你的办公烦恼！

Python自动化！19行代码1.2秒搞定原本需手动提醒的应付款项！

3个关键技巧带你快速掌握生成式AI！学完直接上手

如何用AI大模型提升开发效率？一本书带你从0到1掌握实战技巧

7个不到10行代码的Python自动化案例，附源码

Python自动化！9行代码实现员工关爱计划

Python自动化！5行代码生成员工周报并发送邮件

MediaCrawler，轻松爬取抖音小红书评论数据！

10分钟上手，搞定Python自动化神器Pandas

10分钟上手，5篇Python入门文章，一看就懂

10分钟上手，5个Python自动化案例，附源码

Python自动化！10行代码轻松搞定原本要花费整整3天的繁琐任务！

GPT4o 免费使用，老表AI v1.2

免费AI工具教学系列课程开启！

Python自动化！8行代码1.7秒搞定原来 1420 分钟的重复工作！

老表AI：我用AI绘画这么好看，为啥你画的是一大坨...AI绘画提示词优化教程

整理了开始分享学习笔记到现在超过250篇优质文章，涵盖数据分析、爬虫、机器学习等方面，别再说不知道该从哪开始，实战哪里找了

老表AI v1.1 发布，再次支持AI绘画，完全免费

Python 编程能力评测试题（答案解析版本）

肝了4晚，老表AI v1.0 开放，完全免费

15 个好玩实用的Python包

Jupyter可视化 Debug，干货收藏

ChatGPT 4、GPT4o、Claude 无限制对话！

无人报考！多所大学，倒闭！

用 Python 和 Selenium 打造自动化图片下载器——轻松收割 flickr 全网美图！

CentOS 7，再见！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉