2024批量下载知乎回答文章想法专栏收藏夹,公众号文章内容图片封面视频音频,微博内容图片视频评论转发数据,导出excel和pdf

科技   2024-10-15 08:20   北京  

2024年我写了个脚本批量下载知乎回答/文章/想法/专栏/视频/收藏夹 2024 批量下载知乎回答/文章/想法/专栏/视频/收藏夹,导出 excel 和 pdf,公众号文章内容/话题/图片/封面/视频/音频 2024批量下载公众号文章内容/话题/图片/封面/视频/音频,导出excel和pdf,文章数据包含阅读数/点赞数/分享数/留言数 ,微博内容/图片/视频/评论/转发数据,导出excel和pdf  2024 一键批量下载微博内容/图片/视频/评论/转发/阅读数等数据,导出word,excel和pdf ,有问题可以加微信 sushengbuhuo 


下载所有知乎回答以渤海小吏的号为例:


导出的excel包含所有知乎回答问题标题和链接。然后用脚本将excel里的回答批量下载:下载的所有回答html内容,文件名为回答日期加标题。接着批量将html转换pdf,效果见网盘https://pan.quark.cn/s/8522433ad346  

再将所有pdf合成一个pdf文件:每个回答都有原知乎回答链接。

下载所有知乎文章以半佛仙人的号为例 :


导出的excel数据包含知乎文章标题,链接,评论数和赞同数。然后用脚本将excel里的文章批量下载:下载的所有文章html内容,文件名为回答日期加标题。接着批量将html转换pdf,效果见网盘https://pan.quark.cn/s/8522433ad346   

再将所有pdf合成一个pdf文件,每篇文章都有原知乎文章链接 再次更新,2024 批量下载知乎回答/文章/想法/专栏/视频导出 excel 和 pdf  :

还有知乎专栏批量下载https://pan.quark.cn/s/a26076946612 输入专栏链接https://www.zhihu.com/column/c_1721130763582382082和cookie就可以下载了,我录制了个简单的视频:

下载的excel数据包含类型,标题,链接,创建时间,更新时间,简介,评论数和赞同数。

所有专栏文章生成的合集pdf:还有文章内容html和视频,有问题可以加微信 sushengbuhuo  

然后是之前发布的知乎问题回答下载工具 https://t.zsxq.com/e7cPX

输入知乎问题id和cookie:导出的 excel数据包含回答链接,回答者主页,回答者昵称,回答内容,回答发布时间,回答更新时间等:

最近我又开发了知乎收藏夹批量下载工具,软件下载地址发布到我的知识星球 https://t.zsxq.com/qWLTU ,欢迎加入我的知识星球 加入我的知识星球

打开工具输入知乎收藏夹地址https://www.zhihu.com/collection/40047806, 页数,cookie ,如何获取cookie见之前文章总有人问我 cookie 到底是什么?默认下载500篇回答,视频,文章,如果要继续下,修改页数再次下载。下载的html文件在zhihu目录。下载的视频在video目录。

下载完成后合并转换生成的pdf文件200MB ,因为依赖wkhtmltopdf ,需要将wkhtmltopdf.exe加入环境变量。

点击左侧标题书签可以跳转到对应内容。

如果转换pdf失败可以用我开发的html2pdf批量转换html为pdf。

再用pdf_merge将pdf文件合并成一个文件。

顺便导出收藏夹excel数据包含类型(回答,文章,视频),标题,链接,创建时间,更新时间,简介,评论数,赞同数,页数等。


再说批量下载某个公众号的所有历史文章批量下载公众号文章内容/话题/图片/封面/音频/视频,导出html,pdf,excel包含阅读数/点赞数/在看数/留言数/赞赏数 ,脚本下载效果如图:

下载导出的excel文章数据包含每篇文章日期,文章标题,文章链接,文章简介,文章作者,文章封面图,是否原创,IP归属地,阅读数,在看数,点赞数,留言数,分享数,赞赏次数,文章类型(群发/发布),是否删除,粉丝数,视频数,音频数等,比如深圳卫健委2022年的文章阅读数都是10万+,文章数据分析见文章2022年过去,抓取公众号阅读数点赞数在看数留言数做数据分析, 以深圳卫健委这个号为例 。

为了方便找历史文章2024批量导出公众号所有文章生成目录,这下方便找文章了,部分公众号的历史文章同步到了我的博客https://sushengbuhuo.github.io/blog ,持续更新,不用在手机上翻历史文章了公众号历史文章太多,手机上翻起来太费劲,怎么快速找到某一天的文章? ,比如深圳卫健委从2014到2024发布1万多篇文章,第一篇文章是这个:


每篇文章下的留言内容也可以导出到excel,内容包含文章日期,文章标题文章链接,留言昵称,留言内容,点赞数,回复和留言时间2023批量下载公众号文章内容/话题/图片/封面/视频/音频,导出html和pdf格式,含阅读数/点赞数/在看数/留言数/赞赏数,比如深圳卫健委在2022年的所有文章就有14万多条留言。

 

除了文章数据还有批量下载文章内容,这里以莫言老师的公众号为例,下载的所有历史文章内容和音频,视频 :

 

最后将所有文章合并成一个pdf文件 ,含文章留言和书签,点击左侧书签跳转到对应文章,网盘地址 https://pan.quark.cn/s/afa15a7b027b ,里面包含了文章内容pdf和文章数据excel,有问题加微信 sushengbuhuo

文章下的留言增加了留言时间。 2024批量下载公众号文章内容/话题/图片/封面/视频/音频,导出excel和pdf,文章数据包含阅读数/点赞数/分享数/留言数

最后是微博批量下载,以李健的微博为例https://weibo.com/u/1744395855 ,抓取2010-2024年所有的微博数据excel,包含微博链接,微博内容,发布时间,点赞数,转发数,评论数,话题等。 2024 批量下载微博内容/图片/视频/评论/转发数据,导出excel和pdf

数据详情见网盘 https://pan.quark.cn/s/bd6925a37518

每个月的微博转评赞总数曲线,2015年是高峰。微博原创与转发量曲线,2013年大量转发。平常主要用iPad和网页版发微博。

微博内容生成的词云图效果:

导出所以微博内容生成pdf,大小 40MB。 

下载的所有微博图片:

下载的每条微博内容保存到word和txt,无水印图片,视频,效果见网盘  https://pan.quark.cn/s/bd6925a37518   

word微博内容:

将所有微博内容合成一个word文件,大小不到100Kb,这下看起来方便了 。

再写脚本根据微博点赞转发评论数之和做个降序排列,这样就能找出受欢迎的前10的微博了。

import pandas as pd
df=pd.read_csv('weibo/歌手李健/1744395855.csv')
df['sort']=df['点赞数']+df['转发数']+df['评论数']
df.sort_values(by=['sort'],ascending=False, inplace=True)
df.head(10).to_csv('歌手李健.csv',encoding='utf_8_sig',index=False)
https://www.weibo.com/1744395855/LgnjmrmvF
https://www.weibo.com/1744395855/Cc3T09sqM
https://www.weibo.com/1744395855/C9UW2BmNd
https://www.weibo.com/1744395855/ChaNZmx6A 
https://www.weibo.com/1744395855/Jfpw2xihv
https://www.weibo.com/1744395855/CfNZzoAMV
https://www.weibo.com/1744395855/Ckrkv2A0b
https://www.weibo.com/1744395855/Fn3bhwNWv
https://www.weibo.com/1744395855/Gt5of2OCo
https://www.weibo.com/1744395855/Gt5of2OCo


最新原创文章:

加入我的知识星球

2024 更新版:苏生不惑开发过的那些原创工具和脚本

2024 公众号苏生不惑发布软件目录

2024批量下载公众号文章内容/话题/图片/封面/视频/音频,导出excel和pdf,文章数据包含阅读数/点赞数/分享数/留言数

2024 极品互联网宝藏资源库,聚合全网资源,低调收藏

2024 批量下载知乎回答/文章/想法/专栏/视频/收藏夹,导出 excel 和 pdf

2024批量下载知乎回答文章想法专栏收藏夹,公众号文章内容图片封面视频音频,微博内容图片视频评论转发数据,导出excel和pdf

2024 批量下载微博内容/图片/视频/评论/转发数据,导出excel和pdf

2024苏生不惑精华帖合集,聚合全网资源,低调收藏

2024 批量下载知乎回答/文章/想法/专栏/视频/收藏夹,微博内容/图片/视频/评论/转发数据,导出 excel 和 pdf

如果文章对你有帮助还请 点赞/在看/分享 三连支持下, 感谢各位!

公众号苏生不惑

扫描二维码关注或搜索微信susheng_buhuo

苏生不惑
这个账号已经持续5年每周更新原创文章,分享些有趣实用的软件/网站和黑科技教程,来跟我一起高效地玩转互联网。 联系:sushengbuhuo
 最新文章