web-archive
大多数网页归档工具,比如 archivebox,都是基于服务器调用无头浏览器抓取的方式进行归档。 这种做法的弊端是 知乎、medium 这种需要登录的网站操作很麻烦,需要配置 token 或 cookie。 同时无头浏览器对服务器的要求也比较高,大多数都是 nas 用户在使用。 web-archive 是一个完全免费、无门槛的方案,而且 Cloudflare 可以非常方便的将数据迁移回本地转为 self-host。
Github地址
https://github.com/Ray-D-Song/web-archive
包含以下几个部分:
• 浏览器插件:将网页保存为网页快照,并上传到服务端。
• 服务端: 接收浏览器插件上传的快照,并存储在数据库和存储桶中。
• web 客户端: 查询快照并展示。