这个爬虫太好用，学会了感觉要进去～～～

职场其他 2024-12-17 11:27 福建

今天给大家介绍一个开源的网络爬虫和浏览器自动化工具： Crawlee。

按官网给的定义：Crawlee是一个网络爬虫和浏览器自动化库，可以帮助我们快速构建可靠的爬虫。

Crawlee 就像是一个网络数据收集和网页操作的万能工具箱，我们可以用它来从网上抓取信息，也可以让它像真人操作浏览器完成一些网页上的任务。

Crawlee 提供了一套工具，让你能够爬取网页链接、抓取数据，并将其存储到磁盘或云端，同时保持高度的可配置性，以满足你项目的需求。

Crawlee 使用 JavaScript 和 TypeScript 编写，我们可以用它来抓取网页上的文字、图片和其他文件，为人工智能提供训练数据。

使用场景:

网页抓取：如抓取新闻网站、社交媒体、商品信息等。
数据挖掘：从网页中提取结构化数据，用于市场分析、研究等。

Crawlee 也支持 Python，可以帮助我们构建可靠的 Python 网络爬虫：

开源地址：https://github.com/apify/crawlee

官网：https://crawlee.dev/

Python 版官网：https://crawlee.dev/python

Python 版开源地址：https://github.com/apify/crawlee-python

安装测试

尝试 Crawlee 的最快方法是使用 Crawlee CLI 并选择入门示例。

CLI 会为你安装所有必要的依赖项，并添加样板代码供你使用：

npx crawlee create my-crawler

进入创建的 my-crawler 目录，并启动测试：


cd my-crawlernpm start

我们也可以将 Crawlee 添加到你自己的项目中，使用以下命令来安装：

npm install crawlee playwright

接下来我们建立一个测试代码，以新浪新闻首页 https://news.sina.com.cn 为例，页面的新闻标题和链接结构大致如下：

新闻标题：通常使用 a 标签包裹，类名可能是 news-item 或其他动态类。
链接：嵌套在 a 标签的 href 属性里。

你需要使用浏览器开发者工具（F12）来确定页面中的具体选择器，比如：

<a href="https://news.sina.com.cn/article/123456" class="news-item"> 新浪新闻标题 </a>

提取链接，输出结果：

import { PlaywrightCrawler } from 'crawlee';
const crawler = new PlaywrightCrawler({    // 页面处理逻辑    requestHandler: async ({ request, page, enqueueLinks, log }) => {        log.info(`Crawling: ${request.url}`);
        // 提取新闻标题和链接        const articles = await page.$$eval('a', (links) =>            links                .filter((link) => link.textContent.trim() && link.href.includes('news.sina.com.cn'))                .map((link) => ({                    title: link.textContent.trim(),                    url: link.href,                }))        );
        // 输出结果        articles.forEach((article) => {            console.log(`Title: ${article.title}`);            console.log(`Link: ${article.url}`);            console.log('---');        });
        // 可选：自动发现并抓取更多链接        await enqueueLinks();    },    launchContext: {        launchOptions: {            headless: true, // 无头模式        },    },});
(async () => {    // 添加抓取目标：新浪新闻首页    await crawler.addRequests(['https://news.sina.com.cn']);
    // 开始运行爬虫    await crawler.run();})();

开始抓取，输出信息如下：

默认情况下，Crawlee 会将数据存储在当前工作目录下的 ./storage 文件夹中：

python 使用 pip 安装：

pip install 'crawlee[all]'

然后，安装 Playwright 依赖：

playwright install

验证 Crawlee 是否成功安装：

python -c 'import crawlee; print(crawlee.__version__)'

菜鸟教程

学的不仅是技术，更是梦想！

最新文章

什么鬼才搞了个 fuck 命令来纠正 Bug

网友直呼格局，小米开源Home Assistant米家集成，Star 数飙升

请程序员立即拿下软考证书（政策风口）

这个爬虫太好用，学会了感觉要进去～～～

一天写几行代码算正常？行数如果是考核指标，匿名函数就不该出现～～～

专为黑客设计的浏览器！使用键盘来控制，内置广告拦截器～～～

2024 年 12 月编程语言排行榜｜Python 将成为年度编程语言

人人影视开源分享二十年数据，包含字幕、设计模板、软件源码

好玩，花 5 分钟写个图片生成代码神器，附上完整源码！

绝了～GLM 做个代码阅读器，发现更强大的是可以把图片变成代码～

程序员很傲慢？是不是因为问题太菜～～～

人人网已停止服务：死去的记忆突然死去了～～～

既生“/”，何生“\”？

这 10+ 个开发相关的在线工具，还有人没用过吗？？？

真的建议赶紧搞个软考证书！（红利期）

代码如屎山～～～如何让它成为“艺术”，改造成人见人爱的代码？？？

上热搜的何同学用的是哪个开源程序？需要遵守什么协议～～～

地位太过垄断？Google 被要求强制出售 Chrome 浏览器！OpenAI 正考虑推出浏览器～～～

十分钟搞定一个应用！程序员是越来越不用自己写代码了～～～

绝了！图片可以直接转成代码！开发是越来越简单了～～～

想做黑客？先来学习 SQL 注入，一文学会

这波操作看麻了！一亿行数据，从71s到1.7s的优化之路。

微信的第一行代码，看起来，我也会。。。

土老板要我开发个抖音软件？行，十分钟搞定～～～

喜大普奔～当年用不起天天找破解版的收费软件现在免费了！！！

程序员的一周，凌晨 3 点才是效率最高的

2024 年 11 月编程语言排行榜｜Go 已立足主流语言

可惜了，历经 6 年，32.4k star 开源项目宣布停更！！！

15岁初中生，开源项目被数百万收购，简直降维打击。。。

什么原因？Google被开出史上最贵罚单，20000000000000000000000000000000000（35位）美元

听说 GitHub 上阅读源码很费劲？

创业团队最好不要雇佣任何超过30岁的人？并不是因为不能996！！！

回忆杀！这些消失的网站和软件，你经历过哪些？

代码没有测试数据？这个开源项目直接帮你生成

这几个难到令人发指的编程语言，学会了算我输

强烈建议尽快搞个软考证！（重大利好）

2024 年开发者浏览器必备扩展！！

2024 职场中最受欢迎的编程语言

为何大多数程序员做不了独立开发者？

纯血版鸿蒙系统正式发布，PC版本临近｜马斯克 xAI 发布 API

有了这款终端工具，其他的都能给扔掉了

没钱买苹果电脑，试试这个开源黑苹果，享受原生级 macOS 体验！

拼夕夕员工，反对双休？

如何用沙子自制简易cpu?

为什么程序员的社会地位不高？

90 后程序员梦碎 A 股，进场四天亏 32 万

基于浏览器的 OCR，无需后端服务，支持 100 多种语言，支持视频识别

17 岁高中生，三人团队，一款AI应用，月入百万美金，创始人感概，难道是命运的安排吗？

这几款 VSCode 流程图工具，太惊艳了！！！

程序是怎么一步步运行起来的？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

这个爬虫太好用，学会了感觉要进去～～～

使用场景:

网页抓取：如抓取新闻网站、社交媒体、商品信息等。

数据挖掘：从网页中提取结构化数据，用于市场分析、研究等。

安装测试