开源AI爬虫工具

文摘   2024-11-21 09:21   美国  
看有人发了个这个项目,简单试用了发现确实好用,项目ScrapeGraphAI 是LLM 和图形驱动的 Web 抓取 Python 库,使用大模型为网站和本地文档(XML,HTML,JSON 等)创建自动爬取。
只需通过交互式提交你想提取哪些信息,工具就能自动完成

项目地址https://github.com/ScrapeGraphAI/Scrapegraph-ai

用法:
有三种主要的爬取管道可用于从网站(或本地文件)提取信息:
SmartScraperGraph: 单页爬虫,只需用户提示和输入源;
SearchGraph: 多页爬虫,从搜索引擎的前 n 个搜索结果中提取信息;
SpeechGraph: 单页爬虫,从网站提取信息并生成音频文件。
SmartScraperMultiGraph: 多页爬虫,给定一个提示 可以通过 API 使用不同的 LLM,如 OpenAI,Groq,Azure 和 Gemini,或者使用 Ollama 的本地模型。
使用案例:
用法简单,就是提交opanai key,提交url和prompt就行
from scrapegraphai.graphs import SpeechGraphgraph_config = { "llm": { "api_key": "OPENAI_API_KEY", "model": "openai/gpt-3.5-turbo", }, "tts_model": { "api_key": "OPENAI_API_KEY", "model": "tts-1", "voice": "alloy" }, "output_path": "audio_summary.mp3",}# ************************************************# 创建 SpeechGraph 实例并运行# ************************************************speech_graph = SpeechGraph( prompt="列出所有项目和其描述", source="https://perinim.github.io/projects", config=graph_config,)result = speech_graph.run()print(result)
输出结果如下是包含项目及其描述的列表
{'projects': [{'title': 'Rotary Pendulum RL', 'description': 'Open Source project aimed at controlling a real life rotary pendulum using RL algorithms'}, {'title': 'DQN Implementation from scratch', 'description': 'Developed a Deep Q-Network algorithm to train a simple and double pendulum'}, ...]}



军机故阁
最新的安全情报与技术
 最新文章