点击上方蓝字关注我们
IT 咖啡馆,探索无限可能!
恭喜你发现了这个宝藏,这里你会发现优质的开源项目、IT知识和有趣的内容。
GitHub 一周热点汇总第43期(2024/09/29-10/05),本期内容包括面向LLM的爬虫、网页一键变APP、AI 屏幕录制、分布式AI推理框架和开源金融分析工具,一起来看具体内容吧。
crawl4ai
项目名称:crawl4ai - 面向LLM的爬虫
GitHub 链接:https://github.com/unclecode/crawl4ai
上周 Star 数:6000+
Crawl4AI是一款完全开源、免费使用的网络爬虫工具。它让网页抓取和数据提取变得简单高效,尤其是对于大型语言模型 (LLM) 和 AI 应用程序非常友好,可以导出便于使用的JSON、清理的 HTML或markdown。无论您将其用作 REST API 还是 Python 库,Crawl4AI 都提供了强大而灵活的解决方案,并具有完整的异步支持。另外它还有非常不错的性能、支持自定义代理、高级策略、自定义JS等特性。
Crawl4AI提供的特性有以下:
🆓 完全免费且开源
🚀 性能超快,超越许多付费服务
🤖 LLM 友好的输出格式(JSON、清理的 HTML、markdown)
🌍 支持同时抓取多个 URL
🎨 提取并返回所有媒体标签(图像、音频和视频)
🔗 提取所有外部和内部链接
📚 从页面中提取元数据
🔄 爬取之前用于身份验证、标头和页面修改的自定义钩子
🕵️ 用户代理自定义
🖼️ 截取页面截图
📜 抓取前执行多个自定义 JavaScript
📊 使用 JsonCssExtractionStrategy 生成无需 LLM 的结构化输出
📚 各种分块策略:基于主题、正则表达式、句子等
🧠 高级提取策略:余弦聚类、LLM 等
🎯 CSS 选择器支持精确的数据提取
📝 传递指令/关键字以优化提取
🔒 代理支持,增强隐私和访问
🔄 针对复杂的多页面爬取场景的会话管理
🌐 异步架构,提高性能和可扩展性
Crawl4AI 提供灵活的安装选项,以适应各种用例。您可以将其安装为 Python 包或使用 Docker运行。
使用pip安装时,我们可以根据需要安装不同的版本,比如基本的网页爬取和抓取任务,可以安装基本版本
pip install crawl4ai
playwright install # Install Playwright dependencies
还有其他的高级版本如下:
#Pytorch版,适合高级文本聚合
pip install crawl4ai[torch]
#transformer,文本总结
pip install crawl4ai[transformer]
#全功能
pip install crawl4ai[all]
如果使用高级版本,可以使用CLI命令来下载必要的模型
crawl4ai-download-models
安装完成后,可以通过Quickstart来快速了解crawl4ai的使用。
除了基本抓取,还可以用LLM提取内容,另外面对动态内容时,它可以会话保存、异步的执行自定义 JavaScript并等待动态生成内容,这样就可以更好的抓取。
Pake
项目名称:Pake - 网页一键变APP
GitHub 链接:https://github.com/tw93/Pake
上周 Star 数:3400+
Pake 是一个用 Rust 开发的小工具,可以快速帮你把网页打包成 Mac / Windows / Linux三种系统支持的桌面客户端。
这个项目我之前也正好出过单期,可以参考。
对于将web程序打包成桌面程序,你可能会首先想到Electron。Pake 的封装比 Electron 封装小近 20 倍,借助 Rust Tauri,Pake 比基于 JS 的框架更轻量、更快。
项目的页面中有很多使用Pake打包好的示例,在项目的release页面,还有更多打包好的示例可以下载。
使用方面针对于不同阶段的使用者,有不同的使用建议。
对于纯小白,直接下载现成的包来用就好了。
对于有一些动手能力的,在自己的github账号中 Fork 本项目,之后在Actions界面配置使用Build App with Pake-Cli
,来利用workflow来打包应用。
对于开发者,建议使用命令行工具,Mac用户最为友好,Windows/Linux用户需要额外按处理一些环境变量。
# Install with npm
npm install -g pake-cli
# Command usage
pake url [OPTIONS]...
# Feel free to play with Pake! It might take a while to prepare the environment the first time you launch Pake.
//weekly.tw93.fun --name Weekly --transparent :
最后对于高级大佬,那就是随心所欲来修改代码,定制自己的应用。
screenpipe
项目名称:screenpipe - AI 屏幕录制
GitHub 链接:https://github.com/mediar-ai/screenpipe
上周 Star 数:2600+
screenpipe 是一个开源的、全天候 AI 屏幕和麦克风捕捉应用程序,通过它的捕获来为AI应用提供丰富的数据来源,进而构建具有完整上下文的AI应用。
ScreenPipe 的最大亮点在于它强大的AI驱动功能,可以自动完成一系列工作任务,比如自动整理会议内容记录,生成报告和更新笔记,再比如实时提取处理内容的客户信息,并自动填写CRM。在项目的插件列表中,可以看到目前支持的各种管道,也可以自己定义脚本。
同时ScreenPipe重视用户隐私和数据安全,所有数据处理都在本地进行。
项目使用 rust 构建,具有跨平台支持(windows、macos 和 linux),同时提供多种安装方法,对于技术用户可以通过CLI安装和使用screenpipe。对于一般使用者,可以考虑使用桌面程序,有免费版和收费版两种,目前没有功能上的差异,收费版有支持更简单,免费版需要自己构建,好坏需要自己来权衡。
screenpipe 的架构可处理连续录制屏幕和音频捕获、本地数据存储和实时处理。以下是关键组件的细分:
对于运行资源,项目给出的参考是大约600MB的内存。在作者的计算机Macbook pro m3 32 GB ram
和一台价值 400 美元的 Windows 笔记本电脑上全天候运行。
exo
项目名称:exo - 分布式AI推理框架
GitHub 链接:https://github.com/exo-explore/exo
上周 Star 数:2000+
EXO 是一个开源分布式AI推理框架,借助本项目可以在家中使用日常设备运行自己的 AI 集群。不必依赖 NVIDIA GPU,将您现有的设备统一为一个强大的 GPU,包括iPhone、iPad、Android、Mac、Linux,甚至是apple watch,几乎任何设备!
开发者使用exo框架连接了两台MacBook Pro和一台Mac Studio,运算速度达到了110TFLOPS。
EXO支持多种模型,比如LLaMA、Mistral、Qwen、Deepseek等。支持动态模型分区,根据当前网络拓扑和可用设备资源对模型进行最佳分割,以运行更大的模型。可以自动发现设备,提供和ChatGPT兼容的API,另外不同于其他的分布式推理框架,它采用了p2p的连接方式,将设备接入网络即可自动加入集群。
EXO的推荐安装方式是从源代码安装,首先需要满足的条件是 Python>=3.12.0,带有 NVIDIA 卡的Linux需要NVIDIA驱动程序、CUDA和cuDNN。
运行 exo 的唯一要求是所有设备都有足够的内存,以便将整个模型放入内存中。例如,如果您运行的是 llama 3.1 8B (fp16),则所有设备都需要 16GB 内存,可以使用2 台 8GB M3 MacBook Air。
接下来就可以按顺序来安装了:
git clone <https://github.com/exo-explore/exo.git>
cd exo
pip install -e .
# alternatively, with venv
source install.sh
安装完成后,分别在各个设备上执行命令:exo,无需配置 ,将自动发现其他设备。
exo会在 http://localhost:8000 上启动一个类似 ChatGPT 的 WebUI,或者可以通过API来使用。
curl <http://localhost:8000/v1/chat/completions> \\
-H "Content-Type: application/json" \\
-d '{
"model": "llama-3.2-3b",
"messages": [{"role": "user", "content": "What is the meaning of exo?"}],
"temperature": 0.7
}'
通过EXO本地化运行大模型的优点,一方面是隐私更有保障,另一方面是模型可以离线访问,同时还支持个性化定制。而且可以充分利用本地的闲置设备,可以节约成本。
OpenBB
项目名称:OpenBB - 全开源的金融平台
GitHub 链接:https://github.com/OpenBB-finance/OpenBB
上周 Star 数:600+
OpenBB是一个免费且完全开源的金融平台。平台的核心是提供一套强大的投资研究工具,包括数据获取、分析和可视化功能。OpenBB的目标是为各类投资者、分析师和金融专业人士提供全面的市场洞察。同时衍生了多种产品,包括OpenBB Terminal Pro、Excel插件、AI助手Copilot和开发者平台
无论是个人投资者、机构投资者、财务部门还是分析师或研究人员,都可以使用OpenBB来获得价值,我虽然不懂得量化,但是和钱有关总是让人很感兴趣。
OpenBB可以通过运行命令作为pip包来安装,建议使用3.9。
pip install openbb
或者是克隆项目的仓库,来直接使用。
git clone <https://github.com/OpenBB-finance/OpenBB.git>
另外OpenBB 平台提供了CLI工具,允许您直接从终端访问 OpenBB 平台。可以通过pip来快速安装。
pip install openbb-cli
OpenBB还有一个开源 AI 金融分析agent,是基于GPT模型的AI助手,可以理解自然语言指令,帮助用户快速生成分析报告、回答金融问题。
OpenBB一方面是开源的,另一方面,它又有自己的收费服务。当然本身提供这么有价值的金融数据,收费也是在所难免的。