「Github一周热点43期」面向LLM的爬虫、网页一键变APP、开源金融分析工具等

文摘   科技   2024-10-05 11:19   北京  

点击上方蓝字关注我们

IT 咖啡馆,探索无限可能!

恭喜你发现了这个宝藏,这里你会发现优质的开源项目、IT知识和有趣的内容。

 

GitHub 一周热点汇总第43期(2024/09/29-10/05),本期内容包括面向LLM的爬虫、网页一键变APP、AI 屏幕录制、分布式AI推理框架和开源金融分析工具,一起来看具体内容吧。


crawl4ai


  • 项目名称:crawl4ai - 面向LLM的爬虫

  • GitHub 链接:https://github.com/unclecode/crawl4ai

  • 上周 Star 数:6000+

Crawl4AI是一款完全开源、免费使用的网络爬虫工具。它让网页抓取和数据提取变得简单高效,尤其是对于大型语言模型 (LLM) 和 AI 应用程序非常友好,可以导出便于使用的JSON、清理的 HTML或markdown。无论您将其用作 REST API 还是 Python 库,Crawl4AI 都提供了强大而灵活的解决方案,并具有完整的异步支持。另外它还有非常不错的性能、支持自定义代理、高级策略、自定义JS等特性。

Crawl4AI提供的特性有以下:

  • 🆓 完全免费且开源

  • 🚀 性能超快,超越许多付费服务

  • 🤖 LLM 友好的输出格式(JSON、清理的 HTML、markdown)

  • 🌍 支持同时抓取多个 URL

  • 🎨 提取并返回所有媒体标签(图像、音频和视频)

  • 🔗 提取所有外部和内部链接

  • 📚 从页面中提取元数据

  • 🔄 爬取之前用于身份验证、标头和页面修改的自定义钩子

  • 🕵️ 用户代理自定义

  • 🖼️ 截取页面截图

  • 📜 抓取前执行多个自定义 JavaScript

  • 📊 使用 JsonCssExtractionStrategy 生成无需 LLM 的结构化输出

  • 📚 各种分块策略:基于主题、正则表达式、句子等

  • 🧠 高级提取策略:余弦聚类、LLM 等

  • 🎯 CSS 选择器支持精确的数据提取

  • 📝 传递指令/关键字以优化提取

  • 🔒 代理支持,增强隐私和访问

  • 🔄 针对复杂的多页面爬取场景的会话管理

  • 🌐 异步架构,提高性能和可扩展性

Crawl4AI 提供灵活的安装选项,以适应各种用例。您可以将其安装为 Python 包或使用 Docker运行。

使用pip安装时,我们可以根据需要安装不同的版本,比如基本的网页爬取和抓取任务,可以安装基本版本

pip install crawl4aiplaywright install # Install Playwright dependencies

还有其他的高级版本如下:

#Pytorch版,适合高级文本聚合pip install crawl4ai[torch]#transformer,文本总结pip install crawl4ai[transformer]#全功能pip install crawl4ai[all]

如果使用高级版本,可以使用CLI命令来下载必要的模型

crawl4ai-download-models

安装完成后,可以通过Quickstart来快速了解crawl4ai的使用。

除了基本抓取,还可以用LLM提取内容,另外面对动态内容时,它可以会话保存、异步的执行自定义 JavaScript并等待动态生成内容,这样就可以更好的抓取。

 


Pake


  • 项目名称:Pake - 网页一键变APP

  • GitHub 链接:https://github.com/tw93/Pake

  • 上周 Star 数:3400+

Pake 是一个用 Rust 开发的小工具,可以快速帮你把网页打包成 Mac / Windows / Linux三种系统支持的桌面客户端。

这个项目我之前也正好出过单期,可以参考。

对于将web程序打包成桌面程序,你可能会首先想到Electron。Pake 的封装比 Electron 封装小近 20 倍,借助 Rust Tauri,Pake 比基于 JS 的框架更轻量、更快。

项目的页面中有很多使用Pake打包好的示例,在项目的release页面,还有更多打包好的示例可以下载。

使用方面针对于不同阶段的使用者,有不同的使用建议。

对于纯小白,直接下载现成的包来用就好了。

对于有一些动手能力的,在自己的github账号中 Fork 本项目,之后在Actions界面配置使用Build App with Pake-Cli,来利用workflow来打包应用。

对于开发者,建议使用命令行工具,Mac用户最为友好,Windows/Linux用户需要额外按处理一些环境变量。

# Install with npmnpm install -g pake-cli
# Command usagepake url [OPTIONS]...
# Feel free to play with Pake! It might take a while to prepare the environment the first time you launch Pake.pake https://weekly.tw93.fun --name Weekly --transparent

最后对于高级大佬,那就是随心所欲来修改代码,定制自己的应用。



screenpipe


  • 项目名称:screenpipe - AI 屏幕录制

  • GitHub 链接:https://github.com/mediar-ai/screenpipe

  • 上周 Star 数:2600+

screenpipe 是一个开源的、全天候 AI 屏幕和麦克风捕捉应用程序,通过它的捕获来为AI应用提供丰富的数据来源,进而构建具有完整上下文的AI应用。

ScreenPipe 的最大亮点在于它强大的AI驱动功能,可以自动完成一系列工作任务,比如自动整理会议内容记录,生成报告和更新笔记,再比如实时提取处理内容的客户信息,并自动填写CRM。在项目的插件列表中,可以看到目前支持的各种管道,也可以自己定义脚本。

同时ScreenPipe重视用户隐私和数据安全,所有数据处理都在本地进行。

项目使用 rust 构建,具有跨平台支持(windows、macos 和 linux),同时提供多种安装方法,对于技术用户可以通过CLI安装和使用screenpipe。对于一般使用者,可以考虑使用桌面程序,有免费版和收费版两种,目前没有功能上的差异,收费版有支持更简单,免费版需要自己构建,好坏需要自己来权衡。

screenpipe 的架构可处理连续录制屏幕和音频捕获、本地数据存储和实时处理。以下是关键组件的细分:

对于运行资源,项目给出的参考是大约600MB的内存。在作者的计算机Macbook pro m3 32 GB ram和一台价值 400 美元的 Windows 笔记本电脑上全天候运行。


exo


  • 项目名称:exo - 分布式AI推理框架

  • GitHub 链接:https://github.com/exo-explore/exo

  • 上周 Star 数:2000+

EXO 是一个开源分布式AI推理框架,借助本项目可以在家中使用日常设备运行自己的 AI 集群。不必依赖 NVIDIA GPU,将您现有的设备统一为一个强大的 GPU,包括iPhone、iPad、Android、Mac、Linux,甚至是apple watch,几乎任何设备!

开发者使用exo框架连接了两台MacBook Pro和一台Mac Studio,运算速度达到了110TFLOPS。

EXO支持多种模型,比如LLaMA、Mistral、Qwen、Deepseek等。支持动态模型分区,根据当前网络拓扑和可用设备资源对模型进行最佳分割,以运行更大的模型。可以自动发现设备,提供和ChatGPT兼容的API,另外不同于其他的分布式推理框架,它采用了p2p的连接方式,将设备接入网络即可自动加入集群。

EXO的推荐安装方式是从源代码安装,首先需要满足的条件是 Python>=3.12.0,带有 NVIDIA 卡的Linux需要NVIDIA驱动程序、CUDA和cuDNN。

运行 exo 的唯一要求是所有设备都有足够的内存,以便将整个模型放入内存中。例如,如果您运行的是 llama 3.1 8B (fp16),则所有设备都需要 16GB 内存,可以使用2 台 8GB M3 MacBook Air。

接下来就可以按顺序来安装了:

git clone <https://github.com/exo-explore/exo.git>cd exopip install -e .# alternatively, with venvsource install.sh

安装完成后,分别在各个设备上执行命令:exo,无需配置 ,将自动发现其他设备。

exo会在 http://localhost:8000 上启动一个类似 ChatGPT 的 WebUI,或者可以通过API来使用。

curl <http://localhost:8000/v1/chat/completions> \\  -H "Content-Type: application/json" \\  -d '{     "model": "llama-3.2-3b",     "messages": [{"role": "user", "content": "What is the meaning of exo?"}],     "temperature": 0.7   }'

通过EXO本地化运行大模型的优点,一方面是隐私更有保障,另一方面是模型可以离线访问,同时还支持个性化定制。而且可以充分利用本地的闲置设备,可以节约成本。



OpenBB

  • 项目名称:OpenBB - 全开源的金融平台

  • GitHub 链接:https://github.com/OpenBB-finance/OpenBB

  • 上周 Star 数:600+

OpenBB是一个免费且完全开源的金融平台。平台的核心是提供一套强大的投资研究工具,包括数据获取、分析和可视化功能。OpenBB的目标是为各类投资者、分析师和金融专业人士提供全面的市场洞察。同时衍生了多种产品,包括OpenBB Terminal Pro、Excel插件、AI助手Copilot和开发者平台

无论是个人投资者、机构投资者、财务部门还是分析师或研究人员,都可以使用OpenBB来获得价值,我虽然不懂得量化,但是和钱有关总是让人很感兴趣。

OpenBB可以通过运行命令作为pip包来安装,建议使用3.9。

pip install openbb

或者是克隆项目的仓库,来直接使用。

git clone <https://github.com/OpenBB-finance/OpenBB.git>
另外OpenBB 平台提供了CLI工具,允许您直接从终端访问 OpenBB 平台。可以通过pip来快速安装。
pip install openbb-cli

OpenBB还有一个开源 AI 金融分析agent,是基于GPT模型的AI助手,可以理解自然语言指令,帮助用户快速生成分析报告、回答金融问题。

OpenBB一方面是开源的,另一方面,它又有自己的收费服务。当然本身提供这么有价值的金融数据,收费也是在所难免的。





识别二维码关注我们
微信号- it-coffee
新浪微博-@IT-咖啡馆
头条号- IT咖啡馆

IT咖啡馆
开源项目、IT技能和有趣的事情
 最新文章