点击上方蓝字关注我们
IT 咖啡馆,探索无限可能!
恭喜你发现了这个宝藏,这里你会发现优质的开源项目、IT知识和有趣的内容。
GitHub 一周热点汇总第46期(2024/10/20-10/26),本期内容包括大模型OCR、IPTV直播源、工作流程自动化、下一代信息浏览器和下载金融数据工具,一起来看具体内容吧。
zerox
项目名称:zerox - 大模型OCR
GitHub 链接:https://github.com/VikParuchuri/surya
上周 Star 数:2400+
它是一款基于gpt-4o-mini的开源 OCR 项目,将大模型和OCR的能力结合,实现高效智能的文档解析和理解。其最大亮点在于零配置:只需提供文件和 API token,即可轻松实现文本提取,省去繁琐参数设置。
Zerox项目支持多种文件格式,包括PDF、Word文档和图片,可轻松转换为Markdown格式。GPT-4o-mini模型处理速度提升58.47%,OCR准确率达94.12%,远超前代GPT-4V模型。而且它不仅支持文本识别,还能进行图像分类、视觉问答等多模态任务。
Zerox 既可以作为 Node 包使用,也可以作为 Python 包使用。以Node为例,可以使用以下命令安装
npm install zerox
Zerox 使用graphicsmagick
和ghostscript
进行 pdf => 图像处理步骤。需要提前安装以下
sudo apt-get update
sudo apt-get install -y graphicsmagick
整个处理的流程大致是:
传入文件(pdf、docx、图像等)
将该文件转换为一系列图像
将每张图片传递给 GPT,并返回 Markdown
汇总响应并返回 Markdown
在以下是最简单使用zerox的示例代码。
import { zerox } from "zerox";
const result = await zerox({
filePath: "<https://omni-demo-data.s3.amazonaws.com/test/cs101.pdf>",
openaiAPIKey: process.env.OPENAI_API_KEY,
});
TV
项目名称:TV - IPTV直播源
GitHub 链接:https://github.com/Guovin/TV
上周 Star 数:2000+
本项目是一个,IPTV电视直播源更新工具,包含:央视频道、央视付费频道、卫视频道、广东频道、港·澳·台频道、电影频道、咪咕直播、体育频道、动画频道、游戏频道、音乐频道、经典剧场等频道。
产品的特点包括:
自定义模板,生成您想要的频道
支持多种获取源方式:组播源、酒店源、订阅源、线上检索
接口测速验效,响应时间、分辨率优先级,过滤无效接口
定时执行,北京时间每日 6:00 与 18:00 执行更新
项目有多种运行方式,首先是工作流,可以fork本项目,之后通过设置github action来实现工作流的自动化更新。详细配置方法可以参考文档。
第二种是命令行,下载代码后,执行以下的命令
pip3 install pipenv
pipenv install
pipenv run build
第三种方式是通过 GUI ,这样相对更加直观,可以在release中下载或是通过命令启动。
最后一种方式是通过Docker。
1. 拉取镜像:
requests:
docker pull guovern/tv-requests:latest
driver:
docker pull guovern/tv-driver:latest
2. 运行容器:
docker run -d -p 8000:8000 guovern/tv-requests 或 tv-driver
skyvern
项目名称:skyvern - 工作流程自动化
GitHub 链接:https://github.com/Skyvern-AI/skyvern
上周 Star 数:600+
skyvern使用 LLM 和计算机视觉来自动化基于浏览器的工作流程。它提供了一个简单的 API endpoint,可以在大量网站上完全自动化的完成原来的手动工作流程,从而取代脆弱或不可靠的自动化解决方案。
传统的浏览器自动化方法需要为网站编写自定义脚本,通常依赖 DOM 解析和基于 XPath 的交互,只要网站布局发生变化,这些脚本就会中断。Skyvern 不仅仅依赖于代码定义的 XPath 交互,还依赖于计算机视觉和LLMs之外的提示来实时解析视口中的项目,创建交互计划并与它们进行交互。
Skyvern 的灵感来自于BabyAGI和AutoGPT流行的任务驱动自主代理设计,让 Skyvern 能够使用Playwright等浏览器自动化库与网站进行交互。Skyvern 通过多个agent来理解网站,它们包括:可交互元素代理,导航代理,数据提取代理,密码代理,2FA 代理,动态自动完成代理。
可以通过Docker的方式运行项目,下载代码后,执行命令即可
docker compose up -d
启动后在浏览器中打开http://localhost:8080开始使用。
项目中提供了多个自动化的示例,比如从多个网站下载发票、自动化求职流程、自动化采购物料等。
Follow
项目名称:Follow - 下一代信息浏览器
GitHub 链接:https://github.com/RSSNext/Follow
上周 Star 数:1000+
Follow号称是下一代信息浏览器,最近关于它真的是看到了好多的消息,上一次入选的时候因为没有邀请码,只是简单的介绍,现在终于可以使用到产品了。
Follow支持让您在一个地方关注您喜爱的内容,包括网站、博客、社交媒体帐户、播客和通知。它被设计为一个现代、快速且方便的一体化信息中心。
它最突出的特点有3方面,首先是AI,Follow 利用先进的 AI 来协助您的操作。除了基本的人工智能翻译、摘要和建议之外,它还提供每日两次的人工智能报告。
第二是区块链,Follow利用区块链技术作为活跃用户和优秀创作者的激励机制。
第三是社交,关注也是一个社交平台,可让您关注其他用户、分享您的订阅以及发现新内容。
而且Follow还支持跨平台,Windows、macOS、Linux 后续还会推出移动端。
而且RSSHUB适配了近千个网站的RSS源,所以在产品内很方便找到自己喜欢的内容。
从个人使用来说现在区块链激励机制很有趣,是RSS3在商业变现上的一个很好尝试,但总是需要订阅也有点烦,希望可以有一个更好的平衡。
yfinance
项目名称:yfinance - 下载金融数据工具
GitHub 链接:https://github.com/ranaroussi/yfinance
上周 Star 数:700+
yfinance是一个基于Python的开源库,专门用于从Yahoo! Finance下载市场数据。它提供了一个方便的接口,让用户能够轻松地下载和处理股票、指数、货币对等金融市场的历史价格数据和其他相关信息。yfinance 让开发者和分析师能够使用 Python 进行金融数据分析、可视化和研究。
yfinance 是一个免费的库,不需要额外的订阅费用,而且支持全球市场,不仅仅支持美国市场,还能够获取许多全球市场的金融数据。
可以快速通过 Pip 来安装 yfinance
pip install yfinance
yfinance的强大之处在于其简洁易用的Ticker模块。通过这个模块,您可以轻松获取不同股票的各种信息。以微软公司(MSFT)的股票为例,通过以下的代码,可以轻松获取了MSFT股票的基础信息、历史市场数据以及相关的公司操作详情。
import yfinance as yf
# 创建一个Ticker对象
msft = yf.Ticker("MSFT")
# 获取股票的基本信息
info = msft.info
# 获取历史市场数据
history = msft.history(period="1mo")
# 显示历史数据的元信息
metadata = msft.history_metadata
# 查看公司操作,例如分红、拆股
actions = msft.actions
dividends = msft.dividends
splits = msft.splits
我们可能需要同时分析多个公司的市场表现。在这种情况下,可以通过yfinance提供的多ticket方案来解决,比如以下的例子,可以同时获取多个股票的信息,有助于行业分析和比较研究。
tickers = yf.Tickers('msft aapl goog')
# 访问每个ticker的信息
msft_info = tickers.tickers['MSFT'].info
aapl_history = tickers.tickers['AAPL'].history(period="1mo")
goog_actions = tickers.tickers['GOOG'].actions