OpenAI语音识别模型迎来了重磅升级!
最新发布的Whisper V3 Turbo模型在速度上实现了惊人的提升,同时还保持了高精度。
来看看V3 Turbo 到底有多强?
速度飙升,精度不减
比Whisper Large快8倍 比Medium版本快4倍 比Small版本快2倍
这种速度提升意味着什么?
简单来说,实时语音转写、同声传译等应用将变得更加流畅和高效。
但速度提升往往伴随着精度下降,Whisper V3 Turbo却做到了鱼和熊掌兼得。
OpenAI表示,新模型在精度上的退化微乎其微。
小身材,大智慧
虽然速度大幅提升,但Whisper V3 Turbo的参数量并不算大:
仅8.09亿参数
相比动辄数千亿参数的大语言模型,这个规模可以说是相当精巧了。
Whisper V3 Turbo在保持高性能的同时,对硬件要求并不苛刻,有望在更多设备上实现本地部署。
多语言全面支持
Whisper系列一直以来就以其强大的多语言能力著称。Whisper V3 Turbo延续了这一传统,提供全面的多语言支持。
无论是英语、中文、日语,还是小语种,Whisper V3 Turbo都能应对自如。能适用于需要处理多语言音频的应用场景。
快速部署,即刻体验
想要亲自体验Whisper V3 Turbo的强大功能吗?
OpenAI已经提供了便捷的部署方式:
1. 安装最新版Truss:
pip install --upgrade truss
truss push --publish
3. 调用API进行推理:
import requests
import os
# Model ID for production deployment
model_id = ""
# Read secrets from environment variables
baseten_api_key = os.environ["BASETEN_API_KEY"]
# Call model endpoint
resp = requests.post(
f"https://model-{model_id}.api.baseten.co/production/predict",
headers={"Authorization": f"Api-Key {baseten_api_key}"},
json={
"url": "https://www2.cs.uic.edu/~i101/SoundFiles/gettysburg10.wav",
}
)
print(resp.content.decode("utf-8"))
只需几行代码,你就可以开始探索Whisper V3 Turbo的强大功能了。
部署地址
https://github.com/basetenlabs/truss-examples/tree/main/whisper/whisper-v3-turbo
👇
👇
👇
👇
本文同步自于知识星球《AGI Hunt》
星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。
每天约监控6000 条消息,可节省约800+ 小时的阅读成本;
每天挖掘出10+ 热门的/新的 github 开源 AI 项目;
每天转译、点评 10+ 热门 arxiv AI 前沿论文。
星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)
一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;
二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。
欢迎你的加入!