实例演示：用GPT-4o处理图像・音频・视频

文摘 2024-06-04 14:38 日本

2024年5月13日OpenAI发布了最新的大模型GPT-4o。名称中的"o"代表"Omni"（全部）。

在GPT-4o之前，用户可以使用语音模式与ChatGPT对话，但这是由3个独立的模型驱动的。GPT-4o将这些功能整合为一个模型，使用同一模型就可以统一处理文本、视觉和语音。最关键的是GPT-4o的价格是GTP-4 Turbo的一半！！

本文将和大家一起通过实例来了解一下如何使用GPT-4o API处理文本、图像和视频。

准备

首先，安装 OpenAI SDK for Python。

然后，在OpenAI官方网站登录自己的账号，并生成一个API密钥。

https://platform.openai.com/api-keys

推荐将 API 密钥设置为系统的环境变量，应用于所有项目。

文本处理

我们先来看一下最基本的文本处理。

执行结果：


助手: 你好！当然可以！2 加 2 等于 4。

图像处理

GPT-4o能够直接处理图像，并基于图像做出响应，图像可以通过以下两种形式提供：

Base64编码

URL链接

我们来用下面的图片，尝试以Base64格式和URL链接的形式将此图像发送至API并计算出三角形的面积。

→Base64图像处理

→URL图像处理

输出会分别展示助手对Base64编码图像和URL链接图像的响应。

执行结果：

要计算这个三角形的面积，我们可以使用三角形面积公式：面积 = 1/2 * 底 * 高。

首先，我们需要确定三角形的底和高。图中给出了底边的长度为9，但我们还需要知道高的长度。

我们可以通过将三角形分成两个直角三角形来找到高。假设高将底边分成两部分，分别为x和9-x。根据图中的信息，我们可以得到以下两个直角三角形：

左边的直角三角形，斜边为6，底边为x，高为h。

右边的直角三角形，斜边为5，底边为9-x，高为h。

根据勾股定理，我们可以得到以下两个方程：

(6^2 = x^2 + h^2)

(5^2 = (9 - x)^2 + h^2)

解这两个方程：

(36 = x^2 + h^2)

(25 = (9 - x)^2 + h^2)

展开第二个方程：

(25 = 81 - 18x + x^2 + h^2)

将第一个方程代入第二个方程：

(25 = 81 - 18x + 36)

简化：

(25 = 117 - 18x)

解x：

(18x = 92)

(x = \frac{92}{18} = \frac{46}{9})

将x代入第一个方程求h：

(36 = (\frac{46}{9})^2 + h^2)

(36 = \frac{2116}{81} + h^2)

(36 = 26.1358 + h^2)

(h^2 = 36 - 26.1358)

(h^2 = 9.8642)

(h = \sqrt{9.8642} \approx 3.14)

现在我们知道了底边为9，高为3.14。

我们可以计算面积：

面积 = 1/2 * 底 * 高 = 1/2 * 9 * 3.14 ≈ 14.13

所以，三角形的面积大约是14.13平方单位。

视频处理

目前我们无法通过API直接将视频发送到API，但GPT-4o能够通过对视频帧进行采样并以图像形式提供，从而理解视频内容。截至2024年5月，GPT-4o API尚不支持语音输入，但可使用Whisper处理音频。

视频分割

视频处理需要使用两个Python包：opencv-python和moviepy。它们需要ffmpeg的支持,因此请先行安装。根据您的操作系统，需要执行brew install ffmpeg或sudo apt install ffmpeg。

我们使用OpenAI DevDay Keynote Recap视频，可以通过下面的URL查看。我们把该视频下载保存到本地。

https://www.youtube.com/watch?v=h02ti0Bl6zk

视频将被分解为帧（画面）和音频两个部分进行处理。

视频帧和音频都已就绪，我们将对模型运行一些不同的测试，生成视频总结，并比较使用不同模态时的结果。

视觉总结

视觉总结是通过仅向模型发送视频帧来生成的。仅依赖画面，模型能捕捉视觉方面的内容，但会错过讲者所阐述的细节。

执行结果

在这段视频中，OpenAI举办了一个名为“OpenAI DevDay”的开发者活动。视频展示了活动的开场、会场布置以及演讲内容。以下是视频的主要内容：

1.活动开场：

△视频以“OpenAI DevDay”的标题开场，随后展示了活动的场地和布置。

2.主题演讲回顾：

△演讲者在舞台上介绍了OpenAI的最新进展和产品。

△重点介绍了GPT-4 Turbo的发布及其功能，包括更长的上下文长度、更高的控制能力和更好的知识库。
△演讲中还提到了JSON模式的开启和函数调用的改进。
3.产品发布：
△演讲者介绍了DALL-E 3、GPT-4 Turbo with Vision和TTS（文本转语音）等新产品。

△还展示了自定义模型的功能，允许用户根据自己的需求定制模型。

4.功能演示：

△演讲者展示了如何使用自然语言进行构建，并介绍了API的使用。

△还展示了线程、检索、代码解释器和函数调用等功能。

5.总结和结束：

△演讲者总结了活动的主要内容，并感谢了参与者。

△视频以“OpenAI DevDay”的标志结束。

视频通过展示OpenAI的最新技术和产品，向开发者们传达了公司的最新动态和未来发展方向。

如预期,模型能在较高层面上捕捉视频的视觉方面，但遗漏了讲话中提供的细节。

音频总结

音频总结是通过向模型发送音频的文字记录来生成的。仅使用音频的情况下，模型会偏向于音频内容，忽略了演示文稿和视觉上提供的上下文。目前GPT-4o无法接收语音输入，因此我们使用Whisper-1模型处理音频。

执行结果

欢迎来到我们首次举办的OpenAI开发者日。今天，我们发布了一个新模型——GPT-4 Turbo。以下是一些关键亮点：

GPT-4 Turbo

上下文支持：支持最多128,000个token的上下文。
JSON模式：确保模型响应有效的JSON格式。
多功能调用：可以同时调用多个函数，并且更好地遵循指令。
知识检索：可以从外部文档或数据库中引入知识。
知识更新：GPT-4 Turbo的知识更新至2023年4月，并将持续改进。
API集成：Dolly 3、GPT-4 Turbo with Vision和新的文本转语音模型今天都将进入API。

自定义模型

新计划：推出了一个名为Custom Models的新计划。
合作：研究人员将与公司密切合作，帮助他们使用我们的工具创建适合其特定用例的定制模型。

速率限制

提高速率限制：我们将所有已建立的GPT-4客户的每分钟token数量翻倍。
费用降低：GPT-4 Turbo的提示token费用是GPT-4的三分之一，完成token费用是其二分之一。

GPTs

定制版本：GPTs是为特定目的定制的Chat GPT版本。
无代码编程：无需编程知识，通过对话即可编程GPT。
共享与隐私：可以创建私人GPT，也可以通过链接公开分享，或在Chat GPT Enterprise中为公司创建专用GPT。
GPT商店：本月晚些时候将推出GPT商店。

Assistance API

持久线程：包括持久线程，内置检索，代码解释器和沙盒环境中的Python解释器。
改进的功能调用：改进了功能调用。

展望未来

随着智能技术的广泛集成，我们将拥有随时可用的“超级能力”。我们期待看到大家利用这项技术所做的创新，并共同构建新的未来。感谢大家的参与和支持，期待明年再见。

感谢大家今天的到来。

音频总结偏向于讲话内容，结构比视觉总结差。

音频+视觉总结

通过同时提供音频和视觉输入，生成的总结能够从两个模态中获取信息，因此是最全面的。

执行结果

在首次举办的OpenAI开发者日活动中，OpenAI宣布了一系列新产品和功能：

1.GPT-4 Turbo：新模型GPT-4 Turbo支持多达128,000个上下文标记，并且具有更好的指令遵循能力。它还引入了JSON模式，确保模型响应有效的JSON格式。

2.功能调用：现在可以同时调用多个函数，并且模型在遵循指令方面表现更好。

3.检索功能：平台上推出了检索功能，可以将外部文档或数据库中的知识引入到构建的应用中。

4.知识更新：GPT-4 Turbo的知识更新至2023年4月，并将继续改进。

5.新API功能：DALL-E 3、带视觉功能的GPT-4 Turbo和新的文本转语音模型都将进入API。
6.定制模型：推出了定制模型计划，OpenAI的研究人员将与公司密切合作，帮助他们使用OpenAI的工具创建适合其特定用例的定制模型。
7.更高的速率限制：为所有已建立的GPT-4客户将每分钟的标记数翻倍，并可以在API账户设置中直接请求更改速率限制和配额。
8.GPT-4 Turbo定价：GPT-4 Turbo的价格比GPT-4便宜得多，提示标记便宜3倍，完成标记便宜2倍。

9.GPTs：推出了GPTs，这是为特定目的定制的ChatGPT版本，结合了指令、扩展知识和操作，可以在许多上下文中更好地工作，并提供更好的控制。用户可以通过对话来编程GPT，创建私人GPT，或通过链接公开分享，企业用户还可以为公司创建专用GPT。

10.GPT商店：将在本月晚些时候推出GPT商店。

11.API改进：助理API包括持久线程、内置检索、代码解释器（在沙箱环境中运行的Python解释器）和改进的函数调用。

OpenAI表示，随着智能技术的广泛集成，每个人都将拥有按需的超级能力，并期待看到大家利用这些技术所做的创新和共同构建的新未来。

将视觉和音频相结合，可以生成对视频内容的详细全面总结。

结论

集成诸如文字、音频、视觉等多种输入模态，模型在各种任务上的性能都将大幅改善。

这种多模态的方法使得理解与交互变得更加全面，更接近人类处理信息的方式。目前，GPT-4o API支持文本和图像输入，语音功能将于不久后添加。

Tgo技术者之家，持续关注在日IT人关心的各种资讯，打造在日技术者的专属社区。欢迎留言交流互动。

ITgo

一手案件一手人才

往期精彩回顾:

住民税大揭秘：怎么算？从哪省？终于整明白了！

软件工程师面试不合格理由第二位“技术力不足”，第一位是什么？

对日软件工程师如何写“本番障害報告書”

全银系统故障原因揭秘：NTT Data和全银联的深度分析！

日本小中高学生的成绩提高神器Rakumon又出新篇章

用中国驾照换日本驾照5步搞定！省时又省力！

高手程序员的几大特征

在日本护照过期了怎么办？2023中国领事APP换发护照攻略来了～

你离「高度人材」可能只差这篇文章的距离——帮你找到隐藏的加分项

保险证还能这么玩！在日IT人的专属福利～

ITgo技术者之家

ITgo技术者之家的理念以对日IT技术者为中心、在这里有您关心的高单价案件、热点技术讲座、生活互助、情感交流等各种话题，致力于打造专属于对日IT技术者的优质平台。

最新文章

日本2024年度十大流行语公布，看了榜单我惊呆了～

日本打工人的福音！明年各位到手收入很可能要涨了...

又一年日本“故乡税”完全手册来了，年末一起薅一波羊毛！

二维码会用尽？撕坏了也能读？揭秘二维码背后的冷热知识~

程序员的MBTI全解析！哪4类人格在编程界简直开挂？

124亿日元天价诉讼！日本通运和埃森哲如何从合作走到公堂的？

日本养老2000万已经不够了，要翻倍了...

AI可不只是ChatGPT，何不来试试Claude和Gemini？

从“i人”到“嘴替”：中日网络热词对照说说看～

日本小学生“未来想从事的职业”,IT榜上有名，排第一的竟然是......

为什么日本加油站油价各不同？油质不一样？哪更便宜？

孩子从幼儿园到大学要花多少钱？日本家庭的教育费用全解析！

她是OpenAI的CTO，34岁造出ChatGPT，明明可以靠脸吃饭…

【干货】AI代理的现状与未来（文末有彩蛋）

【速报】windows全球范围内大规模蓝屏，打工人喜提蓝屏假

日本角川集团遭遇无赖黑客，没想到这么惨！

清凉！日本这10个绝美避暑胜地，暑假去打卡！

日本IT工程师薪资被中国超越，全球排名26位，人才短缺何解？

盘点6月事关钱包的6个重要消息，你不会还不知道吧？

惨不忍睹的格力高SAP移行障害，谁的锅？

实例演示：用GPT-4o处理图像・音频・视频

带薪休假这事儿，日本能排第几？

说说向量数据库

4万日元定额减税的事儿，还有人不知道？

日本60%IT工程师感到不安：干不到退休年龄，出路在哪里？

日本应届生就职人气企业TOP10：这家公司连续十年上榜！

【3月IT资讯】这个月IT圈发生了什么？

说一说传统日企的职场礼仪

听说今年日本养老金涨了？快来看看涨多少！

重磅！OpenAI视频生成模型Sora再次震撼世界！

【2月IT资讯】这个月IT圈发生了什么？

2023年的确定申告你做了吗？

“斯人若彩虹，遇上方知有。”这句中式情话，用日语怎么说？

在日本年収千万实际到手有多少？已婚和未婚能差多少？

【1月IT资讯】这个月IT圈发生了什么？

AI时代软件工程师必备技能：Prompt Engineering

最新日本大学偏差值排行榜（2023-2024）

新年启程：深入了解日本正月的文化习俗

让我们Ctrl+S (2023)； Ctrl+N (2024)！

2023年度日本热词揭晓，看了榜单我竟然只认识两个？！

全银系统故障原因揭秘：NTT Data和全银联的深度分析！

日本“故乡税”完全手册来了，年末一起薅一波羊毛！

【11月IT资讯】这个月IT圈发生了什么？

不懂日语的都看懂了，懂日语的都沉默了！

用中国驾照换日本驾照5步搞定！省时又省力！

住民税大揭秘(续)：在日本社员的9种节税方法，你知道有几种？

【1024程序员节】只有程序员才能看懂的笑话

【10月IT资讯】这个月IT圈发生了什么？

【免税事业主必看】Invoice制度的2割特例!！

Invoice制度开始后，公司、个人事业主、社员都要注意什么？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉