近乎免费的 Gemini Flash，有了结构化输出

科技 2024-08-31 13:03 广东

本篇内容核心：Google Gemini 1.5 Flash 已支持「结构化输出」，非常经济实惠

官方文档还没出：为了方便大家使用，我写了个 Sample Code，放在了下方

Logan 是原 OpenAI 开发者关系负责人

后去了 Google，也是负责开发者关系

「格式化输出」很重要

上一篇中讲到：结构化输出，是绝大多数 AI 产品和 Agent 的核心，无论是 AI 搜索、有记忆的 bot，还是各类 agent，都是基于结构化输出搭建的。

在上一篇中，你可以看到有关的起源、原理、用例，以及如何用它来搭建一个 AI 项目，这里就不再赘述：

看完这篇，你也能做 AI 搜索：论「结构化输出」

通过结构化输出，可以让 AI 输出一份思维导图或者表格：

而不是成篇的文本：

史蒂夫·乔布斯，1955年2月24日出生，2011年10月5日去世，美国人。他活跃于科技、创新、企业管理和动画领域。乔布斯创立了Apple、NeXT和Pixar公司，推出了Mac、iPod、iPhone等具有划时代意义的产品，重塑了个人电脑、音乐和手机行业，奠定了苹果在全球科技领域的领军地位。作为Pixar的创办人之一，他也在动画领域留下了深远的影响。乔布斯是20世纪末至21世纪初最具影响力的企业家和创新者之一。

Gemini Flash 的结构化输出

Google 家之前也有结构化输出，不过是在他们的贵的模型，Gemini 1.5 Pro 上面

而这次的更新，可以让廉价模型 1.5 Flash 也用上了：

100 万 token 的上下文
每天前 1500 个请求免费
调用价格低至 $0.075 每 100 万 token（长度少于 128k 的上文）
可叠加 GCP 的赞助/优惠
四舍五入不要钱
智谱的 Flash 是完全不要钱

相信做 AI 项目的同学都知道这意味了什么：这便宜大碗，而且 AI 味不重的 Flash，可正儿八经用在决策 workflow 了！

每天 1500 个免费请求

超出部分低至 $0.075 / 1M，外加项目折扣

Sample Code

目前，官方的调用方法还没出（会在本周末更新），但我可以给大家提供一份 sample code

我们把上一篇《看完这篇，你也能做 AI 搜索：论「结构化输出」》中，“将四大名著的信息进行结构化输出”的例子拿来做对比，通过 GPT，代码这么写

from pydantic import BaseModel
class theBook(BaseModel):    name: str    writer: str
class theFour(BaseModel):    books: list[theBook]
completion = client.beta.chat.completions.parse(    model="gpt-4o-2024-08-06",    messages=[        {"role": "system", "content": "Extract the event information."},        {"role": "user", "content": "告诉我四大名著分别是什么，以及他们的作者是谁"},    ],    response_format = theFour,)
response = completion.choices[0].message.parsed

得到的结果是

theFour(books=[theBook(name='《红楼梦》', writer='曹雪芹'), theBook(name='《西游记》', writer='吴承恩'), theBook(name='《三国演义》', writer='罗贯中'), theBook(name='《水浒传》', writer='施耐庵')])

而通过 Flash，代码是类似这样的

"""Install the Google AI Python SDK
$ pip install google-generativeai$ pip install google.ai.generativelanguage"""
import osimport google.generativeai as genaifrom google.ai.generativelanguage_v1beta.types import content
genai.configure(api_key=os.environ["GEMINI_API_KEY"])
# Create the modelgeneration_config = {  "temperature": 1,  "top_p": 0.95,  "top_k": 64,  "max_output_tokens": 8192,  "response_schema": content.Schema(    type = content.Type.OBJECT,    enum = "[]",    required = "["books"]",    properties = {      "books": content.Schema(        type = content.Type.ARRAY,        items = content.Schema(          type = content.Type.OBJECT,          properties = {            "name": content.Schema(              type = content.Type.STRING,            ),            "writer": content.Schema(              type = content.Type.STRING,            ),          },        ),      ),    },  ),  "response_mime_type": "application/json",}
model = genai.GenerativeModel(  model_name="gemini-1.5-flash",  generation_config=generation_config,  # safety_settings = Adjust safety settings  # See https://ai.google.dev/gemini-api/docs/safety-settings  system_instruction="Extract the event information.",)
chat_session = model.start_chat(  history=[    {      "role": "user",      "parts": [        "告诉我四大名著分别是什么，以及他们的作者是谁",      ],    },    {      "role": "model",      "parts": [        "```json\n{\"books\": [{\"name\": \"红楼梦\", \"writer\": \"曹雪芹\"}, {\"name\": \"三国演义\", \"writer\": \"罗贯中\"}, {\"name\": \"水浒传\", \"writer\": \"施耐庵\"}, {\"name\": \"西游记\", \"writer\": \"吴承恩\"}]} \n```",      ],    },  ])
response = chat_session.send_message("INSERT_INPUT_HERE")
print(response.text)

得到结果：

{"books": [{"name": "红楼梦", "writer": "曹雪芹"}, {"name": "三国演义", "writer": "罗贯中"}, {"name": "水浒传", "writer": "施耐庵"}, {"name": "西游记", "writer": "吴承恩"}]}

结语

以上，就是本期教程，你学废了吗？

以及...

来看看我做的新开源玩具吧，生成的东西，能直接贴入公众号

智谱 GLM-4-Plus 发布，独家附送免费 API，和我整的新活

最新文章

参加完 OpenAI 的活动，我看到了「草莓」的隐患

o1 能带我们走进 AGI 吗？

150 行代码，复刻「草莓」，青春版支持联网

「草莓」实测：可能只是工程 Trick，且有扣费陷阱！

原理解析：李继刚老师的「汉语新解」

iPhone 16 发布，全面解读「苹果2024发布会」

小红书式爆款文案正在剿杀语文。

拒绝谣言：OpenAI 没说新模型提价

插播：Qwen 404，但不必担心

最后一天：OpenAI 开发者日，将截止确认

近乎免费的 Gemini Flash，有了结构化输出

突发！Runway HF 已删库跑路

智谱 GLM-4-Plus 发布，独家附送免费 API，和我整的新活

OpenAI「草莓」今秋发布，随后是「猎户座」

史诗更新！1080 可跑的 Sora，可商用！超大杯 CogVideoX 5B 开源！GLM-Flash 免费！

大厂山寨 Cursor，不如做好邮箱

征集｜ComfyUI 全球社区峰会 AI 展：新艺术宣言

你需要的不是智能体，而是工作流

谷歌前 CEO：「盗用内容也不是不行」

看完这篇，你也能做 AI 搜索：论「结构化输出」

系统性「造人」：论 AI 拟人的实现

OpenAI 开发者大会，现开放报名

全网首发：智谱「Sora」此刻开源，单卡可跑可调，附训练细节

历史新高：24Q2，美国近期 AI 项目融资，总计 122 亿美金

并非25亿收购：谷歌与 C.AI 交易细节

学外企员工，「中英夹杂」记 word

入口之战：AI 时代的「二维码」，在哪里？

ChatGPT Search 正开放内测，附申请地址

剑指 Meta：Mistral Large2 凌晨开源，媲美 Llama3.1

最大405B：Llama-3.1 发布，第一时间详解

我做了两个 JSON：涵盖各模型接口信息

GPT-4o迷你版发布，比 3.5 更便宜，但有计费 Bug

大模型真实速度一览（附：测试脚本）

对于 AI & AGI，我有 3 个问题

WAIC 的这几天，咱从业者们聚一聚？

大模型 API 文档一览：有的简洁易用，有的乱七八糟

全军覆没：国产大模型，都没做好 OpenAI 兼容

AI 画图正经入门：ComfyUI 的基础七课

MarsCode：AI 在线 IDE，很好用

OpenAI 收购 Multi，一款协作工具

第一批背靠 OpenAI 的公司，已经倒下了

Anthropic：Claude 3.5 发布，更快更强，还便宜

从 OpenAI 发布的 36 个实践，窥探真实的 AI 产业机会

Meta：悄悄发布多款模型、研究和数据集

Runway：稳定、可控的视频方案 Gen-3 Alpha

Perplexity 怎么读？Qwen 又怎么读？常见 AI 名词发音一览

Luma：发个AI，比 Sora 真实、连贯、迅速

SD 3：已开源，附即用方案，附测试对比

剧透：扣子正上线「大模型竞技场」

Apple：属于每个人的 AI，在这里

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉