作者 / 产品经理 Taj Darra
去年推出的 Gemini 是 Google 迄今为止功能最强大的模型系列,专为灵活性而设计,可以在包括从数据中心到移动设备的所有设备上运行。Gemini Nano 是我们为设备端任务构建的最高效的模型。自该模型推出以来,我们一直与一小部分伙伴合作,为其应用提供一系列用例支持。
Gemini https://deepmind.google/technologies/gemini/ Gemini Nano https://developer.android.google.cn/ai/aicore
我们正在通过 AICore 向所有使用 AI Edge SDK 的 Android 开发者开放 Gemini Nano 实验性访问权限。最初,开发者可以在 Pixel 9 系列设备上尝试使用文本到文本的提示,我们会在未来增加对更多设备和模式的支持。请查看我们的文档和视频以开始使用。请注意,实验性访问权限仅供开发之用,目前不适用于生产环境。
文档
https://developer.android.google.cn/ai/gemini-nano/experimental
视频
https://www.youtube.com/watch?v=EpKghZYqVW4
设备端生成式 AI 可以直接在您的设备上处理提示,而无需调用服务器资源。这样提供了诸多好处: 敏感的用户数据可在设备端本地处理,无需互联网连接即可实现完整功能,并且每次推理都不会产生额外的成本。
改写: 改写和重写文本,使语气变得更加随意或正式。 智能回复: 根据对话中的几条聊天消息,建议下一条可能的回复。 校对: 删除文本中的拼写或语法错误。 总结: 为长文档生成段落或要点形式的摘要。
请查看我们的提示策略,以便在试用上述用例时获得最佳结果。如果您想测试自己的用例,请下载我们的示例应用,以便轻松开始试用 Gemini Nano。
提示策略
https://ai.google.dev/gemini-api/docs/prompting-strategies
示例应用
https://github.com/android/ai-samples
与前一版本相比,目前提供给开发者的模型 (在学术论文中被称为 "Nano 2") 在质量方面有显著的提高。该模型的尺寸几乎是前一版本 ("Nano 1") 的两倍,在学术基准和实际应用方面的表现都很出色,并且功能可以媲美更大型的模型。
MMLU (5 个样本)* | 智能回复** | |||
Nano 1 | 44% | |||
Nano 2 |
* 正如《Gemini: 功能强大的多模态模型系列》所报道的。请注意,这两个模型都属于我们的 Gemini 1.0 系列。
** 通过由 Gemini 1.5 Pro 提供支持的自动评分程序在公共数据集上测量的优秀答案百分比。
学术论文 https://arxiv.org/pdf/2312.11805 《Gemini: 功能强大的多模态模型系列》
https://arxiv.org/pdf/2312.11805
Talkback: Android 的无障碍应用利用 Gemini Nano 的多模态功能,为视障和弱视用户提供改善的图像描述。
Pixel Recorder: 借助 Gemini Nano 多模态模型支持进行更长时间的录制和更高质量的摘要生成。
Talkback
https://android-developers.googleblog.com/2024/09/talkback-uses-gemini-nano-to-increase-low-vision-accessibility.html
Pixel Recorder
https://android-developers.googleblog.com/2024/08/recorder-app-on-pixel-sees-boost-in-engagement-with-gemini-nano.html
由于需要占用大量的计算资源和存储空间,将生成式 AI 模型直接集成到移动应用中具有挑战性。为了应对这一挑战,我们开发了新的 Android 系统服务 AICore。AICore 可让您从直接在设备上运行的 AI 中获益,而无需亲自分发运行时、模型和其他组件。
AICore
https://developer.android.com/ai/gemini-nano
要在 AICore 中使用 Gemini Nano 进行推理,请使用 AI Edge SDK。AI Edge SDK 使开发者能够根据自己的特定需求自定义提示和推理参数,从而更好地控制每次推理。
要试用 AI Edge SDK,请将以下内容添加到应用的依赖项中:
implementation("com.google.ai.edge.aicore:aicore:0.0.1-exp01")
温度,控制随机性。值越高,输出的多样性和创造性越高。
Top K,指定需要考虑多少个最高排名的令牌 (Token)。
候选数量,描述要返回的最大响应数。
最大输出令牌,即所需响应的长度。
推理参数
https://ai.google.dev/gemini-api/docs/models/generative-models#model-parameters
当您准备好使用模型运行推理时,AI Edge SDK 提供了一种简单的方法来传递多个字符串作为输入,以适应长推理数据。
以下是一个示例:
{
Single string input prompt
val input = "I want you to act as an English proofreader. I will
provide you texts, and I would like you to review them for any
grammar, or punctuation errors. Once you have finished
reviewing the text, provide me with any necessary corrections or
suggestions for improving the text:
These arent the droids your looking for."
val response = generativeModel.generateContent(input)
print(response.text)
Or multiple strings as input
val response = generativeModel.generateContent(
content {
want you to act as an English proofreader.I will
provide you texts and I would like you to review them for
any spelling, grammar, or punctuation errors.")
you have finished reviewing the text,
provide me with any necessary corrections or suggestions
for improving the text:")
arent the droids your looking for.")
}
)
print(response.text)
}
集成指南
https://developer.android.google.cn/ai/gemini-nano/experimental
Gemini 提示策略
https://ai.google.dev/gemini-api/docs/prompting-strategies
通过观看我们的视频演示,详细了解如何利用 Gemini Nano 进行应用开发,并立即在您自己的应用中试用 Gemini Nano 实验性访问权限。
视频演示
https://www.youtube.com/watch?v=EpKghZYqVW4
试用 Gemini Nano 实验性访问权限
https://developer.android.google.cn/ai/gemini-nano/experimental
我们十分期待您构建的精彩作品,欢迎您根据自己的用例提供对这项新技术的评估意见!如果您要分享对设备端 GenAI 的想法和反馈并帮助我们优化 API,可以提交工单。
提交工单
https://issuetracker.google.com/issues/new?component=1657650&template=2055617&pli=1
查看 Android Spotlight Week 有关 AI 的其他内容
https://android-developers.googleblog.com/2024/09/welcome-to-ai-on-android-spotlight-week.html