在 2024 年 Google I/O 大会上,我们公布了以 AI 为核心重塑 Android 的美好愿景。观看此视频,了解面向 Android 开发者的 Android 上 AI 赋能的构建功能的 3 大更新。
选择适合您的生成式 AI 解决方案
本文档简要介绍了 Android 上的生成式 AI,包括可用的 Gemini 模型和关联的 SDK。
高性能设备端 AI
在受支持的 Android 设备上,您无需连接到网络或将数据移出设备,即可提供丰富的生成式 AI 体验。对于将低延迟、低成本和隐私保护作为主要考虑因素的应用场景,设备端生成式 AI 模型(例如 Gemini Nano)是理想的解决方案。
用例
- AI 赋能的优质内容消费体验:文本摘要、文档问答和实体提取。
- AI 辅助内容生成:校对、语法纠正、写作辅助和情境智能回复。
- 对文本进行分类:情感或情绪分析
- 隐私:解锁生成式 AI 功能,同时将数据保留在设备端
解决方案
使用 Google AI Edge SDK 在设备端利用 Gemini Nano 推理。 Gemini Nano 现已面向公众提供实验版。
借助 Play for On-device AI,您可以更高效地为设备端 AI 功能提供自定义模型。Google Play 简化了设备端模型的发布、定位、版本控制、下载和更新流程,可帮助您在优化应用大小的同时提升用户体验。Play for On-device AI 免费提供。如果您有兴趣抢先体验 Play for On-device AI,请填写此表单。
采用 Google 最强大的模型的多模态 Cloud AI
您可以利用在云端运行推理的基准模型(例如 Gemini Pro 模型),在应用中打造多模态生成式 AI 体验。如果您希望支持尽可能广泛的 Android 设备,这些模型非常适合。
用例
- 图片和视频说明和字幕:识别对象并以文本形式对其进行描述
- 多模态推理:处理文本、图片和视频内容
- 文本生成:总结文章、回答有关文本内容的问题、提取实体。
- 响应格式:将模型响应设置为 JSON 或 Markdown 格式
解决方案
如需将 AI 体验投入生产环境,请使用 Vertex AI in Firebase。Firebase SDK 不仅提供对 Gemini 模型的访问权限,还提供对生产应用至关重要的安全和配置选项。此外,Firebase 还提供适用于各种移动平台的正式版支持和功能。
企业 AI
Vertex AI 是 Google 的全托管式统一 AI 开发平台。企业可以使用 Google 的 Vertex AI 平台,通过后端集成向 Android 设备提供量身定制的 AI 体验。在 Google 可伸缩的世界级基础架构上构建、训练和部署 AI 应用。它非常适合企业级 AI 应用,可让您使用 130 多种模型和工具,包括 AI Studio、Agent Builder 和 Gemini 模型。
用例
- 自定义模型训练和交付
- 图片和视频生成
- 虚拟客服、客户服务
- 语音转文字、自然语言处理
解决方案
使用 Google 的 Vertex AI 平台构建自定义 AI 应用,并将 Android 应用连接到服务层。
其他资源
Responsible Generative AI 工具包
AI 模型应符合安全政策,并经过公平性和准确性评估,且设计应注重透明度。Responsible Generative AI 工具包可为您提供帮助和指导,助您负责任地设计、构建、评估和部署开放式 AI 模型。
Android Studio 中的 Gemini
Android Studio 中的 Gemini 是 Android 开发的编码助手。它由人工智能提供支持,能够理解自然语言。它可以回答您的 Android 开发查询,帮助您提高工作效率。Gemini 可以帮助您查找相关资源、了解最佳实践并节省时间。
适用于 Android 生成式 AI 的 Google API 和 SDK
下表简要介绍了 Firebase 中支持的 Vertex AI 模型及其最新的稳定版模型名称。此表还列出了可用于用例原型设计的预览版和实验性模型。如需详细了解每种模型的功能(包括令牌和速率限制),请参阅 Gemini 模型。
型号 | 输入 | 输出 | 说明 |
---|---|---|---|
具有稳定版本的 Gemini 模型 | |||
Gemini 2.0 Flashgemini-2.0-flash-001
|
文本、代码、PDF、图片、视频、音频 |
文本、代码、JSON (图片和音频即将推出!) |
为各种各样的任务提供新一代功能和速度 (多模态生成功能即将推出!) |
Gemini 2.0 Flash‑Litegemini-2.0-flash-lite-001
|
文本、代码、PDF、图片、视频、音频 | 文本、代码、JSON | 提供经济高效且低延迟的性能;支持高吞吐量 |
Gemini 1.5 Progemini-1.5-pro-002
|
文本、代码、PDF、图片、视频、音频 | 文本、代码、JSON | 支持需要更高智能的复杂推理任务;长达 200 万个 token 的上下文 |
Gemini 1.5 Flashgemini-1.5-flash-002
|
文本、代码、PDF、图片、视频、音频 | 文本、代码、JSON | 在各种任务中提供快速多样的性能 |
仅提供预览版和实验版的 Gemini 模型 (仅建议用于原型设计用例) | |||
Gemini 2.0 Progemini-2.0-pro-exp-02-05
|
文本、代码、PDF、图片、视频、音频 | 文本、代码、JSON | 模型质量最强,尤其是对于代码和世界知识;200 万个字符的上下文 |
Gemini 2.0 Flash‑Thinking
gemini-2.0-flash-thinking-exp-01-21
|
文本、代码、PDF 文件、图片 | 文本、代码、JSON | 提供更强的推理能力,并在回答中包含思维过程 |
Imagen 3 模型 (与 Vertex AI in Firebase 搭配使用时) | |||
Imagen 3imagen-3.0-generate-002
|
文字 | 图片 | 根据自然语言文本提示生成逼真、高质量的图片 |
Imagen 3 Fastimagen-3.0-fast-generate-001
|
文字 | 图片 | 生成图片,以用于原型设计或低延迟应用场景 |