IA generativa en Android

En Google I/O 2024, presentamos una visión de Android reinventada con la IA como elemento central. En este video, encontrarás las 3 actualizaciones principales para compilar con IA en Android para desarrolladores de Android.

Elige la solución de IA generativa que más te convenga

En este documento, se proporciona una descripción general de la IA generativa en Android, incluidos los modelos de Gemini disponibles y los SDKs asociados.

IA integrada en el dispositivo de alto rendimiento

Ícono de Gemini

En dispositivos Android compatibles, puedes ofrecer experiencias enriquecidas de IA generativa sin necesidad de una conexión de red ni de mover datos fuera del dispositivo. Los modelos de IA generativa integrados en el dispositivo, como Gemini Nano, son excelentes soluciones para casos de uso en los que las principales preocupaciones son la baja latencia, el bajo costo y las protecciones de la privacidad.

Casos de uso

  • Consumo de contenido mejorado con IA: resumen de texto, respuesta de preguntas de documentos y extracción de entidades.
  • Generación de contenido asistido por IA: revisión de texto, corrección gramatical, asistencia para la escritura y respuestas inteligentes contextuales.
  • Clasificación de texto: análisis de opiniones o estado de ánimo
  • Privacidad: Desbloquea funciones de IA generativa y, al mismo tiempo, mantiene los datos en el dispositivo.

Soluciones

Usa el SDK de Google AI Edge para aprovechar la inferencia de Gemini Nano en el dispositivo. Gemini Nano ahora está disponible de forma pública para el acceso experimental.

Más información sobre Gemini Nano

Publica modelos personalizados para funciones de IA integrada en el dispositivo de forma más eficiente con Play para la IA integrada en el dispositivo. Google Play simplifica el lanzamiento, la segmentación, la versión, la descarga y la actualización de tus modelos integrados en el dispositivo, lo que te ayuda a mejorar la experiencia del usuario y, al mismo tiempo, mantener el tamaño de tu app optimizado. Play for AI integrada en el dispositivo está disponible sin costo adicional. Completa el formulario si te interesa el acceso anticipado a Play para la IA integrada en el dispositivo.

Regístrate para obtener acceso anticipado a Play para la IA integrada en el dispositivo

IA multimodal de Cloud con los modelos más capaces de Google

Puedes crear experiencias de IA generativa multimodal en tus apps aprovechando los modelos de base que ejecutan inferencias en la nube, como los modelos de Gemini Pro. Estos modelos son una excelente solución cuando deseas admitir la variedad más amplia posible de dispositivos Android.

Casos de uso

  • Descripción y subtítulos de imágenes y videos: identificar objetos y describirlos en texto
  • Razonamiento multimodal: Procesa contenido de texto, imagen y video.
  • Generación de texto: Resume artículos, responde preguntas sobre el contenido textual y extrae entidades.
  • Formato de la respuesta: Da formato a la respuesta del modelo en JSON o Markdown.

Soluciones

Para llevar tus experiencias de IA a producción, usa Vertex AI en Firebase. El SDK de Firebase proporciona acceso a los modelos de Gemini, pero también ofrece opciones de seguridad y configuración que son fundamentales para las apps de producción. Además, Firebase incluye funciones y asistencia a nivel de producción en varias plataformas móviles.

Más información sobre Vertex AI en Firebase

IA para empresas

Ícono de Vertex AI

Vertex AI es la plataforma de desarrollo de IA unificada y completamente administrada de Google. Las empresas pueden usar la plataforma Vertex AI de Google para ofrecer experiencias de IA personalizadas a dispositivos Android mediante integraciones de backend. Compila, entrena y, luego, implementa aplicaciones de IA en la infraestructura escalable y de primer nivel de Google. Es una gran solución para la IA a gran escala empresarial, con acceso a más de 130 modelos y herramientas, incluidos AI Studio, Agent Builder y modelos de Gemini.

Casos de uso

  • Entrenamiento y entrega de modelos personalizados
  • Generación de imágenes y videos
  • Agentes virtuales y asistencia al cliente
  • Procesamiento de lenguaje natural y voz a texto

Solución

Usa la plataforma de Vertex AI de Google para crear aplicaciones de IA personalizadas y conectar apps para Android a la capa de servicio.

Más información sobre Vertex AI

Recursos adicionales

Kit de herramientas de IA generativa responsable

Los modelos de IA deben alinearse con las políticas de seguridad, evaluarse en cuanto a equidad y exactitud, y diseñarse para que sean transparentes. El kit de herramientas de IA generativa responsable te brinda ayuda y orientación para diseñar, compilar, evaluar e implementar modelos de IA abierta de forma responsable.

Gemini en Android Studio

Gemini en Android Studio es un complemento de programación para el desarrollo de Android. Se basa en la inteligencia artificial y puede interpretar el lenguaje natural. Te ayuda a ser más productivo respondiendo tus consultas sobre el desarrollo de Android. Gemini puede ayudarte a encontrar recursos relevantes, conocer las prácticas recomendadas y ahorrar tiempo.

APIs y SDKs de Google para la IA generativa en Android

La siguiente tabla es una breve descripción general de los modelos compatibles con Vertex AI en Firebase y sus nombres de modelos estables más recientes. En esta tabla, también se enumeran los modelos experimentales y de vista previa que están disponibles para crear prototipos de casos de uso. Para obtener detalles adicionales sobre las capacidades de cada modelo, incluidos los límites de tokens y de frecuencia, consulta Modelos de Gemini.

Modelo Entrada Salida Descripción
Modelos Gemini con versiones estables
Gemini 2.0 Flash
gemini-2.0-flash-001
texto, código, PDF, imágenes, video y audio texto, código, JSON
(próximamente imágenes y audio)
Proporciona funciones y velocidad de nueva generación para una gran variedad de tareas
(próximamente, generación multimodal)
Gemini 2.0 Flash‑Lite
gemini-2.0-flash-lite-001
texto, código, PDF, imágenes, video y audio texto, código, JSON Proporciona un rendimiento rentable y de baja latencia, y admite una alta capacidad de procesamiento.
Gemini 1.5 Pro
gemini-1.5-pro-002
texto, código, PDF, imágenes, video y audio texto, código, JSON Admite tareas de razonamiento complejas que requieren más inteligencia; 2 millones de contexto extenso
Gemini 1.5 Flash
gemini-1.5-flash-002
texto, código, PDF, imágenes, video y audio texto, código, JSON Ofrece un rendimiento rápido y versátil en una amplia variedad de tareas.
Modelos Gemini con solo versiones experimentales y de vista previa (recomendado solo para casos de uso de prototipado)
Gemini 2.0 Pro
gemini-2.0-pro-exp-02-05
texto, código, PDF, imágenes, video y audio texto, código, JSON Ofrece la mejor calidad del modelo, en especial para el código y el conocimiento del mundo; 2 millones de contexto largo
Gemini 2.0 Flash‑Thinking
gemini-2.0-flash-thinking-exp-01-21
texto, código, archivos PDF, imágenes texto, código, JSON Ofrece capacidades de razonamiento más sólidas y, además, incluye el proceso de pensamiento en las respuestas.
Imagen 3 modelos (cuando se usa con Vertex AI in Firebase)
Imagen 3
imagen-3.0-generate-002
archivo de texto imágenes Genera imágenes realistas y de alta calidad a partir de instrucciones de texto en lenguaje natural.
Imagen 3 Fast
imagen-3.0-fast-generate-001
archivo de texto imágenes Genera imágenes para el prototipado o casos de uso de baja latencia.