En Google I/O 2024, presentamos una visión de Android reinventada con la IA como elemento central. En este video, encontrarás las 3 actualizaciones principales para compilar con IA en Android para desarrolladores de Android.
Elige la solución de IA generativa que más te convenga
En este documento, se proporciona una descripción general de la IA generativa en Android, incluidos los modelos de Gemini disponibles y los SDKs asociados.
IA integrada en el dispositivo de alto rendimiento
En dispositivos Android compatibles, puedes ofrecer experiencias enriquecidas de IA generativa sin necesidad de una conexión de red ni de mover datos fuera del dispositivo. Los modelos de IA generativa integrados en el dispositivo, como Gemini Nano, son excelentes soluciones para casos de uso en los que las principales preocupaciones son la baja latencia, el bajo costo y las protecciones de la privacidad.
Casos de uso
- Consumo de contenido mejorado con IA: resumen de texto, respuesta de preguntas de documentos y extracción de entidades.
- Generación de contenido asistido por IA: revisión de texto, corrección gramatical, asistencia para la escritura y respuestas inteligentes contextuales.
- Clasificación de texto: análisis de opiniones o estado de ánimo
- Privacidad: Desbloquea funciones de IA generativa y, al mismo tiempo, mantiene los datos en el dispositivo.
Soluciones
Usa el SDK de Google AI Edge para aprovechar la inferencia de Gemini Nano en el dispositivo. Gemini Nano ahora está disponible de forma pública para el acceso experimental.
Más información sobre Gemini Nano
Publica modelos personalizados para funciones de IA integrada en el dispositivo de forma más eficiente con Play para la IA integrada en el dispositivo. Google Play simplifica el lanzamiento, la segmentación, la versión, la descarga y la actualización de tus modelos integrados en el dispositivo, lo que te ayuda a mejorar la experiencia del usuario y, al mismo tiempo, mantener el tamaño de tu app optimizado. Play for AI integrada en el dispositivo está disponible sin costo adicional. Completa el formulario si te interesa el acceso anticipado a Play para la IA integrada en el dispositivo.
Regístrate para obtener acceso anticipado a Play para la IA integrada en el dispositivo
IA multimodal de Cloud con los modelos más capaces de Google
Puedes crear experiencias de IA generativa multimodal en tus apps aprovechando los modelos de base que ejecutan inferencias en la nube, como los modelos de Gemini Pro. Estos modelos son una excelente solución cuando deseas admitir la variedad más amplia posible de dispositivos Android.
Casos de uso
- Descripción y subtítulos de imágenes y videos: identificar objetos y describirlos en texto
- Razonamiento multimodal: Procesa contenido de texto, imagen y video.
- Generación de texto: Resume artículos, responde preguntas sobre el contenido textual y extrae entidades.
- Formato de la respuesta: Da formato a la respuesta del modelo en JSON o Markdown.
Soluciones
Para llevar tus experiencias de IA a producción, usa Vertex AI en Firebase. El SDK de Firebase proporciona acceso a los modelos de Gemini, pero también ofrece opciones de seguridad y configuración que son fundamentales para las apps de producción. Además, Firebase incluye funciones y asistencia a nivel de producción en varias plataformas móviles.
Más información sobre Vertex AI en Firebase
IA para empresas
Vertex AI es la plataforma de desarrollo de IA unificada y completamente administrada de Google. Las empresas pueden usar la plataforma Vertex AI de Google para ofrecer experiencias de IA personalizadas a dispositivos Android mediante integraciones de backend. Compila, entrena y, luego, implementa aplicaciones de IA en la infraestructura escalable y de primer nivel de Google. Es una gran solución para la IA a gran escala empresarial, con acceso a más de 130 modelos y herramientas, incluidos AI Studio, Agent Builder y modelos de Gemini.
Casos de uso
- Entrenamiento y entrega de modelos personalizados
- Generación de imágenes y videos
- Agentes virtuales y asistencia al cliente
- Procesamiento de lenguaje natural y voz a texto
Solución
Usa la plataforma de Vertex AI de Google para crear aplicaciones de IA personalizadas y conectar apps para Android a la capa de servicio.
Más información sobre Vertex AI
Recursos adicionales
- Descripción general de Vertex AI
- Vertex AI con Gemini 1.5 Pro
- Ruta de aprendizaje de IA generativa para desarrolladores
Kit de herramientas de IA generativa responsable
Los modelos de IA deben alinearse con las políticas de seguridad, evaluarse en cuanto a equidad y exactitud, y diseñarse para que sean transparentes. El kit de herramientas de IA generativa responsable te brinda ayuda y orientación para diseñar, compilar, evaluar e implementar modelos de IA abierta de forma responsable.
Gemini en Android Studio
Gemini en Android Studio es un complemento de programación para el desarrollo de Android. Se basa en la inteligencia artificial y puede interpretar el lenguaje natural. Te ayuda a ser más productivo respondiendo tus consultas sobre el desarrollo de Android. Gemini puede ayudarte a encontrar recursos relevantes, conocer las prácticas recomendadas y ahorrar tiempo.
APIs y SDKs de Google para la IA generativa en Android
La siguiente tabla es una breve descripción general de los modelos compatibles con Vertex AI en Firebase y sus nombres de modelos estables más recientes. En esta tabla, también se enumeran los modelos experimentales y de vista previa que están disponibles para crear prototipos de casos de uso. Para obtener detalles adicionales sobre las capacidades de cada modelo, incluidos los límites de tokens y de frecuencia, consulta Modelos de Gemini.
Modelo | Entrada | Salida | Descripción |
---|---|---|---|
Modelos Gemini con versiones estables | |||
Gemini 2.0 Flashgemini-2.0-flash-001
|
texto, código, PDF, imágenes, video y audio |
texto, código, JSON (próximamente imágenes y audio) |
Proporciona funciones y velocidad de nueva generación para una gran variedad de tareas (próximamente, generación multimodal) |
Gemini 2.0 Flash‑Litegemini-2.0-flash-lite-001
|
texto, código, PDF, imágenes, video y audio | texto, código, JSON | Proporciona un rendimiento rentable y de baja latencia, y admite una alta capacidad de procesamiento. |
Gemini 1.5 Progemini-1.5-pro-002
|
texto, código, PDF, imágenes, video y audio | texto, código, JSON | Admite tareas de razonamiento complejas que requieren más inteligencia; 2 millones de contexto extenso |
Gemini 1.5 Flashgemini-1.5-flash-002
|
texto, código, PDF, imágenes, video y audio | texto, código, JSON | Ofrece un rendimiento rápido y versátil en una amplia variedad de tareas. |
Modelos Gemini con solo versiones experimentales y de vista previa (recomendado solo para casos de uso de prototipado) | |||
Gemini 2.0 Progemini-2.0-pro-exp-02-05
|
texto, código, PDF, imágenes, video y audio | texto, código, JSON | Ofrece la mejor calidad del modelo, en especial para el código y el conocimiento del mundo; 2 millones de contexto largo |
Gemini 2.0 Flash‑Thinking
gemini-2.0-flash-thinking-exp-01-21
|
texto, código, archivos PDF, imágenes | texto, código, JSON | Ofrece capacidades de razonamiento más sólidas y, además, incluye el proceso de pensamiento en las respuestas. |
Imagen 3 modelos (cuando se usa con Vertex AI in Firebase) | |||
Imagen 3imagen-3.0-generate-002
|
archivo de texto | imágenes | Genera imágenes realistas y de alta calidad a partir de instrucciones de texto en lenguaje natural. |
Imagen 3 Fastimagen-3.0-fast-generate-001
|
archivo de texto | imágenes | Genera imágenes para el prototipado o casos de uso de baja latencia. |