Inferencia híbrida

Google ofrece una amplia selección de modelos y APIs de IA líderes en la industria para la inferencia basada en la nube e integrada en el dispositivo. La inferencia híbrida te permite equilibrar sin problemas las cargas de trabajo de IA entre el dispositivo local y la nube, lo que optimiza el rendimiento, el costo y la disponibilidad.

La inferencia híbrida proporciona dos ventajas principales para tu app para Android:

  • Maximizar el alcance: Los modelos basados en la nube sirven como alternativa fundamental cuando los modelos integrados en el dispositivo, como Gemini Nano, no están disponibles debido a limitaciones de hardware o del SO del dispositivo. Esto ayuda a garantizar que las funciones basadas en IA sigan funcionando en la mayor cantidad posible de dispositivos de los usuarios.
  • Costo y capacidades sin conexión: Los modelos integrados en el dispositivo ayudan a garantizar que las funciones basadas en IA funcionen sin problemas cuando el usuario no tiene conexión. Además, descargar tareas de rutina en el dispositivo local ayuda a reducir los costos de inferencia en la nube.
Diagrama que muestra la lógica de la inferencia integrada en el dispositivo en comparación con la inferencia en la nube.
Figura 1: Los beneficios respectivos de la inferencia integrado en el dispositivo y la inferencia en la nube.

Opciones de implementación

Puedes implementar la inferencia híbrida con los siguientes enfoques:

API híbrida de Firebase AI Logic

La API híbrida de Firebase AI Logic proporciona una interfaz única y unificada para dividir la inferencia entre entornos en la nube e integrado en el dispositivo.

Incluye un parámetro onDeviceConfig que proporciona controles simples para definir el modo de inferencia y administrar el enrutamiento:

  • PREFER_ON_DEVICE: Intenta usar el modelo integrado en el dispositivo y, si no está disponible o no es compatible con la solicitud, recurre automáticamente al modelo alojado en la nube.
  • PREFER_IN_CLOUD: Intenta usar el modelo alojado en la nube cuando el dispositivo está en línea y el modelo está disponible. Solo recurre al modelo integrado en el dispositivo si este está sin conexión.
  • ONLY_ON_DEVICE: Intenta usar el modelo integrado en el dispositivo, pero arroja una excepción si no está disponible o no es compatible con la solicitud.
  • ONLY_IN_CLOUD: Intenta usar el modelo alojado en la nube cuando el dispositivo está en línea y el modelo está disponible. En todos los demás casos, arroja una excepción.
val model = Firebase.ai(backend = GenerativeBackend.googleAI())
    .generativeModel(
        modelName = "gemini-2.5-flash",
        onDeviceConfig = OnDeviceConfig(mode = InferenceMode.PREFER_ON_DEVICE)
    )


val response = model.generateContent("Write a story about a green robot.")
print(response.text)

Para obtener detalles de la implementación, consulta la documentación de Firebase y explora la muestra de IA híbrida en el catálogo de IA.

Enrutamiento personalizado

Si tu app tiene requisitos específicos de UX o empresariales, también puedes implementar lógica de enrutamiento personalizada. Esto te permite determinar de forma dinámica la ruta de inferencia según factores en tiempo real, como los siguientes:

  • Latencia de red
  • Estado del sistema del dispositivo (por ejemplo, niveles de batería y carga del procesador)
  • Complejidad de la búsqueda del usuario

Este enfoque de inferencia híbrida personalizada se usa en las principales apps que implementaron su propio enrutamiento personalizado para ofrecer experiencias de IA confiables, incluidas las siguientes:

  • GBoard: Gboard usa la inferencia híbrida personalizada para potenciar las herramientas de escritura, como la revisión y la reescritura.

  • Kakao Mobility: Kakao Mobility creó una herramienta de extracción de entidades con inferencia híbrida personalizada para su servicio de entrega de paquetes que extrae automáticamente los nombres, las direcciones y los números de teléfono de los destinatarios de los mensajes en lenguaje natural para optimizar los formularios de pedidos.