Google propose une vaste sélection de modèles et d'API d'IA de pointe pour l'inférence dans le cloud et sur l'appareil. L'inférence hybride vous permet d'équilibrer de manière transparente les charges de travail d'IA entre l'appareil local et le cloud, en optimisant les performances, les coûts et la disponibilité.
L'inférence hybride offre deux avantages principaux pour votre application Android :
- Maximiser la couverture : les modèles cloud servent de solution de secours essentielle lorsque les modèles sur l'appareil, tels que Gemini Nano, ne sont pas disponibles en raison de contraintes matérielles ou du système d'exploitation de l'appareil. Cela permet de s'assurer que vos fonctionnalités d'IA restent fonctionnelles sur la plus large gamme possible d'appareils utilisateur.
- Coût et fonctionnalités hors connexion : les modèles sur l'appareil permettent de s'assurer que vos fonctionnalités d'IA fonctionnent de manière transparente lorsque l'utilisateur est hors connexion. De plus, le déchargement des tâches de routine sur l'appareil local permet de réduire les coûts d'inférence dans le cloud.
Options d'implémentation
Vous pouvez implémenter l'inférence hybride à l'aide des approches suivantes :
API hybride Firebase AI Logic
L'API hybride Firebase AI Logic fournit une interface unique et unifiée pour diviser l'inférence entre les environnements cloud et sur l'appareil.
Elle inclut un paramètre onDeviceConfig qui fournit des commandes simples pour définir le
mode d’inférence et gérer le routage :
PREFER_ON_DEVICE: tente d'utiliser le modèle sur l'appareil et bascule automatiquement vers le modèle hébergé dans le cloud si le modèle sur l'appareil n'est pas disponible ou n'est pas compatible avec la requête.PREFER_IN_CLOUD: tente d'utiliser le modèle hébergé dans le cloud lorsque l'appareil est connecté et que le modèle est disponible, et bascule vers le modèle sur l'appareil uniquement si l'appareil est hors connexion.ONLY_ON_DEVICE: tente d'utiliser le modèle sur l'appareil, mais génère une exception s'il n'est pas disponible ou n'est pas compatible avec la requête.ONLY_IN_CLOUD: tente d'utiliser le modèle hébergé dans le cloud lorsque l'appareil est connecté et que le modèle est disponible, et génère une exception dans tous les autres cas.
val model = Firebase.ai(backend = GenerativeBackend.googleAI())
.generativeModel(
modelName = "gemini-2.5-flash",
onDeviceConfig = OnDeviceConfig(mode = InferenceMode.PREFER_ON_DEVICE)
)
val response = model.generateContent("Write a story about a green robot.")
print(response.text)
Pour en savoir plus sur l'implémentation, consultez la documentation Firebase et explorez l'exemple d'IA hybride dans le catalogue d'IA.
Routage personnalisé
Si votre application présente des exigences spécifiques en termes d'UX ou d'activité, vous pouvez également implémenter une logique de routage personnalisée. Cela vous permet de déterminer de manière dynamique le chemin d'inférence en fonction de facteurs en temps réel, tels que :
- Latence du réseau
- État du système de l'appareil (par exemple, niveau de la batterie et charge du processeur)
- Complexité de la requête utilisateur
Cette approche d'inférence hybride personnalisée est utilisée par des applications de premier plan qui ont implémenté leur propre routage personnalisé pour offrir des expériences d'IA fiables, y compris :
GBoard: Gboard utilise l'inférence hybride personnalisée pour alimenter les outils d'écriture tels que la relecture et la réécriture.
Kakao Mobility : Kakao Mobility a créé un outil d'extraction d'entités à l'aide de l'inférence hybride personnalisée pour son service de livraison de colis. Cet outil extrait automatiquement les noms, adresses et numéros de téléphone des destinataires à partir de messages en langage naturel afin de simplifier les bons de commande.