O Google oferece uma ampla seleção de modelos e APIs de IA líderes do setor para inferência baseada na nuvem e no dispositivo. Com a inferência híbrida, é possível equilibrar as cargas de trabalho de IA entre o dispositivo local e a nuvem, otimizando o desempenho, o custo e a disponibilidade.
A inferência híbrida oferece duas vantagens principais para seu app Android:
- Maximizar Alcance: os modelos de nuvem servem como um substituto essencial quando os modelos no dispositivo, como o Gemini Nano, não estão disponíveis devido a restrições de hardware ou SO do dispositivo. Isso ajuda a garantir que os recursos de IA permaneçam funcionais no maior número possível de dispositivos dos usuários.
- Custo e recursos off-line: os modelos no dispositivo ajudam a garantir que os recursos de IA funcionem sem problemas quando o usuário está off-line. Além disso, ao descarregar tarefas rotineiras para o dispositivo local, é possível reduzir os custos de inferência na nuvem.
Opções de implementação
É possível implementar a inferência híbrida usando as seguintes abordagens:
API híbrida do Firebase AI Logic
A API híbrida do Firebase AI Logic oferece uma interface única e unificada para dividir a inferência entre ambientes de nuvem e no dispositivo.
Ele inclui um parâmetro onDeviceConfig que oferece controles simples para definir o modo de inferência e gerenciar o roteamento:
PREFER_ON_DEVICE: tenta usar o modelo no dispositivo, voltando automaticamente para o modelo hospedado na nuvem se o modelo no dispositivo não estiver disponível ou não for compatível com a solicitação.PREFER_IN_CLOUD: tenta usar o modelo hospedado na nuvem quando o dispositivo está on-line e o modelo está disponível, voltando ao modelo no dispositivo apenas se o dispositivo estiver off-line.ONLY_ON_DEVICE: tenta usar o modelo no dispositivo, mas gera uma exceção se ele não estiver disponível ou não for compatível com a solicitação.ONLY_IN_CLOUD: tenta usar o modelo hospedado na nuvem quando o dispositivo está on-line e o modelo está disponível, gerando uma exceção em todos os outros casos.
val model = Firebase.ai(backend = GenerativeBackend.googleAI())
.generativeModel(
modelName = "gemini-2.5-flash",
onDeviceConfig = OnDeviceConfig(mode = InferenceMode.PREFER_ON_DEVICE)
)
val response = model.generateContent("Write a story about a green robot.")
print(response.text)
Para detalhes da implementação, consulte a documentação do Firebase e confira o exemplo de IA híbrida no catálogo de IA.
Roteamento personalizado
Se o app tiver requisitos específicos de negócios ou UX, também será possível implementar uma lógica de roteamento personalizada. Isso permite determinar dinamicamente o caminho de inferência com base em fatores em tempo real, como:
- Latência de rede
- Integridade do sistema do dispositivo (por exemplo, níveis de bateria e carga do processador)
- Complexidade da consulta do usuário
Essa abordagem de inferência híbrida personalizada é usada por apps líderes que implementaram o próprio roteamento personalizado para oferecer experiências de IA confiáveis, incluindo:
GBoard: o Gboard usa inferência híbrida personalizada para ativar os recursos de escrita, como revisão e reescrita.
Kakao Mobility: a Kakao Mobility criou uma ferramenta de extração de entidades usando inferência híbrida personalizada para o serviço de entrega de encomendas, que extrai automaticamente nomes de destinatários, endereços e números de telefone de mensagens em linguagem natural para simplificar formulários de pedidos.