A API Gemini Live oferece uma solução abrangente para implementar interfaces de conversa com o usuário. Ao criar para Android XR, é possível fazer a integração com a API Gemini Live usando a Firebase AI Logic. Ao contrário do uso da conversão de texto em voz (TTS) e do reconhecimento automático de fala (ASR), a API Gemini Live processa a entrada e a saída de áudio de maneira integrada. A API Gemini Live exige uma conexão de Internet persistente, gera custos, oferece suporte a um número limitado de conexões simultâneas por projeto e pode não ser ideal para lidar com condições de erro ou outras comunicações críticas do usuário, especialmente em óculos de IA sem tela.
Além de oferecer suporte a interfaces de áudio, você também pode usar a API Gemini Live para criar experiências de agente.
Para começar a usar a API Gemini Live, siga as etapas descritas no
guia da API Gemini Live. Ele mostra como instanciar e configurar um
LiveGenerativeModel, estabelecer um
LiveSession e criar instâncias
FunctionDeclaration personalizadas que permitem que seu app processe
solicitações do Gemini.