La API de Gemini Live proporciona una solución integral para implementar interfaces conversacionales con tu usuario. Cuando compilas para Android XR, puedes realizar la integración con la API de Gemini Live a través de Firebase AI Logic. A diferencia del uso de Text-to-Speech (TTS) y el reconocimiento de voz automático (ASR), la API de Gemini Live controla la entrada y la salida de audio de forma fluida. La API de Gemini Live requiere una conexión a Internet persistente , genera costos, admite una cantidad limitada de conexiones simultáneas por proyecto y podría no ser ideal para controlar las condiciones de error o cualquier otra comunicación crítica del usuario , en especial en los lentes de audio, ya que no tienen pantalla.
Además de admitir interfaces de audio, también puedes usar la API de Gemini Live para crear experiencias de agentes.
Para comenzar a usar la API de Gemini Live, sigue los pasos que se describen en la
guía de la API de Gemini Live. Te guía por la creación de instancias y la configuración de un
LiveGenerativeModel, el establecimiento de un
LiveSession y la creación de instancias
FunctionDeclaration personalizadas que permiten que tu app procese
solicitudes de Gemini.