Hybride Inferenz

Google bietet eine große Auswahl an branchenführenden KI-Modellen und APIs für cloudbasierte und On-Device-Inferenz. Mit der hybriden Inferenz können Sie KI-Arbeitslasten nahtlos zwischen dem lokalen Gerät und der Cloud ausgleichen und so Leistung, Kosten und Verfügbarkeit optimieren.

Die hybride Inferenz bietet zwei Hauptvorteile für Ihre Android-App:

  • Maximale Reichweite: Cloud-Modelle dienen als wichtiger Fallback, wenn On-Device-Modelle wie Gemini Nano aufgrund von Hardware- oder Betriebssystembeschränkungen des Geräts nicht verfügbar sind. So wird sichergestellt, dass Ihre KI‑Funktionen auf möglichst vielen Nutzergeräten funktionieren.
  • Kosten und Offlinefunktionen: On-Device-Modelle sorgen dafür, dass Ihre KI-Funktionen auch dann nahtlos funktionieren, wenn der Nutzer offline ist. Außerdem können durch das Auslagern von Routineaufgaben auf das lokale Gerät die Kosten für Cloud-Inferenz reduziert werden.
Diagramm mit der Begründung für On-Device-Inferenz im Vergleich zur Cloud-Inferenz.
Abbildung 1: Die jeweiligen Vorteile der Inferenz auf dem Gerät und der Cloud-Inferenz.

Implementierungsoptionen

Sie können die hybride Inferenz mit den folgenden Ansätzen implementieren:

Firebase AI Logic Hybrid API

Die Firebase AI Logic Hybrid API bietet eine einheitliche Schnittstelle zum Aufteilen der Inferenz zwischen Cloud- und On-Device-Umgebungen.

Er enthält den Parameter onDeviceConfig, mit dem Sie den Inferenzmodus definieren und das Routing verwalten können:

  • PREFER_ON_DEVICE: Es wird versucht, das On-Device-Modell zu verwenden. Wenn das On-Device-Modell für die Anfrage nicht verfügbar oder nicht unterstützt wird, wird automatisch auf das in der Cloud gehostete Modell zurückgegriffen.
  • PREFER_IN_CLOUD: Es wird versucht, das in der Cloud gehostete Modell zu verwenden, wenn das Gerät online und das Modell verfügbar ist. Das On-Device-Modell wird nur verwendet, wenn das Gerät offline ist.
  • ONLY_ON_DEVICE: versucht, das On-Device-Modell zu verwenden, löst aber eine Ausnahme aus, wenn es für die Anfrage nicht verfügbar oder nicht unterstützt wird.
  • ONLY_IN_CLOUD: Versucht, das in der Cloud gehostete Modell zu verwenden, wenn das Gerät online und das Modell verfügbar ist. In allen anderen Fällen wird eine Ausnahme ausgelöst.
val model = Firebase.ai(backend = GenerativeBackend.googleAI())
    .generativeModel(
        modelName = "gemini-2.5-flash",
        onDeviceConfig = OnDeviceConfig(mode = InferenceMode.PREFER_ON_DEVICE)
    )


val response = model.generateContent("Write a story about a green robot.")
print(response.text)

Weitere Informationen zur Implementierung finden Sie in der Firebase-Dokumentation und im Hybrid AI-Beispiel im AI Catalog.

Benutzerdefiniertes Routing

Wenn Ihre App bestimmte geschäftliche oder UX-Anforderungen hat, können Sie auch eine benutzerdefinierte Routing-Logik implementieren. So können Sie den Inferenzpfad dynamisch anhand von Echtzeitfaktoren wie den folgenden bestimmen:

  • Netzwerklatenz
  • Systemzustand des Geräts (z. B. Akkustand und Prozessorlast)
  • Komplexität der Nutzeranfrage

Dieser benutzerdefinierte Hybrid-Inferenzansatz wird von führenden Apps verwendet, die ihr eigenes benutzerdefiniertes Routing implementiert haben, um zuverlässige KI-Funktionen bereitzustellen, darunter:

  • GBoard: Gboard verwendet benutzerdefinierte hybride Inferenz für die Schreibtools wie „Korrekturlesen“ und „Umformulieren“.

  • Kakao Mobility: Kakao Mobility hat für seinen Paketlieferdienst ein Tool zur Extraktion von Entitäten mit benutzerdefinierter hybrider Inferenz entwickelt, das automatisch Empfängernamen, Adressen und Telefonnummern aus Nachrichten in natürlicher Sprache extrahiert, um Bestellformulare zu optimieren.