Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Hybride Inferenz

Google bietet eine umfangreiche Auswahl branchenführender KI-Modelle und APIs für die Cloud-basierte und die On-Device-Inferenz. Mit der hybriden Inferenz können Sie KI-Arbeitslasten nahtlos zwischen dem lokalen Gerät und der Cloud ausgleichen und so Leistung, Kosten und Verfügbarkeit optimieren.

Die hybride Inferenz bietet zwei Hauptvorteile für Ihre Android-App:

Maximale Reichweite: Cloud-Modelle dienen als wichtiger Fallback, wenn On-Device- Modelle wie Gemini Nano aufgrund von Hardware- oder Betriebssystem- beschränkungen nicht verfügbar sind. So bleiben Ihre KI-Funktionen auf einer möglichst großen Bandbreite von Nutzergeräten funktionsfähig.
Kosten und Offlinefunktionen: On-Device-Modelle sorgen dafür, dass Ihre KI Funktionen auch dann nahtlos funktionieren, wenn der Nutzer offline ist. Außerdem können Sie durch das Auslagern von Routineaufgaben auf das lokale Gerät die Kosten für die Cloud-Inferenz senken.

Hier sind die Vorteile der On-Device-Inferenz und der Cloud-Inferenz:

On-Device-Inferenz	Cloud-Inferenz
Offline verfügbar	Mit jedem Gerät kompatibel
Keine Inferenzkosten	Erweiterte Modellfunktionen

Implementierungsmöglichkeiten

Sie können die hybride Inferenz mit den folgenden Ansätzen implementieren:

Hybride Firebase AI Logic API

Die hybride Firebase AI Logic API bietet eine einheitliche Schnittstelle zum Aufteilen der Inferenz zwischen Cloud- und On-Device-Umgebungen.

Sie enthält den onDeviceConfig Parameter, mit dem Sie den Inferenzmodus definieren und das Routing verwalten können:

PREFER_ON_DEVICE: Es wird versucht, das On-Device-Modell zu verwenden. Wenn das On-Device-Modell nicht verfügbar ist oder für die Anfrage nicht unterstützt wird, wird automatisch auf das in der Cloud gehostete Modell zurückgegriffen.
PREFER_IN_CLOUD: Es wird versucht, das in der Cloud gehostete Modell zu verwenden, wenn das Gerät online und das Modell verfügbar ist. Nur wenn das Gerät offline ist, wird auf das On-Device-Modell zurückgegriffen.
ONLY_ON_DEVICE: Es wird versucht, das On-Device-Modell zu verwenden. Wenn es nicht verfügbar ist oder für die Anfrage nicht unterstützt wird, wird eine Ausnahme ausgelöst.
ONLY_IN_CLOUD: Es wird versucht, das in der Cloud gehostete Modell zu verwenden, wenn das Gerät online und das Modell verfügbar ist. In allen anderen Fällen wird eine Ausnahme ausgelöst.

val model = Firebase.ai(backend = GenerativeBackend.Companion.googleAI())
    .generativeModel(
        modelName = "gemini-2.5-flash",
        onDeviceConfig = OnDeviceConfig(mode = InferenceMode.Companion.PREFER_ON_DEVICE)
    )

val response = model.generateContent("Write a story about a green robot.")
print(response.text)HybridInferenceSnippets.kt

Weitere Informationen zur Implementierung finden Sie in der Firebase-Dokumentation und erkunden Sie das Hybrid-KI-Beispiel im KI-Katalog.

Benutzerdefiniertes Routing

Wenn Ihre App bestimmte geschäftliche oder UX-Anforderungen hat, können Sie auch eine benutzerdefinierte Routinglogik implementieren. So können Sie den Inferenzpfad dynamisch anhand von Echtzeitfaktoren bestimmen, z. B.:

Netzwerklatenz
Systemzustand des Geräts (z. B. Akkustand und Prozessorauslastung)
Komplexität der Nutzeranfrage

Dieser benutzerdefinierte Ansatz für die hybride Inferenz wird von führenden Apps verwendet, die ihr eigenes benutzerdefiniertes Routing implementiert haben, um zuverlässige KI-Funktionen bereitzustellen, darunter:

Gboard: Gboard verwendet die benutzerdefinierte hybride Inferenz für die Schreibtools wie die Rechtschreibprüfung und das Umschreiben.
Kakao Mobility: Kakao Mobility hat für seinen Paketlieferdienst ein Tool zur Entitätsextraktion mit benutzerdefinierter hybrider Inferenz entwickelt, das automatisch Namen, Adressen und Telefonnummern von Empfängern aus Nachrichten in natürlicher Sprache extrahiert, um Bestellformulare zu optimieren.

Hybride Inferenz Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Implementierungsmöglichkeiten

Hybride Firebase AI Logic API

Benutzerdefiniertes Routing

Hybride Inferenz