Google menyediakan berbagai pilihan model dan API AI terdepan di industri untuk inferensi berbasis cloud dan di perangkat. Inferensi hybrid memungkinkan Anda menyeimbangkan workload AI dengan lancar antara perangkat lokal dan cloud, sehingga mengoptimalkan performa, biaya, dan ketersediaan.
Inferensi hybrid memberikan dua keuntungan utama untuk aplikasi Android Anda:
- Memaksimalkan jangkauan: Model cloud berfungsi sebagai pengganti penting saat model di perangkat, seperti Gemini Nano, tidak tersedia karena batasan hardware atau OS perangkat. Hal ini membantu memastikan fitur AI Anda tetap berfungsi di berbagai perangkat pengguna seluas mungkin.
- Biaya dan kemampuan offline: Model di perangkat membantu memastikan fitur AI Anda berfungsi dengan lancar saat pengguna offline. Selain itu, mengalihkan tugas rutin ke perangkat lokal membantu mengurangi biaya inferensi cloud.
Opsi penerapan
Anda dapat menerapkan inferensi hibrida menggunakan pendekatan berikut:
Firebase AI Logic Hybrid API
Firebase AI Logic Hybrid API menyediakan satu antarmuka terpadu untuk membagi inferensi antara lingkungan cloud dan di perangkat.
Parameter ini mencakup parameter onDeviceConfig yang menyediakan kontrol sederhana untuk menentukan
mode inferensi dan mengelola perutean:
PREFER_ON_DEVICE: mencoba menggunakan model di perangkat, otomatis kembali ke model yang dihosting di cloud jika model di perangkat tidak tersedia atau tidak didukung untuk permintaan.PREFER_IN_CLOUD: mencoba menggunakan model yang dihosting di cloud saat perangkat online dan model tersedia, serta melakukan penggantian ke model di perangkat hanya jika perangkat offline.ONLY_ON_DEVICE: mencoba menggunakan model di perangkat, tetapi akan menampilkan pengecualian jika model tidak tersedia atau tidak didukung untuk permintaan.ONLY_IN_CLOUD: mencoba menggunakan model yang dihosting di cloud saat perangkat online dan model tersedia, serta menampilkan pengecualian dalam semua kasus lainnya.
val model = Firebase.ai(backend = GenerativeBackend.googleAI())
.generativeModel(
modelName = "gemini-2.5-flash",
onDeviceConfig = OnDeviceConfig(mode = InferenceMode.PREFER_ON_DEVICE)
)
val response = model.generateContent("Write a story about a green robot.")
print(response.text)
Untuk mengetahui detail implementasi, tinjau dokumentasi Firebase dan pelajari contoh AI Hybrid di katalog AI.
Pemilihan rute kustom
Jika aplikasi Anda memiliki persyaratan bisnis atau UX tertentu, Anda juga dapat menerapkan logika perutean kustom. Hal ini memungkinkan Anda menentukan jalur inferensi secara dinamis berdasarkan faktor real-time, seperti:
- Latensi jaringan
- Kondisi sistem perangkat (misalnya, level baterai dan beban prosesor)
- Kompleksitas kueri pengguna
Pendekatan inferensi hibrida kustom ini digunakan oleh aplikasi terkemuka yang menerapkan perutean kustom mereka sendiri untuk memberikan pengalaman AI yang andal, termasuk:
GBoard: Gboard menggunakan inferensi hibrida kustom untuk mendukung alat penulisan seperti pemeriksaan tata bahasa dan penulisan ulang.
Kakao Mobility: Kakao Mobility membuat alat Ekstraksi Entitas menggunakan inferensi hibrida kustom untuk layanan pengiriman paket mereka yang secara otomatis mengekstrak nama penerima, alamat, dan nomor telepon dari pesan natural language untuk menyederhanakan formulir pesanan.