Panduan ini dirancang untuk membantu Anda mengintegrasikan solusi kecerdasan buatan (AI) dan machine learning (ML) generatif Google ke dalam aplikasi Anda. Panduan ini akan membantu Anda memahami berbagai solusi kecerdasan buatan dan machine learning yang tersedia serta memilih solusi yang paling sesuai dengan kebutuhan Anda. Tujuan dokumen ini adalah membantu Anda menentukan alat mana yang akan digunakan dan alasannya, dengan berfokus pada kebutuhan dan kasus penggunaan Anda.
Untuk membantu Anda memilih solusi AI/ML yang paling sesuai dengan persyaratan spesifik Anda, dokumen ini menyertakan panduan solusi. Dengan menjawab serangkaian pertanyaan tentang tujuan dan batasan project Anda, panduan ini akan mengarahkan Anda ke alat dan teknologi yang paling tepat.
Panduan ini membantu Anda memilih solusi AI terbaik untuk aplikasi Anda. Pertimbangkan faktor-faktor berikut: jenis data (teks, gambar, audio, video), kompleksitas tugas (ringkasan sederhana hingga tugas kompleks yang memerlukan pengetahuan khusus), dan ukuran data (input singkat versus dokumen besar). Hal ini akan membantu Anda memutuskan antara menggunakan Gemini Nano di perangkat Anda atau AI berbasis cloud Firebase (Gemini Flash, Gemini Pro, atau Imagen).
Memanfaatkan kecanggihan inferensi pada perangkat
Saat menambahkan fitur AI dan ML ke aplikasi Android, Anda dapat memilih berbagai cara untuk menyediakannya – baik di perangkat maupun menggunakan cloud.
Solusi di perangkat seperti Gemini Nano memberikan hasil tanpa biaya tambahan, memberikan privasi pengguna yang ditingkatkan, dan menyediakan fungsi offline yang andal karena data input diproses secara lokal. Manfaat ini dapat menjadi sangat penting untuk kasus penggunaan tertentu, seperti ringkasan pesan, sehingga menjadikan penggunaan di perangkat sebagai prioritas saat memilih solusi yang tepat.
Gemini Nano memungkinkan Anda menjalankan inferensi langsung di perangkat yang didukung Android. Jika Anda bekerja dengan teks, gambar, atau audio, mulailah dengan GenAI API ML Kit untuk solusi siap pakai. API GenAI ML Kit didukung oleh Gemini Nano dan disesuaikan secara khusus untuk tugas di perangkat tertentu. API GenAI ML Kit adalah jalur ideal untuk produksi aplikasi Anda karena antarmuka dan skalabilitasnya yang lebih tinggi. API ini memungkinkan Anda menerapkan kasus penggunaan untuk meringkas, mengoreksi, dan menulis ulang teks, membuat deskripsi gambar, dan melakukan pengenalan ucapan.
Untuk melampaui kasus penggunaan mendasar yang disediakan oleh API GenAI ML Kit, pertimbangkan Akses Eksperimental Gemini Nano. Akses Eksperimental Gemini Nano memberi Anda akses yang lebih langsung ke perintah kustom dengan Gemini Nano.
Untuk tugas machine learning tradisional, Anda memiliki fleksibilitas untuk menerapkan model kustom Anda sendiri. Kami menyediakan alat yang andal seperti ML Kit, MediaPipe, LiteRT, dan fitur pengiriman Google Play untuk menyederhanakan proses pengembangan Anda.
Untuk aplikasi yang memerlukan solusi yang sangat khusus, Anda dapat menggunakan model kustom Anda sendiri, seperti Gemma atau model lain yang disesuaikan dengan kasus penggunaan spesifik Anda. Jalankan model Anda langsung di perangkat pengguna dengan LiteRT, yang menyediakan arsitektur model yang telah didesain sebelumnya untuk performa yang dioptimalkan.
Anda juga dapat mempertimbangkan untuk membuat solusi hybrid dengan memanfaatkan model di perangkat dan cloud.
Aplikasi seluler biasanya menggunakan model lokal untuk data teks kecil, seperti percakapan chat atau artikel blog. Namun, untuk sumber data yang lebih besar (seperti PDF) atau jika diperlukan pengetahuan tambahan, solusi berbasis cloud dengan model Gemini yang lebih canggih mungkin diperlukan.
Mengintegrasikan model Gemini Advanced
Developer Android dapat mengintegrasikan kemampuan AI generatif canggih Google, termasuk model Gemini Pro, Gemini Flash, dan Imagen yang canggih, ke dalam aplikasi mereka menggunakan Firebase AI Logic SDK. SDK ini dirancang untuk kebutuhan data yang lebih besar dan memberikan kemampuan serta kemampuan beradaptasi yang lebih luas dengan memungkinkan akses ke model AI multimodal berperforma tinggi ini.
Dengan Firebase AI Logic SDK, developer dapat melakukan panggilan sisi klien ke model AI Google dengan sedikit upaya. Model ini, seperti Gemini Pro dan Gemini Flash, menjalankan inferensi di cloud dan memungkinkan aplikasi Android memproses berbagai input, termasuk gambar, audio, video, dan teks. Gemini Pro unggul dalam penalaran atas masalah yang kompleks dan menganalisis data yang ekstensif, sementara seri Gemini Flash menawarkan kecepatan yang lebih tinggi dan jendela konteks yang cukup besar untuk sebagian besar tugas.
Kapan harus menggunakan machine learning tradisional
Meskipun AI generatif berguna untuk membuat dan mengedit konten seperti teks, gambar, dan kode, banyak masalah di dunia nyata lebih baik diselesaikan menggunakan teknik Machine Learning (ML) tradisional. Metode yang sudah mapan ini unggul dalam tugas yang melibatkan prediksi, klasifikasi, deteksi, dan pemahaman pola dalam data yang ada, sering kali dengan efisiensi yang lebih besar, biaya komputasi yang lebih rendah, dan penerapan yang lebih sederhana daripada model generatif.
Framework ML tradisional menawarkan solusi yang tangguh, dioptimalkan, dan sering kali lebih praktis untuk aplikasi yang berfokus pada analisis input, identifikasi fitur, atau pembuatan prediksi berdasarkan pola yang dipelajari, bukan menghasilkan output yang sepenuhnya baru. Alat seperti ML Kit, LiteRT, dan MediaPipe Google menyediakan kemampuan canggih yang disesuaikan untuk kasus penggunaan non-generatif ini, terutama di lingkungan komputasi mobile dan edge.
Mulai integrasi machine learning Anda dengan ML Kit
ML Kit menawarkan solusi yang siap produksi dan dioptimalkan untuk perangkat seluler untuk tugas machine learning umum, tanpa memerlukan keahlian ML sebelumnya. SDK seluler yang mudah digunakan ini menghadirkan keahlian ML Google langsung ke aplikasi Android dan iOS Anda, sehingga Anda dapat berfokus pada pengembangan fitur, bukan pelatihan dan pengoptimalan model. ML Kit menyediakan API bawaan dan model siap pakai untuk fitur seperti pemindaian kode batang, pengenalan teks (OCR), deteksi wajah, pelabelan gambar, deteksi dan pelacakan objek, identifikasi bahasa, dan smart reply.
Model ini biasanya dioptimalkan untuk eksekusi di perangkat, sehingga memastikan latensi rendah, fungsionalitas offline, dan privasi pengguna yang ditingkatkan karena data sering kali tetap berada di perangkat. Pilih ML Kit untuk menambahkan fitur ML yang sudah ada ke aplikasi seluler Anda dengan cepat tanpa perlu melatih model atau memerlukan output generatif. Ideal untuk meningkatkan kualitas aplikasi secara efisien dengan kemampuan "pintar" menggunakan model yang dioptimalkan Google atau dengan men-deploy model TensorFlow Lite kustom.
Mulai dengan panduan dan dokumentasi komprehensif kami di situs developer ML Kit.
Deployment ML kustom dengan LiteRT
Untuk kontrol yang lebih besar atau men-deploy model ML Anda sendiri, gunakan stack ML kustom yang dibangun di LiteRT dan layanan Google Play. Stack ini menyediakan hal-hal penting untuk men-deploy fitur ML berperforma tinggi. LiteRT adalah toolkit yang dioptimalkan untuk menjalankan model TensorFlow secara efisien di perangkat seluler, perangkat embedded, dan perangkat edge yang memiliki keterbatasan resource, sehingga Anda dapat menjalankan model yang jauh lebih kecil dan lebih cepat yang menggunakan lebih sedikit memori, daya, dan penyimpanan. Runtime LiteRT sangat dioptimalkan untuk berbagai akselerator hardware (GPU, DSP, NPU) di perangkat edge, sehingga memungkinkan inferensi latensi rendah.
Pilih LiteRT saat Anda perlu men-deploy model ML terlatih secara efisien (biasanya untuk klasifikasi, regresi, atau deteksi) di perangkat dengan daya komputasi atau daya tahan baterai yang terbatas, seperti smartphone, perangkat IoT, atau mikrokontroler. Ini adalah solusi pilihan untuk men-deploy model prediktif kustom atau standar di perangkat edge yang mengutamakan kecepatan dan konservasi resource.
Pelajari lebih lanjut deployment ML dengan LiteRT.
Membangun persepsi real-time ke dalam aplikasi Anda dengan MediaPipe
MediaPipe menyediakan solusi machine learning lintas platform open source yang dapat disesuaikan dan dirancang untuk media live dan streaming. Manfaatkan alat bawaan yang telah dioptimalkan untuk tugas kompleks seperti pelacakan tangan, estimasi postur, deteksi mesh wajah, dan deteksi objek, yang semuanya memungkinkan interaksi real-time berperforma tinggi bahkan di perangkat seluler.
Pipeline berbasis grafik MediaPipe sangat dapat disesuaikan, sehingga Anda dapat menyesuaikan solusi untuk aplikasi Android, iOS, web, desktop, dan backend. Pilih MediaPipe saat aplikasi Anda perlu memahami dan bereaksi secara instan terhadap data sensor langsung, terutama streaming video, untuk kasus penggunaan seperti pengenalan gestur, efek AR, pelacakan kebugaran, atau kontrol avatar—semuanya berfokus pada analisis dan interpretasi input.
Jelajahi solusi dan mulai membangun dengan MediaPipe.
Pilih pendekatan: Di perangkat atau cloud
Saat mengintegrasikan fitur AI/ML ke dalam aplikasi Android, keputusan awal yang penting adalah apakah akan melakukan pemrosesan langsung di perangkat pengguna atau di cloud. Alat seperti ML Kit, Gemini Nano, dan TensorFlow Lite memungkinkan kemampuan di perangkat, sementara Gemini Cloud API dengan Firebase AI Logic dapat menyediakan pemrosesan berbasis cloud yang canggih. Membuat pilihan yang tepat bergantung pada berbagai faktor khusus untuk kasus penggunaan dan kebutuhan pengguna Anda.
Pertimbangkan aspek berikut untuk memandu keputusan Anda:
- Konektivitas dan fungsi offline: Jika aplikasi Anda perlu berfungsi dengan andal tanpa koneksi internet, solusi di perangkat seperti Gemini Nano sangat ideal. Pemrosesan berbasis cloud, secara alami, memerlukan akses jaringan.
- Privasi data: Untuk kasus penggunaan di mana data pengguna harus tetap berada di perangkat karena alasan privasi, pemrosesan di perangkat menawarkan keunggulan tersendiri dengan menjaga informasi sensitif tetap berada di perangkat.
- Kemampuan model dan kompleksitas tugas: Model berbasis cloud sering kali jauh lebih besar, lebih canggih, dan lebih sering diupdate, sehingga cocok untuk tugas AI yang sangat kompleks atau saat memproses input yang lebih besar dengan kualitas output yang lebih tinggi dan kemampuan yang lebih luas. Tugas yang lebih sederhana dapat ditangani dengan baik oleh model di perangkat.
- Pertimbangan biaya: Cloud API biasanya melibatkan harga berbasis penggunaan, yang berarti biaya dapat diskalakan dengan jumlah inferensi atau jumlah data yang diproses. Inferensi di perangkat, meskipun umumnya bebas dari biaya langsung per penggunaan, menimbulkan biaya pengembangan dan dapat memengaruhi resource perangkat seperti daya tahan baterai dan performa keseluruhan.
- Resource perangkat: Model di perangkat menggunakan ruang penyimpanan di perangkat pengguna. Anda juga harus mengetahui kompatibilitas perangkat dari model di perangkat tertentu, seperti Gemini Nano, untuk memastikan audiens target Anda dapat menggunakan fitur tersebut.
- Penyesuaian dan kustomisasi: Jika Anda memerlukan kemampuan untuk menyesuaikan model untuk kasus penggunaan spesifik Anda, solusi berbasis cloud umumnya menawarkan fleksibilitas yang lebih besar dan opsi kustomisasi yang lebih luas.
- Konsistensi lintas platform: Jika fitur AI yang konsisten di beberapa platform, termasuk iOS, sangat penting, perlu diingat bahwa beberapa solusi di perangkat, seperti Gemini Nano, mungkin belum tersedia di semua sistem operasi.
Dengan mempertimbangkan secara cermat persyaratan kasus penggunaan dan opsi yang tersedia, Anda dapat menemukan solusi AI/ML yang sempurna untuk meningkatkan kualitas aplikasi Android dan memberikan pengalaman yang cerdas dan dipersonalisasi kepada pengguna.
Panduan untuk solusi AI/ML
Panduan solusi ini dapat membantu Anda mengidentifikasi alat developer yang sesuai untuk mengintegrasikan teknologi AI/ML ke dalam project Android Anda.
Apa tujuan utama fitur AI?
- A) Membuat konten baru (teks, deskripsi gambar), atau melakukan pemrosesan teks sederhana (meringkas, mengoreksi, atau menulis ulang teks)? → Buka AI Generatif
- B) Menganalisis data/input yang ada untuk prediksi, klasifikasi, deteksi, memahami pola, atau memproses streaming real-time (seperti video/audio)? → Buka ML & Persepsi Tradisional
ML dan persepsi tradisional
Anda perlu menganalisis input, mengidentifikasi fitur, atau membuat prediksi berdasarkan pola yang dipelajari, bukan menghasilkan output yang benar-benar baru.
Tugas spesifik apa yang Anda lakukan?
- A) Perlu integrasi cepat fitur ML seluler umum yang telah dibuat sebelumnya?
(misalnya, pemindaian kode batang, pengenalan teks (OCR), deteksi wajah, pelabelan gambar, deteksi dan pelacakan objek, ID bahasa, smart reply dasar)
- → Penggunaan: ML Kit (API Tradisional)
- Alasan: Integrasi paling mudah untuk tugas ML seluler yang sudah ada, sering kali dioptimalkan untuk penggunaan di perangkat (latensi rendah, offline, privasi).
- B) Perlu memproses data streaming real-time (seperti video atau audio) untuk
tugas persepsi? (misalnya, pelacakan tangan, estimasi pose, mesh wajah,
Deteksi dan segmentasi objek real-time dalam video)
- → Penggunaan: MediaPipe
- Alasan: Framework khusus untuk pipeline persepsi real-time berperforma tinggi di berbagai platform.
- C) Perlu menjalankan model ML yang dilatih khusus secara efisien (misalnya, untuk klasifikasi, regresi, deteksi) di perangkat, dengan memprioritaskan performa dan penggunaan resource yang rendah?
- → Penggunaan: LiteRT (TensorFlow Lite Runtime)
- Alasan: Runtime yang dioptimalkan untuk men-deploy model kustom secara efisien di perangkat seluler dan edge (ukuran kecil, inferensi cepat, akselerasi hardware).
- D) Perlu melatih model ML kustom Anda sendiri untuk tugas tertentu?
- → Penggunaan: LiteRT (TensorFlow Lite Runtime) + pelatihan model kustom
- Alasan: Menyediakan alat untuk melatih dan men-deploy model kustom, yang dioptimalkan untuk perangkat seluler dan edge.
- E) Perlu klasifikasi konten lanjutan, analisis sentimen, atau
terjemahan banyak bahasa dengan nuansa yang tinggi?
- Pertimbangkan apakah model ML tradisional (yang berpotensi di-deploy menggunakan LiteRT atau cloud) cocok, atau apakah NLU tingkat lanjut memerlukan model generatif (kembali ke Mulai, pilih A). Untuk klasifikasi, sentimen, atau terjemahan berbasis cloud:
- → Penggunaan: Solusi berbasis cloud (misalnya, Google Cloud Natural Language API, Google Cloud Translation API, berpotensi diakses menggunakan backend kustom atau Vertex AI). (Prioritas lebih rendah daripada opsi di perangkat jika offline atau privasi adalah hal yang penting).
- Alasan: Solusi cloud menawarkan model yang canggih dan dukungan bahasa yang luas, tetapi memerlukan konektivitas dan dapat menimbulkan biaya.
AI Generatif
Anda perlu membuat konten baru, meringkas, menulis ulang, atau melakukan tugas pemahaman atau interaksi yang kompleks.
Apakah Anda memerlukan AI untuk berfungsi offline, memerlukan privasi data maksimum (mempertahankan data pengguna di perangkat), atau ingin menghindari biaya inferensi cloud?
- A) Ya, offline, privasi maksimum, atau tanpa biaya cloud sangat penting.
- → Buka AI generatif di perangkat
- B) Tidak, konektivitas tersedia dan dapat diterima, kapabilitas dan skalabilitas cloud lebih penting, atau fitur tertentu memerlukan cloud.
- → Buka AI generatif cloud
AI generatif di perangkat (Menggunakan Gemini Nano)
Peringatan: Memerlukan perangkat Android yang kompatibel, dukungan iOS terbatas, batas token tertentu (1024 perintah, 4096 konteks), model kurang canggih dibandingkan model cloud.
Apakah kasus penggunaan Anda secara khusus cocok dengan tugas yang disederhanakan yang ditawarkan oleh API GenAI ML Kit? (meringkas teks, mengoreksi teks, menulis ulang teks, membuat deskripsi gambar, atau melakukan pengenalan ucapan) DAN apakah batas tokennya cukup?
- A) Ya:
- → Penggunaan: API GenAI ML Kit (didukung oleh Gemini Nano)
- Alasan: Cara termudah untuk mengintegrasikan tugas generatif umum tertentu di perangkat, solusi di perangkat dengan prioritas tertinggi.
- B) Tidak (Anda memerlukan perintah atau tugas yang lebih fleksibel di luar API GenAI ML Kit tertentu, tetapi tetap menginginkan eksekusi di perangkat dalam kemampuan Nano):
- → Penggunaan: Akses Eksperimental Gemini Nano
- Alasan: Menyediakan kemampuan perintah terbuka di perangkat untuk kasus penggunaan di luar API GenAI ML Kit terstruktur, dengan mematuhi batasan Nano.
AI generatif cloud
Menggunakan model yang lebih canggih, memerlukan konektivitas, biasanya melibatkan biaya inferensi, menawarkan jangkauan perangkat yang lebih luas dan konsistensi lintas platform (Android dan iOS) yang lebih mudah.
Apa prioritas Anda: Kemudahan integrasi dalam Firebase ATAU fleksibilitas/kontrol maksimum?
- A) Lebih memilih integrasi yang lebih mudah, pengalaman API terkelola, dan kemungkinan
sudah menggunakan Firebase?
- → Penggunaan: Firebase AI Logic SDK → Buka Firebase AI Logic
- B) Membutuhkan fleksibilitas maksimum, akses ke berbagai model (termasuk pihak ketiga/kustom), penyesuaian lanjutan, dan bersedia mengelola integrasi backend sendiri (lebih rumit)?
- → Penggunaan: Gemini API dengan Backend Cloud Kustom (menggunakan Google Cloud Platform)
- Alasan: Menawarkan kontrol paling besar, akses model terluas, dan opsi pelatihan kustom, tetapi memerlukan upaya pengembangan backend yang signifikan. Cocok untuk kebutuhan yang kompleks, berskala besar, atau sangat disesuaikan.
(Anda memilih Firebase AI Logic SDK) Jenis tugas generatif dan profil performa apa yang Anda butuhkan?
- A) Membutuhkan keseimbangan antara performa dan biaya, cocok untuk aplikasi pembuatan, ringkasan, atau chat teks umum yang mengutamakan kecepatan?
- → Penggunaan: Firebase AI Logic SDK dengan Gemini Flash
- Alasan: Dioptimalkan untuk kecepatan dan efisiensi dalam lingkungan terkelola Vertex AI.
- B) Membutuhkan kualitas dan kemampuan yang lebih tinggi untuk pembuatan teks yang kompleks, penalaran, NLU tingkat lanjut, atau mengikuti petunjuk?
- → Penggunaan: Firebase AI Logic SDK dengan Gemini Pro
- Alasan: Model teks yang lebih canggih untuk tugas yang berat, diakses melalui Firebase.
- C) Membutuhkan pembuatan gambar yang canggih atau pemahaman atau manipulasi gambar tingkat lanjut berdasarkan perintah teks?
- → Penggunaan: Firebase AI Logic SDK dengan Imagen 3
- Mengapa: Model pembuatan gambar canggih yang diakses menggunakan lingkungan Firebase terkelola.