Google cung cấp nhiều mô hình và API AI hàng đầu trong ngành cho cả suy luận dựa trên đám mây và trên thiết bị. Suy luận kết hợp cho phép bạn cân bằng liền mạch các tải công việc AI (trí tuệ nhân tạo) giữa thiết bị cục bộ và đám mây, tối ưu hoá hiệu suất, chi phí và khả năng cung cấp.
Suy luận kết hợp mang lại 2 lợi ích chính cho ứng dụng Android của bạn:
- Tối đa hoá phạm vi tiếp cận: Các mô hình đám mây đóng vai trò là giải pháp dự phòng quan trọng khi các mô hình trên thiết bị (chẳng hạn như Gemini Nano) không hoạt động do các hạn chế về phần cứng hoặc hệ điều hành của thiết bị. Điều này giúp đảm bảo các tính năng AI của bạn vẫn hoạt động trên nhiều thiết bị người dùng nhất có thể.
- Chi phí và khả năng hoạt động khi không có mạng: Các mô hình trên thiết bị giúp đảm bảo rằng các tính năng AI của bạn hoạt động liền mạch khi người dùng không có mạng. Ngoài ra, việc chuyển các tác vụ thường xuyên sang thiết bị cục bộ giúp giảm chi phí suy luận trên đám mây.
Các lựa chọn triển khai
Bạn có thể triển khai suy luận kết hợp bằng các phương pháp sau:
Firebase AI Logic Hybrid API
Firebase AI Logic Hybrid API cung cấp một giao diện hợp nhất duy nhất để phân chia suy luận giữa môi trường đám mây và môi trường trên thiết bị.
Phương thức này bao gồm một tham số onDeviceConfig cung cấp các chế độ kiểm soát đơn giản để xác định chế độ suy luận và quản lý việc định tuyến:
PREFER_ON_DEVICE: cố gắng sử dụng mô hình trên thiết bị, tự động chuyển về mô hình được lưu trữ trên đám mây nếu mô hình trên thiết bị không có sẵn hoặc không được hỗ trợ cho yêu cầu.PREFER_IN_CLOUD: cố gắng sử dụng mô hình được lưu trữ trên đám mây khi thiết bị đang kết nối mạng và mô hình này có sẵn, chỉ chuyển về mô hình trên thiết bị nếu thiết bị không kết nối mạng.ONLY_ON_DEVICE: cố gắng sử dụng mô hình trên thiết bị, nhưng sẽ gửi một trường hợp ngoại lệ nếu mô hình đó không có sẵn hoặc không được hỗ trợ cho yêu cầu.ONLY_IN_CLOUD: cố gắng sử dụng mô hình được lưu trữ trên đám mây khi thiết bị có kết nối mạng và mô hình có sẵn, đồng thời sẽ gửi một ngoại lệ trong mọi trường hợp khác.
val model = Firebase.ai(backend = GenerativeBackend.googleAI())
.generativeModel(
modelName = "gemini-2.5-flash",
onDeviceConfig = OnDeviceConfig(mode = InferenceMode.PREFER_ON_DEVICE)
)
val response = model.generateContent("Write a story about a green robot.")
print(response.text)
Để biết thông tin chi tiết về cách triển khai, hãy xem tài liệu về Firebase và khám phá mẫu AI kết hợp trong danh mục AI.
Định tuyến tuỳ chỉnh
Nếu ứng dụng của bạn có các yêu cầu cụ thể về nghiệp vụ hoặc trải nghiệm người dùng, thì bạn cũng có thể triển khai logic định tuyến tuỳ chỉnh. Điều này cho phép bạn xác định linh hoạt đường dẫn suy luận dựa trên các yếu tố theo thời gian thực, chẳng hạn như:
- Độ trễ mạng
- Tình trạng hệ thống của thiết bị (ví dụ: mức pin và mức tải của bộ xử lý)
- Độ phức tạp của truy vấn người dùng
Phương pháp suy luận kết hợp tuỳ chỉnh này được dùng bởi các ứng dụng hàng đầu đã triển khai quy trình định tuyến tuỳ chỉnh của riêng mình để mang lại trải nghiệm AI đáng tin cậy, bao gồm:
Gboard: Gboard sử dụng suy luận kết hợp tuỳ chỉnh để hỗ trợ các bộ công cụ viết như hiệu đính và viết lại.
Kakao Mobility: Kakao Mobility đã xây dựng một công cụ Trích xuất thực thể bằng cách sử dụng suy luận kết hợp tuỳ chỉnh cho dịch vụ giao hàng bưu kiện của họ. Công cụ này tự động trích xuất tên, địa chỉ và số điện thoại của người nhận từ các tin nhắn bằng ngôn ngữ tự nhiên để đơn giản hoá biểu mẫu đặt hàng.