Google은 클라우드 기반 추론과 기기 내 추론을 모두 지원하는 업계 최고의 AI 모델과 API를 다양하게 제공합니다. 하이브리드 추론을 사용하면 로컬 기기와 클라우드 간에 AI 워크로드를 원활하게 균형을 맞추어 성능, 비용, 가용성을 최적화할 수 있습니다.
하이브리드 추론은 Android 앱에 다음과 같은 두 가지 주요 이점을 제공합니다.
- 도달범위 극대화: 클라우드 모델은 기기 하드웨어 또는 OS 제약으로 인해 Gemini Nano와 같은 온디바이스 모델을 사용할 수 없는 경우 중요한 대체 수단이 됩니다. 이렇게 하면 최대한 다양한 사용자 기기에서 AI 기능이 계속 작동할 수 있습니다.
- 비용 및 오프라인 기능: 온디바이스 모델을 사용하면 사용자가 오프라인일 때 AI 기능이 원활하게 작동합니다. 또한 일상적인 작업을 로컬 기기로 오프로드하면 클라우드 추론 비용을 줄일 수 있습니다.
구현 옵션
다음 방법을 사용하여 하이브리드 추론을 구현할 수 있습니다.
Firebase AI Logic 하이브리드 API
Firebase AI Logic Hybrid API는 클라우드와 온디바이스 환경 간에 추론을 분할하기 위한 단일 통합 인터페이스를 제공합니다.
여기에는 추론 모드를 정의하고 라우팅을 관리하는 간단한 컨트롤을 제공하는 onDeviceConfig 매개변수가 포함됩니다.
PREFER_ON_DEVICE: 온디바이스 모델을 사용하려고 시도합니다. 온디바이스 모델을 사용할 수 없거나 요청에 지원되지 않는 경우 클라우드 호스팅 모델로 자동 대체됩니다.PREFER_IN_CLOUD: 기기가 온라인이고 모델을 사용할 수 있는 경우 클라우드 호스팅 모델을 사용하려고 시도하며, 기기가 오프라인인 경우에만 온디바이스 모델로 대체됩니다.ONLY_ON_DEVICE: 온디바이스 모델을 사용하려고 시도하지만 요청에 사용할 수 없거나 지원되지 않는 경우 예외를 발생시킵니다.ONLY_IN_CLOUD: 기기가 온라인 상태이고 모델을 사용할 수 있는 경우 클라우드 호스팅 모델을 사용하려고 시도하며, 그 외의 모든 경우에는 예외를 발생시킵니다.
val model = Firebase.ai(backend = GenerativeBackend.googleAI())
.generativeModel(
modelName = "gemini-2.5-flash",
onDeviceConfig = OnDeviceConfig(mode = InferenceMode.PREFER_ON_DEVICE)
)
val response = model.generateContent("Write a story about a green robot.")
print(response.text)
구현 세부정보는 Firebase 문서를 검토하고 AI 카탈로그의 하이브리드 AI 샘플을 살펴보세요.
커스텀 라우팅
앱에 특정 비즈니스 또는 UX 요구사항이 있는 경우 맞춤 라우팅 로직을 구현할 수도 있습니다. 이를 통해 다음과 같은 실시간 요소를 기반으로 추론 경로를 동적으로 결정할 수 있습니다.
- 네트워크 지연 시간
- 기기 시스템 상태 (예: 배터리 잔량 및 프로세서 부하)
- 사용자 쿼리 복잡성
이 맞춤 하이브리드 추론 접근 방식은 자체 맞춤 라우팅을 구현하여 다음과 같은 안정적인 AI 환경을 제공하는 주요 앱에서 사용됩니다.
Gboard: Gboard는 맞춤 하이브리드 추론을 사용하여 교정 및 다시 쓰기와 같은 쓰기 도구를 지원합니다.
카카오모빌리티: 카카오모빌리티는 주문서를 간소화하기 위해 자연어 메시지에서 수신자 이름, 주소, 전화번호를 자동으로 추출하는 택배 서비스용 맞춤 하이브리드 추론을 사용하여 항목 추출 도구를 구축했습니다.