ハイブリッド推論

Google は、クラウドベースの推論とデバイス上の推論の両方に対応する、業界をリードする AI モデルと API を幅広く提供しています。ハイブリッド推論を使用すると、ローカル デバイスとクラウドの間で AI ワークロードをシームレスに分散し、パフォーマンス、費用、可用性を最適化できます。

ハイブリッド推論には、Android アプリに次の 2 つの主なメリットがあります。

  • リーチを最大化: デバイスのハードウェアや OS の制約により、Gemini Nano などのデバイス上のモデルが利用できない場合、クラウドモデルが重要なフォールバックとして機能します。これにより、可能な限り幅広いユーザー デバイスで AI 機能を維持できます。
  • 費用とオフライン機能: デバイス上のモデルを使用すると、ユーザーがオフラインの場合でも AI 機能をシームレスに利用できます。また、ルーティン タスクをローカル デバイスにオフロードすることで、クラウド推論の費用を削減できます。
デバイス上の推論とクラウド推論の根拠を示す図。
図 1: オンデバイス推論とクラウド 推論のそれぞれのメリット。

実装オプション

次の方法でハイブリッド推論を実装できます。

Firebase AI Logic Hybrid API

Firebase AI Logic Hybrid API は、クラウド環境とデバイス上の環境の間で推論を分割するための単一の統合インターフェースを 提供します。

推論モードを定義してルーティングを管理するためのシンプルなコントロールを提供する onDeviceConfig パラメータが含まれています。

  • PREFER_ON_DEVICE: デバイス上のモデルを使用しようとします。デバイス上のモデルがリクエストで利用できない場合やサポートされていない場合は、クラウドホスト型モデルに自動的にフォールバックします。
  • PREFER_IN_CLOUD: デバイスがオンラインでモデルが利用可能な場合は、クラウドホスト型モデルを使用しようとします。デバイスがオフラインの場合にのみ、デバイス上のモデルにフォールバックします。
  • ONLY_ON_DEVICE: デバイス上のモデルを使用しようとしますが、リクエストで利用できない場合やサポートされていない場合は例外をスローします。
  • ONLY_IN_CLOUD: デバイスがオンラインでモデルが利用可能な場合は、クラウドホスト型モデルを使用しようとします。それ以外の場合は例外をスローします。
val model = Firebase.ai(backend = GenerativeBackend.googleAI())
    .generativeModel(
        modelName = "gemini-2.5-flash",
        onDeviceConfig = OnDeviceConfig(mode = InferenceMode.PREFER_ON_DEVICE)
    )


val response = model.generateContent("Write a story about a green robot.")
print(response.text)

実装の詳細については、Firebase のドキュメントを確認し、 AI カタログのハイブリッド AI サンプルをご覧ください。

カスタム ルーティング

アプリに特定のビジネス要件または UX 要件がある場合は、カスタム ルーティング ロジックを実装することもできます。これにより、次のようなリアルタイムの要因に基づいて推論パスを動的に決定できます。

  • ネットワーク レイテンシ
  • デバイスのシステム ヘルス(バッテリー残量やプロセッサの負荷など)
  • ユーザー クエリの複雑さ

このカスタム ハイブリッド推論アプローチは、独自のカスタム ルーティングを実装して信頼性の高い AI エクスペリエンスを提供している主要なアプリで使用されています。例としては、次のようなものがあります。

  • Gboard: Gboard はカスタム ハイブリッド推論を使用して、 校正や書き換えなどの文章作成ツールを強化しています。

  • Kakao Mobility: Kakao Mobility は、カスタム ハイブリッド推論を使用して、宅配サービス用のエンティティ抽出ツールを構築しました。 このツールは、自然言語メッセージから受取人の名前、 住所、電話番号を自動的に抽出して、 注文フォームを効率化します。