ค้นหาโซลูชัน AI/ML ที่เหมาะกับแอปของคุณ

คู่มือนี้ออกแบบมาเพื่อช่วยคุณผสานรวมโซลูชันปัญญาประดิษฐ์แบบ Generative และแมชชีนเลิร์นนิง (AI/ML) ของ Google เข้ากับแอปพลิเคชัน โดยจะให้คำแนะนำเพื่อช่วยคุณสำรวจโซลูชันปัญญาประดิษฐ์ (AI) และแมชชีนเลิร์นนิงต่างๆ ที่พร้อมให้บริการ รวมถึงเลือกโซลูชันที่เหมาะกับความต้องการของคุณมากที่สุด เป้าหมายของเอกสารนี้คือการช่วยคุณพิจารณาว่าจะใช้เครื่องมือใดและเพราะเหตุใด โดยมุ่งเน้นที่ความต้องการและกรณีการใช้งานของคุณ

เอกสารนี้มีคำแนะนำเกี่ยวกับโซลูชันเพื่อช่วยคุณเลือกโซลูชัน AI/ML ที่เหมาะสมที่สุดสำหรับข้อกำหนดเฉพาะของคุณ การตอบคำถามชุดหนึ่งเกี่ยวกับเป้าหมายและข้อจำกัดของโปรเจ็กต์จะช่วยให้คำแนะนำ นำคุณไปสู่เครื่องมือและเทคโนโลยีที่เหมาะสมที่สุด

คู่มือนี้จะช่วยคุณเลือกโซลูชัน AI ที่ดีที่สุดสำหรับแอปของคุณ โดยให้พิจารณาปัจจัยต่อไปนี้ ประเภทของข้อมูล (ข้อความ รูปภาพ เสียง วิดีโอ) ความซับซ้อนของงาน (การสรุปอย่างง่ายไปจนถึงงานที่ซับซ้อนซึ่งต้องใช้ความรู้เฉพาะทาง) และขนาดข้อมูล (อินพุตสั้นๆ กับเอกสารขนาดใหญ่) ซึ่งจะช่วยให้คุณตัดสินใจได้ว่าจะใช้ Gemini Nano ในอุปกรณ์หรือ AI บนระบบคลาวด์ของ Firebase (Gemini Flash, Gemini Pro หรือ Imagen)

แผนผังการตัดสินใจสำหรับกรณีการใช้งาน GenAI เกณฑ์ประกอบด้วยรูปแบบ
           (ข้อความ รูปภาพเทียบกับเสียง วิดีโอ การสร้างรูปภาพ) ความซับซ้อน
           (สรุป เขียนใหม่เทียบกับความรู้เฉพาะด้าน) และหน้าต่างบริบท
           (อินพุต/เอาต์พุตสั้นๆ เทียบกับเอกสาร/สื่อจำนวนมาก) ซึ่งนำไปสู่
           GenAI ในอุปกรณ์ (Gemini Nano) หรือตรรกะ AI ของ Firebase (Gemini
           Flash, Pro, Imagen)
รูปที่ 1: ภาพนี้แสดงคำแนะนำเกี่ยวกับโซลูชันระดับสูง เพื่อช่วยคุณค้นหาโซลูชัน AI/ML ที่เหมาะสมสำหรับแอป Android ของคุณ หากต้องการดูรายละเอียดเพิ่มเติมเกี่ยวกับตัวเลือก AI และ ML โปรดดูคำแนะนำเกี่ยวกับโซลูชัน ที่อยู่ส่วนท้ายของเอกสารนี้

ใช้ประโยชน์จากพลังของการอนุมานในอุปกรณ์

เมื่อเพิ่มฟีเจอร์ AI และ ML ลงในแอป Android คุณสามารถเลือก วิธีต่างๆ ในการนำเสนอฟีเจอร์เหล่านั้น ไม่ว่าจะในอุปกรณ์หรือใช้ระบบคลาวด์

โซลูชันในอุปกรณ์ เช่น Gemini Nano ให้ผลลัพธ์โดยไม่มีค่าใช้จ่ายเพิ่มเติม ช่วยเพิ่มความเป็นส่วนตัวของผู้ใช้ และมอบฟังก์ชันการทำงานแบบออฟไลน์ที่เชื่อถือได้ เนื่องจากระบบจะประมวลผลข้อมูลที่ป้อนในเครื่อง ข้อดีเหล่านี้อาจมีความสําคัญอย่างยิ่งสําหรับ กรณีการใช้งานบางอย่าง เช่น การสรุปข้อความ ซึ่งทําให้การประมวลผลในอุปกรณ์มีความสําคัญเป็นอันดับแรกเมื่อ เลือกโซลูชันที่เหมาะสม

Gemini Nano ช่วยให้คุณเรียกใช้การอนุมานได้โดยตรงในอุปกรณ์ที่ใช้ Android หากคุณกำลังทำงานกับข้อความ รูปภาพ หรือเสียง ให้เริ่มต้นด้วย GenAI API ของ ML Kit เพื่อรับโซลูชันสำเร็จรูป API ของ GenAI ใน ML Kit ทำงานด้วย Gemini Nano และได้รับการปรับแต่งสำหรับงานเฉพาะบนอุปกรณ์ API ของ ML Kit GenAI เป็นเส้นทางที่เหมาะสำหรับการนำแอปของคุณไปใช้งานจริง เนื่องจากมีอินเทอร์เฟซระดับสูงกว่าและความสามารถในการปรับขนาด API เหล่านี้ช่วยให้คุณใช้กรณีการใช้งานเพื่อสรุป ตรวจตัวสะกด และเขียนข้อความใหม่ สร้างคำอธิบายรูปภาพ และดำเนินการจดจำเสียงพูดได้

หากต้องการก้าวข้าม Use Case พื้นฐานที่ API ของ GenAI ใน ML Kit มีให้ โปรดพิจารณาสิทธิ์เข้าถึงแบบทดลองของ Gemini Nano การเข้าถึงเวอร์ชันทดลองของ Gemini Nano ช่วยให้คุณเข้าถึงการแจ้งที่กำหนดเองด้วย Gemini Nano ได้โดยตรงมากขึ้น

สำหรับงานแมชชีนเลิร์นนิงแบบดั้งเดิม คุณสามารถใช้โมเดลที่กำหนดเองได้ตามต้องการ เรามีเครื่องมือที่มีประสิทธิภาพ เช่น ML Kit, MediaPipe, LiteRT และฟีเจอร์การนำส่งของ Google Play เพื่อปรับปรุงกระบวนการพัฒนาของคุณ

สำหรับแอปพลิเคชันที่ต้องใช้โซลูชันเฉพาะทางขั้นสูง คุณสามารถใช้โมเดลที่กำหนดเอง เช่น Gemma หรือโมเดลอื่นที่ปรับให้เหมาะกับกรณีการใช้งานเฉพาะของคุณได้ เรียกใช้โมเดลโดยตรงในอุปกรณ์ของผู้ใช้ด้วย LiteRT ซึ่งมีสถาปัตยกรรมโมเดลที่ออกแบบไว้ล่วงหน้าเพื่อประสิทธิภาพที่ ปรับให้เหมาะสม

นอกจากนี้ คุณยังพิจารณาสร้างโซลูชันแบบไฮบริดโดยใช้ประโยชน์จากทั้งโมเดลในอุปกรณ์ และโมเดลในระบบคลาวด์ได้ด้วย

โดยทั่วไปแล้วแอปบนอุปกรณ์เคลื่อนที่จะใช้โมเดลในเครื่องสำหรับข้อมูลข้อความขนาดเล็ก เช่น การสนทนาแชทหรือบทความในบล็อก อย่างไรก็ตาม สำหรับแหล่งข้อมูลขนาดใหญ่ (เช่น PDF) หรือเมื่อจำเป็นต้องมีความรู้เพิ่มเติม คุณอาจต้องใช้โซลูชันบนระบบคลาวด์ที่มีโมเดล Gemini ที่มีประสิทธิภาพมากขึ้น

ผสานรวมโมเดล Gemini ขั้นสูง

นักพัฒนาแอป Android สามารถผสานรวมความสามารถของ Generative AI ขั้นสูงของ Google ซึ่งรวมถึงโมเดล Gemini Pro, Gemini Flash และ Imagen ที่ทรงพลัง เข้ากับแอปพลิเคชันของตนได้โดยใช้ Firebase AI Logic SDK SDK นี้ออกแบบมาสำหรับความต้องการข้อมูลที่มากขึ้น และมอบความสามารถและความยืดหยุ่นที่เพิ่มขึ้นโดยการให้สิทธิ์เข้าถึงโมเดล AI แบบมัลติโมดัลที่มีประสิทธิภาพสูงเหล่านี้

Firebase AI Logic SDK ช่วยให้นักพัฒนาแอปสามารถเรียกใช้ฝั่งไคลเอ็นต์ไปยังโมเดล AI ของ Google ได้โดยใช้ความพยายามเพียงเล็กน้อย โมเดลเหล่านี้ เช่น Gemini Pro และ Gemini Flash จะเรียกใช้การอนุมานในระบบคลาวด์และช่วยให้แอป Android ประมวลผลอินพุตได้หลากหลาย ซึ่งรวมถึงรูปภาพ เสียง วิดีโอ และข้อความ Gemini Pro โดดเด่นในด้านการให้เหตุผลเกี่ยวกับปัญหาที่ซับซ้อนและการวิเคราะห์ข้อมูลจำนวนมาก ขณะที่ซีรีส์ Gemini Flash มีความเร็วที่เหนือกว่าและหน้าต่างบริบทที่ใหญ่พอสำหรับงานส่วนใหญ่

กรณีที่ควรใช้แมชชีนเลิร์นนิงแบบดั้งเดิม

แม้ว่า Generative AI จะมีประโยชน์ในการสร้างและแก้ไขเนื้อหา เช่น ข้อความ รูปภาพ และโค้ด แต่ปัญหาในโลกแห่งความเป็นจริงหลายอย่างจะได้รับการแก้ไขได้ดีกว่าด้วยเทคนิคแมชชีนเลิร์นนิง (ML) แบบดั้งเดิม วิธีการที่กำหนดไว้เหล่านี้มีความโดดเด่นในงานที่เกี่ยวข้องกับการคาดการณ์ การจัดประเภท การตรวจหา และการทำความเข้าใจรูปแบบภายในข้อมูลที่มีอยู่ ซึ่งมักจะมีประสิทธิภาพสูงกว่า ต้นทุนด้านการคำนวณต่ำกว่า และการติดตั้งใช้งานที่ง่ายกว่าโมเดล Generative

เฟรมเวิร์ก ML แบบเดิมมีโซลูชันที่แข็งแกร่ง มีการเพิ่มประสิทธิภาพ และมักจะใช้งานได้จริงมากกว่า สำหรับแอปพลิเคชันที่มุ่งเน้นการวิเคราะห์อินพุต การระบุฟีเจอร์ หรือ การคาดการณ์ตามรูปแบบที่เรียนรู้มา แทนที่จะสร้างเอาต์พุตใหม่ทั้งหมด เครื่องมือต่างๆ เช่น ML Kit, LiteRT และ MediaPipe ของ Google มีความสามารถอันทรงพลังที่ปรับแต่งมาสำหรับกรณีการใช้งานที่ไม่ใช่แบบ Generative โดยเฉพาะในสภาพแวดล้อมการประมวลผลบนอุปกรณ์เคลื่อนที่และ Edge

เริ่มต้นการผสานรวมแมชชีนเลิร์นนิงด้วย ML Kit

ML Kit มีโซลูชันที่พร้อมใช้งานจริงและได้รับการเพิ่มประสิทธิภาพสำหรับอุปกรณ์เคลื่อนที่สำหรับงานแมชชีนเลิร์นนิงทั่วไป โดยไม่ต้องมีความเชี่ยวชาญด้าน ML มาก่อน SDK บนอุปกรณ์เคลื่อนที่ที่ใช้งานง่ายนี้ นำความเชี่ยวชาญด้าน ML ของ Google มาสู่แอป Android และ iOS โดยตรง ช่วยให้คุณมุ่งเน้นการพัฒนาฟีเจอร์แทนการฝึกและเพิ่มประสิทธิภาพโมเดลได้ ML Kit มี API ที่สร้างไว้ล่วงหน้าและโมเดลที่พร้อมใช้งานสำหรับฟีเจอร์ต่างๆ เช่น การสแกนบาร์โค้ด การจดจำข้อความ (OCR) การตรวจจับใบหน้า การติดป้ายกำกับรูปภาพ การตรวจจับและติดตามออบเจ็กต์ การระบุภาษา และการช่วยตอบ

โดยปกติแล้ว โมเดลเหล่านี้จะได้รับการเพิ่มประสิทธิภาพสำหรับการดำเนินการในอุปกรณ์ เพื่อให้มั่นใจว่าจะมีเวลาในการตอบสนองต่ำ ฟังก์ชันการทำงานแบบออฟไลน์ และความเป็นส่วนตัวของผู้ใช้ที่ดียิ่งขึ้น เนื่องจากข้อมูลมักจะยังคงอยู่ในอุปกรณ์ เลือก ML Kit เพื่อเพิ่มฟีเจอร์ ML ที่มีอยู่แล้วลงใน แอปบนอุปกรณ์เคลื่อนที่ได้อย่างรวดเร็วโดยไม่ต้องฝึกโมเดลหรือต้องใช้เอาต์พุตแบบ Generative เหมาะอย่างยิ่งสำหรับการเพิ่มประสิทธิภาพแอปอย่างมีประสิทธิภาพด้วยความสามารถ "อัจฉริยะ" โดยใช้โมเดลที่ได้รับการเพิ่มประสิทธิภาพของ Google หรือโดยการติดตั้งใช้งานโมเดล TensorFlow Lite ที่กำหนดเอง

เริ่มต้นใช้งานคู่มือและเอกสารประกอบที่ครอบคลุมของเราได้ที่เว็บไซต์สำหรับนักพัฒนาซอฟต์แวร์ ML Kit

การติดตั้งใช้งาน ML ที่กำหนดเองด้วย LiteRT

หากต้องการควบคุมได้มากขึ้นหรือจะติดตั้งใช้งานโมเดล ML ของคุณเอง ให้ใช้สแต็ก ML ที่กำหนดเอง ซึ่งสร้างขึ้นบน LiteRT และบริการ Google Play สแต็กนี้มีสิ่งจำเป็นสำหรับการ ติดตั้งใช้งานฟีเจอร์ ML ประสิทธิภาพสูง LiteRT เป็นชุดเครื่องมือที่เพิ่มประสิทธิภาพสำหรับการเรียกใช้โมเดล TensorFlow อย่างมีประสิทธิภาพบนอุปกรณ์เคลื่อนที่ อุปกรณ์แบบฝัง และอุปกรณ์ Edge ที่มีข้อจำกัดด้านทรัพยากร ซึ่งช่วยให้คุณเรียกใช้โมเดลที่มีขนาดเล็กลงและเร็วขึ้นอย่างมากได้ โดยใช้หน่วยความจำ พลังงาน และพื้นที่เก็บข้อมูลน้อยลง รันไทม์ LiteRT ได้รับการเพิ่มประสิทธิภาพอย่างมากสำหรับตัวเร่งฮาร์ดแวร์ต่างๆ (GPU, DSP, NPU) ในอุปกรณ์ Edge ซึ่งช่วยให้การอนุมานมีเวลาในการตอบสนองต่ำ

เลือก LiteRT เมื่อต้องการติดตั้งใช้งานโมเดล ML ที่ฝึกแล้วอย่างมีประสิทธิภาพ (โดยทั่วไป สำหรับการจัดประเภท การถดถอย หรือการตรวจหา) ในอุปกรณ์ที่มี กำลังประมวลผลหรืออายุการใช้งานแบตเตอรี่จำกัด เช่น สมาร์ทโฟน อุปกรณ์ IoT หรือ ไมโครคอนโทรลเลอร์ ซึ่งเป็นโซลูชันที่แนะนำสำหรับการติดตั้งใช้งานโมเดลการคาดการณ์ที่กำหนดเองหรือมาตรฐานที่ Edge ซึ่งความเร็วและการประหยัดทรัพยากรเป็นสิ่งสำคัญที่สุด

ดูข้อมูลเพิ่มเติมเกี่ยวกับการติดตั้งใช้งาน ML ด้วย LiteRT

สร้างการรับรู้แบบเรียลไทม์ในแอปด้วย MediaPipe

MediaPipe มีโซลูชันแมชชีนเลิร์นนิงแบบโอเพนซอร์ส ข้ามแพลตฟอร์ม และปรับแต่งได้ ซึ่งออกแบบมาสำหรับสื่อแบบสดและสื่อสตรีมมิง รับประโยชน์จากเครื่องมือที่สร้างไว้ล่วงหน้าและได้รับการเพิ่มประสิทธิภาพสำหรับงานที่ซับซ้อน เช่น การติดตามมือ การประมาณท่าทาง การตรวจจับตาข่ายใบหน้า และการตรวจจับออบเจ็กต์ ซึ่งทั้งหมดนี้ช่วยให้เกิดการโต้ตอบแบบเรียลไทม์ที่มีประสิทธิภาพสูงแม้ในอุปกรณ์เคลื่อนที่

ไปป์ไลน์แบบกราฟของ MediaPipe ปรับแต่งได้สูง ซึ่งช่วยให้คุณปรับแต่งโซลูชันสำหรับแอปพลิเคชัน Android, iOS, เว็บ, เดสก์ท็อป และแบ็กเอนด์ได้ เลือก MediaPipe เมื่อแอปพลิเคชันของคุณต้องทำความเข้าใจและตอบสนองต่อข้อมูลเซ็นเซอร์แบบเรียลไทม์ในทันที โดยเฉพาะสตรีมวิดีโอ สำหรับกรณีการใช้งานต่างๆ เช่น การจดจำท่าทางสัมผัส เอฟเฟกต์ AR การติดตามการออกกำลังกาย หรือการควบคุมอวตาร ซึ่งทั้งหมดนี้มุ่งเน้นไปที่การวิเคราะห์และตีความอินพุต

สำรวจโซลูชันและเริ่มสร้างด้วย MediaPipe

เลือกวิธีการ: บนอุปกรณ์หรือในระบบคลาวด์

เมื่อผสานรวมฟีเจอร์ AI/ML เข้ากับแอป Android สิ่งที่ต้องตัดสินใจตั้งแต่เนิ่นๆ คือจะประมวลผลในอุปกรณ์ของผู้ใช้โดยตรงหรือในระบบคลาวด์ เครื่องมืออย่าง ML Kit, Gemini Nano และ TensorFlow Lite ช่วยให้ความสามารถบนอุปกรณ์ ทำงานได้ ในขณะที่ Gemini Cloud API ที่มีตรรกะ AI ของ Firebase สามารถให้การประมวลผลบนระบบคลาวด์ที่มีประสิทธิภาพ การเลือกตัวเลือกที่เหมาะสมขึ้นอยู่กับปัจจัยต่างๆ ที่เกี่ยวข้องกับกรณีการใช้งานและความต้องการของผู้ใช้

โปรดพิจารณาสิ่งต่อไปนี้เพื่อเป็นแนวทางในการตัดสินใจ

  • การเชื่อมต่อและฟังก์ชันการทำงานแบบออฟไลน์: หากแอปพลิเคชันของคุณต้อง ทำงานได้อย่างน่าเชื่อถือโดยไม่ต้องเชื่อมต่ออินเทอร์เน็ต โซลูชันในอุปกรณ์ เช่น Gemini Nano จะเหมาะที่สุด การประมวลผลในระบบคลาวด์ต้องมีการเข้าถึงเครือข่ายโดยธรรมชาติ
  • ความเป็นส่วนตัวของข้อมูล: สำหรับกรณีการใช้งานที่ต้องเก็บข้อมูลผู้ใช้ไว้ในอุปกรณ์ด้วยเหตุผลด้านความเป็นส่วนตัว การประมวลผลในอุปกรณ์มีข้อได้เปรียบที่ชัดเจนด้วยการเก็บข้อมูลที่ละเอียดอ่อนไว้ในเครื่อง
  • ความสามารถของโมเดลและความซับซ้อนของงาน: โมเดลบนคลาวด์มักจะมีขนาดใหญ่กว่า มาก มีประสิทธิภาพมากกว่า และได้รับการอัปเดตบ่อยกว่า จึงเหมาะสำหรับงาน AI ที่มีความซับซ้อนสูง หรือเมื่อประมวลผลอินพุตขนาดใหญ่ที่ต้องการคุณภาพเอาต์พุตสูงกว่าและความสามารถที่ครอบคลุม โมเดลในอุปกรณ์อาจจัดการงานที่ง่ายกว่าได้ดี
  • ข้อควรพิจารณาด้านต้นทุน: โดยปกติแล้ว Cloud API จะมีราคาตามการใช้งาน ซึ่งหมายความว่าต้นทุนจะปรับขนาดตามจำนวนการอนุมานหรือปริมาณข้อมูล ที่ประมวลผล การอนุมานในอุปกรณ์มักจะไม่มีค่าใช้จ่ายโดยตรงต่อการใช้งานแต่ละครั้ง แต่จะทำให้เกิดต้นทุนในการพัฒนาและอาจส่งผลต่อทรัพยากรของอุปกรณ์ เช่น ระยะเวลาการใช้งานแบตเตอรี่และประสิทธิภาพโดยรวม
  • ทรัพยากรของอุปกรณ์: โมเดลในอุปกรณ์จะใช้พื้นที่เก็บข้อมูลในอุปกรณ์ของผู้ใช้ นอกจากนี้ คุณควรทราบความเข้ากันได้ของอุปกรณ์กับโมเดลในอุปกรณ์บางรุ่น เช่น Gemini Nano เพื่อให้มั่นใจว่ากลุ่มเป้าหมายสามารถใช้ฟีเจอร์ได้
  • การปรับแต่งอย่างละเอียด: หากต้องการความสามารถในการปรับแต่งโมเดลอย่างละเอียดสำหรับ Use Case ที่เฉพาะเจาะจง โซลูชันที่ใช้ระบบคลาวด์มักจะมีความยืดหยุ่นมากขึ้นและมีตัวเลือกการปรับแต่งที่ครอบคลุมกว่า
  • ความสอดคล้องข้ามแพลตฟอร์ม: หากฟีเจอร์ AI ที่สอดคล้องกันในหลายแพลตฟอร์ม รวมถึง iOS เป็นสิ่งสำคัญ โปรดทราบว่าโซลูชันในอุปกรณ์บางอย่าง เช่น Gemini Nano อาจยังไม่พร้อมให้บริการในระบบปฏิบัติการบางระบบ

การพิจารณาข้อกำหนดของ Use Case และตัวเลือกที่มีอย่างรอบคอบจะช่วยให้คุณพบโซลูชัน AI/ML ที่เหมาะสมที่สุดเพื่อปรับปรุงแอป Android และมอบประสบการณ์อัจฉริยะที่ปรับเปลี่ยนในแบบของคุณให้แก่ผู้ใช้


คู่มือโซลูชัน AI/ML

คู่มือโซลูชันนี้จะช่วยคุณระบุเครื่องมือสำหรับนักพัฒนาซอฟต์แวร์ที่เหมาะสมเพื่อ ผสานรวมเทคโนโลยี AI/ML เข้ากับโปรเจ็กต์ Android

เป้าหมายหลักของฟีเจอร์ AI คืออะไร

  • ก) สร้างเนื้อหาใหม่ (ข้อความ คำอธิบายรูปภาพ) หรือประมวลผลข้อความอย่างง่าย (สรุป ตรวจตัวสะกด หรือเขียนข้อความใหม่) → ไปที่ Generative AI
  • ข) วิเคราะห์ข้อมูล/อินพุตที่มีอยู่เพื่อการคาดการณ์ การจัดประเภท การตรวจหา การทำความเข้าใจรูปแบบ หรือการประมวลผลสตรีมแบบเรียลไทม์ (เช่น วิดีโอ/เสียง) ใช่หรือไม่ → ไปที่ML และการรับรู้แบบดั้งเดิม

ML และการรับรู้แบบดั้งเดิม

คุณต้องวิเคราะห์อินพุต ระบุฟีเจอร์ หรือทำการคาดการณ์โดยอิงตาม รูปแบบที่เรียนรู้มา แทนที่จะสร้างเอาต์พุตใหม่ทั้งหมด

คุณกำลังทำงานใด

  • ตอบ) หากต้องการผสานรวมฟีเจอร์ ML ทั่วไปในอุปกรณ์เคลื่อนที่ที่สร้างไว้ล่วงหน้าอย่างรวดเร็ว (เช่น การสแกนบาร์โค้ด การจดจำข้อความ (OCR) การตรวจจับใบหน้า การติดป้ายกำกับรูปภาพ การตรวจจับและการติดตามออบเจ็กต์ การระบุภาษา การช่วยตอบพื้นฐาน)
    • → ใช้: ML Kit (API แบบเดิม)
    • เหตุผล: การผสานรวมที่ง่ายที่สุดสำหรับ งาน ML บนอุปกรณ์เคลื่อนที่ที่สร้างขึ้น ซึ่งมักจะเพิ่มประสิทธิภาพสำหรับการใช้งานในอุปกรณ์ (เวลาในการตอบสนองต่ำ ออฟไลน์ ความเป็นส่วนตัว)
  • ข) ต้องการประมวลผลข้อมูลการสตรีมแบบเรียลไทม์ (เช่น วิดีโอหรือเสียง) สำหรับ งานการรับรู้ใช่ไหม (เช่น การติดตามมือ การประมาณท่าทาง โครงข่ายใบหน้า การตรวจหาและการแบ่งกลุ่มวัตถุแบบเรียลไทม์ในวิดีโอ)
    • → ใช้: MediaPipe
    • เหตุผล: เฟรมเวิร์กที่เชี่ยวชาญด้านไปป์ไลน์การรับรู้แบบเรียลไทม์ที่มีประสิทธิภาพสูงในแพลตฟอร์มต่างๆ
  • ค) ต้องการเรียกใช้โมเดล ML ที่ฝึกแบบกำหนดเอง (เช่น สำหรับการจัดประเภท การถดถอย การตรวจหา) ของคุณเองอย่างมีประสิทธิภาพในอุปกรณ์ โดยให้ความสำคัญกับประสิทธิภาพและการใช้ทรัพยากรต่ำใช่ไหม
    • → ใช้: LiteRT (รันไทม์ของ TensorFlow Lite)
    • เหตุผล: รันไทม์ที่เพิ่มประสิทธิภาพสำหรับการ ติดตั้งใช้งานโมเดลที่กำหนดเองอย่างมีประสิทธิภาพในอุปกรณ์เคลื่อนที่และอุปกรณ์ Edge (ขนาดเล็ก การอนุมานที่รวดเร็ว การเร่งด้วยฮาร์ดแวร์)
  • ง) ต้องการฝึกโมเดล ML แบบกำหนดเองของคุณเองสำหรับงานที่เฉพาะเจาะจงใช่ไหม
    • → ใช้: LiteRT (รันไทม์ของ TensorFlow Lite) + การฝึกโมเดลที่กำหนดเอง
    • เหตุผล: มีเครื่องมือในการ ฝึกและใช้งานโมเดลที่กำหนดเอง ซึ่งได้รับการเพิ่มประสิทธิภาพสำหรับอุปกรณ์เคลื่อนที่และอุปกรณ์ Edge
  • จ) ต้องการการจัดประเภทเนื้อหาขั้นสูง การวิเคราะห์ความรู้สึก หรือ การแปลหลายภาษาที่มีความแตกต่างสูงไหม
    • พิจารณาว่าโมเดล ML แบบเดิม (อาจติดตั้งใช้งานโดยใช้ LiteRT หรือระบบคลาวด์) เหมาะสมหรือไม่ หรือหาก NLU ขั้นสูงต้องใช้โมเดล Generative (กลับไปที่เริ่ม เลือก A) สำหรับการแยกประเภท ความรู้สึก หรือการแปลในระบบคลาวด์ ให้ทำดังนี้
    • → ใช้: โซลูชันบนคลาวด์ (เช่น Natural Language API ของ Google Cloud , Translation API ของ Google Cloud , อาจเข้าถึงได้โดยใช้แบ็กเอนด์ที่กำหนดเองหรือ Vertex AI) (ลำดับความสำคัญต่ำกว่าตัวเลือกในอุปกรณ์หากออฟไลน์หรือ ความเป็นส่วนตัวเป็นสิ่งสำคัญ)
    • เหตุผล: โซลูชันระบบคลาวด์มี โมเดลที่มีประสิทธิภาพและการรองรับภาษาที่หลากหลาย แต่ต้องมีการเชื่อมต่อ และอาจมีค่าใช้จ่าย

Generative AI

คุณต้องสร้างเนื้อหาใหม่ สรุป เขียนใหม่ หรือทํางานที่ต้องใช้ความเข้าใจหรือการโต้ตอบที่ซับซ้อน

คุณต้องการให้ AI ทำงานแบบออฟไลน์ ต้องการความเป็นส่วนตัวของข้อมูลสูงสุด (เก็บข้อมูลผู้ใช้ไว้ในอุปกรณ์) หรือต้องการหลีกเลี่ยงค่าใช้จ่ายในการอนุมานบนคลาวด์

  • ก) ใช่ ออฟไลน์ ความเป็นส่วนตัวสูงสุด หรือไม่มีค่าใช้จ่ายในระบบคลาวด์เป็นสิ่งสำคัญ
  • ข) ไม่ การเชื่อมต่อพร้อมใช้งานและยอมรับได้ ความสามารถของระบบคลาวด์และความสามารถในการปรับขนาดมีความสำคัญมากกว่า หรือฟีเจอร์บางอย่างต้องใช้ระบบคลาวด์

Generative AI ในอุปกรณ์ (ใช้ Gemini Nano)

ข้อควรระวัง: ต้องใช้อุปกรณ์ Android ที่รองรับ, รองรับ iOS แบบจำกัด, มีขีดจำกัดโทเค็นที่เฉพาะเจาะจง (พรอมต์ 1024 รายการ, บริบท 4096 รายการ), โมเดลมีประสิทธิภาพน้อยกว่าโมเดลบนระบบคลาวด์

กรณีการใช้งานของคุณตรงกับงานที่ปรับปรุงแล้วซึ่ง API ของ ML Kit GenAI มีให้โดยเฉพาะหรือไม่ (สรุปข้อความ ตรวจสอบข้อความ แก้ไขข้อความ สร้างคำอธิบายรูปภาพ หรือทำการจดจำเสียงพูด) และมีขีดจำกัดโทเค็น เพียงพอหรือไม่

  • ก) ใช่
    • → ใช้: ML Kit GenAI API (ขับเคลื่อนโดย Gemini Nano)
    • เหตุผล: วิธีที่ง่ายที่สุดในการผสานรวม งาน Generative ทั่วไปที่เฉพาะเจาะจงในอุปกรณ์ ซึ่งเป็นโซลูชันในอุปกรณ์ที่มีลำดับความสำคัญสูงสุด
  • ข) ไม่ (คุณต้องการการแจ้งเตือนหรืองานที่ยืดหยุ่นกว่า API ของ ML Kit GenAI ที่เฉพาะเจาะจง แต่ยังต้องการการดำเนินการในอุปกรณ์ภายในความสามารถของ Nano )
    • → ใช้: การเข้าถึงเวอร์ชันทดลองของ Gemini Nano
    • เหตุผล: มอบความสามารถในการแจ้งแบบเปิดในอุปกรณ์สำหรับกรณีการใช้งานที่นอกเหนือจาก API ของ ML Kit GenAI ที่มีโครงสร้าง โดยคำนึงถึงข้อจำกัดของ Nano

Generative AI บนคลาวด์

ใช้โมเดลที่มีประสิทธิภาพมากขึ้น ต้องมีการเชื่อมต่อ มักมี ค่าใช้จ่ายในการอนุมาน เข้าถึงอุปกรณ์ได้กว้างขึ้น และรักษาความสอดคล้องข้ามแพลตฟอร์ม (Android และ iOS) ได้ง่ายขึ้น

คุณให้ความสำคัญกับอะไรเป็นอันดับแรก: ความสะดวกในการผสานรวมภายใน Firebase หรือความยืดหยุ่น/การควบคุมสูงสุด

  • ก) ต้องการการผสานรวมที่ง่ายขึ้น ประสบการณ์การใช้งาน API ที่มีการจัดการ และมีแนวโน้มที่จะใช้ Firebase อยู่แล้วใช่ไหม
  • ข) ต้องการความยืดหยุ่นสูงสุด สิทธิ์เข้าถึงโมเดลที่หลากหลายที่สุด (รวมถึงโมเดลของบุคคลที่สาม/โมเดลที่กำหนดเอง) การปรับแต่งขั้นสูง และยินดีที่จะ จัดการการผสานรวมแบ็กเอนด์ของคุณเอง (ซับซ้อนกว่า)?
    • → ใช้: Gemini API กับแบ็กเอนด์ระบบคลาวด์ที่กำหนดเอง (ใช้ Google Cloud Platform)
    • เหตุผล: ให้การควบคุมมากที่สุด เข้าถึงโมเดลได้กว้างที่สุด และมีตัวเลือกการฝึกที่กำหนดเอง แต่ต้องใช้ความพยายามอย่างมากในการพัฒนาแบ็กเอนด์ เหมาะสำหรับความต้องการที่ซับซ้อน ขนาดใหญ่ หรือมีการปรับแต่งสูง

(คุณเลือก Firebase AI Logic SDK) คุณต้องการงานแบบ Generative และโปรไฟล์ประสิทธิภาพประเภทใด

  • ก) ต้องการความสมดุลระหว่างประสิทธิภาพและต้นทุนที่เหมาะสําหรับการสร้างข้อความ การสรุป หรือแอปพลิเคชันแชททั่วไปที่ความเร็วเป็นสิ่งสําคัญใช่ไหม
    • → ใช้: Firebase AI Logic SDK กับ Gemini Flash
    • เหตุผล: เพิ่มประสิทธิภาพเพื่อความเร็วและ ประสิทธิภาพภายในสภาพแวดล้อมที่มีการจัดการของ Vertex AI
  • ข) ต้องการคุณภาพและความสามารถที่สูงขึ้นสำหรับการสร้างข้อความที่ซับซ้อน การให้เหตุผล, NLU ขั้นสูง หรือการปฏิบัติตามคำสั่งใช่ไหม
    • → ใช้: Firebase AI Logic SDK กับ Gemini Pro
    • เหตุผล: โมเดลข้อความที่ทรงพลังยิ่งขึ้น สำหรับงานที่ซับซ้อน ซึ่งเข้าถึงได้ผ่าน Firebase
  • ค) ต้องการการสร้างรูปภาพที่ซับซ้อนหรือการทำความเข้าใจหรือการปรับแต่งรูปภาพขั้นสูงตามพรอมต์ข้อความใช่ไหม
    • → ใช้: Firebase AI Logic SDK กับ Imagen 3
    • เหตุผล: โมเดลการสร้างรูปภาพที่ล้ำสมัย ซึ่งเข้าถึงได้โดยใช้สภาพแวดล้อม Firebase ที่มีการจัดการ