สำรวจความสามารถในการมองเห็นด้วย Gemini API

โมเดล Gemini สามารถประมวลผลรูปภาพและวิดีโอได้ ซึ่งช่วยให้นักพัฒนาซอฟต์แวร์ใช้กรณีการใช้งานใหม่ๆ มากมายได้ ซึ่งในอดีตต้องใช้โมเดลเฉพาะโดเมน ความสามารถบางอย่างของภาพจากกล้องของ Gemini ได้แก่

  • ใส่คำบรรยายและตอบคำถามเกี่ยวกับรูปภาพ
  • ถอดเสียงและหาเหตุผลใน PDF รวมถึงโทเค็นสูงสุด 2 ล้านรายการ
  • อธิบาย แบ่งกลุ่ม และดึงข้อมูลจากวิดีโอที่มีความยาวไม่เกิน 90 นาที
  • ตรวจหาวัตถุในรูปภาพและแสดงพิกัดของกรอบล้อมรอบ

Gemini สร้างขึ้นใหม่ทั้งหมดให้ทำงานได้กับข้อมูลหลายรูปแบบ และเราจะพัฒนาต่อไปเพื่อขยายขอบเขตสิ่งที่เป็นไปได้

ขั้นตอนถัดไป

คู่มือนี้จะแสดงวิธีอัปโหลดไฟล์รูปภาพและวิดีโอโดยใช้ File API จากนั้นสร้างเอาต์พุตข้อความจากอินพุตรูปภาพและวิดีโอ ดูข้อมูลเพิ่มเติมได้ที่แหล่งข้อมูลต่อไปนี้

  • กลยุทธ์การแจ้งไฟล์: Gemini API รองรับการแจ้งด้วยข้อมูลข้อความ รูปภาพ เสียง และวิดีโอ หรือที่เรียกว่าการแจ้งแบบหลายรูปแบบ
  • คำสั่งของระบบ: คำสั่งของระบบช่วยให้คุณควบคุมลักษณะการทํางานของโมเดลตามความต้องการและกรณีการใช้งานที่เฉพาะเจาะจง
  • คำแนะนำด้านความปลอดภัย: บางครั้งโมเดล Generative AI จะสร้างเอาต์พุตที่ไม่คาดคิด เช่น เอาต์พุตที่ไม่ถูกต้อง มีอคติ หรือไม่เหมาะสม ขั้นตอนหลังการประมวลผลและการประเมินจากเจ้าหน้าที่เป็นขั้นตอนที่จำเป็นในการจำกัดความเสี่ยงจากอันตรายที่อาจเกิดขึ้นจากเอาต์พุตดังกล่าว