PaliGemma

PaliGemma 2 และ PaliGemma เป็นโมเดลภาษาที่ทำงานด้วยภาพ (VLM) แบบเปิดที่มีน้ำหนักเบา ซึ่งได้รับแรงบันดาลใจจาก PaLI-3 และอิงตามคอมโพเนนต์แบบเปิด เช่น โมเดลการมองเห็น SigLIP และโมเดลภาษา Gemma PaliGemma ใช้ทั้งรูปภาพและข้อความเป็นอินพุต และสามารถตอบคําถามเกี่ยวกับรูปภาพอย่างละเอียดและตามบริบท ซึ่งหมายความว่า PaliGemma สามารถวิเคราะห์รูปภาพได้ละเอียดยิ่งขึ้นและมอบข้อมูลเชิงลึกที่เป็นประโยชน์ เช่น คำบรรยายแทนเสียงสำหรับรูปภาพและวิดีโอสั้นๆ การตรวจจับวัตถุ และการอ่านข้อความที่ฝังอยู่ในรูปภาพ

PaliGemma 2 มีพารามิเตอร์ขนาด 3 พันล้าน 10 พันล้าน และ 28 พันล้าน ซึ่งอิงตามรุ่น Gemma 2 2 พันล้าน 9 พันล้าน และ 27 พันล้าน ตามลำดับ โมเดล PaliGemma เดิมมีให้บริการในขนาด 3B ดูข้อมูลเพิ่มเติมเกี่ยวกับตัวแปรรุ่น Gemma ได้ที่รายการรุ่น Gemma ตัวแปรรุ่น PaliGemma รองรับความละเอียดของพิกเซลที่แตกต่างกันสำหรับอินพุตรูปภาพ ซึ่งรวมถึง 224 x 224, 448 x 448 และ 896 x 896 พิกเซล

คุณสามารถดูและดาวน์โหลดโมเดล PaliGemma จากเว็บไซต์ต่อไปนี้

โมเดล PaliGemma มี 3 หมวดหมู่ ได้แก่

  • PaliGemma PT - โมเดลที่ผ่านการฝึกล่วงหน้าเพื่อวัตถุประสงค์ทั่วไปซึ่งสามารถปรับแต่งได้สำหรับงานต่างๆ
  • PaliGemma FT - โมเดลที่มุ่งเน้นการวิจัยซึ่งปรับแต่งให้เหมาะกับชุดข้อมูลการวิจัยที่เฉพาะเจาะจง
  • PaliGemma mix - โมเดลที่ปรับให้เหมาะกับงานแบบผสมผสานซึ่งพร้อมใช้งานทันทีสำหรับกรณีการใช้งานทั่วไป

ซึ่งประโยชน์หลักๆ ได้แก่

  • จัดการทั้งอินพุตรูปภาพและข้อความพร้อมกัน
  • สามารถปรับแต่งงานต่างๆ เกี่ยวกับการมองเห็นได้
  • มาพร้อมจุดตรวจสอบที่ปรับแต่งมาอย่างดีสำหรับงานแบบผสมเพื่อการใช้งานด้านการวิจัยทันที

ดูข้อมูลเพิ่มเติม

ลองใช้ความสามารถในการตรวจจับและสร้างเนื้อหาด้วย PaliGemma ใน Colab
ปรับแต่งโมเดล PaliGemma ด้วยข้อมูลรูปภาพโดยใช้ JAX ใน Colab
ดูโค้ดเพิ่มเติม, สมุดบันทึก Colab, ข้อมูล และการพูดคุยเกี่ยวกับ PaliGemma บน Kaggle