Gemma 4 เปิดตัวพร้อมอินพุตข้อความ เสียง และรูปภาพ รวมถึงหน้าต่างบริบทแบบยาวที่มีโทเค็นให้ถึง 2.56 แสนโทเค็น ดูข้อมูลเพิ่มเติม

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

ภาพรวมรุ่น Gemma 3n

Gemma 3n เป็นโมเดล Generative AI ที่เพิ่มประสิทธิภาพให้เหมาะกับการใช้งานในอุปกรณ์ที่ใช้ในชีวิตประจำวัน เช่น โทรศัพท์ แล็ปท็อป และแท็บเล็ต โมเดลนี้รวมนวัตกรรมด้านการประมวลผลที่มีประสิทธิภาพด้านพารามิเตอร์ ซึ่งรวมถึงการแคชพารามิเตอร์การฝังต่อเลเยอร์ (PLE) และสถาปัตยกรรมโมเดล MatFormer ที่มีความยืดหยุ่นในการลดข้อกำหนดด้านการคำนวณและหน่วยความจำ โมเดลเหล่านี้มีการจัดการอินพุตเสียง รวมถึงข้อมูลข้อความและภาพ

Gemma 3n มีฟีเจอร์หลักๆ ต่อไปนี้

อินพุตเสียง: ประมวลผลข้อมูลเสียงสำหรับการจดจำคำพูด การแปล และการวิเคราะห์ข้อมูลเสียง ดูข้อมูลเพิ่มเติม
อินพุตภาพและข้อความ: ความสามารถแบบหลายรูปแบบช่วยให้คุณจัดการกับภาพ เสียง และข้อความเพื่อช่วยให้คุณเข้าใจและวิเคราะห์โลกรอบตัว ดูข้อมูลเพิ่มเติม
โปรแกรมเข้ารหัสภาพ: โปรแกรมเข้ารหัส MobileNet-V5 ประสิทธิภาพสูงช่วยเพิ่มความเร็วและความแม่นยำในการประมวลผลข้อมูลภาพได้อย่างมาก ดูข้อมูลเพิ่มเติม
การแคช PLE: พารามิเตอร์การฝังต่อเลเยอร์ (PLE) ที่มีอยู่ในโมเดลเหล่านี้สามารถแคชไว้ในพื้นที่เก็บข้อมูลในเครื่องที่รวดเร็วเพื่อลดต้นทุนการเรียกใช้หน่วยความจําของโมเดล ดูข้อมูลเพิ่มเติม
สถาปัตยกรรม MatFormer: สถาปัตยกรรม Matryoshka Transformer ช่วยให้สามารถเปิดใช้งานพารามิเตอร์ของโมเดลแบบเลือกตามคําขอเพื่อลดต้นทุนการประมวลผลและเวลาในการตอบสนอง ดูข้อมูลเพิ่มเติม
การโหลดพารามิเตอร์แบบมีเงื่อนไข: ข้ามการโหลดพารามิเตอร์ภาพและเสียงในโมเดลเพื่อลดจํานวนพารามิเตอร์ทั้งหมดที่โหลดและประหยัดทรัพยากรหน่วยความจํา ดูข้อมูลเพิ่มเติม
การรองรับภาษาที่หลากหลาย: ความสามารถในการใช้ภาษาที่หลากหลายซึ่งได้รับการฝึกอบรมในภาษาต่างๆ กว่า 140 ภาษา
บริบทโทเค็น 32,000 รายการ: บริบทอินพุตจำนวนมากสําหรับการวิเคราะห์ข้อมูลและจัดการงานการประมวลผล

ลองใช้ Gemma 3n ดาวน์โหลดใน Kaggle ดาวน์โหลดใน Hugging Face

Gemma 3n มีน้ำหนักแบบเปิดและได้รับอนุญาตให้ใช้งานเชิงพาณิชย์อย่างมีความรับผิดชอบเช่นเดียวกับ Gemma รุ่นอื่นๆ ซึ่งช่วยให้คุณปรับแต่งและนำไปใช้ในโปรเจ็กต์และแอปพลิเคชันของคุณเองได้

พารามิเตอร์รูปแบบและพารามิเตอร์ที่มีประสิทธิภาพ

โมเดล Gemma 3n จะแสดงพร้อมกับจํานวนพารามิเตอร์ เช่น E2B และ E4B ซึ่งต่ำกว่าจํานวนพารามิเตอร์ทั้งหมดที่มีอยู่ในโมเดล ส่วนคำนำหน้า E บ่งบอกว่าโมเดลเหล่านี้สามารถทํางานได้โดยใช้ชุดพารามิเตอร์ที่มีประสิทธิภาพลดลง การดำเนินการพารามิเตอร์ที่ลดลงนี้ทำได้โดยใช้เทคโนโลยีพารามิเตอร์ที่ยืดหยุ่นซึ่งติดตั้งไว้ในรุ่น Gemma 3n เพื่อช่วยให้การทํางานมีประสิทธิภาพในอุปกรณ์ที่มีทรัพยากรน้อย

พารามิเตอร์ในโมเดล Gemma 3n แบ่งออกเป็น 4 กลุ่มหลัก ได้แก่ พารามิเตอร์ข้อความ รูปภาพ เสียง และการฝังต่อเลเยอร์ (PLE) เมื่อใช้การดําเนินการแบบมาตรฐานของรูปแบบ E2B ระบบจะโหลดพารามิเตอร์มากกว่า 5 พันล้านรายการเมื่อดําเนินการรูปแบบ อย่างไรก็ตาม เมื่อใช้เทคนิคการข้ามพารามิเตอร์และการแคช PLE รูปแบบนี้จะทํางานได้โดยใช้หน่วยความจําที่มีประสิทธิภาพเพียง 2 พันล้าน (1.91 พันล้าน) พารามิเตอร์ดังที่แสดงในรูปที่ 1

แผนภาพ Gemma 3n ของการใช้พารามิเตอร์

รูปที่ 1 พารามิเตอร์รูปแบบ Gemma 3n E2B ที่ทำงานในการดําเนินการแบบมาตรฐานเทียบกับโหลดพารามิเตอร์ที่ต่ำลงอย่างมีประสิทธิภาพโดยใช้เทคนิคการแคช PLE และการข้ามพารามิเตอร์

การใช้เทคนิคการถ่ายโอนพารามิเตอร์และการเปิดใช้งานแบบเลือกเหล่านี้จะช่วยให้คุณเรียกใช้โมเดลด้วยชุดพารามิเตอร์ที่น้อยมากหรือเปิดใช้งานพารามิเตอร์เพิ่มเติมเพื่อจัดการกับข้อมูลประเภทอื่นๆ เช่น รูปภาพและเสียง ฟีเจอร์เหล่านี้จะช่วยให้คุณเพิ่มฟังก์ชันการทำงานของโมเดลหรือลดความสามารถตามความสามารถของอุปกรณ์หรือข้อกำหนดของงานได้ ส่วนต่อไปนี้จะอธิบายเพิ่มเติมเกี่ยวกับเทคนิคที่มีประสิทธิภาพของพารามิเตอร์ที่มีในโมเดล Gemma 3n

การแคช PLE

โมเดล Gemma 3n มีพารามิเตอร์การฝังต่อเลเยอร์ (PLE) ที่ใช้ในระหว่างการเรียกใช้โมเดลเพื่อสร้างข้อมูลที่ช่วยเพิ่มประสิทธิภาพของเลเยอร์โมเดลแต่ละเลเยอร์ ข้อมูล PLE สามารถสร้างแยกต่างหากนอกหน่วยความจําของโมเดล แคชไว้ในพื้นที่เก็บข้อมูลแบบรวดเร็ว แล้วเพิ่มลงในกระบวนการอนุมานของโมเดลเมื่อแต่ละเลเยอร์ทํางาน แนวทางนี้ช่วยให้พารามิเตอร์ PLE ไม่ถูกเก็บไว้ในพื้นที่หน่วยความจำของโมเดล ซึ่งจะช่วยลดการใช้ทรัพยากรไปพร้อมกับปรับปรุงคุณภาพการตอบกลับของโมเดล

สถาปัตยกรรม MatFormer

โมเดล Gemma 3n ใช้สถาปัตยกรรมโมเดล Matryoshka Transformer หรือ MatFormer ซึ่งมีโมเดลขนาดเล็กที่ฝังอยู่ภายในโมเดลขนาดใหญ่โมเดลเดียว โมเดลย่อยที่ฝังอยู่สามารถใช้เพื่อการอนุมานได้โดยไม่ต้องเปิดใช้งานพารามิเตอร์ของโมเดลที่รวมอยู่เมื่อตอบสนองต่อคําขอ ความสามารถในการเรียกใช้เฉพาะโมเดลหลักขนาดเล็กภายในโมเดล MatFormer นี้จะช่วยประหยัดต้นทุนการประมวลผล รวมถึงเวลาในการตอบสนองและการใช้พลังงานของโมเดล ในกรณีของ Gemma 3n โมเดล E4B จะมีพารามิเตอร์ของโมเดล E2B สถาปัตยกรรมนี้ยังให้คุณเลือกพารามิเตอร์และประกอบโมเดลขนาดกลางระหว่าง 2B ถึง 4B ได้ด้วย ดูรายละเอียดเพิ่มเติมเกี่ยวกับแนวทางนี้ได้ที่เอกสารวิจัย MatFormer ลองใช้เทคนิค MatFormer เพื่อลดขนาดของโมเดล Gemma 3n ด้วยคำแนะนำในMatFormer Lab

การโหลดพารามิเตอร์แบบมีเงื่อนไข

ในรุ่น Gemma 3n คุณสามารถข้ามการโหลดพารามิเตอร์บางรายการลงในหน่วยความจำได้ เช่น พารามิเตอร์เสียงหรือภาพ เพื่อลดการโหลดหน่วยความจำ ซึ่งคล้ายกับพารามิเตอร์ PLE พารามิเตอร์เหล่านี้จะโหลดแบบไดนามิกขณะรันไทม์ได้หากอุปกรณ์มีทรัพยากรที่จําเป็น โดยรวมแล้ว การข้ามพารามิเตอร์จะช่วยลดหน่วยความจําที่ใช้งานจริงที่จําเป็นสําหรับรุ่น Gemma 3n ได้อีก ซึ่งช่วยให้สามารถใช้งานในอุปกรณ์ที่หลากหลายมากขึ้น และช่วยให้นักพัฒนาแอปเพิ่มประสิทธิภาพทรัพยากรสําหรับงานที่ต้องใช้ทรัพยากรไม่มากได้

หากพร้อมเริ่มสร้างแล้ว เริ่มต้นใช้งานกับรุ่น Gemma