ชุดโมเดลปัญญาประดิษฐ์ (AI) ของ Gemini สร้างขึ้นเพื่อจัดการข้อมูลอินพุตประเภทต่างๆ ซึ่งรวมถึงข้อความ รูปภาพ และเสียง เนื่องจากโมเดลเหล่านี้สามารถจัดการข้อมูลได้มากกว่า 1 ประเภทหรือโหมด โมเดล Gemini จึงเรียกว่าโมเดลสื่อหลายรูปแบบ หรืออธิบายว่ามีความสามารถในสื่อหลายรูปแบบ
หน้านี้ให้คําแนะนําและแนวทางปฏิบัติแนะนําสําหรับการใช้ไฟล์สื่อที่มีพรอมต์สําหรับ Gemini API ดูข้อมูลเกี่ยวกับการใช้ Gemini Files API เพื่ออัปโหลดไฟล์สื่อและรวมไว้ในพรอมต์ได้ที่คู่มือVision เสียง และการประมวลผลเอกสาร
การใช้ไฟล์สื่อที่มีพรอมต์
ความสามารถในการใช้ข้อมูลประเภทต่างๆ ในพรอมต์จะช่วยให้คุณมีความยืดหยุ่นมากขึ้นในแง่ของงานที่คุณสามารถจัดการด้วย Gemini API เช่น คุณอาจส่งรูปภาพอาหารอร่อยให้ AI แล้วขอให้เขียนบล็อกสั้นๆ เกี่ยวกับอาหาร
พรอมต์ | การตอบกลับ |
เขียนบล็อกโพสต์สั้นๆ ที่น่าสนใจโดยอิงจากภาพนี้ โดยควรมีคำอธิบายอาหารในรูปภาพและพูดถึงเส้นทางการเตรียมอาหารของฉัน ![]() |
การเตรียมอาหารล่วงหน้าเป็นวิธีที่ยอดเยี่ยมในการประหยัดเวลาและค่าใช้จ่าย ทั้งยังช่วยให้คุณกินอาหารที่ดีต่อสุขภาพมากขึ้นด้วย อาหารนี้ถือเป็นตัวอย่างที่ดีของอาหารเพื่อสุขภาพและอร่อยที่เตรียมล่วงหน้าได้ง่ายๆ อาหารนี้มีข้าวกล้อง ผักย่าง และไก่เทริยากิ ข้าวกล้องเป็นคาร์โบไฮเดรตเชิงซ้อนที่มีประโยชน์ต่อสุขภาพซึ่งจะให้พลังงานแก่คุณอย่างต่อเนื่อง ผักย่างเป็นวิธีที่ดีในการรับวิตามินและแร่ธาตุประจำวัน ส่วนไก่เทริยากิเป็นตัวเลือกที่อร่อยและอุดมไปด้วยโปรตีน อาหารนี้ยังเตรียมได้ง่ายมากอีกด้วย เพียงหุงข้าวกล้อง ย่างผัก และปรุงไก่เทอริยากิ เมื่อปรุงอาหารเสร็จแล้ว ให้แบ่งอาหารใส่ภาชนะสำหรับเตรียมอาหารและเก็บไว้ในตู้เย็น จากนั้นคุณก็หยิบภาชนะบรรจุอาหารแล้วออกไปทำกิจกรรมยามเช้าอันแสนวุ่นวายได้เลย หากคุณกำลังมองหาอาหารเพื่อสุขภาพและอร่อยซึ่งเตรียมล่วงหน้าได้ง่ายๆ อาหารนี้ก็เป็นตัวเลือกที่ยอดเยี่ยม อาหารนี้มีสารอาหารและรสชาติที่ครบถ้วน และจะช่วยให้คุณรู้สึกอิ่มและพึงพอใจ ยินดีที่ได้แชร์การเตรียมอาหารเพื่อสุขภาพและอร่อย |
กลยุทธ์ในการแจ้งด้วยสื่อ
หากพบปัญหาในการรับเอาต์พุตที่ต้องการจากพรอมต์ที่ใช้ไฟล์สื่อ โปรดดูกลยุทธ์ที่จะช่วยให้คุณได้ผลลัพธ์ที่ต้องการ ส่วนต่อไปนี้แสดงแนวทางการออกแบบและเคล็ดลับการแก้ปัญหาเพื่อปรับปรุงพรอมต์ที่ใช้อินพุตแบบหลายรูปแบบ
คุณสามารถปรับปรุงพรอมต์แบบหลายสื่อได้โดยทําตามแนวทางปฏิบัติแนะนําต่อไปนี้
-
ข้อมูลพื้นฐานเกี่ยวกับการออกแบบพรอมต์
- เขียนวิธีการให้ชัดเจน: เขียนวิธีการที่กระชับและชัดเจนเพื่อไม่ให้เกิดการตีความที่ผิด
- เพิ่มตัวอย่าง 2-3 รายการในพรอมต์: ใช้ตัวอย่างแบบไม่กี่ช็อตที่สมจริงเพื่อแสดงให้เห็นสิ่งที่คุณต้องการบรรลุ
- แบ่งงานออกเป็นขั้นตอน: แบ่งงานที่ซับซ้อนออกเป็นเป้าหมายย่อยที่จัดการได้ ซึ่งจะนําทางโมเดลตลอดกระบวนการ
- ระบุรูปแบบเอาต์พุต: ในพรอมต์ ให้ขอให้เอาต์พุตอยู่ในรูปแบบที่ต้องการ เช่น Markdown, JSON, HTML และอื่นๆ
- ใส่รูปภาพไว้ก่อนสำหรับพรอมต์แบบรูปภาพเดียว: แม้ว่า Gemini จะจัดการอินพุตรูปภาพและข้อความในลำดับใดก็ได้ แต่สำหรับพรอมต์ที่มีรูปภาพเดียว การทำงานอาจมีประสิทธิภาพดีขึ้นหากวางรูปภาพไว้ก่อนพรอมต์ข้อความ
-
การแก้ปัญหาพรอมต์แบบมัลติโมด
- หากโมเดลไม่ได้ดึงข้อมูลจากส่วนที่เกี่ยวข้องของรูปภาพ ให้ใส่คำแนะนำเกี่ยวกับแง่มุมของรูปภาพที่ต้องการให้พรอมต์ดึงข้อมูล
- หากเอาต์พุตของโมเดลทั่วไปเกินไป (ปรับให้เหมาะกับรูปภาพไม่มากพอ): ลองขอให้โมเดลอธิบายรูปภาพก่อนให้วิธีการทำงาน หรือขอให้โมเดลพูดถึงสิ่งที่อยู่ในรูปภาพ
ข้อมูลพื้นฐานเกี่ยวกับการออกแบบพรอมต์
ส่วนนี้จะขยายความแนวทางปฏิบัติแนะนำที่ระบุไว้ในส่วนก่อนหน้า
หมายเหตุ: ผลลัพธ์ของโมเดลจากตัวอย่าง Gemini ต่อไปนี้อาจแตกต่างกันไปในแต่ละครั้งที่เรียกใช้
ระบุวิธีการให้ชัดเจน
พรอมต์จะประสบความสำเร็จมากที่สุดเมื่อชัดเจนและละเอียด หากต้องการเอาต์พุตที่เฉพาะเจาะจง คุณควรระบุข้อกำหนดนั้นในพรอมต์เพื่อให้แน่ใจว่าจะได้เอาต์พุตที่ต้องการ
บางครั้งความตั้งใจของพรอมต์อาจดูชัดเจนสำหรับผู้เขียน แต่จริงๆ แล้วพรอมต์นั้นไม่ได้ระบุไว้อย่างละเอียด หากต้องการปรับแต่งลักษณะการทํางานของโมเดล ให้พิจารณาว่าพรอมต์อาจถูกตีความ (ผิด) อย่างไร และตรวจสอบว่าวิธีการที่คุณให้ไว้มีความเฉพาะเจาะจงและชัดเจน อย่าลืมเขียนข้อความให้เข้าใจได้ง่ายที่สุด
สำหรับรูปภาพกระดานประกาศของสนามบินนี้ การขอให้นายแบบ/นางแบบ "อธิบายรูปภาพนี้" เพียงอย่างเดียวอาจสร้างคำอธิบายทั่วไป หากต้องการให้โมเดลแยกเวลาและเมืองจากรูปภาพ คุณสามารถใส่คำขอนั้นในพรอมต์ได้โดยตรง
พรอมต์ | การตอบกลับของโมเดล |
---|---|
![]() อธิบายรูปภาพนี้ |
รูปภาพแสดงตารางเที่ยวบินขาเข้าและขาออกของสนามบิน |
ข้อความแจ้งที่อัปเดต | การตอบกลับที่ดีขึ้น |
---|---|
![]() แยกเวลาและเมืองจากป้ายที่สนามบินซึ่งแสดงในรูปภาพนี้ออกเป็นรายการ |
เพิ่มตัวอย่าง
โมเดล Gemini ยอมรับอินพุตได้หลายรายการ ซึ่งจะใช้เป็นตัวอย่างเพื่อทำความเข้าใจเอาต์พุตที่ต้องการ การเพิ่มตัวอย่างเหล่านี้จะช่วยให้โมเดลระบุรูปแบบและใช้ความสัมพันธ์ระหว่างรูปภาพและคำตอบที่ระบุกับตัวอย่างใหม่ได้ หรือเรียกอีกอย่างว่าการเรียนรู้แบบ "จำนวนน้อย"
ในตัวอย่างด้านล่าง เอาต์พุตเริ่มต้นเขียนในรูปแบบประโยค และมีประเทศ (บราซิล) ด้วย สมมติว่าคุณต้องการเอาต์พุตในรูปแบบหรือสไตล์อื่น และต้องการเฉพาะเมือง ไม่ใช่ประเทศ การเพิ่มตัวอย่างแบบไม่กี่ช็อตลงในพรอมต์จะช่วยนำทางโมเดลให้ตอบกลับในลักษณะที่คุณต้องการ
พรอมต์ | การตอบสนองของโมเดล |
---|---|
![]() ระบุเมืองพร้อมกับสถานที่สำคัญ |
สถานที่สำคัญคือรูปปั้นพระคริสต์ผู้ไถ่ในรีโอเดจาเนโร บราซิล |
ข้อความแจ้งที่อัปเดต | การตอบกลับที่ดีขึ้น |
---|---|
ระบุเมืองพร้อมกับสถานที่สำคัญ ![]() |
เมือง: โรม สถานที่สำคัญ: โคลอสเซียม |
![]() |
เมือง: ปักกิ่ง สถานที่สำคัญ: พระราชวังต้องห้าม |
![]() |
เมือง: รีโอเดจาเนโร, สถานที่สำคัญ: รูปปั้นพระคริสต์ผู้ไถ่ |
อธิบายทีละขั้นตอน
สำหรับงานที่ซับซ้อน เช่น งานที่ต้องอาศัยทั้งความเข้าใจภาพและการหาเหตุผล การแยกงานออกเป็นขั้นตอนเล็กๆ ที่เข้าใจง่ายขึ้นอาจมีประโยชน์ หรือจะขอให้นายแบบ/นางแบบ "คิดทีละขั้นตอน" ในพรอมต์โดยตรงก็ได้เช่นกัน
พรอมต์ | การตอบกลับของโมเดล |
---|---|
![]() กระดาษชำระจะหมดเมื่อใด |
อีกไม่นานคุณจะมีสิทธิ์ใช้สิทธิ์รับชมเหลือเพียง 3 ม้วน |
ข้อความแจ้งที่อัปเดต | การตอบกลับที่ดีขึ้น |
---|---|
![]()
|
|
โจทย์คณิตศาสตร์หรือโจทย์ปัญหาแบบอื่นๆ เหมาะอย่างยิ่งที่จะใช้ถามให้โมเดลคิดทีละขั้นตอน
พรอมต์ | การตอบกลับ |
---|---|
![]()
ลำดับที่ 4 ในลำดับคืออะไร |
-135 |
การตอบกลับจากโมเดลไม่ถูกต้อง วิธีปรับปรุงปัญหานี้อย่างหนึ่งคือขอให้โมเดลแยกวิเคราะห์ปัญหาก่อนตอบพรอมต์
พรอมต์ | การตอบกลับ |
---|---|
![]()
แยกวิเคราะห์สูตรในรูปภาพก่อน จากนั้นตอบคำถาม "ลำดับที่ 4 ในอนุกรมคืออะไร" โดยอิงตามสูตร |
คลิกเพื่อขยายผลลัพธ์$$ b(n) = b(n-1) * (-3) $$ $$ b(1) = 15 $$
$$ b(4) = b(4-1) * (-3) $$ $$ b(4) = b(3) * (-3) $$ $$ b(3) = b(3-1) * (-3) $$ $$ b(3) = b(2) * (-3) $$ $$ b(2) = b(2-1) * (-3) $$ $$ b(2) = b(1) * (-3) $$ $$ b(2) = 15 * (-3) $$ $$ b(2) = -45 $$ $$ b(3) = b(2) * (-3) $$ $$ b(3) = -45 * (-3) $$ $$ b(3) = 135 $$ $$ b(4) = b(3) * (-3) $$ $$ b(4) = 135 * (-3) $$ $$ b(4) = -405 $$ ดังนั้น ลำดับที่ 4 คือ -405 |
คำตอบของโมเดลนี้ถูกต้อง ตอนนี้คุณสามารถขอให้โมเดลคิดทีละขั้นตอนเพื่อให้คำตอบมีประสิทธิภาพมากขึ้น
ข้อความแจ้งที่อัปเดต | การตอบกลับที่ดีขึ้น |
---|---|
![]()
ลำดับที่ 4 ในลำดับคืออะไร คิดทีละขั้นตอน |
เทอมแรกคือ 15 เทอมที่สองคือ b(1) * (-3) = 15 * (-3) = -45 เทอมที่ 3 คือ b(2) * (-3) = -45 * (-3) = 135 เทอมที่ 4 คือ b(3) * (-3) = 135 * (-3) = -405 |
ลองระบุรูปแบบเอาต์พุต
ปัญหาที่พบบ่อยคือเอาต์พุตของโมเดลต้องอยู่ในรูปแบบที่เจาะจง (เช่น Markdown, JSON, HTML) โดยเฉพาะในกรณีที่งานดาวน์สตรีมต้องส่งผ่านข้อมูลเอาต์พุตของโมเดล คุณลองสร้างเอาต์พุตในรูปแบบนั้นได้โดยสั่งให้โมเดลดำเนินการภายในพรอมต์ ตัวอย่าง 2 รายการมีดังนี้
พรอมต์ | การตอบสนองของโมเดล |
---|---|
![]() แยกวิเคราะห์ตารางในรูปภาพนี้เป็นรูปแบบ Markdown |
| เรื่อง | สถานะ | เวลา | วันที่เริ่มต้น | วันที่ครบกำหนด | | ------- | ------ | ---- | --------- | ------ | | คณิตศาสตร์ | ทําเสร็จแล้ว | 1.5 ชม. | 29/11/2023 | 1/12/2023 | | ภูมิศาสตร์ | ทําเสร็จแล้ว | 30 นาที | 2/12/2023 | 4/12/2023 | | ฟิสิกส์ | อยู่ระหว่างดำเนินการ | 2 ชั่วโมง | 3/12/2023 | 5/12/2023 | | ชีววิทยา | ยังไม่ได้เริ่ม | 6 ชั่วโมง | 2/11/2016 | 6/12/2023 | |
พรอมต์ | การตอบสนองของโมเดล |
---|---|
![]() ระบุรายการแอตทริบิวต์ต่อไปนี้ทั้งหมด ส่วนผสม ประเภทอาหาร มังสวิรัติหรือไม่ ในรูปแบบ JSON |
|
ใส่รูปภาพไว้ก่อนสำหรับพรอมต์แบบรูปภาพเดียว
แม้ว่า Gemini จะตีความรูปภาพและข้อความในลำดับใดก็ได้ภายในพรอมต์ แต่การวางรูปภาพเดียวไว้ก่อนพรอมต์ข้อความอาจให้ผลลัพธ์ที่ดีกว่า ในตัวอย่างต่อไปนี้ คุณจะเห็นว่ารูปภาพจะแสดงก่อนข้อความในพรอมต์แต่ละรายการ
การแก้ปัญหาพรอมต์แบบมัลติโมเดล
คุณอาจต้องแก้ปัญหาพรอมต์หากไม่ได้รับการตอบกลับที่เป็นประโยชน์ ลองใช้กลยุทธ์ต่อไปนี้
หากโมเดลไม่ได้ดึงข้อมูลจากส่วนที่เกี่ยวข้องของรูปภาพ
หากต้องการคำตอบที่เฉพาะเจาะจงมากขึ้น คุณสามารถชี้ให้เห็นส่วนต่างๆ ของรูปภาพที่ต้องการให้พรอมต์ดึงข้อมูลเพื่อใช้ในการตอบ
พรอมต์ | การตอบกลับของโมเดล |
---|---|
![]() ผ้าอ้อมเหล่านี้ใช้ได้กี่วัน |
ผ้าอ้อมจะใช้งานได้นาน 198 วัน |
ข้อความแจ้งที่อัปเดต | การตอบกลับที่ดีขึ้น |
---|---|
![]() ผ้าอ้อมเหล่านี้ใช้ได้นานแค่ไหน ใช้น้ำหนักที่แสดงบนกล่องเพื่อระบุอายุของเด็ก และใช้จำนวนผ้าอ้อมทั้งหมดในกล่อง หารจำนวนทั้งหมดด้วยจำนวนผ้าอ้อมที่เด็กใช้ต่อวัน |
กล่องมีผ้าอ้อม 198 ผืน กล่องระบุว่าผ้าอ้อมมีไว้สำหรับเด็กที่มีน้ำหนัก 22-37 ปอนด์ เด็กโดยเฉลี่ยที่มีน้ำหนักในช่วงนี้น่าจะมีอายุระหว่าง 1 ถึง 2 ปี โดยปกติเด็กอายุ 2 ปีจะใช้ผ้าอ้อมวันละ 6 ผืน ดังนั้นผ้าอ้อมจึงใช้ได้ประมาณ 33 วัน (198/6) |
หากเอาต์พุตของโมเดลทั่วไปเกินไปและปรับให้เข้ากับอินพุตรูปภาพไม่มากพอ
หากต้องการให้โมเดลปรับการตอบสนองให้เหมาะกับรูปภาพ ให้ลองขอให้โมเดลอธิบายรูปภาพก่อนทำการอนุมาน
พรอมต์ | การตอบสนองของโมเดล |
---|---|
![]() ![]() ![]() ![]() รูปภาพเหล่านี้มีอะไรเหมือนกัน |
รูปภาพทั้ง 4 รูปเป็นตัวอย่างภาพถ่ายแนวนอน |
ข้อความแจ้งที่อัปเดต | การตอบกลับที่ดีขึ้น |
---|---|
![]() ![]() ![]() ![]() ก่อนอื่น ให้อธิบายสิ่งที่อยู่ในรูปภาพแต่ละรูปโดยละเอียด รูปภาพเหล่านี้มีอะไรเหมือนกัน |
รูปภาพแรกแสดงภาพคนกำลังแพ็คกระเป๋าเดินทาง ภาพที่ 2 แสดงทางเดินที่ว่างเปล่าในห้างสรรพสินค้า รูปภาพที่สามแสดงม้วนกระดาษชำระ รูปภาพภาพที่ 4 แสดงทะเลที่มืดและเต็มไปด้วยพายุ สิ่งที่รูปภาพเหล่านี้มีเหมือนกันคือรูปภาพทั้งหมดนี้เป็นตัวอย่างของพื้นที่ลิมิต พื้นที่ลิมิตัลคือสถานที่หรือสถานการณ์ที่อยู่ตรงกลางระหว่างสถานที่หรือสถานการณ์อื่น 2 แห่ง มักมีลักษณะเป็นความรู้สึกไม่แน่นอนหรือคลุมเครือ ภาพแรกแสดงบุคคลที่อยู่ระหว่างอยู่บ้านและเดินทาง ภาพที่ 2 แสดงทางเดินระหว่าง 2 ร้านค้า รูปภาพที่สามเป็นรูปกระดาษชำระ ซึ่งอาจแสดงถึงห้องน้ำ ห้องน้ำเป็นพื้นที่เปลี่ยนผ่านระหว่างพื้นที่ส่วนตัวและพื้นที่สาธารณะ เพราะเป็นสถานที่ที่เราเตรียมตัวเพื่อเข้าสู่หรือออกจากโลกภายนอก รูปภาพภาพที่ 4 แสดงทะเลในช่วงที่น้ำสงบและช่วงที่มีพายุ พื้นที่ลิมิทัลอาจทั้งน่าตื่นเต้นและน่าอึดอัด สถานที่เหล่านี้อาจเป็นจุดเริ่มต้นใหม่หรือจุดสิ้นสุดก็ได้ อาจเป็นสถานที่สำหรับการไตร่ตรองหรือสถานที่สำหรับลงมือทำ |
นอกจากนี้ คุณยังลองขอให้โมเดลพูดถึงสิ่งที่อยู่ในรูปภาพได้อย่างชัดเจน
ข้อความแจ้งที่อัปเดต | การตอบกลับที่ดีขึ้น |
---|---|
![]() ![]() ![]() ![]() รูปภาพเหล่านี้มีอะไรเหมือนกัน อ้างอิงถึงสิ่งที่อยู่ในรูปภาพในคำตอบ |
รูปภาพทั้งหมดเกี่ยวข้องกับการท่องเที่ยว รูปภาพแรกแสดงคนกำลังแพ็คกระเป๋าเดินทาง รูปภาพที่สองแสดงทางเดินที่ว่างเปล่าในห้างสรรพสินค้า รูปภาพที่สามแสดงกองกระดาษชำระล้าง และรูปภาพสุดท้ายแสดงทะเลที่มืดและเต็มไปด้วยพายุ รูปภาพเหล่านี้เกี่ยวข้องกับการท่องเที่ยวทั้งหมด เนื่องจากเป็นสิ่งต่างๆ ที่ผู้คนต้องการหรือใช้เมื่อเดินทาง รูปภาพแรกแสดงภาพคนกำลังแพ็คกระเป๋าเดินทาง ซึ่งเป็นสิ่งที่ผู้คนมักทำเมื่อจะออกเดินทาง รูปภาพที่สองแสดงทางเดินที่ว่างเปล่าในห้างสรรพสินค้า ซึ่งเป็นสถานที่ที่ผู้คนมักไปซื้อของเพื่อการเดินทาง รูปภาพที่สามแสดงกองกระดาษชำระ ซึ่งเป็นสิ่งที่ผู้คนมักใช้เมื่อเดินทาง รูปภาพภาพที่ 4 แสดงทะเลที่มืดและเต็มไปด้วยพายุ ซึ่งเป็นสิ่งที่ผู้คนมักพบเจอเมื่อเดินทาง |
เคล็ดลับเดียวกันนี้ใช้ได้กับเอาต์พุตครีเอทีฟโฆษณาจากรูปภาพ ในตัวอย่างนี้ที่มีกระต่าย การขอให้โมเดลรวมลักษณะบางอย่างจากรูปภาพอย่างชัดเจนจะช่วยปรับปรุงผลลัพธ์ได้
พรอมต์ | การตอบสนองของโมเดล |
---|---|
![]() คุณช่วยแต่งบทกวีเกี่ยวกับรูปภาพนี้ให้ฉันได้ไหม |
กระต่ายน้อยสีน้ำตาลนุ่มนิ่ม คุณกินหญ้าสีเขียวแสนหวาน |
ข้อความแจ้งที่อัปเดต | การตอบกลับที่ดีขึ้น |
---|---|
![]() คุณช่วยเขียนบทกวีที่สื่อความหมายและน่าตื่นเต้นเกี่ยวกับรูปภาพนี้ให้ฉันได้ไหม พร้อมระบุสถานที่ด้วย |
กระต่ายน้อยบนพื้นหญ้า สีน้ำเงินของทะเล กระต่ายน้อย บอกมาตรงๆ บางทีอาจเป็นเพราะความกว้างใหญ่ของทุกสิ่ง กระต่ายน้อย ฉันสงสัยว่าคุณฝันถึงอะไร ไม่ว่าอะไรก็ตาม กระต่ายน้อย |
การแก้ปัญหาว่าพรอมต์ส่วนใดไม่สำเร็จ
การพิจารณาว่าพรอมต์ไม่สำเร็จเนื่องจากโมเดลไม่เข้าใจรูปภาพตั้งแต่แรก หรือเข้าใจรูปภาพแต่ขั้นตอนการใช้เหตุผลไม่ถูกต้องหลังจากนั้นนั้นเป็นเรื่องยาก
หากต้องการแยกแยะเหตุผลเหล่านั้น ให้ขอให้นายแบบ/นางแบบอธิบายสิ่งที่อยู่ในรูปภาพ
ในตัวอย่างด้านล่างนี้ หากโมเดลตอบกลับด้วยของว่างที่ดูเหมือนจะแปลกเมื่อจับคู่กับชา (เช่น ป๊อปคอร์น) คุณสามารถแก้ปัญหาก่อนเพื่อดูว่าโมเดลจดจำได้อย่างถูกต้องหรือไม่ว่ารูปภาพมีชา
พรอมต์ | ข้อความแจ้งให้แก้ปัญหา |
---|---|
![]() มีอะไรเป็นอาหารว่างที่ฉันทำเสร็จภายใน 1 นาทีและเข้ากันได้ดีกับเมนูนี้บ้าง |
![]() อธิบายสิ่งที่อยู่ในรูปภาพนี้ |
อีกกลยุทธ์หนึ่งคือขอให้โมเดลอธิบายเหตุผล ซึ่งจะช่วยให้คุณจำกัดขอบเขตได้ว่าการหาเหตุผลส่วนใดทำงานผิดพลาด (หากมี)
พรอมต์ | ข้อความแจ้งให้แก้ปัญหา |
---|---|
![]() มีอะไรเป็นอาหารว่างที่ฉันทำเสร็จภายใน 1 นาทีและเข้ากันได้ดีกับเมนูนี้บ้าง |
![]() มีอะไรเป็นอาหารว่างที่ฉันทำเสร็จภายใน 1 นาทีและเข้ากันได้ดีกับเมนูนี้บ้าง โปรดให้เหตุผล |
การปรับพารามิเตอร์การสุ่มตัวอย่าง
ในคำขอแต่ละรายการ คุณไม่เพียงส่งพรอมต์แบบหลายโมเดลเท่านั้น แต่ยังส่งชุดพารามิเตอร์การสุ่มตัวอย่างไปยังโมเดลด้วย โมเดลสามารถสร้างผลลัพธ์ที่แตกต่างกันสําหรับค่าพารามิเตอร์ที่แตกต่างกัน ลองใช้พารามิเตอร์ต่างๆ เพื่อหาค่าที่ดีที่สุดสําหรับงาน พารามิเตอร์ที่มีการปรับเปลี่ยนบ่อยที่สุดมีดังนี้
- อุณหภูมิ
- top-P
- top-K
อุณหภูมิ
ระบบจะใช้อุณหภูมิในการสุ่มตัวอย่างระหว่างการสร้างคำตอบ ซึ่งจะเกิดขึ้นเมื่อใช้ Top-P และ Top-K
อุณหภูมิจะควบคุมระดับความสุ่มในการเลือกโทเค็น อุณหภูมิที่ต่ำเหมาะสำหรับพรอมต์ที่ต้องใช้คำตอบแบบกำหนดตายตัวมากขึ้นและคำตอบแบบปลายเปิดหรือสร้างสรรค์น้อยลง ส่วนอุณหภูมิที่สูงอาจนำไปสู่ผลลัพธ์ที่หลากหลายหรือสร้างสรรค์มากขึ้น ค่าอุณหภูมิ 0 เป็นแบบกำหนดได้ ซึ่งหมายความว่าระบบจะเลือกคำตอบที่มีแนวโน้มสูงสุดเสมอ
สําหรับ Use Case ส่วนใหญ่ ให้ลองเริ่มต้นด้วยอุณหภูมิ 0.4 หากต้องการผลลัพธ์ครีเอทีฟโฆษณามากขึ้น ให้ลองเพิ่มอุณหภูมิ หากสังเกตเห็นภาพหลอนอย่างชัดเจน ให้ลองลดอุณหภูมิ
Top-K
Top-K จะเปลี่ยนวิธีเลือกโทเค็นสำหรับเอาต์พุตของโมเดล ค่า Top-K เท่ากับ 1 หมายความว่าโทเค็นที่เลือกถัดไปคือโทเค็นที่มีแนวโน้มมากที่สุดในบรรดาโทเค็นทั้งหมดในคลังคำของโมเดล (หรือที่เรียกว่าการถอดรหัสแบบละโมบ) ส่วนค่า Top-K เท่ากับ 3 หมายความว่าระบบจะเลือกโทเค็นถัดไปจากโทเค็นที่มีแนวโน้มมากที่สุด 3 รายการโดยใช้อุณหภูมิ
สําหรับขั้นตอนการเลือกโทเค็นแต่ละขั้นตอน ระบบจะสุ่มตัวอย่างโทเค็น K อันดับแรกที่มีความน่าจะเป็นสูงสุด จากนั้นระบบจะกรองโทเค็นเพิ่มเติมตาม P สูงสุด โดยเลือกโทเค็นสุดท้ายโดยใช้การสุ่มตัวอย่างอุณหภูมิ
ระบุค่าที่ต่ำลงเพื่อให้คำตอบแบบสุ่มน้อยลง และค่าที่สูงขึ้นเพื่อให้คำตอบแบบสุ่มมากขึ้น ค่าเริ่มต้นของ top-K คือ 32
Top-P
Top-P จะเปลี่ยนวิธีที่โมเดลเลือกโทเค็นสําหรับเอาต์พุต ระบบจะเลือกโทเค็นจากความน่าจะเป็นสูงสุด (ดูที่ top-K) ไปจนถึงความน่าจะเป็นต่ำสุดจนกว่าผลรวมของความน่าจะเป็นจะเท่ากับค่า top-P เช่น หากโทเค็น A, B และ C มีความน่าจะเป็น 0.6, 0.3 และ 0.1 และค่า P สูงสุดคือ 0.9 โมเดลจะเลือก A หรือ B เป็นโทเค็นถัดไปโดยใช้อุณหภูมิ และยกเว้น C ไม่ให้เป็นผู้สมัคร
ระบุค่าที่ต่ำลงเพื่อให้คำตอบแบบสุ่มน้อยลง และค่าที่สูงขึ้นเพื่อให้คำตอบแบบสุ่มมากขึ้น ค่าเริ่มต้นของ top-P คือ 1.0
ขั้นตอนถัดไป
- ลองเขียนพรอมต์แบบมัลติโมเดลของคุณเองโดยใช้ Google AI Studio
- ดูคําแนะนําเพิ่มเติมเกี่ยวกับการออกแบบพรอมต์ได้ที่หน้ากลยุทธ์พรอมต์