आर्टिफ़िशियल इंटेलिजेंस (एआई) मॉडल की Gemini फ़ैमिली, अलग-अलग तरह के इनपुट डेटा को मैनेज करने के लिए बनाई गई है. जैसे, टेक्स्ट, इमेज, और ऑडियो. ये मॉडल, डेटा के एक से ज़्यादा टाइप या मोड को मैनेज कर सकते हैं. इसलिए, Gemini मॉडल को मल्टीमोडल मॉडल कहा जाता है या इन्हें मल्टीमोडल क्षमताओं के तौर पर समझाया जाता है.
इस पेज पर, Gemini API के लिए प्रॉम्प्ट वाली मीडिया फ़ाइलों का इस्तेमाल करने के दिशा-निर्देश और सबसे सही तरीके दिए गए हैं. मीडिया फ़ाइलें अपलोड करने और उन्हें अपने प्रॉम्प्ट में शामिल करने के लिए, Gemini Files API का इस्तेमाल करने के बारे में जानकारी पाने के लिए, Vision, ऑडियो, और दस्तावेज़ प्रोसेस करने से जुड़ी गाइड देखें.
प्रॉम्प्ट के साथ मीडिया फ़ाइलों का इस्तेमाल करना
प्रॉम्प्ट में अलग-अलग तरह के डेटा का इस्तेमाल करने से, आपको Gemini API की मदद से ज़्यादा टास्क पूरे करने में मदद मिलती है. उदाहरण के लिए, मॉडल को किसी स्वादिष्ट खाने की फ़ोटो भेजकर, उस खाने के बारे में एक छोटा ब्लॉग लिखने के लिए कहा जा सकता है.
प्रॉम्प्ट | रिस्पॉन्स |
इस तस्वीर के आधार पर, एक छोटी और दिलचस्प ब्लॉग पोस्ट लिखें. इसमें, फ़ोटो में दिख रहे खाने के बारे में जानकारी होनी चाहिए. साथ ही, इसमें यह भी बताया जाना चाहिए कि मैंने खाना बनाने के लिए क्या-क्या किया. ![]() |
खाना पहले से तैयार करना, समय और पैसे बचाने का एक बेहतरीन तरीका है. इससे आपको सेहतमंद खाना खाने में भी मदद मिल सकती है. यह खाना, सेहतमंद और स्वादिष्ट खाने का एक बेहतरीन उदाहरण है. इसे पहले से आसानी से तैयार किया जा सकता है. इस खाने में ब्राउन राइस, रोस्ट की गई सब्ज़ियां, और चिकन टेरियाकी शामिल है. ब्राउन राइस एक सेहतमंद और कॉम्प्लेक्स कार्बोहाइड्रेट है. इससे आपको लंबे समय तक एनर्जी मिलेगी. रोस्ट की गई सब्जियां, विटामिन और मिनरल का बेहतरीन सोर्स हैं. साथ ही, चिकन टेरियाकी एक स्वादिष्ट और प्रोटीन से भरपूर विकल्प है. यह खाना बनाना भी बहुत आसान है. बस ब्राउन राइस को पकाएं, सब्ज़ियों को रोस्ट करें, और चिकन टेरियाकी को पकाएं. सभी चीज़ें पक जाने के बाद, उन्हें मेल प्रिपेयर कंटेनर में बांटें और उन्हें रेफ़्रिजरेटर में स्टोर करें. इसके बाद, कंटेनर लेकर व्यस्त सुबह के समय भी ज़रूरत के हिसाब से कॉन्टेंट देखा जा सकता है! अगर आपको पौष्टिक और स्वादिष्ट खाना चाहिए, जिसे पहले से आसानी से तैयार किया जा सकता है, तो यह खाना एक बेहतरीन विकल्प है. इसमें ज़रूरी पोषक तत्व और स्वाद भरपूर मात्रा में मौजूद होते हैं. साथ ही, यह आपको लंबे समय तक भरा हुआ और संतुष्ट रखता है. सेहतमंद और स्वादिष्ट खाना बनाने के लिए, यह तरीका अपनाएं! |
मीडिया का इस्तेमाल करके प्रॉम्प्ट करने की रणनीतियां
अगर आपको मीडिया फ़ाइलों का इस्तेमाल करने वाले प्रॉम्प्ट से मनमुताबिक आउटपुट पाने में समस्या आ रही है, तो यहां दी गई कुछ रणनीतियों की मदद से, मनमुताबिक नतीजे पाए जा सकते हैं. यहां दिए गए सेक्शन में, डिज़ाइन के तरीके और समस्या हल करने के सुझाव दिए गए हैं. इनसे, कई तरह के इनपुट का इस्तेमाल करने वाले प्रॉम्प्ट को बेहतर बनाने में मदद मिलती है.
इन सबसे सही तरीकों को अपनाकर, मल्टीमोडल प्रॉम्प्ट को बेहतर बनाया जा सकता है:
-
प्रॉम्प्ट के डिज़ाइन से जुड़ी बुनियादी बातें
- निर्देश साफ़ तौर पर दें: साफ़ और कम शब्दों में निर्देश दें, ताकि उन्हें गलत तरीके से न समझा जाए.
- अपने प्रॉम्प्ट में कुछ उदाहरण जोड़ें: आपको जो करना है उसे समझाने के लिए, असल लगने वाले कुछ-शॉट वाले उदाहरणों का इस्तेमाल करें.
- सिलसिलेवार तरीके से बताएं: मुश्किल टास्क को मैनेज किए जा सकने वाले सब-टास्क में बांटें. साथ ही, मॉडल को प्रोसेस के बारे में बताएं.
- आउटपुट का फ़ॉर्मैट तय करना: अपने प्रॉम्प्ट में, आउटपुट के लिए अपने पसंदीदा फ़ॉर्मैट का अनुरोध करें. जैसे, मार्कडाउन, JSON, एचटीएमएल वगैरह.
- सिंगल-इमेज प्रॉम्प्ट के लिए, इमेज को पहले रखें: Gemini, इमेज और टेक्स्ट इनपुट को किसी भी क्रम में मैनेज कर सकता है. हालांकि, अगर सिंगल-इमेज वाले प्रॉम्प्ट में इमेज को टेक्स्ट प्रॉम्प्ट से पहले रखा जाता है, तो हो सकता है कि वह बेहतर परफ़ॉर्म करे.
-
मल्टीमोडल प्रॉम्प्ट से जुड़ी समस्या हल करना
- अगर मॉडल, इमेज के काम के हिस्से से जानकारी नहीं ले रहा है, तो: इमेज के किन हिस्सों से आपको प्रॉम्प्ट से जानकारी चाहिए, इसके बारे में बताएं.
- अगर मॉडल का आउटपुट बहुत सामान्य है (इमेज के हिसाब से नहीं है): प्रॉम्प्ट की शुरुआत में, टास्क का निर्देश देने से पहले, मॉडल से इमेज के बारे में बताने के लिए कहें. इसके अलावा, मॉडल से इमेज में मौजूद चीज़ों के बारे में बताने के लिए कहें.
प्रॉम्प्ट के डिज़ाइन से जुड़ी बुनियादी बातें
इस सेक्शन में, पिछले सेक्शन में बताए गए सबसे सही तरीकों के बारे में ज़्यादा जानकारी दी गई है.
ध्यान दें: Gemini के इन उदाहरणों से मिले मॉडल के नतीजे, हर बार अलग-अलग हो सकते हैं.
निर्देशों में खास जानकारी दें
प्रॉम्प्ट तब सबसे ज़्यादा काम के होते हैं, जब वे साफ़ और ज़्यादा जानकारी वाले हों. अगर आपको कोई खास आउटपुट चाहिए, तो प्रॉम्प्ट में उस ज़रूरत को शामिल करना बेहतर होगा. इससे आपको अपना मनचाहा आउटपुट मिलेगा.
कभी-कभी, प्रॉम्प्ट लिखने वाले व्यक्ति को उसका मकसद साफ़ दिख सकता है, लेकिन असल में उसमें ज़रूरत के मुताबिक जानकारी नहीं होती. मॉडल के व्यवहार को पसंद के मुताबिक बनाने के लिए, इस बात का ध्यान रखें कि आपके प्रॉम्प्ट का गलत तरीके से कैसे (गलत) मतलब निकाला जा सकता है. साथ ही, पक्का करें कि आपके दिए गए निर्देश खास और साफ़ हों. ध्यान रखें कि आपके कॉन्टेंट का गलत मतलब न निकाला जा सके
हवाई अड्डे के बोर्ड की इस इमेज के लिए, मॉडल से सिर्फ़ "इस इमेज के बारे में बताएं" कहने पर, सामान्य जानकारी जनरेट हो सकती है. अगर आपको मॉडल से इमेज में मौजूद समय और शहर को पार्स करने के लिए कहना है, तो उस अनुरोध को सीधे अपने प्रॉम्प्ट में शामिल करें.
प्रॉम्प्ट | मॉडल का जवाब |
---|---|
![]() इस इमेज के बारे में बताएं. |
इस इमेज में, हवाई अड्डे पर आने और जाने वाली फ़्लाइट की जानकारी देने वाला बोर्ड दिखाया गया है. |
अपडेट किया गया प्रॉम्प्ट | बेहतर जवाब |
---|---|
![]() इस इमेज में दिखाए गए हवाई अड्डे के बोर्ड से, समय और शहर को सूची में पार्स करें. |
कुछ उदाहरण जोड़ें
Gemini मॉडल एक से ज़्यादा इनपुट स्वीकार कर सकता है. इनका इस्तेमाल, आपको जो आउटपुट चाहिए उसे समझने के लिए उदाहरण के तौर पर किया जा सकता है. इन उदाहरणों को जोड़ने से, मॉडल को पैटर्न की पहचान करने में मदद मिल सकती है. साथ ही, दिए गए उदाहरणों और जवाबों के बीच के संबंध को नए उदाहरण पर लागू किया जा सकता है. इसे "फ़्यू-शॉट" लर्निंग भी कहा जाता है.
नीचे दिए गए उदाहरण में, शुरुआती आउटपुट को वाक्य के तौर पर लिखा गया है. इसमें देश (ब्राज़ील) भी शामिल है. मान लें कि आपको आउटपुट किसी दूसरे फ़ॉर्मैट या स्टाइल में चाहिए और आपको सिर्फ़ शहर चाहिए, न कि देश. अपने प्रॉम्प्ट में कुछ शॉट के उदाहरण जोड़ने से, मॉडल को आपके हिसाब से जवाब देने के लिए कहा जा सकता है.
प्रॉम्प्ट | मॉडल का जवाब |
---|---|
![]() मशहूर जगह के साथ-साथ शहर का नाम भी डालें. |
यह मशहूर जगह, ब्राज़ील के रियो डी जेनेरो में क्राइस्ट द रीडीमर की मूर्ति है. |
अपडेट किया गया प्रॉम्प्ट | बेहतर जवाब |
---|---|
मशहूर जगह के साथ-साथ शहर की जानकारी दें. ![]() |
शहर: रोम, लैंडमार्क: कोलोसियम. |
![]() |
शहर: बीजिंग, मशहूर जगह: फ़ॉर्बिडन सिटी |
![]() |
शहर: रियो डि जेनेरो, लैंडमार्क: क्राइस्ट द रीडीमर की मूर्ति |
सिलसिलेवार तरीके से जानकारी दें
मुश्किल टास्क के लिए, टास्क को छोटे और आसान चरणों में बांटना मददगार हो सकता है. जैसे, ऐसे टास्क जिनमें विज़ुअल समझने और तर्क करने, दोनों की ज़रूरत होती है. इसके अलावा, अगर आपने प्रॉम्प्ट में सीधे तौर पर मॉडल से “सिलसिलेवार तरीके से सोचने” के लिए कहा, तो भी यह तरीका कारगर हो सकता है.
प्रॉम्प्ट | मॉडल का जवाब |
---|---|
![]() मेरे पास टॉयलेट पेपर कब तक रहेगा? |
जल्द ही, आपके पास सिर्फ़ तीन रोल बचे होंगे. |
अपडेट किया गया प्रॉम्प्ट | बेहतर जवाब |
---|---|
![]()
|
|
गणित के सवाल या अन्य तरह के सवालों के लिए, मॉडल को सिलसिलेवार तरीके से सोचने के लिए कहा जा सकता है.
प्रॉम्प्ट | रिस्पॉन्स |
---|---|
![]()
क्रम में चौथा पद क्या है? |
-135 |
मॉडल से मिला जवाब गलत है. इसे बेहतर बनाने के लिए, प्रॉम्प्ट का जवाब देने से पहले मॉडल से समस्या को पार्स करने के लिए कहा जा सकता है.
प्रॉम्प्ट | रिस्पॉन्स |
---|---|
![]()
सबसे पहले, इमेज में मौजूद फ़ॉर्मूला को पार्स करें. इसके बाद, फ़ॉर्मूला के आधार पर, "इस क्रम में चौथा पद क्या है?" का जवाब दें. |
नतीजे को बड़ा करने के लिए क्लिक करें$$ b(n) = b(n-1) * (-3) $$ $$ b(1) = 15 $$
$$ b(4) = b(4-1) * (-3) $$ $$ b(4) = b(3) * (-3) $$ $$ b(3) = b(3-1) * (-3) $$ $$ b(3) = b(2) * (-3) $$ $$ b(2) = b(2-1) * (-3) $$ $$ b(2) = b(1) * (-3) $$ $$ b(2) = 15 * (-3) $$ $$ b(2) = -45 $$ $$ b(3) = b(2) * (-3) $$ $$ b(3) = -45 * (-3) $$ $$ b(3) = 135 $$ $$ b(4) = b(3) * (-3) $$ $$ b(4) = 135 * (-3) $$ $$ b(4) = -405 $$ इसलिए, क्रम में चौथा पद -405 है. |
मॉडल का यह जवाब सही है. अब जवाब को और बेहतर बनाने के लिए, मॉडल से सिलसिलेवार तरीके से सोचने के लिए कहा जा सकता है.
अपडेट किया गया प्रॉम्प्ट | बेहतर जवाब |
---|---|
![]()
क्रम में चौथा पद क्या है? सिलसिलेवार तरीके से सोचें. |
पहला पद 15 है. दूसरा पद b(1) * (-3) = 15 * (-3) = -45 है. तीसरा पद b(2) * (-3) = -45 * (-3) = 135 है. चौथा पद b(3) * (-3) = 135 * (-3) = -405 है. |
आउटपुट फ़ॉर्मैट तय करने की कोशिश करें
आम तौर पर, मॉडल के आउटपुट को किसी खास फ़ॉर्मैट (जैसे, मार्कडाउन, JSON, एचटीएमएल) में होना ज़रूरी होता है. ऐसा तब ज़्यादा ज़रूरी होता है, जब मॉडल के आउटपुट को किसी डाउनस्ट्रीम टास्क के ज़रिए डालना हो. प्रॉम्प्ट में मॉडल को निर्देश देकर, उस फ़ॉर्मैट में आउटपुट पाने की कोशिश की जा सकती है. यहां दो उदाहरण दिए गए हैं:
प्रॉम्प्ट | मॉडल का जवाब |
---|---|
![]() इस इमेज में मौजूद टेबल को मार्कडाउन फ़ॉर्मैट में पार्स करना |
| विषय | स्थिति | समय | शुरू होने की तारीख | पूरा होने की तारीख | | ------- | ------ | ---- | --------- | ------ | | गणित | हो गया | 1.5 घंटे | 29/11/2023 | 1/12/2023 | | भूगोल | हो गया | 30 मिनट | 2/12/2023 | 4/12/2023 | | भौतिक विज्ञान | प्रोसेस जारी है | 2 घंटे | 3/12/2023 | 5/12/2023 | | जीव विज्ञान | शुरू नहीं हुआ | 6 घंटे | 2/11/2016 | 6/12/2023 | |
प्रॉम्प्ट | मॉडल का जवाब |
---|---|
![]() यहां दिए गए सभी एट्रिब्यूट की सूची दें: JSON फ़ॉर्मैट में, पकवान में इस्तेमाल होने वाले आइटम, पकवान का टाइप, और यह कि पकवान शाकाहारी है या नहीं |
|
एक इमेज वाले प्रॉम्प्ट के लिए, अपनी इमेज को पहले रखें
Gemini, प्रॉम्प्ट में इमेज और टेक्स्ट को किसी भी क्रम में समझ सकता है. हालांकि, टेक्स्ट प्रॉम्प्ट से पहले एक इमेज डालने से बेहतर नतीजे मिल सकते हैं. नीचे दिए गए सैंपल में, आपको दिखेगा कि हर प्रॉम्प्ट में टेक्स्ट से पहले इमेज दिखती है.
मल्टीमोडल प्रॉम्प्ट से जुड़ी समस्या हल करना
अगर आपको काम का जवाब नहीं मिल रहा है, तो आपको अपने प्रॉम्प्ट से जुड़ी समस्या हल करनी पड़ सकती है. यहां कुछ रणनीतियां दी गई हैं, जिन्हें आज़माया जा सकता है.
अगर मॉडल, इमेज के काम के हिस्से से जानकारी नहीं ले रहा है
ज़्यादा सटीक जवाब पाने के लिए, यह बताया जा सकता है कि आपको प्रॉम्प्ट से इमेज के किन हिस्सों की जानकारी चाहिए.
प्रॉम्प्ट | मॉडल का जवाब |
---|---|
![]() इन डायपर से एक बच्चे को कितने दिन तक इस्तेमाल करने में मदद मिलेगी? |
डायपर 198 दिनों तक चलेंगे. |
अपडेट किया गया प्रॉम्प्ट | बेहतर जवाब |
---|---|
![]() ये डायपर कब तक चलेंगे? बच्चे की उम्र का पता लगाने के लिए, बॉक्स पर दिए गए वजन का इस्तेमाल करें. साथ ही, बॉक्स में डायपर की कुल संख्या का इस्तेमाल करें. कुल संख्या को, बच्चे के हर दिन इस्तेमाल किए जाने वाले डायपर की संख्या से भाग दें. |
बॉक्स में 198 डायपर हैं. बॉक्स पर लिखा है कि डायपर, 22 से 37 पाउंड वजन वाले बच्चे के लिए हैं. आम तौर पर, इस वज़न सीमा में आने वाले बच्चे की उम्र 1 से 2 साल के बीच होती है. आम तौर पर, दो साल के बच्चे को हर दिन छह डायपर की ज़रूरत होती है. इसलिए, ये डायपर करीब 33 दिन (198/6) तक चलेंगे. |
अगर मॉडल का आउटपुट बहुत सामान्य है और इमेज इनपुट के हिसाब से नहीं है
मॉडल को इमेज के हिसाब से जवाब देने में मदद करने के लिए, उसे तर्क करने से पहले इमेज के बारे में बताने के लिए कहें.
प्रॉम्प्ट | मॉडल का जवाब |
---|---|
![]() ![]() ![]() ![]() इन इमेज में क्या समानता है? |
इन चारों इमेज में लैंडस्केप फ़ोटोग्राफ़ी के उदाहरण दिए गए हैं. |
अपडेट किया गया प्रॉम्प्ट | बेहतर जवाब |
---|---|
![]() ![]() ![]() ![]() सबसे पहले, हर इमेज में क्या है, इसकी पूरी जानकारी दें. इन इमेज में क्या समानता है? |
पहली इमेज में, एक व्यक्ति को सूटकेस पैक करते हुए दिखाया गया है. दूसरी इमेज में, शॉपिंग मॉल का खाली हॉल दिखाया गया है. तीसरी इमेज में टॉयलेट पेपर का रोल दिख रहा है. चौथी इमेज में, अंधेरे और तूफानी समुद्र को दिखाया गया है. इन इमेज में एक जैसी बात यह है कि ये सभी लिमिनल स्पेस के उदाहरण हैं. लिमिनल स्पेस ऐसी जगहें या स्थितियां होती हैं जो दो अन्य जगहों या स्थितियों के बीच होती हैं. इनमें अक्सर अनिश्चितता या धुंधलापन की भावना होती है. पहली इमेज में, व्यक्ति को घर पर और यात्रा पर जाते हुए दिखाया गया है. दूसरी इमेज में, दो स्टोर के बीच का हॉल दिखाया गया है. तीसरी इमेज टॉयलेट पेपर की है, जो बाथरूम को दिखा सकती है. बाथरूम, निजी और सार्वजनिक जगहों के बीच का एक ट्रांज़िशनल स्पेस है. यह एक ऐसी जगह है जहां हम बाहरी दुनिया में जाने या उससे बाहर निकलने के लिए खुद को तैयार करते हैं. चौथी इमेज में, समुद्र को शांत और तूफानी स्थिति के बीच दिखाया गया है. सीमांत स्पेस, रोमांचक और परेशान करने वाले, दोनों हो सकते हैं. ये नई शुरुआत या खत्म होने की जगह हो सकती हैं. ये किसी बात पर विचार करने या कार्रवाई करने की जगह हो सकती हैं. |
आपके पास मॉडल से सीधे तौर पर पूछने का विकल्प भी है कि इमेज में क्या है.
अपडेट किया गया प्रॉम्प्ट | बेहतर जवाब |
---|---|
![]() ![]() ![]() ![]() इन इमेज में क्या समानता है? अपने जवाब में, इमेज में मौजूद चीज़ों के बारे में बताएं. |
सभी इमेज, यात्रा से जुड़ी हों. पहली इमेज में, एक व्यक्ति को अपना सूटकेस पैक करते हुए दिखाया गया है. दूसरी इमेज में, एक शॉपिंग मॉल का खाली हॉल दिखाया गया है. तीसरी इमेज में, टॉयलेट पेपर का एक स्टैक दिखाया गया है. चौथी इमेज में, तूफानी और अंधेरे समुद्र को दिखाया गया है. ये सभी इमेज यात्रा से जुड़ी हैं, क्योंकि ये ऐसी चीज़ें हैं जिनकी ज़रूरत लोगों को यात्रा के दौरान होती है या जिनका इस्तेमाल वे यात्रा के दौरान करते हैं. पहली इमेज में एक व्यक्ति को अपना सूटकेस पैक करते हुए दिखाया गया है. लोग ऐसा तब करते हैं, जब वे कहीं सफ़र पर जा रहे हों. दूसरी इमेज में, शॉपिंग मॉल के खाली हॉल को दिखाया गया है. यह एक ऐसी जगह है जहां लोग अक्सर अपनी यात्राओं के लिए चीज़ें खरीदने जाते हैं. तीसरी इमेज में टॉयलेट पेपर का एक स्टैक दिखाया गया है. लोग अक्सर यात्रा के दौरान इसका इस्तेमाल करते हैं. चौथी इमेज में, काले और तूफानी समुद्र की तस्वीर दिखाई गई है. ऐसा अक्सर लोगों को यात्रा करते समय दिखता है. |
इमेज से क्रिएटिव आउटपुट पाने के लिए भी ये सलाह काम करती हैं. यहां दिए गए उदाहरण में, खरगोश की इमेज के कुछ हिस्सों को शामिल करने के लिए मॉडल से साफ़ तौर पर कहा गया है. इससे आउटपुट को बेहतर बनाया जा सकता है.
प्रॉम्प्ट | मॉडल का जवाब |
---|---|
![]() क्या तुम इस इमेज के बारे में कोई कविता लिख सकते हो? |
छोटी खरगोश, बहुत नरम और भूरी, हरी और मीठी घास को थोड़ा-थोड़ा खाती हो, |
अपडेट किया गया प्रॉम्प्ट | बेहतर जवाब |
---|---|
![]() क्या आप इस इमेज के बारे में जानकारी देने वाली और नाटकीय कविता लिख सकते हैं? साथ ही, इसमें जगह की जानकारी भी शामिल करें. |
हरी घास पर छोटी खरगोश, क्या यह समुद्र जैसा नीला है, छोटी खरगोश, सच बताओ, शायद यह इसकी विशालता है, छोटे खरगोश, मुझे आश्चर्य है कि आपको क्या सपने आते हैं, चाहे जो भी हो, छोटी खरगोश, |
प्रॉम्प्ट के किस हिस्से में समस्या आ रही है
यह पता लगाना मुश्किल हो सकता है कि प्रॉम्प्ट काम नहीं कर रहा है, क्योंकि मॉडल ने शुरू में इमेज को समझा नहीं या उसने इमेज को समझा, लेकिन बाद में तर्क के सही चरणों को पूरा नहीं किया.
इन वजहों के बीच अंतर करने के लिए, मॉडल से पूछें कि इमेज में क्या है.
नीचे दिए गए उदाहरण में, अगर मॉडल किसी ऐसे स्नैक के बारे में बताता है जो चाय के साथ खाना आश्चर्यजनक लगता है (उदाहरण के लिए, पॉपकॉर्न), तो पहले समस्या हल करें. इससे यह पता चलेगा कि मॉडल ने सही तरीके से पहचाना है या नहीं कि इमेज में चाय है.
प्रॉम्प्ट | समस्या हल करने के लिए सूचना |
---|---|
![]() इस डिश के साथ एक मिनट में कौनसा स्नैक बनाया जा सकता है? |
![]() इस इमेज में क्या है, इसके बारे में बताएं. |
मॉडल से उसकी वजह बताने के लिए कहना, एक और रणनीति है. इससे आपको यह पता चल सकता है कि तर्क के किस हिस्से में गड़बड़ी हुई है.
प्रॉम्प्ट | समस्या हल करने के लिए सूचना |
---|---|
![]() इस डिश के साथ एक मिनट में कौनसा स्नैक बनाया जा सकता है? |
![]() इस डिश के साथ एक मिनट में कौनसा स्नैक बनाया जा सकता है? कृपया इसकी वजह बताएं. |
सैंपलिंग पैरामीटर को ट्यून करना
हर अनुरोध में, मॉडल को न सिर्फ़ मल्टीमोडल प्रॉम्प्ट भेजा जाता है, बल्कि सैंपलिंग पैरामीटर का एक सेट भी भेजा जाता है. मॉडल, अलग-अलग पैरामीटर वैल्यू के लिए अलग-अलग नतीजे जनरेट कर सकता है. टास्क के लिए सबसे अच्छी वैल्यू पाने के लिए, अलग-अलग पैरामीटर आज़माएं. आम तौर पर, इन पैरामीटर में बदलाव किए जाते हैं:
- तापमान
- top-P
- top-K
तापमान
जवाब जनरेट करने के दौरान सैंपलिंग के लिए, टेम्परेचर का इस्तेमाल किया जाता है. ऐसा तब होता है, जब टॉप-P और टॉप-K लागू किए जाते हैं.
तापमान, टोकन चुनने के लिए रैंडम तरीके से तय किए गए नंबर की डिग्री को कंट्रोल करता है. कम तापमान वाले प्रॉम्प्ट के लिए, ज़्यादा सटीक और कम ओपन-एंडेड या क्रिएटिव जवाब की ज़रूरत होती है. वहीं, ज़्यादा तापमान वाले प्रॉम्प्ट के लिए, अलग-अलग या क्रिएटिव जवाब मिल सकते हैं. 0 का तापमान तय होता है. इसका मतलब है कि सबसे ज़्यादा संभावना वाले जवाब को हमेशा चुना जाता है.
ज़्यादातर इस्तेमाल के उदाहरणों के लिए, 0.4 डिग्री सेल्सियस से शुरू करें. अगर आपको ज़्यादा क्रिएटिव नतीजे चाहिए, तो तापमान बढ़ाकर देखें. अगर आपको साफ़ तौर पर भ्रम की समस्या का पता चलता है, तो तापमान कम करके देखें.
टॉप-K
Top-K से, मॉडल के आउटपुट के लिए टोकन चुनने के तरीके में बदलाव होता है. अगर टॉप-K की वैल्यू 1 है, तो इसका मतलब है कि चुना गया अगला टोकन, मॉडल की शब्दावली में मौजूद सभी टोकन में से सबसे ज़्यादा संभावना वाला टोकन है. इसे 'लालची डिकोडिंग' भी कहा जाता है. वहीं, अगर टॉप-K की वैल्यू 3 है, तो इसका मतलब है कि अगला टोकन, सबसे ज़्यादा संभावना वाले तीन टोकन में से चुना गया है. इसके लिए, टेम्परेचर का इस्तेमाल किया जाता है.
टोकन चुनने के हर चरण के लिए, सबसे ज़्यादा संभावना वाले टॉप-K टोकन का सैंपल लिया जाता है. इसके बाद, टोकन को टॉप-P के आधार पर और फ़िल्टर किया जाता है. साथ ही, टेंपरेचर सैंपलिंग का इस्तेमाल करके आखिरी टोकन चुना जाता है.
कम यादृच्छिक जवाबों के लिए कम वैल्यू और ज़्यादा यादृच्छिक जवाबों के लिए ज़्यादा वैल्यू डालें. टॉप-K की डिफ़ॉल्ट वैल्यू 32 होती है.
Top-P
Top-P, आउटपुट के लिए मॉडल के टोकन चुनने के तरीके में बदलाव करता है. टोकन को सबसे ज़्यादा (टॉप-K देखें) से लेकर सबसे कम संभावना वाले टोकन तक तब तक चुना जाता है, जब तक उनकी संभावनाओं का योग, टॉप-P वैल्यू के बराबर न हो जाए. उदाहरण के लिए, अगर टोकन A, B, और C की संभावना 0.6, 0.3, और 0.1 है और टॉप-P वैल्यू 0.9 है, तो मॉडल अगले टोकन के तौर पर, टेंपरेचर का इस्तेमाल करके A या B को चुनेगा. साथ ही, C को उम्मीदवार के तौर पर बाहर रखेगा.
कम रैंडम जवाबों के लिए कम वैल्यू और ज़्यादा रैंडम जवाबों के लिए ज़्यादा वैल्यू डालें. top-P की डिफ़ॉल्ट वैल्यू 1.0 होती है.
अगले चरण
- Google AI Studio का इस्तेमाल करके, अपने हिसाब से मल्टीमोडल प्रॉम्प्ट लिखें.
- प्रॉम्प्ट के डिज़ाइन के बारे में ज़्यादा जानकारी के लिए, प्रॉम्प्ट की रणनीतियां पेज देखें.