शेयर करें

AI Singapore, Gemma 2 की मदद से दक्षिण-पूर्व एशिया के लिए एआई को ज़्यादा समावेशी बनाता है

एआई सिंगापुर, एआई रिसर्च से जुड़े संस्थानों और संगठनों का एक नैशनल नेटवर्क है. इसे 2017 में लॉन्च किया गया था. यह सिंगापुर में एआई के विकास को आगे बढ़ाने के लिए काम करता है. इसका एक प्रोजेक्ट, SEA-LION, ओपन मॉडल का एक फ़ैमिली है. यह दक्षिण-पूर्व एशियाई (एसईए) देशों में एलएलएम की सुविधा उपलब्ध कराता है. इन देशों को एआई की दुनिया में पहले अनदेखा किया जाता था.

SEA-LION की टीम ने Gemma को चुना है. यह Google का लाइटवेट और बेहतरीन ओपन मॉडल है. इसकी मदद से, शब्दावली और भाषा को समझने के साथ-साथ, साइज़-टू-परफ़ॉर्मेंस रेशियो का भी पता लगाया जा सकता है. Gemma की मदद से, SEA-LION के डेवलपर ने एक बेहतरीन, असरदार, और आसानी से इस्तेमाल किया जा सकने वाला एलएलएम बनाया है. इसका इस्तेमाल, आज दक्षिण-पूर्व एशिया (एसईए) क्षेत्र के लाखों लोग कर रहे हैं.

चुनौती

SEA-LION टीम को पता चला कि इस इलाके में बोली जाने वाली कई भाषाओं को, आज के सबसे लोकप्रिय एलएलएम में शामिल नहीं किया गया है. इसका मतलब है कि इस इलाके के कुछ हिस्सों और लोगों के पूरे ग्रुप के पास, एआई के कई संभावित ऐप्लिकेशन का बहुत कम या कोई ऐक्सेस नहीं है. टीम को यह भी पता चला कि इन मुख्य एलएलएम के पास, दक्षिण-पूर्व एशिया की स्थानीय भाषाओं की बुनियादी समझ थी. हालांकि, इन एलएलएम में भाषाई और सांस्कृतिक अंतर को समझने की क्षमता नहीं थी, जो मूल भाषा बोलने वालों को पता होती है.

जैसा कि एआई सिंगापुर के आर्टिफ़िशियल इंटेलिजेंस के हेड, विलियम थि बताते हैं कि दुनिया का ज़्यादातर एआई, पश्चिमी और पूर्वी भाषाओं पर आधारित है. इसका मतलब है कि अनुवाद में बहुत कुछ छूट सकता है: “ग्लोबल एलएलएम लैंडस्केप, दो बॉडी के आस-पास विकसित हुआ: वेस्ट कोस्ट और चीन. ये मॉडल, उन डेटा सेट के आधार पर दुनिया के नज़रिए को दिखाते हैं जिनसे उन्हें ट्रेनिंग दी जाती है. साथ ही, उन भाषाओं के आधार पर भी ऐसा होता है जिनसे उन्हें ट्रेनिंग दी जाती है.”

“Gemma का टोकनेटर, हमारे इलाके में इस्तेमाल की जाने वाली भाषाओं पर बेहतर तरीके से काम करता है. इसे आउटपुट में देखा जा सकता है. इससे SEA टोकन पर ट्रेनिंग के दौरान, मॉडल की परफ़ॉर्मेंस काफ़ी बेहतर होती है. इसकी वजह यह है कि tokenizer, दूसरे मॉडल के tokenizer की तुलना में ज़्यादा ऑप्टिमाइज़ होता है.”

— विलियम थि, एआई सिंगापुर में आर्टिफ़िशियल इंटेलिजेंस के हेड

समाधान

SEA-LION टीम ने एलएलएम का एक ऐसा सेट बनाया है जो इस इलाके की बारीकियों, संदर्भों, और सांस्कृतिक विविधता को सटीक तरीके से दिखाता है. भाषाओं के पूरे नए सेट को सही तरीके से समझने के लिए, एलएलएम को बेहतर बनाने के लिए टीम को अलग-अलग तरह का और अच्छी क्वालिटी का ट्रेनिंग डेटा चाहिए था. इसलिए, उन्होंने Google DeepMind और रिसर्च टीम के साथ मिलकर काम करने का फ़ैसला लिया. उन्होंने नैटिव स्पीकर और भाषाविदों के साथ भी काम किया, ताकि जुए से जुड़े कॉन्टेंट और विज्ञापनों जैसे सोर्स से आने वाले ग़ैर-ज़रूरी डेटा को फ़िल्टर किया जा सके. साथ ही, यह पक्का किया जा सके कि अनुवाद सही और स्वाभाविक हो.

टीम के नए वर्शन, SEA-LION V3 को Gemma 2 पर लगातार ट्रेन किया गया था. इसके लिए, SEA के डेटा के 200 अरब टोकन का इस्तेमाल किया गया था. टीम को पता चला कि Gemma के टोकनेटर में, इस्तेमाल की जा रही भाषाओं के लिए ज़्यादा टोकन मौजूद थे. साथ ही, यह अन्य मॉडल की तुलना में बेहतर परफ़ॉर्म करता है. Gemma के 9 अरब पैरामीटर वाले वर्शन को उसके साइज़ और परफ़ॉर्मेंस की वजह से चुना गया था. इसकी वजह यह है कि बड़े पैमाने पर मॉडल चलाने के लिए ज़रूरी संसाधन, इलाके के कई हिस्सों में सीमित हो सकते हैं.

SEA-LION के अंग्रेज़ी टास्क की परफ़ॉर्मेंस और SEA की औसत परफ़ॉर्मेंस के बीच का संबंध.
SEA-LION के अंग्रेज़ी टास्क की परफ़ॉर्मेंस और SEA की औसत परफ़ॉर्मेंस के बीच के संबंध को प्लॉट करने वाले मानदंड.

असर

SEA-LION V3, टीम का अब तक का सबसे बेहतर वर्शन है. स्थानीय एआई डेवलपर और शोधकर्ता पहले से ही इसका इस्तेमाल कर रहे हैं. टेक्नोलॉजी कंपनी GoTo ने हाल ही में Sahabat-AI लॉन्च किया है. यह इंडोनेशियन डेवलपर के लिए, SEA-LION पर आधारित एलएलएम (लॉन्ग लांग मैसेज) नेटवर्क है. Sahabat-AI को GoTo की एआई वॉइस असिस्टेंट Dira में इंटिग्रेट किया गया है. इससे उपयोगकर्ता, अपनी भाषाओं और बोलियों में बोलकर Gojek और GoPay, दोनों की पेमेंट सेवाओं को ऐक्सेस कर सकते हैं.

GoTo के सीईओ पैट्रिक वलुजो ने कहा कि उन्हें उम्मीद है कि Sahabat-AI, इंडोनेशिया में लाखों लोगों के जीवन पर सकारात्मक असर डालेगा: “इससे हमारे कारोबारों को ग्राहकों के साथ नए तरीके से बातचीत करने में मदद मिलेगी. साथ ही, इससे हमारे सरकारी मंत्रालयों को नागरिकों के साथ बेहतर तरीके से जुड़ने के लिए टूल बनाने में मदद मिलेगी.”

11

दक्षिण पूर्व एशियाई भाषाओं में प्रवीणता

14 हज़ार से ज़्यादा

Hugging Face पर डाउनलोड

3.8 करोड़

GoPay पर हर महीने के सक्रिय उपयोगकर्ताओं के पास Dira का ऐक्सेस होता है

अब क्या होगा

एआई सिंगापुर की टीम, SEA-LION के अगले वर्शन पर पहले से ही काम कर रही है. उनका लक्ष्य, Gemma का इस्तेमाल करके छोटे और बड़े पैरामीटर वर्शन बनाना है. इससे, अलग-अलग तरह के इस्तेमाल के उदाहरणों को पूरा किया जा सकता है. साथ ही, स्थानीय समुदायों को ज़्यादा सुविधाएं दी जा सकती हैं. SEA-LION की सफलता, SEA में एआई के उछाल के लिए ज़रूरी थी. साथ ही, Sahabat-AI जैसे अन्य एलएलएम, इसकी शुरुआत हैं.

“AI Singapore के साथ Gemma पर आधारित SEA-LION v3 के नए वर्शन को लॉन्च करना, सभी के लिए उपलब्ध एआई के लिए एक अहम कदम है. Google के Gemma 2 का इस्तेमाल करके, यह नया मॉडल दक्षिण-पूर्व एशिया के आकलन की मेट्रिक की रेंज में, पिछले वर्शन की तुलना में काफ़ी बेहतर परफ़ॉर्म करता है,” Google DeepMind के सीनियर डायरेक्टर मनीष गुप्ता ने बताया. “हमें उम्मीद है कि इस सुविधा से, दक्षिण-पूर्व एशिया की अलग-अलग कम्यूनिटी को कई फ़ायदे मिलेंगे. साथ ही, इसकी मदद से कई दिलचस्प ऐप्लिकेशन भी बनाए जा सकेंगे.”