ИИ Сингапур делает ИИ более инклюзивным для Юго-Восточной Азии с помощью Gemma 2
AI Singapore , созданная в 2017 году, представляет собой национальную сеть исследовательских институтов и организаций в области искусственного интеллекта, занимающихся продвижением развития искусственного интеллекта в Сингапуре. Один из ее проектов, SEA-LION , представляет собой семейство открытых моделей, которые привносят возможности LLM в страны Юго-Восточной Азии (ЮВА), ранее упускаемые из виду в мире искусственного интеллекта.
Команда SEA-LION выбрала Gemma, семейство легких и эффективных открытых моделей Google, за ее словарный запас и лингвистическое понимание, а также за соотношение размера и производительности. С помощью Gemma разработчики SEA-LION создали мощный, эффективный и доступный LLM, которым сегодня пользуются миллионы людей в регионе ЮВА.
Задача
Команда SEA-LION осознала, что многие языки, на которых говорят в регионе, не представлены самыми популярными сегодня LLM, а это означало, что части региона и целые группы людей практически не имели доступа ко многим потенциальным приложениям ИИ. Команда также обнаружила, что даже когда эти основные студенты LLM имели базовое понимание местных языков ЮВА, им не хватало понимания языковых и культурных различий, известных носителям языка.
Как объясняет Уильям Тхи, руководитель отдела искусственного интеллекта AI Singapore, большая часть мирового ИИ построена на западных и восточных языках, а это означает, что многое может быть потеряно при переводе: "Глобальный ландшафт LLM развивался вокруг двух тел: Западного побережья и Китая. Эти модели отражают эти мировоззрения, основанные на наборах данных, которые их обучают, и языках, которые их обучают".
"Токенайзер Gemma работает лучше при применении к языкам, которые есть в нашем регионе. Вы можете видеть это на выходе. Это значительно повышает производительность модели при обучении на токенах SEA, поскольку токенизатор более оптимален по сравнению с токенизатором других моделей".
— Уильям Тхи, руководитель отдела искусственного интеллекта в AI Singapore.
Решение
Команда SEA-LION создала инклюзивный набор программ LLM, которые точно отражают нюансы, контекст и культурное разнообразие региона. Чтобы создать полноценную программу LLM с истинным пониманием совершенно нового набора языков, команде потребовались разнообразные высококачественные обучающие данные, поэтому они решили сотрудничать с командами Google DeepMind & Research. Они также работали с носителями языка и лингвистами, чтобы отфильтровать ненужные данные, поступающие из таких источников, как контент об азартных играх и рекламу, и обеспечить точные и естественно звучащие переводы.
Последняя итерация команды, SEA-LION V3, постоянно проходила предварительное обучение на Gemma 2 с использованием 200 миллиардов токенов данных SEA. Команда обнаружила, что токенизатор Gemma не только содержит больше токенов для нужных языков, но и работает лучше, чем другие модели. Версия Gemma с 9 миллиардами параметров была выбрана из-за ее размера и эффективности, поскольку ресурсы, необходимые для запуска крупномасштабных моделей, могут быть ограничены во многих частях региона.
Тесты, показывающие взаимосвязь между производительностью SEA-LION по английскому языку и средней производительностью SEA.
Воздействие
SEA-LION V3 — это самая продвинутая версия команды, и другие местные разработчики и исследователи искусственного интеллекта уже используют ее. Технологическая компания GoTo недавно запустила Sahabat-AI , экосистему LLM, построенную на SEA-LION для индонезийских разработчиков. Sahabat-AI интегрирован в голосовой помощник Dira AI от GoTo, что позволяет пользователям получать доступ к платежным сервисам Gojek и GoPay с помощью голосовых команд на родных языках и диалектах.
Генеральный директор GoTo Патрик Валухо заявил, что он ожидает, что Sahabat-AI окажет положительное влияние на миллионы жизней в Индонезии: «Это поможет нашему бизнесу по-новому общаться с клиентами, это поможет нашим правительственным министерствам разработать инструменты для более всестороннего взаимодействия с гражданами».
11
Southeast Asian language proficiencies
14 тыс.+
Downloads on Hugging Face
38М
Ежемесячные активные пользователи GoPay имеют доступ к Dira
Что дальше
Команда AI Singapore уже планирует следующую версию SEA-LION. Их цель — создавать меньшие и большие версии параметров с помощью Gemma, удовлетворяя более широкий спектр вариантов использования и предлагая местным сообществам еще большую гибкость. Успех SEA-LION сыграл важную роль в буме искусственного интеллекта в SEA, и другие LLM, создаваемые на его основе, такие как Sahabat-AI, — это только начало.
"Запуск нового SEA-LION v3 на базе Gemma с AI Singapore представляет собой важный шаг вперед для инклюзивного искусственного интеллекта. Благодаря использованию возможностей Google Gemma 2, эта новая модель значительно превосходит предыдущие версии по ряду показателей оценки в Юго-Восточной Азии", - сказал Маниш Гупта, старший директор Google DeepMind. «Мы с нетерпением ждем интересных приложений, которые это откроет, и преимуществ, которые это принесет различным сообществам Юго-Восточной Азии».
Связанные тематические исследования
NEXA AI: OmniAudio
An audio-language model for edge applications
ИНСАИТ: BgGPT
The leading Bulgarian-first LLM with Gemma 2
,
Делиться
ИИ Сингапур делает ИИ более инклюзивным для Юго-Восточной Азии с помощью Gemma 2
AI Singapore , созданная в 2017 году, представляет собой национальную сеть исследовательских институтов и организаций в области искусственного интеллекта, занимающихся продвижением развития искусственного интеллекта в Сингапуре. Один из ее проектов, SEA-LION , представляет собой семейство открытых моделей, которые привносят возможности LLM в страны Юго-Восточной Азии (ЮВА), ранее упускаемые из виду в мире искусственного интеллекта.
Команда SEA-LION выбрала Gemma, семейство легких и эффективных открытых моделей Google, за ее словарный запас и лингвистическое понимание, а также за соотношение размера и производительности. С помощью Gemma разработчики SEA-LION создали мощный, эффективный и доступный LLM, которым сегодня пользуются миллионы людей в регионе ЮВА.
Задача
Команда SEA-LION осознала, что многие языки, на которых говорят в регионе, не представлены самыми популярными сегодня LLM, а это означало, что части региона и целые группы людей практически не имели доступа ко многим потенциальным приложениям ИИ. Команда также обнаружила, что даже когда эти основные студенты LLM имели базовое понимание местных языков ЮВА, им не хватало понимания языковых и культурных различий, известных носителям языка.
Как объясняет Уильям Тхи, руководитель отдела искусственного интеллекта AI Singapore, большая часть мирового ИИ построена на западных и восточных языках, а это означает, что многое может быть потеряно при переводе: "Глобальный ландшафт LLM развивался вокруг двух тел: Западного побережья и Китая. Эти модели отражают эти мировоззрения, основанные на наборах данных, которые их обучают, и языках, которые их обучают".
"Токенайзер Gemma работает лучше при применении к языкам, которые есть в нашем регионе. Вы можете видеть это на выходе. Это значительно повышает производительность модели при обучении на токенах SEA, поскольку токенизатор более оптимален по сравнению с токенизатором других моделей".
— Уильям Тхи, руководитель отдела искусственного интеллекта в AI Singapore.
Решение
Команда SEA-LION создала инклюзивный набор программ LLM, которые точно отражают нюансы, контекст и культурное разнообразие региона. Чтобы создать полноценную программу LLM с истинным пониманием совершенно нового набора языков, команде потребовались разнообразные высококачественные обучающие данные, поэтому они решили сотрудничать с командами Google DeepMind & Research. Они также работали с носителями языка и лингвистами, чтобы отфильтровать ненужные данные, поступающие из таких источников, как контент об азартных играх и рекламу, и обеспечить точные и естественно звучащие переводы.
Последняя итерация команды, SEA-LION V3, постоянно проходила предварительное обучение на Gemma 2 с использованием 200 миллиардов токенов данных SEA. Команда обнаружила, что токенизатор Gemma не только содержит больше токенов для нужных языков, но и работает лучше, чем другие модели. Версия Gemma с 9 миллиардами параметров была выбрана из-за ее размера и эффективности, поскольку ресурсы, необходимые для запуска крупномасштабных моделей, могут быть ограничены во многих частях региона.
Тесты, показывающие взаимосвязь между производительностью SEA-LION по английскому языку и средней производительностью SEA.
Воздействие
SEA-LION V3 — это самая продвинутая версия команды, и другие местные разработчики и исследователи искусственного интеллекта уже используют ее. Технологическая компания GoTo недавно запустила Sahabat-AI , экосистему LLM, построенную на SEA-LION для индонезийских разработчиков. Sahabat-AI интегрирован в голосовой помощник Dira AI от GoTo, что позволяет пользователям получать доступ к платежным сервисам Gojek и GoPay с помощью голосовых команд на родных языках и диалектах.
Генеральный директор GoTo Патрик Валухо заявил, что он ожидает, что Sahabat-AI окажет положительное влияние на миллионы жизней в Индонезии: «Это поможет нашему бизнесу по-новому общаться с клиентами, это поможет нашим правительственным министерствам разработать инструменты для более всестороннего взаимодействия с гражданами».
11
Знание языков Юго-Восточной Азии
14 тыс.+
Загрузки на тему «Обнимающее лицо»
38М
Ежемесячные активные пользователи GoPay имеют доступ к Dira
Что дальше
Команда AI Singapore уже планирует следующую версию SEA-LION. Их цель — создавать меньшие и большие версии параметров с помощью Gemma, удовлетворяя более широкий спектр вариантов использования и предлагая местным сообществам еще большую гибкость. Успех SEA-LION сыграл важную роль в буме искусственного интеллекта в SEA, и другие LLM, создаваемые на его основе, такие как Sahabat-AI, — это только начало.
"Запуск нового SEA-LION v3 на базе Gemma с AI Singapore представляет собой важный шаг вперед для инклюзивного искусственного интеллекта. Благодаря использованию возможностей Google Gemma 2, эта новая модель значительно превосходит предыдущие версии по ряду показателей оценки в Юго-Восточной Азии", - сказал Маниш Гупта, старший директор Google DeepMind. «Мы с нетерпением ждем интересных приложений, которые это откроет, и преимуществ, которые это принесет различным сообществам Юго-Восточной Азии».
Связанные тематические исследования
NEXA AI: OmniAudio
Модель аудиоязыка для периферийных приложений
ИНСАИТ: BgGPT
Ведущий первый в Болгарии LLM с Gemma 2
[[["Прост для понимания","easyToUnderstand","thumb-up"],["Помог мне решить мою проблему","solvedMyProblem","thumb-up"],["Другое","otherUp","thumb-up"]],[["Отсутствует нужная мне информация","missingTheInformationINeed","thumb-down"],["Слишком сложен/слишком много шагов","tooComplicatedTooManySteps","thumb-down"],["Устарел","outOfDate","thumb-down"],["Проблема с переводом текста","translationIssue","thumb-down"],["Проблемы образцов/кода","samplesCodeIssue","thumb-down"],["Другое","otherDown","thumb-down"]],[],[],[]]