ПалиДжемма
PaliGemma 2 и PaliGemma — это облегченные модели открытого языка видения (VLM), вдохновленные PaLI-3 и основанные на открытых компонентах, таких как модель видения SigLIP и языковая модель Gemma . PaliGemma принимает как изображения, так и текст в качестве входных данных и может отвечать на вопросы об изображениях с подробностями и контекстом. Это означает, что PaliGemma может выполнять более глубокий анализ изображений и предоставлять полезную информацию, например, добавлять субтитры к изображениям и коротким видеороликам, обнаруживать объекты и читать текст, встроенный в изображения.
PaliGemma 2 доступен с размерами параметров 3B, 10B и 28B, которые основаны на моделях Gemma 2 2B, 9B и 27B соответственно. Оригинальные модели PaliGemma доступны в размере 3B. Дополнительную информацию о вариантах моделей Gemma см. в списке моделей Gemma . Варианты модели PaliGemma поддерживают различные разрешения пикселей для входных изображений, включая 224 x 224, 448 x 448 и 896 x 896 пикселей.
Вы можете просмотреть и скачать модели PaliGemma со следующих сайтов:
- Загрузите с Kaggle .
- Скачать с «Обнимающего лица» .
Существует три категории моделей PaliGemma:
- PaliGemma PT — предварительно обученные модели общего назначения, которые можно точно настроить для решения различных задач.
- PaliGemma FT — модели, ориентированные на исследования, которые точно настроены на конкретные наборы исследовательских данных.
- Смесь PaliGemma — модели, настроенные на сочетание задач, которые можно использовать «из коробки» для общих случаев использования.
Ключевые преимущества включают в себя:
-
Мультимодальные возможности
Одновременно обрабатывает как изображения, так и ввод текста. -
Универсальная базовая модель.
Может быть точно настроен для решения широкого спектра задач, связанных с визуальным языком. -
Готовые исследования
Поставляется с контрольно-пропускным пунктом, настроенным на различные задачи для немедленного исследовательского использования.