PaliGemma

PaliGemma 2 y PaliGemma son modelos de lenguaje y visión (VLM) abiertos y ligeros, inspirados en PaLI-3, y se basan en componentes abiertos, como el modelo de visión de SigLIP y el modelo de lenguaje de Gemma. PaliGemma toma imágenes y texto como entradas y puede responder preguntas sobre las imágenes con detalle y contexto, lo que significa que puede realizar un análisis más profundo de las imágenes y proporcionar estadísticas útiles, como subtítulos para imágenes y videos cortos, detección de objetos y lectura de texto incorporado en imágenes.

PaliGemma 2 está disponible en tamaños de parámetros de 3,000 millones, 10,000 millones y 28,000 millones, que se basan en los modelos Gemma 2 de 2,000 millones, 9,000 millones y 27,000 millones, respectivamente. Los modelos originales de PaliGemma están disponibles en el tamaño 3B. Para obtener más información sobre las variantes de modelos de Gemma, consulta la lista de modelos de Gemma. Las variantes del modelo de PaliGemma admiten diferentes resoluciones de píxeles para las entradas de imágenes, como 224 x 224, 448 x 448 y 896 x 896 píxeles.

Puedes ver y descargar modelos de PaliGemma en los siguientes sitios:

Existen tres categorías de modelos de PaliGemma:

  • PaliGemma PT: Son modelos previamente entrenados de uso general que se pueden ajustar en una variedad de tareas.
  • PaliGemma FT: Son modelos orientados a la investigación que se ajustan en conjuntos de datos de investigación específicos.
  • PaliGemma mix: Son modelos ajustados a una combinación de tareas que se pueden usar directamente para casos de uso comunes.

Los beneficios principales son:

  • Controla imágenes y entradas de texto de forma simultánea.
  • Se puede ajustar en una amplia gama de tareas de lenguaje visual.
  • Incluye un punto de control ajustado en una combinación de tareas para uso de investigación inmediato.

Más información

Prueba las funciones de detección y generación de contenido con PaliGemma en Colab.
Ajusta un modelo de PaliGemma con datos de imágenes usando JAX en Colab.
Consulta más código, notebooks de Colab, información y debates sobre PaliGemma en Kaggle.