PaliGemma

PaliGemma 2 및 PaliGemma는 PaLI-3에서 영감을 얻은 경량의 개방형 비전 언어 모델 (VLM)로, SigLIP 비전 모델Gemma 언어 모델과 같은 개방형 구성요소를 기반으로 합니다. PaliGemma는 이미지와 텍스트를 모두 입력으로 사용하며 세부정보와 맥락을 포함하여 이미지에 관한 질문에 답변할 수 있습니다. 즉, PaliGemma는 이미지를 더 심층적으로 분석하고 이미지 및 짧은 동영상의 자막, 물체 감지, 이미지에 삽입된 텍스트 읽기와 같은 유용한 정보를 제공할 수 있습니다.

PaliGemma 2는 각각 Gemma 2 2B, 9B, 27B 모델을 기반으로 하는 3B, 10B, 28B 매개변수 크기로 제공됩니다. 원래 PaliGemma 모델은 3B 크기로 제공됩니다. Gemma 모델 변형에 관한 자세한 내용은 Gemma 모델 목록을 참고하세요. PaliGemma 모델 변형은 224x224, 448x448, 896x896픽셀을 비롯한 다양한 이미지 입력 픽셀 해상도를 지원합니다.

다음 사이트에서 PaliGemma 모델을 보고 다운로드할 수 있습니다.

PaliGemma 모델에는 세 가지 카테고리가 있습니다.

  • PaliGemma PT - 다양한 작업에서 미세 조정할 수 있는 범용 사전 학습 모델입니다.
  • PaliGemma FT - 특정 연구 데이터 세트에서 미세 조정된 연구 중심 모델입니다.
  • PaliGemma 믹스 - 일반적인 사용 사례에 즉시 사용할 수 있는 다양한 작업에 맞게 조정된 모델입니다.

이를 통해 얻을 수 있는 주요 이점은 다음과 같습니다.

  • 이미지와 텍스트 입력을 동시에 처리합니다.
  • 다양한 비전 언어 작업에서 미세 조정 가능
  • 즉각적인 연구에 사용할 수 있도록 다양한 태스크를 기반으로 미세 조정된 체크포인트가 제공됩니다.

자세히 알아보기

Colab에서 PaliGemma를 사용하여 감지 및 콘텐츠 생성 기능을 사용해 보세요.
Colab에서 JAX를 사용하여 이미지 데이터로 PaliGemma 모델을 미세 조정합니다.
Kaggle에서 PaliGemma에 관한 더 많은 코드, Colab 노트북, 정보, 토론을 확인해 보세요.