PaliGemma

텍스트, 오디오, 이미지 입력과 최대 256K의 긴 컨텍스트 창을 지원하는 Gemma 4 가 출시되었습니다. 자세히 알아보기

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

PaliGemma 2 및 PaliGemma는 PaLI-3에서 영감을 얻은 경량의 개방형 비전 언어 모델 (VLM)로, SigLIP 비전 모델 및 Gemma 언어 모델과 같은 개방형 구성요소를 기반으로 합니다. PaliGemma는 이미지와 텍스트를 모두 입력으로 사용하며 세부정보와 맥락을 포함하여 이미지에 관한 질문에 답변할 수 있습니다. 즉, PaliGemma는 이미지를 더 심층적으로 분석하고 이미지 및 짧은 동영상의 자막, 물체 감지, 이미지에 삽입된 텍스트 읽기와 같은 유용한 정보를 제공할 수 있습니다.

PaliGemma 2는 각각 Gemma 2 2B, 9B, 27B 모델을 기반으로 하는 3B, 10B, 28B 매개변수 크기로 제공됩니다. 원래 PaliGemma 모델은 3B 크기로 제공됩니다. Gemma 모델 변형에 관한 자세한 내용은 Gemma 모델 목록을 참고하세요. PaliGemma 모델 변형은 224x224, 448x448, 896x896픽셀을 비롯한 다양한 이미지 입력 픽셀 해상도를 지원합니다.

다음 사이트에서 PaliGemma 모델을 보고 다운로드할 수 있습니다.

Kaggle에서 다운로드합니다.
Hugging Face에서 다운로드합니다.

PaliGemma 모델에는 세 가지 카테고리가 있습니다.

PaliGemma PT - 다양한 작업에서 미세 조정할 수 있는 범용 사전 학습 모델입니다.
PaliGemma FT - 특정 연구 데이터 세트에서 미세 조정된 연구 중심 모델입니다.
PaliGemma 믹스 - 일반적인 사용 사례에 즉시 사용할 수 있는 다양한 작업에 맞게 조정된 모델입니다.

이를 통해 얻을 수 있는 주요 이점은 다음과 같습니다.

멀티모달 기능

이미지와 텍스트 입력을 동시에 처리합니다.
다목적 기본 모델

다양한 비전 언어 작업에서 미세 조정 가능
즉시 사용 가능한 탐색 분석

즉각적인 연구에 사용할 수 있도록 다양한 태스크를 기반으로 미세 조정된 체크포인트가 제공됩니다.

PaliGemma

멀티모달 기능

다목적 기본 모델

즉시 사용 가능한 탐색 분석

자세히 알아보기

Colab에서 실행

Colab에서 조정

Kaggle에서 보기