Gemma është një familje modelesh të inteligjencës artificiale gjeneruese dhe ju mund t'i përdorni ato në një gamë të gjerë detyrash gjenerimi, duke përfshirë përgjigjen e pyetjeve, përmbledhjen dhe arsyetimin. Modelet Gemma ofrohen me pesha të hapura dhe lejojnë përdorim komercial të përgjegjshëm, duke ju lejuar t'i akordoni dhe t'i vendosni ato në projektet dhe aplikacionet tuaja.
Familja e modeleve Gemma 4 përfshin katër arkitektura të dallueshme të përshtatura për kërkesa specifike të harduerit:
- Madhësi të Vogla: Modele me parametra efektivë 2B dhe 4B të ndërtuara për vendosje ultra-mobile, në skaje dhe në shfletues (p.sh., Pixel, Chrome).
- Dense: Një model i fuqishëm me dendësi të lartë me parametra 31B që mbush hendekun midis performancës së nivelit të serverit dhe ekzekutimit lokal.
- Përzierje Ekspertësh: Një model MoE 26B shumë efikas i projektuar për arsyetim të avancuar dhe me rendiment të lartë.
- Unifikuar: Një model pa enkoder parametrash 12B për detyra multimodale, i cili zëvendësoi enkoderët e shikimit dhe audios me projeksione lineare direkte të hyrjes.
Mund të shkarkoni modelet Gemma 4 nga Kaggle dhe Hugging Face . Për më shumë detaje teknike mbi Gemma 4, shihni Kartën e Modelit . Versionet e mëparshme të modeleve kryesore të Gemma janë gjithashtu të disponueshme për shkarkim. Për më shumë informacion, shihni Modelet e mëparshme të Gemma .
Merrni atë në Kaggle Merrni atë në Hugging Face
Aftësitë
- Arsyetimi: Të gjitha modelet në familje janë projektuar si arsyetues shumë të aftë, me mënyra të të menduarit të konfigurueshme.
- Multimodalitete të Zgjeruara: Përpunon Tekstin, Imazhin me raport të ndryshueshëm të aspektit dhe mbështetje për rezolucion (të gjitha modelet), Videon dhe Audion (të paraqitura në mënyrë native në modelet E2B, E4B dhe 12B).
- Dritare konteksti e zgjeruar: Modelet e vogla kanë një dritare konteksti prej 128K, ndërsa modelet e mesme mbështesin 256K.
- Aftësi të Përmirësuara të Kodimit dhe Agjensisë: Arrin përmirësime të dukshme në standardet e kodimit së bashku me mbështetjen e integruar për thirrjen e funksioneve , duke fuqizuar agjentë autonomë shumë të aftë.
- Mbështetje për Kërkesat e Sistemit Native: Gemma 4 prezanton mbështetje të integruar për rolin e sistemit, duke mundësuar biseda më të strukturuara dhe të kontrollueshme.
- Parashikimi me Shumë Shenja : Të gjitha modelet Gemma 4 (E2B, E4B, 12B, 31B dhe 26B A4B) përfshijnë një model drafti të dedikuar për dekodim spekulativ, duke mundësuar përfundime dukshëm më të shpejta pa humbje të cilësisë.
Madhësitë e parametrave dhe kuantizimi
Modelet Gemma 4 janë të disponueshme në 5 madhësi parametrash: E2B, E4B, 12B, 31B dhe 26B A4B. Modelet mund të përdoren me saktësinë e tyre të paracaktuar (16-bit) ose me një saktësi më të ulët duke përdorur kuantizimin. Madhësitë dhe saktësitë e ndryshme përfaqësojnë një sërë kompromise për aplikacionin tuaj të IA-së. Modelet me parametra dhe numërim bitësh më të lartë (saktësi më e lartë) janë përgjithësisht më të aftë, por janë më të shtrenjtë për t'u ekzekutuar në aspektin e cikleve të përpunimit, kostos së memories dhe konsumit të energjisë. Modelet me parametra dhe numërim bitësh më të ulët (saktësi më e ulët) kanë më pak aftësi, por mund të jenë të mjaftueshme për detyrën tuaj të IA-së.
Kërkesat e Memories së Inferencës Gemma 4
Tabela e mëposhtme detajon kërkesat e përafërta të memories GPU ose TPU për ekzekutimin e inference me secilën madhësi të versioneve të modelit Gemma 4.
| Parametrat | BF16 (16-bit) | SFP8 (8-bit) | Q4_0 (4-bit) | Celular | Celular (Vetëm mesazhe) |
|---|---|---|---|---|---|
| Gemma 4 E2B | 11.4 GB | 5.7 GB | 2.9 GB | 1.1 BG | 0.84 GB |
| Gemma 4 E4B | 17.9 GB | 8.9 GB | 4.5 GB | 2.5 GB | 2.2 GB |
| Gemma 4 12B | 26.7 GB | 13.4 GB | 6.7 GB | - | - |
| Gemma 4 26B A4B | 57.7 GB | 28.8 GB | 14.4 GB | - | - |
| Gemma 4 31B | 69.9 GB | 34.9 GB | 17.5 GB | - | - |
Tabela 1. Memoria e përafërt GPU ose TPU e nevojshme për të ngarkuar modelet Gemma 4 bazuar në numrin e parametrave, nivelin e kuantizimit dhe mbingarkesën prej 20% të ngarkimit të gjërave shtesë. Versionet mobile përdorin LiteRT-LM.
Konsideratat kryesore për planifikimin e kujtesës
- Arkitektura Efikase (E2B dhe E4B): "E" qëndron për parametrat "efektivë". Modelet më të vogla përfshijnë Vendosje Për-Shtresë (PLE) për të maksimizuar efikasitetin e parametrave në vendosjet në pajisje. Në vend që të shtojë më shumë shtresa në model, PLE i jep secilës shtresë dekoderi vendosjen e vet të vogël për çdo shenjë. Këto tabela vendosjeje janë të mëdha, por përdoren vetëm për kërkime të shpejta, prandaj memoria totale e nevojshme për të ngarkuar peshat statike është më e lartë se sa sugjeron numërimi efektiv i parametrave.
- Arkitektura e MoE (26B A4B): Modeli 26B është një model i Përzierjes së Ekspertëve. Ndërsa aktivizon vetëm 4 miliardë parametra për token gjatë gjenerimit, të gjithë 26 miliardë parametrat duhet të ngarkohen në memorie për të ruajtur shpejtësi të larta rrugëzimi dhe nxjerrjeje përfundimesh. Kjo është arsyeja pse kërkesa e tij bazë për memorie është shumë më afër një modeli të dendur 26B sesa një modeli 4B.
- Vetëm Peshat Bazë: Vlerësimet në tabelën e mëparshme marrin parasysh vetëm memorien e nevojshme për të ngarkuar peshat statike të modelit. Ato nuk përfshijnë VRAM-in shtesë të nevojshëm për mbështetjen e softuerit ose dritaren e kontekstit.
- Dritarja e Kontekstit (KV Cache): Konsumi i memories do të rritet dinamikisht bazuar në numrin total të tokenëve në kërkesën tuaj dhe përgjigjen e gjeneruar. Dritaret më të mëdha të kontekstit kërkojnë dukshëm më shumë VRAM përveç peshave të modelit bazë.
- Shpenzime të Përgjithshme për Rregullimin e Përsosur: Kërkesat e memories për rregullimin e përsosur të modeleve Gemma janë shumë më të larta sesa për përfundimin standard. Gjurmët tuaja të sakta do të varen shumë nga kuadri i zhvillimit, madhësia e grupit dhe nëse po përdorni rregullim me precizion të plotë kundrejt një metode të Rregullimit të Përsosur me Efikasitet të Parametrave (PEFT) si Përshtatja me Rang të Ulët (LoRA).
Trajnim i Ndërgjegjshëm për Kuantizimin (QAT)
Për vendosjet që kërkojnë efikasitet maksimal me kompromis minimal të cilësisë, Gemma ofron modele zyrtare të Trajnimit të Ndërgjegjshëm për Kuantizimin (QAT) .
Ndryshe nga Kuantizimi standard Pas Trajnimit (PTQ), i cili kompreson një model të trajnuar plotësisht dhe mund të çojë në degradim të cilësisë, QAT integron simulimin e kuantizimit në vetë procesin e trajnimit. Kjo i lejon modelit të mësojë të kompensojë humbjen e saktësisë, duke rezultuar në modele më të vogla që performojnë pothuajse identikisht me linjat e tyre bazë me saktësi të lartë.
Tabela e Shpejtë e Rrugëzimit
| Motori i Vendosjes së Targetit | Shkarkoni Prapashtesën | Rasti i Përdorimit Kryesor |
|---|---|---|
| llama.cpp / LM Studio (Lokale) | {model-name}-qat-q4_0-gguf | Vendosje lokale pa konfigurim zero në CPU, Apple Silicon ose GPU të konsumatorit. |
| vLLM / SGLang | SERVERI: {model-name}-qat-w4a16-ctCELULAR: {model-name}-qat-mobile-ct | Përfundim me rendiment të lartë duke përdorur pesha 4-bitëshe me aktivizime 16-bitëshe. |
| Dekodimi Spekulativ | MODELI: {model-name}-qat-q4_0-unquantizedHATI: {model-name}-qat-q4_0-unquantized-assistant | Ekzekutimi i një modeli parësor së bashku me modelin e tij të draftit MTP për të përshpejtuar në mënyrë drastike gjenerimin e tokenëve. Modeli duhet të kuantizohet. |
| Formate të tjera | {model-name}-qat-q4_0-unquantized | Pesha të pakuantizuara për konvertimin në formate të tjera (p.sh. MLX) |
| Vendosja në celular (Transformers) | {model-name}-qat-mobile-transformers | Peshat e skajeve të optimizuara për rastet e përdorimit në celular. Ato shërbejnë si referencë për formate të tjera. |
Koleksionet zyrtare të QAT në Hugging Face
- koleksione/google/gemma-4-qat-q4-0
- Pikat e Kontrollit të QAT të pakuantizuara (
-unquantized/-assistant): Pesha gjysmë-precize të nxjerra direkt nga tubacioni i QAT. Këto janë ideale për përpilim të personalizuar të rrjedhës së poshtme, kërkim ose ekzekutim të dekodimit spekulativ duke përdorur modelet ndihmëse të draftit. I disponueshëm për Gemma 4 E2B, E4B, 12B, 26B A4B dhe 31B. - GGUF (
-gguf): Pika kontrolli të disponueshme për përputhshmëri të menjëhershme në të gjithë ekosistemin lokal të LLM. I disponueshëm për Gemma 4 E2B, E4B, 12B, 26B A4B dhe 31B. - Tenzorët e Kompresuar (
-w4a16-ct): Serializuar në mënyrë native në standardincompressed-tensorspër shërbim të optimizuar dhe me njëkohësi të lartë në cloud. I disponueshëm për Gemma 4 E2B, E4B, 12B dhe 31B.
- Pikat e Kontrollit të QAT të pakuantizuara (
- koleksione/google/gemma-4-qat-mobile
- Optimizuar për celular (
-mobile-transformers/-mobile-ct): Ndërtuar mbi një skemë të personalizuarwNa8o8të projektuar posaçërisht për kufizimet e harduerit celular. Përdor shtresa të synuara dekodimi 2-bitësh, memorje të optimizuara KV dhe aktivizime statike për të maksimizuar kursimet e RAM-it në pajisje pa bllokuar procesorët në skaj. I disponueshëm për Gemma 4 E2B dhe E4B.
- Optimizuar për celular (
Të gjitha pikat zyrtare të kontrollit Gemma 4 QAT mund të aksesohen direkt nga Kaggle .
Modelet e mëparshme të Gemma-s
Mund të punoni me gjeneratat e mëparshme të modeleve Gemma, të cilat janë gjithashtu të disponueshme nga Kaggle dhe Hugging Face . Për më shumë detaje teknike rreth modeleve të mëparshme Gemma, shihni faqet e mëposhtme të kartave të modelit:
- Karta e Modelit Gemma 3
- Karta e Modelit Gemma 2
- Karta Modeli Gemma 1
Gati për të filluar ndërtimin? Filloni me modelet Gemma!