Model Sayfası: Gemma
Kaynaklar ve Teknik Dokümanlar:
- Gemma 3 Teknik Raporu
- Sorumlu Üretken Yapay Zeka Aracı Kiti
- Kaggle'da Gemma
- Vertex Model Garden'da Gemma
Kullanım Şartları: Şartlar
Yazarlar: Google DeepMind
Model Bilgisi
Giriş ve çıkışların özet açıklaması ve kısa tanımı.
Açıklama
Gemma, Google'ın Gemini modellerini oluşturmak için kullanılan aynı araştırma ve teknolojiden yararlanarak geliştirilmiş, hafif ve son teknoloji açık modellerden oluşan bir ailedir. Gemma 3 modelleri çok modlu olup metin ve resim girişini işler ve hem önceden eğitilmiş varyantlar hem de talimatla ayarlanmış varyantlar için açık ağırlıklarla metin çıkışı oluşturur. Gemma 3, 128 KB'lık büyük bir bağlam penceresine, 140'tan fazla dilde çok dilli desteğe sahiptir ve önceki sürümlere kıyasla daha fazla boyutta mevcuttur. Gemma 3 modelleri; soru yanıtlama, özetleme ve akıl yürütme gibi çeşitli metin oluşturma ve resim anlama görevleri için idealdir. Nispeten küçük boyutları, bunları dizüstü bilgisayarlar, masaüstü bilgisayarlar veya kendi bulut altyapınız gibi sınırlı kaynaklara sahip ortamlarda dağıtmayı mümkün kılar. Bu sayede en son yapay zeka modellerine erişimi demokratikleştirir ve herkes için yeniliği teşvik etmeye yardımcı olur.
Girdiler ve çıktılar
Giriş:
- Özetlenecek soru, istem veya doküman gibi bir metin dizesi
- 896 x 896 çözünürlüğe normalleştirilmiş ve her biri 256 jeton olarak kodlanmış resimler
- 4 B, 12 B ve 27 B boyutları için 128.000 jeton ve 1 B boyutu için 32.000 jetonluk toplam giriş bağlamı
Çıkış:
- Girişe yanıt olarak oluşturulan metin (ör. bir soruya verilen yanıt, resim içeriğinin analizi veya bir dokümanın özeti)
- 4 B, 12 B ve 27 B boyutları için 128 bin jetona kadar toplam çıkış bağlamı ve istek giriş jetonları çıkarıldıktan sonra istek başına 1 B boyutu için 32 bin jeton
Alıntı
@article{gemma_2025,
title={Gemma 3},
url={https://arxiv.org/abs/2503.19786},
publisher={Google DeepMind},
author={Gemma Team},
year={2025}
}
Model verileri
Model eğitimi için kullanılan veriler ve verilerin nasıl işlendiği.
Eğitim Veri Kümesi
Bu modeller, çeşitli kaynaklardan elde edilen metin verilerinden oluşan bir veri kümesinde eğitilmiştir. 27 milyar model 14 trilyon jetonla, 12 milyar model 12 trilyon jetonla, 4 milyar model 4 trilyon jetonla ve 1 milyar model 2 trilyon jetonla eğitildi. Eğitim verilerinin bilgi sonlandırma tarihi Ağustos 2024'tür. Temel bileşenler şunlardır:
- Web belgeleri: Çeşitli web metinlerinden oluşan bir koleksiyon, modelin çeşitli dilsel üsluplara, konulara ve kelime dağarcığına maruz kalmasını sağlar. Eğitim veri kümesi 140'tan fazla dilde içerik içerir.
- Kod: Modeli koda maruz bırakmak, programlama dillerinin söz dizimini ve kalıplarını öğrenmesine yardımcı olur. Bu da kod oluşturma ve kodla ilgili soruları anlama becerisini geliştirir.
- Matematik: Matematiksel metinlerle eğitim, modelin mantıksal akıl yürütmeyi, sembolik temsili öğrenmesine ve matematiksel sorguları ele almasına yardımcı olur.
- Resimler: Çeşitli resimler, modelin resim analizi ve görsel veri ayıklama görevlerini gerçekleştirmesini sağlar.
Bu çeşitli veri kaynaklarının bir araya getirilmesi, çok çeşitli farklı görevleri ve veri biçimlerini işleyebilecek güçlü bir çok modlu model eğitmek için çok önemlidir.
Veri Ön İşleme
Eğitim verilerine uygulanan temel veri temizleme ve filtreleme yöntemleri şunlardır:
- CSAM Filtreleme: Zararlı ve yasa dışı içeriklerin hariç tutulması için veri hazırlama sürecindeki birden fazla aşamada titiz bir CSAM (Çocukların Cinsel İstismarı Nitelikli Materyal) filtreleme işlemi uygulandı.
- Hassas Veri Filtreleme: Gemma önceden eğitilmiş modellerini güvenli ve güvenilir hale getirmek için belirli kişisel bilgileri ve diğer hassas verileri eğitim veri kümelerinden filtrelemek amacıyla otomatik teknikler kullanıldı.
- Ek yöntemler: Politikalarımıza uygun olarak içerik kalitesine ve güvenliğine göre filtreleme
Uygulama Bilgileri
Modelin iç yapısıyla ilgili ayrıntılar.
Donanım
Gemma, Tensor İşleme Birimi (TPU) donanımı (TPUv4p, TPUv5p ve TPUv5e) kullanılarak eğitildi. Görsel dil modellerini (VLMS) eğitmek için önemli miktarda işlem gücü gerekir. Özellikle makine öğrenimindeki yaygın matris işlemleri için tasarlanmış TPU'lar bu alanda çeşitli avantajlar sunar:
- Performans: TPU'lar, özellikle VLM'leri eğitmeyle ilgili devasa hesaplamaları gerçekleştirmek için tasarlanmıştır. GPU'lar, CPU'lara kıyasla eğitimi önemli ölçüde hızlandırabilir.
- Bellek: TPU'lar genellikle büyük miktarlarda yüksek bant genişliğine sahip bellekle birlikte gelir. Bu sayede, eğitim sırasında büyük modeller ve toplu boyutlar kullanılabilir. Bu, model kalitesinin artmasına neden olabilir.
- Ölçeklenebilirlik: TPU kapsülleri (büyük TPU kümeleri), büyük temel modellerin artan karmaşıklığını yönetmek için ölçeklenebilir bir çözüm sağlar. Daha hızlı ve daha verimli işleme için eğitimi birden fazla TPU cihazına dağıtabilirsiniz.
- Maliyet etkinliği: TPU'lar, birçok senaryoda büyük modelleri eğitmek için CPU tabanlı altyapıya kıyasla daha uygun maliyetli bir çözüm sunabilir. Özellikle de daha hızlı eğitim sayesinde zamandan ve kaynaklardan tasarruf edildiği düşünüldüğünde bu durum geçerlidir.
- Bu avantajlar, Google'ın sürdürülebilir bir şekilde faaliyet göstermeye yönelik taahhütleriyle uyumludur.
Yazılım
Eğitim, JAX ve ML Pathways kullanılarak gerçekleştirildi.
JAX, araştırmacıların büyük modelleri daha hızlı ve verimli bir şekilde eğitmek için TPU'lar da dahil olmak üzere en yeni nesil donanımlardan yararlanmasına olanak tanır. ML Pathways, Google'ın birden fazla görevde genelleme yapabilen yapay zeka sistemleri oluşturma konusundaki en son çalışmasıdır. Bu, özellikle bunlar gibi büyük dil modelleri dahil olmak üzere temel modeller için uygundur.
JAX ve ML Pathways birlikte, Gemini model ailesiyle ilgili makalede açıklandığı şekilde kullanılır; "Jax ve Pathways'in "tek denetleyici" programlama modeli, tek bir Python sürecinin tüm eğitim çalıştırmasını koordine etmesine olanak tanıyarak geliştirme iş akışını önemli ölçüde basitleştirir."
Değerlendirme
Model değerlendirme metrikleri ve sonuçları.
Karşılaştırma Sonuçları
Bu modeller, metin oluşturmanın farklı yönlerini kapsayacak şekilde büyük bir farklı veri kümesi ve metrik koleksiyonuyla değerlendirildi. IT ile işaretlenmiş değerlendirme sonuçları, talimat ayarlı modeller içindir. PT ile işaretlenmiş değerlendirme sonuçları, önceden eğitilmiş modeller içindir.
Akıl yürütme ve gerçeklik
Karşılaştırma | n-shot | Gemma 3 BT 1B | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|---|---|
GPQA Elmas | 0 atış | 19,2 | 30,8 | 40,9 | 42,4 |
SimpleQA | 0 atış | 2.2 | 4.0 | 6,3 | 10,0 |
FACTS Grounding | - | 36,4 | 70,1 | 75,8 | 74,9 |
BIG-Bench Hard | 0 atış | 39,1 | 72,2 | 85,7 | 87,6 |
BIG-Bench Ekstra Sert | 0 atış | 7.2 | 11.0 | 16.3 | 19,3 |
IFEval | 0 atış | 80,2 | 90,2 | 88,9 | 90,4 |
Karşılaştırma | n-shot | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|---|
HellaSwag | 10 atış | 62,3 | 77,2 | 84,2 | 85,6 |
BoolQ | 0 atış | 63,2 | 72,3 | 78,8 | 82,4 |
PIQA | 0 atış | 73,8 | 79,6 | 81,8 | 83,3 |
SocialIQA | 0 atış | 48,9 | 51,9 | 53,4 | 54,9 |
TriviaQA | 5 atış | 39,8 | 65,8 | 78,2 | 85,5 |
Doğal Sorular | 5 atış | 9,48 | % | 31,4 | 36,1 |
ARC-c | 25 çekim | 38,4 | 56,2 | 68,9 | 70,6 |
ARC-e | 0 atış | 73,0 | 82,4 | 88,3 | 89,0 |
WinoGrande | 5 atış | 58,2 | 64,7 | 74,3 | 78,8 |
BIG-Bench Hard | çok görevli | 28,4 | 50,9 | 72,6 | 77,7 |
DROP | 1 atış | 42,4 | 60.1 | 72,2 | 77,2 |
STEM ve kodlama
Karşılaştırma | n-shot | Gemma 3 BT 1B | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|---|---|
MMLU (Pro) | 0 atış | 14,7 | 43,6 | 60,6 | 67,5 |
LiveCodeBench | 0 atış | 1.9 | 12,6 | 24,6 | 29,7 |
Bird-SQL (geliştirme aşamasında) | - | 6.4 | 36,3 | 47,9 | 54,4 |
Matematik | 0 atış | 48,0 | 75,6 | 83,8 | 89,0 |
HiddenMath | 0 atış | 15.8 | 43,0 | 54,5 | 60,3 |
MBPP | 3 çekimli | 35,2 | 63,2 | 73,0 | 74,4 |
HumanEval | 0 atış | 41,5 | 71,3 | 85,4 | 87,8 |
Natural2Code | 0 atış | 56,0 | 70,3 | 80,7 | 84,5 |
GSM8K | 0 atış | 62,8 | 89,2 | 94,4 | 95,9 |
Karşılaştırma | n-shot | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
MMLU | 5 atış | 59,6 | 74,5 | 78,6 |
MMLU (Pro COT) | 5 atış | 29,2 | 45,3 | 52.2 |
AGIEval | 3-5-shot | 42,1 | 57,4 | 66,2 |
MATH | 4 çekimli | 24,2 | 43,3 | 50,0 |
GSM8K | 8 çekimli | 38,4 | 71,0 | 82,6 |
GPQA | 5 atış | 15,0 | 25,4 | 24,3 |
MBPP | 3 çekimli | 46,0 | 60,4 | 65,6 |
HumanEval | 0 atış | 36,0 | 45,7 | 48,8 |
Birden çok dilde
Karşılaştırma | n-shot | Gemma 3 BT 1B | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|---|---|
Global-MMLU-Lite | 0 atış | 34,2 | 54,5 | 69,5 | 75,1 |
ECLeKTic | 0 atış | 1.4 | 4,6 | 10.3 | 16,7 |
WMT24++ | 0 atış | 35,9 | 46,8 | 51,6 | 53,4 |
Karşılaştırma | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
MGSM | 2,04 | 34,7 | 64,3 | 74,3 |
Global-MMLU-Lite | 24,9 | 57,0 | 69,4 | 75,7 |
WMT24++ (ChrF) | 36,7 | 48,4 | 53,9 | 55,7 |
FloRes | 29,5 | 39,2 | 46,0 | 48,8 |
XQuAD (tümü) | 43,9 | 68,0 | 74,5 | 76,8 |
ECLeKTic | 4,69 | 11.0 | 17.2 | 24,4 |
IndicGenBench | 41,4 | 57,2 | 61,7 | 63,4 |
Çok formatlı
Karşılaştırma | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|
MMMU (val) | 48,8 | 59,6 | 64,9 |
DocVQA | 75,8 | 87,1 | 86,6 |
InfoVQA | 50,0 | 64,9 | 70,6 |
TextVQA | 57,8 | 67,7 | 65,1 |
AI2D | 74,8 | 84,2 | 84,5 |
ChartQA | 68,8 | 75,7 | 78,0 |
VQAv2 (değer) | 62,4 | 71,6 | 71,0 |
MathVista (testmini) | 50,0 | 62,9 | 67,6 |
Karşılaştırma | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|
COCOcap | 102 | 111 | 116 |
DocVQA (val) | 72,8 | 82,3 | 85,6 |
InfoVQA (değer) | 44,1 | 54,8 | 59,4 |
MMMU (pt) | 39,2 | 50,3 | 56,1 |
TextVQA (val) | 58,9 | 66,5 | 68,6 |
RealWorldQA | 45,5 | 52.2 | 53,9 |
ReMI | 27,3 | 38,5 | 44,8 |
AI2D | 63,2 | 75,2 | 79,0 |
ChartQA | 63,6 | 74,7 | 76,3 |
VQAv2 | 63,9 | 71,2 | 72,9 |
BLINK | 38,0 | 35,9 | 39,6 |
OKVQA | 51,0 | 58,7 | 60,2 |
TallyQA | 42,5 | 51,8 | 54,3 |
SpatialSense VQA | 50,9 | 60,0 | 59,4 |
CountBenchQA | 26,1 | 17,8 | 68,0 |
Etik ve Güvenlik
Etik ve güvenlik değerlendirmesi yaklaşımı ve sonuçları.
Değerlendirme Yaklaşımı
Değerlendirme yöntemlerimiz arasında yapılandırılmış değerlendirmeler ve ilgili içerik politikalarının şirket içinde yapılan testleri yer alır. Kırmızı takım çalışması, her biri farklı hedeflere ve insan değerlendirme metriklerini kullanan çeşitli ekipler tarafından yürütüldü. Bu modeller, etik ve güvenlikle ilgili çeşitli kategorilere göre değerlendirildi. Örneğin:
- Çocuk Güvenliği: Çocukların cinsel istismarı ve istismarı da dahil olmak üzere çocuk güvenliği politikalarını kapsayan metin metne ve resim metne istemlerinin değerlendirilmesi.
- İçerik Güvenliği: Taciz, şiddet, vahşet ve nefret söylemi gibi güvenlik politikalarını kapsayan metinden metne ve resimden metne istemlerinin değerlendirilmesi.
- Temsilde Yanıltma: Metinden metne ve resimden metne istemlerinin, önyargı, klişeleştirme ve zararlı çağrışımlar ya da yanlışlıklar gibi güvenlik politikalarını kapsayacak şekilde değerlendirilmesi.
Geliştirme düzeyindeki değerlendirmelere ek olarak, sorumluluk yönetimi karar verirken kullandığımız "bağımsız" şirket içi değerlendirmelerimiz olan "güvenilirlik değerlendirmeleri" yaparız. Bu toplantılar, model geliştirme ekibinden ayrı olarak gerçekleştirilir. Böylece, modelin kullanıma sunulması konusunda karar verilebilir. Üst düzey bulgular model ekibine geri gönderilir ancak aşırı uyumlanmayı önlemek ve sonuçların karar verme sürecini bilgilendirme özelliğini korumak için istem kümeleri ayrılır. Güvence değerlendirmesi sonuçları, sürüm incelemesi kapsamında Sorumluluk ve Güvenlik Konseyimize bildirilir.
Değerlendirme Sonuçları
Güvenlik testinin tüm alanlarında, çocuk güvenliği, içerik güvenliği ve temsili zararlar kategorilerinde önceki Gemma modellerine kıyasla önemli iyileştirmeler gördük. Tüm testler, modelin özelliklerini ve davranışlarını değerlendirmek için güvenlik filtreleri olmadan gerçekleştirildi. Hem metinden metne hem de resimden metne dönüşümde ve tüm model boyutlarında model, minimum düzeyde politika ihlali gerçekleştirdi ve temelsiz çıkarımlarla ilgili olarak önceki Gemma modellerinin performansına kıyasla önemli iyileştirmeler gösterdi. Değerlendirmelerimizin bir sınırlaması, yalnızca İngilizce dilindeki istemleri içermesiydi.
Kullanım ve Sınırlılıklar
Bu modellerin kullanıcıların bilmesi gereken belirli sınırlamaları vardır.
Kullanım Amacı
Açık görüntü-dil modelleri (VLM'ler), çeşitli sektör ve alanlarda çok çeşitli uygulamalara sahiptir. Aşağıdaki olası kullanımlar listesi kapsamlı değildir. Bu listenin amacı, model oluşturucuların model eğitimi ve geliştirmesi kapsamında değerlendirdiği olası kullanım alanları hakkında bağlamsal bilgi sağlamaktır.
- İçerik Oluşturma ve İletişim
- Metin Oluşturma: Bu modeller şiir, senaryo, kod, pazarlama metni ve e-posta taslağı gibi yaratıcı metin biçimleri oluşturmak için kullanılabilir.
- Chatbot'lar ve Etkileşimli Yapay Zeka: Müşteri hizmetleri, sanal asistanlar veya etkileşimli uygulamalar için etkileşimli arayüzleri güçlendirin.
- Metin Özetleme: Metin veri kümesi, araştırma makaleleri veya raporların kısa özetlerini oluşturun.
- Görüntü Verileri Ayıklama: Bu modeller, metin iletişimleri için görsel verileri ayıklamak, yorumlamak ve özetlemek amacıyla kullanılabilir.
- Araştırma ve Eğitim
- Doğal Dil İşleme (NLP) ve VLM Araştırması: Bu modeller, araştırmacıların VLM ve NLP tekniklerini denemeleri, algoritmalar geliştirmeleri ve alanın ilerlemesine katkıda bulunmaları için temel oluşturabilir.
- Dil Öğrenme Araçları: Dil bilgisi düzeltmelerine yardımcı olarak veya yazma pratiği sunarak etkileşimli dil öğrenme deneyimlerini destekler.
- Bilgi Keşfi: Özet oluşturarak veya belirli konularla ilgili soruları yanıtlayarak araştırmacıların büyük metinleri keşfetmesine yardımcı olun.
Sınırlamalar
- Eğitim Verileri
- Eğitim verilerinin kalitesi ve çeşitliliği, modelin özelliklerini önemli ölçüde etkiler. Eğitim verilerindeki ön yargılar veya boşluklar, modelin yanıtlarında sınırlamalara neden olabilir.
- Eğitim veri kümesinin kapsamı, modelin etkili bir şekilde işleyebileceği konu alanlarını belirler.
- Bağlam ve Görev Karmaşıklığı
- Modeller, net istemler ve talimatlarla çerçevelenebilecek görevlerde daha iyi performans gösterir. Açık uçlu veya son derece karmaşık görevler zor olabilir.
- Bir modelin performansı, sağlanan bağlam miktarından etkilenebilir (daha uzun bağlam genellikle belirli bir noktaya kadar daha iyi sonuçlara yol açar).
- Dildeki belirsizlik ve nüans
- Doğal dil doğası gereği karmaşıktır. Modeller ince nüansları, ironiyi veya mecazi dili anlamakta zorlanabilir.
- Bilgilerin Doğruluğu
- Modeller, eğitim veri kümelerinden öğrendikleri bilgilere göre yanıtlar oluşturur ancak bilgi bankası değildir. Bu kaynaklar yanlış veya güncel olmayan gerçek beyanlar oluşturabilir.
- Common Sense
- Modeller, dildeki istatistiksel kalıpları kullanır. Belirli durumlarda sağduyulu düşünme becerisine sahip olmayabilirler.
Etik Konular ve Riskler
Görsel dil modellerinin (GDM) geliştirilmesi, çeşitli etik endişelere yol açar. Açık bir model oluştururken aşağıdakileri dikkatlice göz önünde bulundurduk:
- Önyargı ve Adalet
- Gerçek dünyadan büyük ölçekli metin ve resim verileri kullanılarak eğitilen VLM'ler, eğitim materyaline yerleştirilmiş sosyo-kültürel önyargıları yansıtabilir. Bu modeller dikkatli bir şekilde incelendi, giriş verileri ön işleme alındı ve bu kartta raporlanan sonraki değerlendirmeler yapıldı.
- Yanlış bilgilendirme ve kötüye kullanım
- VLM'ler yanlış, yanıltıcı veya zararlı metinler oluşturmak için kötüye kullanılabilir.
- Modelin sorumlu kullanımıyla ilgili kurallar sağlanmıştır. Sorumlu Üretken Yapay Zeka Aracı Kiti'ne bakın.
- Şeffaflık ve Sorumluluk:
- Bu model kartında, modellerin mimarisi, özellikleri, sınırlamaları ve değerlendirme süreçleri hakkındaki ayrıntılar özetlenmiştir.
- Sorumluluk bilinciyle geliştirilmiş açık bir model, VLM teknolojisini yapay zeka ekosistemindeki geliştiricilere ve araştırmacılara sunarak yenilikleri paylaşma fırsatı sunar.
Tespit edilen riskler ve azaltma önlemleri:
- Eğilimlerin devam ettirilmesi: Model eğitimi, ince ayar ve diğer kullanım alanları sırasında sürekli izleme (değerlendirme metrikleri, gerçek kişiler tarafından inceleme kullanılarak) ve eğilimleri azaltma tekniklerinin keşfedilmesi önerilir.
- Zararlı içerik oluşturma: İçerik güvenliğiyle ilgili mekanizmalar ve kurallar çok önemlidir. Geliştiricilerin, belirli ürün politikalarına ve uygulama kullanım alanlarına göre dikkatli davranmaları ve uygun içerik güvenliği önlemlerini uygulamaları önerilir.
- Kötü amaçlarla kötüye kullanım: Teknik sınırlamalar ve geliştirici ile son kullanıcı eğitimi, VLM'lerin kötü amaçlı kullanımını azaltmaya yardımcı olabilir. Kullanıcıların kötüye kullanımları işaretlemeleri için eğitim kaynakları ve bildirim mekanizmaları sağlanmalıdır. Gemma modellerinin yasaklanmış kullanımları Gemma Yasaklanan Kullanım Politikası'nda açıklanmıştır.
- Gizlilik ihlalleri: Modeller, belirli kişisel bilgilerin ve diğer hassas verilerin kaldırılması için filtrelenen verilerle eğitildi. Geliştiricilerin, gizliliği korumaya yönelik tekniklerle gizlilik yönetmeliklerine uymaları önerilir.
Avantajları
Bu model ailesi, kullanıma sunulduğunda benzer boyutlu modellere kıyasla sorumlu yapay zeka geliştirme için sıfırdan tasarlanmış yüksek performanslı açık görüntü-dil modeli uygulamaları sunar.
Bu dokümanda açıklanan karşılaştırma değerlendirme metriklerini kullanarak bu modellerin, benzer boyutta diğer açık model alternatiflerine kıyasla üstün performans sağladığı gösterilmiştir.