2.0 Flash
Nasz najnowszy model multimodalny z funkcjami nowej generacji i ulepszonymi możliwościami
- Wprowadzanie dźwięku, obrazów, filmów i tekstu oraz uzyskiwanie odpowiedzi tekstowych
- generować kod, wyodrębniać dane, analizować pliki, tworzyć wykresy itp.
- Niski poziom opóźnień, ulepszona wydajność, obsługa funkcji agenta
2.0 Flash-Lite
Model Gemini 2.0 Flash zoptymalizowany pod kątem niskich kosztów i niskiej latencji
- Wprowadzanie dźwięku, obrazów, filmów i tekstu oraz uzyskiwanie odpowiedzi tekstowych
- Wyższa wydajność niż w przypadku modelu 1.5 Flash w przypadku większości testów porównawczych
- Okno kontekstu o wielkości 1 mln tokenów i dane multimodalne, np. Flash 2.0
1.5 Flash
Nasz najbardziej zrównoważony model multimodalny o wysokiej wydajności w przypadku większości zadań
- Wprowadzanie dźwięku, obrazów, filmów i tekstu oraz uzyskiwanie odpowiedzi tekstowych
- generować kod, wyodrębniać dane, edytować tekst i wykonywać inne czynności.
- Najlepiej sprawdza się w przypadku zadań, w których równoważone są wydajność i koszt.
Warianty modelu
Gemini API udostępnia różne modele zoptymalizowane pod kątem konkretnych zastosowań. Oto krótki przegląd dostępnych wariantów Gemini:
Wariant modelu | Dane wejściowe | Wyniki | Zoptymalizowany dla |
---|---|---|---|
Gemini 2.0 Flash
gemini-2.0-flash |
Dźwięk, obrazy, filmy i tekst | tekst, obrazy (wkrótce) i dźwięk (wkrótce). | Funkcje nowej generacji, szybkość i generowanie multimodalne do różnych zadań |
Wyświetlanie podglądu Gemini 2.0 Flash-Lite
gemini-2.0-flash-lite-preview-02-05 |
Dźwięk, obrazy, filmy i tekst | Tekst | Model Gemini 2.0 Flash zoptymalizowany pod kątem niskich kosztów i niskiej latencji |
Gemini 1.5 Flash
gemini-1.5-flash |
Dźwięk, obrazy, filmy i tekst | Tekst | szybkie i wszechstronne działanie podczas wykonywania różnych zadań; |
Gemini 1.5 Flash-8B
gemini-1.5-flash-8b |
Dźwięk, obrazy, filmy i tekst | Tekst | Zadania o dużej liczbie i mniejszym zaawansowaniu |
Gemini 1.5 Pro
gemini-1.5-pro |
Dźwięk, obrazy, filmy i tekst | Tekst | złożone zadania wymagające większej inteligencji; |
Wstawianie tekstu
text-embedding-004 |
Tekst | wektory tekstowe, | Pomiar podobieństwa ciągów tekstowych |
Limity stawek dla poszczególnych modeli możesz sprawdzić na stronie z limitami stawek.
Gemini 2.0 Flash
Gemini 2.0 Flash oferuje funkcje nowej generacji i ulepszone możliwości, w tym większą szybkość, obsługę natywnego narzędzia, generowanie multimodalne i okno kontekstu z milionem tokenów.
Szczegóły modelu
Właściwość | Opis |
---|---|
Kod modelu | models/gemini-2.0-flash |
Obsługiwane typy danych |
Wejścia Dźwięk, obraz, film i tekst Dane wyjściowe dźwięk (wkrótce), obrazy (wkrótce) i tekst; |
[*] | Limity tokenów
Limit tokenów wejściowych 1 048 576 Limit tokenów wyjściowych 8192 |
Wyjścia uporządkowane Obsługiwane Zapisywanie w pamięci podręcznej Wkrótce Dostrajanie Nieobsługiwane Połączenia z funkcjami Obsługiwane Wykonywanie kodu Obsługiwane Wyszukiwarka Obsługiwane Generowanie obrazów Wkrótce Korzystanie z narzędzi natywnych Obsługiwane Generowanie dźwięku Wkrótce Interfejs API multimodalnego na żywo Wkrótce |
|
Wersje |
|
Ostatnia aktualizacja | Luty 2025 r. |
Wartość progowa wiedzy | Sierpień 2024 r. |
Wersja testowa Gemini 2.0 Flash-Lite
Model Gemini 2.0 Flash zoptymalizowany pod kątem niskich kosztów i małego opóźnienia.
Szczegóły modelu
Właściwość | Opis |
---|---|
Kod modelu | models/gemini-2.0-flash-lite-preview-02-05 |
Obsługiwane typy danych |
Wejścia Dźwięk, obraz, film i tekst Dane wyjściowe Tekst |
[*] | Limity tokenów
Limit tokenów wejściowych 1 048 576 Limit tokenów wyjściowych 8192 |
Wyjścia uporządkowane Obsługiwane Zapisywanie w pamięci podręcznej Nieobsługiwane Dostrajanie Nieobsługiwane Połączenia z funkcjami Nieobsługiwane Wykonywanie kodu Nieobsługiwane Wyszukiwarka Nieobsługiwane Generowanie obrazów Nieobsługiwane Korzystanie z narzędzi natywnych Nieobsługiwane Generowanie dźwięku Nieobsługiwane Interfejs API multimodalnego na żywo Nieobsługiwane |
|
wersje |
|
Ostatnia aktualizacja | Luty 2025 r. |
Wartość progowa wiedzy | Sierpień 2024 r. |
Gemini 1.5 Flash
Gemini 1.5 Flash to szybki i wszechstronny model multimodalny do skalowania na potrzeby różnych zadań.
Szczegóły modelu
Właściwość | Opis |
---|---|
Kod modelu | models/gemini-1.5-flash |
Obsługiwane typy danych |
Wejścia Dźwięk, obraz, film i tekst Dane wyjściowe Tekst |
[*] | Limity tokenów
Limit tokenów wejściowych 1 048 576 Limit tokenów wyjściowych 8192 |
Specyfikacja audiowizualna |
Maksymalna liczba obrazów na prompt 3,600 Maksymalna długość filmu 1 godzina Maksymalna długość dźwięku Około 9,5 godziny |
Instrukcje dotyczące systemu Obsługiwane Tryb JSON Obsługiwane Schemat JSON Obsługiwane Ustawienia bezpieczeństwa Obsługiwane Zapisywanie w pamięci podręcznej Obsługiwane Dostrajanie Obsługiwane Połączenia z funkcjami Obsługiwane Wykonywanie kodu Obsługiwane Transmisja dwukierunkowa Nieobsługiwane |
|
wersje |
|
Ostatnia aktualizacja | Wrzesień 2024 r. |
Gemini 1.5 Flash-8B
Gemini 1.5 Flash-8B to mały model przeznaczony do zadań wymagających mniejszej inteligencji.
Szczegóły modelu
Właściwość | Opis |
---|---|
Kod modelu | models/gemini-1.5-flash-8b |
Obsługiwane typy danych |
Wejścia Dźwięk, obraz, film i tekst Dane wyjściowe Tekst |
[*] | Limity tokenów
Limit tokenów wejściowych 1 048 576 Limit tokenów wyjściowych 8192 |
Specyfikacja audiowizualna |
Maksymalna liczba obrazów na prompt 3,600 Maksymalna długość filmu 1 godzina Maksymalna długość dźwięku Około 9,5 godziny |
Instrukcje dotyczące systemu Obsługiwane Tryb JSON Obsługiwane Schemat JSON Obsługiwane Ustawienia bezpieczeństwa Obsługiwane Zapisywanie w pamięci podręcznej Obsługiwane Dostrajanie Obsługiwane Połączenia z funkcjami Obsługiwane Wykonywanie kodu Obsługiwane Transmisja dwukierunkowa Nieobsługiwane |
|
wersje |
|
Ostatnia aktualizacja | Październik 2024 r. |
Gemini 1.5 Pro
Gemini 1.5 Pro to średniej wielkości multimodalny model zoptymalizowany pod kątem szerokiego zakresu zadań związanych z wyciąganiem wniosków. Wersja 1.5 Pro może przetwarzać duże ilości danych jednocześnie, w tym 2 godziny filmu, 19 godzin dźwięku, bazy kodów zawierające 60 tys. wierszy kodu lub 2000 stron tekstu.
Szczegóły modelu
Właściwość | Opis |
---|---|
Kod modelu | models/gemini-1.5-pro |
Obsługiwane typy danych |
Wejścia Dźwięk, obraz, film i tekst Dane wyjściowe Tekst |
[*] | Limity tokenów
Limit tokenów wejściowych 2 097 152 Limit tokenów wyjściowych 8192 |
Specyfikacja audiowizualna |
Maksymalna liczba obrazów na prompt 7200 Maksymalna długość filmu 2 godziny Maksymalna długość dźwięku Około 19 godzin |
Instrukcje dotyczące systemu Obsługiwane Tryb JSON Obsługiwane Schemat JSON Obsługiwane Ustawienia bezpieczeństwa Obsługiwane Zapisywanie w pamięci podręcznej Obsługiwane Dostrajanie Nieobsługiwane Połączenia z funkcjami Obsługiwane Wykonywanie kodu Obsługiwane Transmisja dwukierunkowa Nieobsługiwane |
|
wersje |
|
Ostatnia aktualizacja | Wrzesień 2024 r. |
Wektory dystrybucyjne tekstu
Wstawianie tekstu
Wkłady tekstowe służą do pomiaru podobieństwa ciągów znaków i są powszechnie stosowane w wielu zastosowaniach AI.
text-embedding-004
osiąga lepszą skuteczność wyszukiwania i przewyższa wyniki dotychczasowych modeli
przy porównywalnych wymiarach w ramach standardowych testów porównawczych w ramach MTEB.
Szczegóły modelu
Właściwość | Opis |
---|---|
Kod modelu |
Gemini API
|
Obsługiwane typy danych |
Wejście Tekst Dane wyjściowe wektory tekstowe, |
[*] | Limity tokenów
Limit tokenów wejściowych 2048 Rozmiar wymiaru wyjściowego 768 |
[**] | Limity szybkości1500 żądań na minutę |
dostosowane ustawienia bezpieczeństwa | Nieobsługiwane |
Ostatnia aktualizacja | Kwiecień 2024 r. |
Umieszczanie
Możesz użyć modelu embeddingu, aby wygenerować embeddingi tekstu dla tekstu wejściowego.
Model embeddingu jest zoptymalizowany pod kątem tworzenia embeddingów o 768 wymiarach w przypadku tekstu zawierającego do 2048 tokenów.
Szczegóły modelu wektora dystrybucyjnego
Właściwość | Opis |
---|---|
Kod modelu |
models/embedding-001
|
Obsługiwane typy danych |
Wejście Tekst Dane wyjściowe wektory tekstowe, |
[*] | Limity tokenów
Limit tokenów wejściowych 2048 Rozmiar wymiaru wyjściowego 768 |
[**] | Limity szybkości1500 żądań na minutę |
dostosowane ustawienia bezpieczeństwa | Nieobsługiwane |
Ostatnia aktualizacja | Grudzień 2023 r. |
AQA
Model AQA możesz wykorzystać do wykonywania zadań związanych z przypisywaniem odpowiedzi na pytania (AQA) na podstawie dokumentu, korpusie lub zbioru fragmentów. Model AQA zwraca odpowiedzi na pytania oparte na podanych źródłach wraz z oszacowaniem prawdopodobieństwa odpowiedzi.
Szczegóły modelu
Właściwość | Opis |
---|---|
Kod modelu | models/aqa |
Obsługiwane typy danych |
Wejście Tekst Dane wyjściowe Tekst |
Obsługiwany język | angielski |
[*] | Limity tokenów
Limit tokenów wejściowych 7168 Limit tokenów wyjściowych 1024 |
[**] | Limity szybkości1500 żądań na minutę |
dostosowane ustawienia bezpieczeństwa | Obsługiwane |
Ostatnia aktualizacja | Grudzień 2023 r. |
Aby poznać możliwości tych wariantów modeli, zapoznaj się z przykładami.
[*], token to około 4 znaków w przypadku modeli Gemini. 100 tokenów to około 60–80 słów po angielsku.
Wzorce nazw wersji modelu
Modele Gemini są dostępne w wersjach testowych lub stabilnych. W kodzie możesz użyć jednego z tych formatów nazwy modelu, aby określić, którego modelu i której wersji chcesz użyć.
Najnowsza:wskazuje najnowszą wersję modelu dla określonej generacji i wariantu. Model bazowy jest regularnie aktualizowany i może być wersją podglądową. Tego aliasu powinny używać tylko aplikacje do testów eksploracyjnych i prototypy.
Aby określić najnowszą wersję, użyj tego wzorca:
<model>-<generation>-<variation>-latest
. Na przykład:gemini-1.0-pro-latest
.Najnowsza stabilna wersja: wskazuje najnowszą stabilną wersję opublikowaną dla określonego pokolenia i wariantu modelu.
Aby określić najnowszą stabilną wersję, użyj tego wzoru:
<model>-<generation>-<variation>
. Na przykład:gemini-1.0-pro
.Stabilny: wskazuje konkretny stabilny model. Stabilne modele się nie zmieniają. Większość produkcyjnych aplikacji powinna używać konkretnego stabilnego modelu.
Aby określić wersję stabilną, użyj tego wzoru:
<model>-<generation>-<variation>-<version>
. Na przykład:gemini-1.0-pro-001
.Eksperymentalny: wskazuje model eksperymentalny dostępny w wersji testowej zgodnie z definicją w Warunkach, co oznacza, że nie jest przeznaczony do użytku w produkcji. Wprowadzamy modele eksperymentalne, aby zbierać opinie, szybko udostępniać deweloperom najnowsze aktualizacje i pokazywać tempo wprowadzania innowacji w Google. Dzięki temu, co dowiadujemy się z wersji eksperymentalnych, możemy lepiej przygotować się na ich szersze wdrożenie. Model eksperymentalny można zastąpić innym bez wcześniejszego powiadomienia. Nie możemy zagwarantować, że model eksperymentalny stanie się w przyszłości modelem stabilnym.
Aby określić wersję eksperymentalną, użyj tego wzoru:
<model>-<generation>-<variation>-<version>
. Na przykład:gemini-exp-1121
.
Dostępne języki
Modele Gemini są trenowane pod kątem tych języków:
- arabski (
ar
), - bengali (
bn
) - bułgarski (
bg
), - chiński uproszczony i tradycyjny (
zh
), - Chorwacki (
hr
) - czeski (
cs
) - duński (
da
), - Holenderski (
nl
) - Angielski (
en
) - estoński (
et
), - fiński (
fi
), - Francuski (
fr
) - Niemiecki (
de
) - grecki (
el
), - hebrajski (
iw
), - hindi (
hi
), - węgierski (
hu
), - indonezyjski (
id
), - włoski (
it
), - japoński (
ja
) - koreański (
ko
) - łotewski (
lv
), - litewski (
lt
), - norweski (
no
), - Polski (
pl
) - Portugalski (
pt
) - rumuński (
ro
) - Rosyjski (
ru
) - serbski (
sr
) - słowacki (
sk
) - słoweński (
sl
), - hiszpański (
es
), - suahili (
sw
), - szwedzki (
sv
) - tajski (
th
), - turecki (
tr
), - ukraiński (
uk
) - wietnamski (
vi
),