Rodzina modeli sztucznej inteligencji (AI) Gemini została opracowana z myślą o obsługiwaniu różnych typów danych wejściowych, w tym tekstu, obrazów i dźwięku. Ponieważ modele te mogą obsługiwać więcej niż 1 typ lub tryb danych, nazywamy je modelami multimodalnymi lub określamy jako modele multimodalne.
Na tej stronie znajdziesz wskazówki i sprawdzone metody dotyczące korzystania z plików multimedialnych z promptami w interfejsie Gemini API. Informacje o używaniu interfejsu Gemini Files API do przesyłania plików multimedialnych i umieszczania ich w promptach znajdziesz w instrukcjach dotyczących Vision, dźwięku i przetwarzania dokumentów.
Korzystanie z plików multimedialnych z promptami
Możliwość używania różnych rodzajów danych w promptach daje Ci większą elastyczność w zakresie zadań, które możesz wykonywać za pomocą Gemini API. Możesz na przykład wysłać modelowi zdjęcie pysznego posiłku i poprosić go o napisanie krótkiego bloga na jego temat.
Prompt | Odpowiedź |
Napisz na podstawie tego zdjęcia krótki, angażujący post na bloga. Powinien zawierać opis posiłku na zdjęciu i opowiadać o przygotowaniu posiłku. ![]() |
Przygotowywanie posiłków to świetny sposób na zaoszczędzenie czasu i pieniędzy, a także na zdrowsze odżywianie się. Ten posiłek to świetny przykład zdrowego i smacznego posiłku, który można łatwo przygotować wcześniej. Danie składa się z brązowego ryżu, pieczonych warzyw i kurczaka teriyaki. Brązowy ryż to zdrowy i złożony węglowodan, który zapewni Ci długotrwały zapas energii. Pieczone warzywa to świetny sposób na codzienną porcję witamin i minerałów, a kurczak teriyaki to pyszna opcja bogata w białko. To danie jest też bardzo łatwe do przygotowania. Wystarczy ugotować brązowy ryż, upiec warzywa i przygotować kurczaka teriyaki. Po ugotowaniu podziel je na pojemniki na posiłki i włóż do lodówki. Możesz wtedy wziąć pojemnik i iść do pracy w pracowite poranki. Jeśli szukasz zdrowego i smacznego posiłku, który można łatwo przygotować z wyprzedzeniem, ta opcja jest dla Ciebie. Jest bogata w składniki odżywcze i smakowite, a także zapewni uczucie sytości i zadowolenia. Zdrowe i pyszne przygotowanie posiłków. |
Strategie dotyczące wyświetlania promptów z multimediami
Jeśli masz problem z uzyskaniem oczekiwanego wyjścia z promptów, które używają plików multimedialnych, możesz skorzystać z kilku strategii, które pomogą Ci uzyskać pożądane wyniki. W następnych sekcjach znajdziesz wskazówki dotyczące projektowania i rozwiązywania problemów z promptami, które korzystają z danych wejściowych multimodalnych.
Aby ulepszyć prompty multimodalne, postępuj zgodnie z tymi sprawdzonymi metodami:
-
Podstawy projektowania promptów
- Bądź konkretny w instrukcjach: stwórz przejrzyste i zwięzłe instrukcje, które nie pozostawiają miejsca na błędne interpretacje.
- Dodaj kilka przykładów do promptu: aby zilustrować, czego chcesz dokonać, użyj realistycznych przykładów z kilku zdjęć.
- Podziel zadanie na etapy: podziel skomplikowane zadania na łatwe do wykonania podrzędne cele, aby ułatwić modelowi realizację procesu.
- Określ format wyjściowy: w promptach podaj format wyjściowy, np. markdown, JSON, HTML itp.
- W przypadku promptów z jednym obrazem umieść obraz na początku: Gemini może przetwarzać dane wejściowe w dowolnej kolejności, ale w przypadku promptów zawierających jeden obraz lepszym rozwiązaniem może być umieszczenie obrazu przed promptem tekstowym.
-
Rozwiązywanie problemów z promptem multimodalnym
- Jeśli model nie pobiera informacji z odpowiedniej części obrazu: podaj wskazówki dotyczące tego, z jakich aspektów obrazu chcesz pobierać informacje.
- Jeśli wyniki modelu są zbyt ogólne (nie są wystarczająco dopasowane do obrazu): na początku promptu poproś model o opisanie obrazu, zanim podasz instrukcje dotyczące zadania, lub poproś model o odniesienie się do tego, co jest na obrazie.
Podstawy projektowania promptów
W tej sekcji omówimy sprawdzone metody wymienione w sekcji poprzedniej.
Uwaga: wyniki modelu w tych przykładach Gemini mogą się różnić w zależności od wykonania.
Unikaj ogólników w instrukcjach
Prompty są najskuteczniejsze, gdy są jasne i szczegółowe. Jeśli masz na myśli konkretny wynik, lepiej jest uwzględnić to w promptach, aby mieć pewność, że uzyskasz oczekiwany rezultat.
Czasami intencja promptu może wydawać się jasna osobie, która go napisała, ale w rzeczywistości jest niewystarczająco sprecyzowana. Aby dostosować działanie modelu, zastanów się, jak Twoja prośba może zostać zinterpretowana i upewnij się, że podane przez Ciebie instrukcje są konkretne i jasne. Pamiętaj, aby pozostawić jak najmniej miejsca na błędne interpretacje.
W przypadku tego zdjęcia tablicy lotniskowej zwykłe zapytanie o „opisanie tego obrazu” może wygenerować ogólny opis. Jeśli chcesz, aby model przeanalizował czas i miejscowość na podstawie obrazu, możesz uwzględnić to bezpośrednio w promptzie.
Prompt | Odpowiedź modelu |
---|---|
![]() Opisz ten obraz. |
Obraz przedstawia tablicę przylotów i odlotów na lotnisku. |
Zaktualizowany komunikat | Ulepszony czas reakcji |
---|---|
![]() Przeanalizuj czas i miasto z tablicy lotniska widocznej na tym obrazie i zapisz je na liście. |
Dodaj kilka przykładów
Model Gemini może przyjmować wiele danych wejściowych, które może wykorzystać jako przykłady do zrozumienia pożądanego wyniku. Dodanie tych przykładów może pomóc modelowi w rozpoznaniu wzorców i założeniu związku między danymi obrazami a odpowiedziami na nowy przykład. Jest to tzw. uczenie się z niewielką ilością danych.
W przykładzie poniżej początkowe dane wyjściowe są zapisane w formie zdania i zawierają kraj (Brazylia). Załóżmy, że chcesz uzyskać dane w innym formacie lub stylu i że chcesz uwzględnić tylko miasto, a nie kraj. Dodanie do promptu kilku przykładów może sprawić, że model będzie odpowiadać w chcący sposób.
Prompt | Odpowiedź modelu |
---|---|
![]() Określ miasto i obiekt. |
To pomnik Chrystusa Zbawiciela w Rio de Janeiro w Brazylii. |
Zaktualizowany komunikat | Ulepszona odpowiedź |
---|---|
Określ miasto i obiekt. ![]() |
miasto: Rzym, zabytek: Koloseum. |
![]() |
miasto: Pekin, zabytek: Zakazane Miasto |
![]() |
miasto: Rio de Janeiro, punkt orientacyjny: Statua Chrystusa Zbawiciela |
Szczegółowy opis
W przypadku skomplikowanych zadań, które wymagają zarówno zrozumienia wizualnego, jak i myślenia logicznego, warto podzielić zadanie na mniejsze, bardziej przejrzyste etapy. Możesz też poprosić model o „myślenie krok po kroku”.
Prompt | Odpowiedź modelu |
---|---|
![]() Kiedy skończy mi się papier toaletowy? |
Wkrótce zostaną Ci tylko 3 rolki. |
Zaktualizowany komunikat | Ulepszona odpowiedź |
---|---|
![]()
|
|
Zadania matematyczne lub inne rodzaje zadań tekstowych to świetne kandydatki do tego, aby model myślał krok po kroku.
Prompt | Odpowiedź |
---|---|
![]()
Jaki jest 4. wyraz w ciągu? |
-135 |
Odpowiedź z modelu jest nieprawidłowa. Aby to poprawić, możesz poprosić model o przeanalizowanie problemu przed udzieleniem odpowiedzi na prompt.
Prompt | Odpowiedź |
---|---|
![]()
Najpierw przeanalizuj formułę na obrazie. Następnie na podstawie formuły odpowiedz na pytanie „Jaki jest 4. wyraz w sekwencji?”. |
Kliknij, aby rozwinąć wynik$$ b(n) = b(n-1) * (-3) $$ $$ b(1) = 15 $$
$$ b(4) = b(4-1) * (-3) $$ $$ b(4) = b(3) * (-3) $$ $$ b(3) = b(3-1) * (-3) $$ $$ b(3) = b(2) * (-3) $$ $$ b(2) = b(2-1) * (-3) $$ $$ b(2) = b(1) * (-3) $$ $$ b(2) = 15 * (-3) $$ $$ b(2) = -45 $$ $$ b(3) = b(2) * (-3) $$ $$ b(3) = -45 * (-3) $$ $$ b(3) = 135 $$ $$ b(4) = b(3) * (-3) $$ $$ b(4) = 135 * (-3) $$ $$ b(4) = -405 $$ Dlatego 4. wyraz w ciągu to -405. |
Ta odpowiedź modelu jest poprawna. Aby jeszcze bardziej ją uprościć, możesz poprosić model o wykonanie kroków po kolei.
Zaktualizowany komunikat | Ulepszony czas reakcji |
---|---|
![]()
Jaki jest 4. wyraz w ciągu? Krok po kroku. |
Pierwszy termin to 15. Drugi składnik to b(1) * (-3) = 15 * (-3) = -45. Trzeci składnik to b(2) * (-3) = -45 * (-3) = 135. Czwarty składnik to b(3) * (-3) = 135 * (-3) = -405. |
Spróbuj określić format wyjściowy
Typowym problemem jest konieczność uzyskania danych wyjściowych modelu w określonym formacie (np. markdown, JSON, HTML), zwłaszcza jeśli dane wyjściowe modelu muszą zostać przetworzone przez zadanie dalszego przetwarzania. Możesz spróbować wygenerować dane wyjściowe w tym formacie, instruując model w promptach. Oto 2 przykłady:
Prompt | Odpowiedź modelu |
---|---|
![]() Przeanalizuj tabelę na tym obrazie i przekształć ją do formatu Markdown |
| Temat | Stan | Czas | Data rozpoczęcia | Termin | | ------- | ------ | ---- | --------- | ------ | | Math | Done | 1.5 hrs | 11/29/2023 | 12/1/2023 | | Geografia | Gotowe | 30 min | 2023-12-2 | 2023-12-4 | | Fizyka | W toku | 2 godz. | 3.12.2023 r. | 5.12.2023 r. | | Biologia | Nie rozpoczęto | 6 godzin | 2/11/2016 r. | 6/12/2023 r. | |
Prompt | Odpowiedź modelu |
---|---|
![]() Podaj listę wszystkich tych atrybutów: składniki, rodzaj kuchni, informacje o tym, czy danie jest wegetariańskie, w formacie JSON |
|
W przypadku promptów z pojedynczym obrazem umieść obraz na pierwszym miejscu
Gemini może interpretować obrazy i tekst w dowolnej kolejności w promptach, ale umieszczenie pojedynczego obrazu przed promptem tekstowym może przynieść lepsze wyniki. W tych przykładach obraz pojawia się przed tekstem w każdym promptzie.
Rozwiązywanie problemów z promptem multimodalnym
Jeśli nie otrzymasz przydatnej odpowiedzi, może być konieczne rozwiązanie problemów z promptem. Oto kilka strategii, które możesz wypróbować.
Jeśli model nie pobiera informacji z odpowiedniej części obrazu
Aby uzyskać bardziej szczegółową odpowiedź, możesz wskazać, które aspekty obrazu mają być uwzględniane w promptach.
Prompt | Odpowiedź modelu |
---|---|
![]() Ile dni te pieluchy wystarczą dziecku? |
Pampersy wystarczą na 198 dni. |
Zaktualizowany komunikat | Ulepszona odpowiedź |
---|---|
![]() Jak długo te pieluchy wystarczą? Aby określić wiek dziecka, użyj wagi podanej na opakowaniu, a łączną liczbę pieluch w opakowaniu. Podziel łączną liczbę przez liczbę pieluch, które dziecko zużywa dziennie. |
Pudełko zawiera 198 pielusz. Na opakowaniu podano, że pieluchy są przeznaczone dla dzieci o masie ciała 10–17 kg. Średnie dziecko o takiej wadze ma 1–2 lata. Dziecko w wieku 2 lat zazwyczaj zużywa 6 pielusz dziennie, więc pieluchy wystarczą na około 33 dni (198/6). |
Jeśli wynik modelu jest zbyt ogólny i nie jest wystarczająco dostosowany do podawanego obrazu
Aby pomóc modelowi dostosować odpowiedź do obrazów, poproś go o opisanie obrazów przed wykonaniem zadania rozumowania.
Prompt | Odpowiedź modelu |
---|---|
![]() ![]() ![]() ![]() Co łączy te obrazy? |
Wszystkie 4 zdjęcia to przykłady fotografii krajobrazowej. |
Zaktualizowany komunikat | Ulepszony czas reakcji |
---|---|
![]() ![]() ![]() ![]() Najpierw szczegółowo opisz, co znajduje się na każdym obrazie. Co łączy te obrazy? |
Pierwsze zdjęcie przedstawia osobę pakującą walizkę. Drugi obraz przedstawia pusty korytarz w centrum handlowym. Trzeci obraz przedstawia rolkę papieru toaletowego. Czwarty obraz przedstawia ciemne i burzliwe morze. Wszystkie te obrazy przedstawiają miejsca na pograniczu. Liminal spaces to miejsca lub sytuacje, które znajdują się pomiędzy dwoma innymi miejscami lub sytuacjami. Często są niejasne lub niepewne. Pierwszy obraz przedstawia osobę w domu i w podróży. Drugi obraz przedstawia korytarz między 2 sklepami. Trzeci obraz przedstawia papier toaletowy, który może symbolizować łazienkę. Łazienka to przestrzeń przejściowa pomiędzy sferą prywatną a publiczną. To miejsce, w którym przygotowujemy się do wejścia do świata zewnętrznego lub opuszczenia go. Czwarty obraz przedstawia morze, które nie jest ani spokojne, ani sztormowe. Przestrzeń liminalna może być ekscytująca, ale też niepokojąca. Mogą być miejscem nowych początków lub miejscem zakończeń. Mogą być miejscem na zastanowienie się lub miejscem na działanie. |
Możesz też wyraźnie poprosić model o odniesienie się do tego, co znajduje się na obrazie.
Zaktualizowany komunikat | Ulepszona odpowiedź |
---|---|
![]() ![]() ![]() ![]() Co łączy te obrazy? W odpowiedzi odwołuj się do tego, co widać na obrazach. |
Wszystkie obrazy są związane z podróżami. Pierwsze zdjęcie przedstawia osobę pakującą walizkę, drugie pusty korytarz w centrum handlowym, trzecie stos papieru toaletowego, a czwarte ciemne i burzowe morze. Wszystkie te obrazy są związane z podróżami, ponieważ przedstawiają rzeczy, których ludzie potrzebują lub których używają podczas podróży. Pierwszy obraz przedstawia osobę pakującą walizkę, co jest czymś, co ludzie robią, gdy wyjeżdżają w podróż. Drugie zdjęcie przedstawia pusty korytarz w centrum handlowym, gdzie ludzie często kupują rzeczy na podróże. Trzecie zdjęcie przedstawia stos papieru toaletowego, którego ludzie często używają podczas podróży. Czwarty obraz przedstawia ciemne i burzliwe morze, z którym ludzie często się spotykają podczas podróży. |
Te same wskazówki dotyczą również kreacji tworzonych na podstawie obrazów. W przypadku królika w tym przykładzie wyraźne poproszenie modelu o uwzględnienie aspektów z obrazu może poprawić wynik.
Prompt | Odpowiedź modelu |
---|---|
![]() Czy możesz napisać wiersz o tym obrazie? |
Mały króliczek, taki puszysty i brązowy, Smakujesz trawy, tak zielonej i słodkiej, |
Zaktualizowany komunikat | Ulepszona odpowiedź |
---|---|
![]() Czy możesz napisać opisowy i dramatyczny wiersz o tym obrazie, uwzględniając w nim lokalizację? |
Little bunny on the green, Czy to oceaniczny błękit, Mały króliku, powiedz mi szczerze, Może to ogromna przestrzeń, Little bunny, I wonder what you dream, Niezależnie od tego, co to jest, mały króliku, |
Rozwiązywanie problemów z nieudanym promptem
Trudno jest stwierdzić, czy prompt nie zadziałał, ponieważ model nie zrozumiał obrazu, czy też zrozumiał go, ale nie wykonał potem prawidłowych kroków rozumowania.
Aby rozróżnić te powody, poproś model o opisanie tego, co znajduje się na obrazie.
W tym przykładzie poniżej, jeśli model odpowiada, podając przekąskę, która wydaje się zaskakująca w połączeniu z herbatą (np. popcorn), możesz najpierw rozwiązać problem, aby sprawdzić, czy model prawidłowo rozpoznał, że obraz zawiera herbatę.
Prompt | Prompt for troubleshooting |
---|---|
![]() Jaki przekąska mogę przygotować w 1 minutę, która będzie pasować do tego dania? |
![]() Opisz, co znajduje się na tym obrazie. |
Inną strategią jest poproszenie modelu o wyjaśnienie jego rozumowania. Dzięki temu możesz określić, który element rozumowania zawodzi (jeśli w ogóle zawodzi).
Prompt | Prompt for troubleshooting |
---|---|
![]() Jaki przekąska mogę przygotować w 1 minutę, która będzie pasować do tego dania? |
![]() Jaki przekąska mogę przygotować w 1 minutę, która będzie pasować do tego dania? W jaki sposób? |
Dostosowywanie parametrów próbkowania
W każdym żądaniu wysyłasz do modelu nie tylko prompt multimodalny, ale też zestaw parametrów próbkowania. Model może generować różne wyniki zależnie od tych wartości. Wypróbuj różne parametry, aby uzyskać najlepsze wartości dla danego zadania. Najczęściej dostosowywane parametry to:
- Temperatura
- top-P
- top-K
Temperatura
Temperatura jest używana do próbkowania podczas generowania odpowiedzi, co ma miejsce po zastosowaniu parametrów top-P i top-K.
Temperatura decyduje o stopniu losowości wyboru tokenów. Niższe temperatury są przydatne w przypadku promptów, na które oczekuje się bardziej deterministycznej i mniej otwartej lub kreatywnej odpowiedzi, a wyższe mogą prowadzić do bardziej różnorodnych lub kreatywnych wyników. Temperatura o wartości 0 jest deterministyczna, co oznacza, że zawsze jest wybierana najbardziej prawdopodobna odpowiedź.
W większości przypadków dobrze jest zacząć od temperatury 0, 4. Jeśli potrzebujesz bardziej kreatywnych wyników, spróbuj zwiększyć temperaturę. Jeśli zauważysz wyraźne halucynacje, spróbuj obniżyć temperaturę.
Top-K
Parametr Top-K zmienia sposób, w jaki model wybiera tokeny w celu wygenerowania odpowiedzi. Top-K o wartości 1 oznacza, że wybierany jest najbardziej prawdopodobny token spośród wszystkich tokenów w słowniku modelu (jest to też nazywane dekodowaniem zachłannym), natomiast Top-K o wartości 3 oznacza, że następny token jest wybierany z użyciem temperatury spośród 3 najbardziej prawdopodobnych.
Na każdym etapie wyboru tokena próbkowane są tokeny Top-K o najwyższym prawdopodobieństwie. Tokeny są następnie filtrowane na podstawie parametru Top-P, a ostateczny wybór tokena dokonywany jest przy pomocy próbkowania z użyciem temperatury.
Jeśli chcesz uzyskiwać mniej losowe odpowiedzi, podaj niższą wartość, a jeśli bardziej – wyższą. Wartością domyślną parametru górnego K jest 32.
Top-P
Parametr Top-P również zmienia sposób, w jaki model wybiera tokeny w celu wygenerowania odpowiedzi. Tokeny są wybierane w kolejności od najbardziej (patrz „Top-K”) do najmniej prawdopodobnych, aż suma ich prawdopodobieństw będzie równa wartości top-P. Jeśli na przykład tokeny A, B i C mają prawdopodobieństwa 0,6, 0,3 i 0,1, a wartością Top-P jest 0,9, jako kolejny token model wybierze A lub B (z użyciem temperatury), a token C zostanie wykluczony.
Jeśli chcesz uzyskiwać mniej losowe odpowiedzi, podaj niższą wartość, a jeśli bardziej – wyższą. Wartość domyślna parametru górnego P to 1,0.
Dalsze kroki
- Spróbuj napisać własne prompty multimodalne za pomocą Google AI Studio.
- Więcej wskazówek dotyczących projektowania promptów znajdziesz na stronie Strategie dotyczące promptów.