Strategie dotyczące próśb o zgodę na wykorzystanie plików

Rodzina modeli sztucznej inteligencji (AI) Gemini została opracowana z myślą o obsługiwaniu różnych typów danych wejściowych, w tym tekstu, obrazów i dźwięku. Ponieważ modele te mogą obsługiwać więcej niż 1 typ lub tryb danych, nazywamy je modelami multimodalnymi lub określamy jako modele multimodalne.

Na tej stronie znajdziesz wskazówki i sprawdzone metody dotyczące korzystania z plików multimedialnych z promptami w interfejsie Gemini API. Informacje o używaniu interfejsu Gemini Files API do przesyłania plików multimedialnych i umieszczania ich w promptach znajdziesz w instrukcjach dotyczących Vision, dźwiękuprzetwarzania dokumentów.

Korzystanie z plików multimedialnych z promptami

Możliwość używania różnych rodzajów danych w promptach daje Ci większą elastyczność w zakresie zadań, które możesz wykonywać za pomocą Gemini API. Możesz na przykład wysłać modelowi zdjęcie pysznego posiłku i poprosić go o napisanie krótkiego bloga na jego temat.

Prompt Odpowiedź

Napisz na podstawie tego zdjęcia krótki, angażujący post na bloga. Powinien zawierać opis posiłku na zdjęciu i opowiadać o przygotowaniu posiłku.


Pliki cookie

Przygotowywanie posiłków to świetny sposób na zaoszczędzenie czasu i pieniędzy, a także na zdrowsze odżywianie się. Ten posiłek to świetny przykład zdrowego i smacznego posiłku, który można łatwo przygotować wcześniej.

Danie składa się z brązowego ryżu, pieczonych warzyw i kurczaka teriyaki. Brązowy ryż to zdrowy i złożony węglowodan, który zapewni Ci długotrwały zapas energii. Pieczone warzywa to świetny sposób na codzienną porcję witamin i minerałów, a kurczak teriyaki to pyszna opcja bogata w białko.

To danie jest też bardzo łatwe do przygotowania. Wystarczy ugotować brązowy ryż, upiec warzywa i przygotować kurczaka teriyaki. Po ugotowaniu podziel je na pojemniki na posiłki i włóż do lodówki. Możesz wtedy wziąć pojemnik i iść do pracy w pracowite poranki.

Jeśli szukasz zdrowego i smacznego posiłku, który można łatwo przygotować z wyprzedzeniem, ta opcja jest dla Ciebie. Jest bogata w składniki odżywcze i smakowite, a także zapewni uczucie sytości i zadowolenia.

Zdrowe i pyszne przygotowanie posiłków.

Strategie dotyczące wyświetlania promptów z multimediami

Jeśli masz problem z uzyskaniem oczekiwanego wyjścia z promptów, które używają plików multimedialnych, możesz skorzystać z kilku strategii, które pomogą Ci uzyskać pożądane wyniki. W następnych sekcjach znajdziesz wskazówki dotyczące projektowania i rozwiązywania problemów z promptami, które korzystają z danych wejściowych multimodalnych.

Aby ulepszyć prompty multimodalne, postępuj zgodnie z tymi sprawdzonymi metodami:

  • Podstawy projektowania promptów

    • Bądź konkretny w instrukcjach: stwórz przejrzyste i zwięzłe instrukcje, które nie pozostawiają miejsca na błędne interpretacje.
    • Dodaj kilka przykładów do promptu: aby zilustrować, czego chcesz dokonać, użyj realistycznych przykładów z kilku zdjęć.
    • Podziel zadanie na etapy: podziel skomplikowane zadania na łatwe do wykonania podrzędne cele, aby ułatwić modelowi realizację procesu.
    • Określ format wyjściowy: w promptach podaj format wyjściowy, np. markdown, JSON, HTML itp.
    • W przypadku promptów z jednym obrazem umieść obraz na początku: Gemini może przetwarzać dane wejściowe w dowolnej kolejności, ale w przypadku promptów zawierających jeden obraz lepszym rozwiązaniem może być umieszczenie obrazu przed promptem tekstowym.
  • Rozwiązywanie problemów z promptem multimodalnym

    • Jeśli model nie pobiera informacji z odpowiedniej części obrazu: podaj wskazówki dotyczące tego, z jakich aspektów obrazu chcesz pobierać informacje.
    • Jeśli wyniki modelu są zbyt ogólne (nie są wystarczająco dopasowane do obrazu): na początku promptu poproś model o opisanie obrazu, zanim podasz instrukcje dotyczące zadania, lub poproś model o odniesienie się do tego, co jest na obrazie.

Podstawy projektowania promptów

W tej sekcji omówimy sprawdzone metody wymienione w sekcji poprzedniej.

Uwaga: wyniki modelu w tych przykładach Gemini mogą się różnić w zależności od wykonania.

Unikaj ogólników w instrukcjach

Prompty są najskuteczniejsze, gdy są jasne i szczegółowe. Jeśli masz na myśli konkretny wynik, lepiej jest uwzględnić to w promptach, aby mieć pewność, że uzyskasz oczekiwany rezultat.

Czasami intencja promptu może wydawać się jasna osobie, która go napisała, ale w rzeczywistości jest niewystarczająco sprecyzowana. Aby dostosować działanie modelu, zastanów się, jak Twoja prośba może zostać zinterpretowana i upewnij się, że podane przez Ciebie instrukcje są konkretne i jasne. Pamiętaj, aby pozostawić jak najmniej miejsca na błędne interpretacje.

W przypadku tego zdjęcia tablicy lotniskowej zwykłe zapytanie o „opisanie tego obrazu” może wygenerować ogólny opis. Jeśli chcesz, aby model przeanalizował czas i miejscowość na podstawie obrazu, możesz uwzględnić to bezpośrednio w promptzie.

Prompt Odpowiedź modelu

Opisz ten obraz.

Obraz przedstawia tablicę przylotów i odlotów na lotnisku.

Zaktualizowany komunikat Ulepszony czas reakcji
Rozkład jazdy

Przeanalizuj czas i miasto z tablicy lotniska widocznej na tym obrazie i zapisz je na liście.

  • 10:50 czasu moskiewskiego
  • 11:05 Edynburg
  • 11:05 Londyn
  • 11:10 Bukareszt
  • 11:30 Kijów
  • 11:35 Dublin
  • 11:45 East Midlands
  • 12:15 Sofia
  • 12:30 czasu londyńskiego
  • 12:30 Newcastle
  • 12:40 St Petersburg
  • 12:40 Londyn
  • 12:45 Manchester
  • Dodaj kilka przykładów

    Model Gemini może przyjmować wiele danych wejściowych, które może wykorzystać jako przykłady do zrozumienia pożądanego wyniku. Dodanie tych przykładów może pomóc modelowi w rozpoznaniu wzorców i założeniu związku między danymi obrazami a odpowiedziami na nowy przykład. Jest to tzw. uczenie się z niewielką ilością danych.

    W przykładzie poniżej początkowe dane wyjściowe są zapisane w formie zdania i zawierają kraj (Brazylia). Załóżmy, że chcesz uzyskać dane w innym formacie lub stylu i że chcesz uwzględnić tylko miasto, a nie kraj. Dodanie do promptu kilku przykładów może sprawić, że model będzie odpowiadać w chcący sposób.

    Prompt Odpowiedź modelu
    Rozkład jazdy

    Określ miasto i obiekt.

    To pomnik Chrystusa Zbawiciela w Rio de Janeiro w Brazylii.

    Zaktualizowany komunikat Ulepszona odpowiedź

    Określ miasto i obiekt.

    Koloseum

    miasto: Rzym, zabytek: Koloseum.

    Zakazane Miasto

    miasto: Pekin, zabytek: Zakazane Miasto

    forbidden-city

    miasto: Rio de Janeiro, punkt orientacyjny: Statua Chrystusa Zbawiciela

    Szczegółowy opis

    W przypadku skomplikowanych zadań, które wymagają zarówno zrozumienia wizualnego, jak i myślenia logicznego, warto podzielić zadanie na mniejsze, bardziej przejrzyste etapy. Możesz też poprosić model o „myślenie krok po kroku”.

    Prompt Odpowiedź modelu

    Kiedy skończy mi się papier toaletowy?

    Wkrótce zostaną Ci tylko 3 rolki.

    Zaktualizowany komunikat Ulepszona odpowiedź

      1. Najpierw policz, ile rolek papieru toaletowego jest na tym obrazku.
      2. Następnie określ, ile papieru toaletowego zużywa przeciętna osoba dziennie.
      3. Oblicz, jak długo te rolki papieru toaletowego wystarczą.

      1. Na tym zdjęciu są 3 rolki papieru toaletowego.
      2. Przeciętna osoba zużywa około 20 kartonów papieru toaletowego dziennie.
      3. Jeśli każda rolka zawiera 200 arkuszy, to każda rolka wystarczy na około 10 dni. 3 rolki wystarczą na około miesiąca.

    Zadania matematyczne lub inne rodzaje zadań tekstowych to świetne kandydatki do tego, aby model myślał krok po kroku.

    Prompt Odpowiedź

    Jaki jest 4. wyraz w ciągu?

    -135

    Odpowiedź z modelu jest nieprawidłowa. Aby to poprawić, możesz poprosić model o przeanalizowanie problemu przed udzieleniem odpowiedzi na prompt.

    Prompt Odpowiedź

    Najpierw przeanalizuj formułę na obrazie.

    Następnie na podstawie formuły odpowiedz na pytanie „Jaki jest 4. wyraz w sekwencji?”.

    Kliknij, aby rozwinąć wynik

    $$ b(n) = b(n-1) * (-3) $$

    $$ b(1) = 15 $$

    1. Wstaw n = 4 do formuły:
    2. $$ b(4) = b(4-1) * (-3) $$

      $$ b(4) = b(3) * (-3) $$

    3. Nie znamy wartości b(3), więc wstawiamy w formule n = 3:
    4. $$ b(3) = b(3-1) * (-3) $$

      $$ b(3) = b(2) * (-3) $$

    5. Nie znamy wartości b(2), więc wstawiamy w formule n = 2:
    6. $$ b(2) = b(2-1) * (-3) $$

      $$ b(2) = b(1) * (-3) $$

    7. Wiemy, że wartość b(1) wynosi 15, więc podstaw ją do formuły:
    8. $$ b(2) = 15 * (-3) $$

      $$ b(2) = -45 $$

    9. Teraz, gdy znamy wartość b(2), podstaw ją do formuły b(3):
    10. $$ b(3) = b(2) * (-3) $$

      $$ b(3) = -45 * (-3) $$

      $$ b(3) = 135 $$

    11. Teraz, gdy znamy wartość b(3), podstaw ją do formuły b(4):
    12. $$ b(4) = b(3) * (-3) $$

      $$ b(4) = 135 * (-3) $$

      $$ b(4) = -405 $$

    Dlatego 4. wyraz w ciągu to -405.

    Ta odpowiedź modelu jest poprawna. Aby jeszcze bardziej ją uprościć, możesz poprosić model o wykonanie kroków po kolei.

    Zaktualizowany komunikat Ulepszony czas reakcji

    Jaki jest 4. wyraz w ciągu? Krok po kroku.

    Pierwszy termin to 15.

    Drugi składnik to b(1) * (-3) = 15 * (-3) = -45.

    Trzeci składnik to b(2) * (-3) = -45 * (-3) = 135.

    Czwarty składnik to b(3) * (-3) = 135 * (-3) = -405.

    Spróbuj określić format wyjściowy

    Typowym problemem jest konieczność uzyskania danych wyjściowych modelu w określonym formacie (np. markdown, JSON, HTML), zwłaszcza jeśli dane wyjściowe modelu muszą zostać przetworzone przez zadanie dalszego przetwarzania. Możesz spróbować wygenerować dane wyjściowe w tym formacie, instruując model w promptach. Oto 2 przykłady:

    Prompt Odpowiedź modelu

    Przeanalizuj tabelę na tym obrazie i przekształć ją do formatu Markdown

    | Temat | Stan | Czas | Data rozpoczęcia | Termin |

    | ------- | ------ | ---- | --------- | ------ |

    | Math | Done | 1.5 hrs | 11/29/2023 | 12/1/2023 |

    | Geografia | Gotowe | 30 min | 2023-12-2 | 2023-12-4 |

    | Fizyka | W toku | 2 godz. | 3.12.2023 r. | 5.12.2023 r. |

    | Biologia | Nie rozpoczęto | 6 godzin | 2/11/2016 r. | 6/12/2023 r. |

    Prompt Odpowiedź modelu

    Podaj listę wszystkich tych atrybutów:

    składniki, rodzaj kuchni, informacje o tym, czy danie jest wegetariańskie, w formacie JSON

    ```json```

    {

    "ingredients": [

    "rice",

    "shrimp",

    "clams",

    "mussels",

    "peas",

    "tomatoes",

    "onions",

    "garlic",

    "olive oil",

    "paprika",

    "salt",

    "pepper"

    ],

    "type of cuisine": "Spanish",

    "vegetarian": false

    W przypadku promptów z pojedynczym obrazem umieść obraz na pierwszym miejscu

    Gemini może interpretować obrazy i tekst w dowolnej kolejności w promptach, ale umieszczenie pojedynczego obrazu przed promptem tekstowym może przynieść lepsze wyniki. W tych przykładach obraz pojawia się przed tekstem w każdym promptzie.

    Rozwiązywanie problemów z promptem multimodalnym

    Jeśli nie otrzymasz przydatnej odpowiedzi, może być konieczne rozwiązanie problemów z promptem. Oto kilka strategii, które możesz wypróbować.

    Jeśli model nie pobiera informacji z odpowiedniej części obrazu

    Aby uzyskać bardziej szczegółową odpowiedź, możesz wskazać, które aspekty obrazu mają być uwzględniane w promptach.

    Prompt Odpowiedź modelu

    Ile dni te pieluchy wystarczą dziecku?

    Pampersy wystarczą na 198 dni.

    Zaktualizowany komunikat Ulepszona odpowiedź

    Jak długo te pieluchy wystarczą?

    Aby określić wiek dziecka, użyj wagi podanej na opakowaniu, a łączną liczbę pieluch w opakowaniu.

    Podziel łączną liczbę przez liczbę pieluch, które dziecko zużywa dziennie.

    Pudełko zawiera 198 pielusz. Na opakowaniu podano, że pieluchy są przeznaczone dla dzieci o masie ciała 10–17 kg.

    Średnie dziecko o takiej wadze ma 1–2 lata.

    Dziecko w wieku 2 lat zazwyczaj zużywa 6 pielusz dziennie, więc pieluchy wystarczą na około 33 dni (198/6).

    Jeśli wynik modelu jest zbyt ogólny i nie jest wystarczająco dostosowany do podawanego obrazu

    Aby pomóc modelowi dostosować odpowiedź do obrazów, poproś go o opisanie obrazów przed wykonaniem zadania rozumowania.

    Prompt Odpowiedź modelu

    Co łączy te obrazy?

    Wszystkie 4 zdjęcia to przykłady fotografii krajobrazowej.

    Zaktualizowany komunikat Ulepszony czas reakcji

    Najpierw szczegółowo opisz, co znajduje się na każdym obrazie. Co łączy te obrazy?

    Pierwsze zdjęcie przedstawia osobę pakującą walizkę. Drugi obraz przedstawia pusty korytarz w centrum handlowym. Trzeci obraz przedstawia rolkę papieru toaletowego. Czwarty obraz przedstawia ciemne i burzliwe morze.

    Wszystkie te obrazy przedstawiają miejsca na pograniczu. Liminal spaces to miejsca lub sytuacje, które znajdują się pomiędzy dwoma innymi miejscami lub sytuacjami. Często są niejasne lub niepewne.

    Pierwszy obraz przedstawia osobę w domu i w podróży. Drugi obraz przedstawia korytarz między 2 sklepami. Trzeci obraz przedstawia papier toaletowy, który może symbolizować łazienkę. Łazienka to przestrzeń przejściowa pomiędzy sferą prywatną a publiczną. To miejsce, w którym przygotowujemy się do wejścia do świata zewnętrznego lub opuszczenia go.

    Czwarty obraz przedstawia morze, które nie jest ani spokojne, ani sztormowe.

    Przestrzeń liminalna może być ekscytująca, ale też niepokojąca. Mogą być miejscem nowych początków lub miejscem zakończeń. Mogą być miejscem na zastanowienie się lub miejscem na działanie.

    Możesz też wyraźnie poprosić model o odniesienie się do tego, co znajduje się na obrazie.

    Zaktualizowany komunikat Ulepszona odpowiedź

    Co łączy te obrazy? W odpowiedzi odwołuj się do tego, co widać na obrazach.

    Wszystkie obrazy są związane z podróżami. Pierwsze zdjęcie przedstawia osobę pakującą walizkę, drugie pusty korytarz w centrum handlowym, trzecie stos papieru toaletowego, a czwarte ciemne i burzowe morze.

    Wszystkie te obrazy są związane z podróżami, ponieważ przedstawiają rzeczy, których ludzie potrzebują lub których używają podczas podróży. Pierwszy obraz przedstawia osobę pakującą walizkę, co jest czymś, co ludzie robią, gdy wyjeżdżają w podróż. Drugie zdjęcie przedstawia pusty korytarz w centrum handlowym, gdzie ludzie często kupują rzeczy na podróże. Trzecie zdjęcie przedstawia stos papieru toaletowego, którego ludzie często używają podczas podróży. Czwarty obraz przedstawia ciemne i burzliwe morze, z którym ludzie często się spotykają podczas podróży.

    Te same wskazówki dotyczą również kreacji tworzonych na podstawie obrazów. W przypadku królika w tym przykładzie wyraźne poproszenie modelu o uwzględnienie aspektów z obrazu może poprawić wynik.

    Prompt Odpowiedź modelu

    Czy możesz napisać wiersz o tym obrazie?

    Mały króliczek, taki puszysty i brązowy,
    skacze po polu w górę i w dół.
    Twoje uszy są tak długie, a ogon tak mały,
    jesteś najsłodszym ze wszystkich stworzeń.

    Smakujesz trawy, tak zielonej i słodkiej,
    i uciekasz, gdy mnie zobaczysz.
    Ale zawsze będę Twoim przyjacielem,
    mały króliku, aż do samego końca.

    Zaktualizowany komunikat Ulepszona odpowiedź

    Czy możesz napisać opisowy i dramatyczny wiersz o tym obrazie, uwzględniając w nim lokalizację?

    Little bunny on the green,
    Ears so long, so keen.
    Co widzisz,
    patrząc w dal?

    Czy to oceaniczny błękit,
    który mieni się w słonecznym świetle?
    A może fale, które uderzają i szumią,
    rytm, który uwielbiasz?

    Mały króliku, powiedz mi szczerze,
    co tak przykuwa Twoją uwagę?
    Czy to dzięki słonawej bryzie
    lub krzykom mew?

    Może to ogromna przestrzeń,
    świat tak wielki i taki mały.
    Miejsce, w którym marzenia mogą się spełniać,
    a przygody mogą się dziać.

    Little bunny, I wonder what you dream,
    As you sit on the grass, so serene.
    Chcesz odkrywać głębiny?
    A może wolisz pozostać na lądzie, gdzie możesz skakać?

    Niezależnie od tego, co to jest, mały króliku,
    nie trać nigdy tej iskierki ciekawości.
    W swoich marzeniach i ambicjach
    odkrywasz świat,który czeka na Twoje dzieło.

    Rozwiązywanie problemów z nieudanym promptem

    Trudno jest stwierdzić, czy prompt nie zadziałał, ponieważ model nie zrozumiał obrazu, czy też zrozumiał go, ale nie wykonał potem prawidłowych kroków rozumowania.

    Aby rozróżnić te powody, poproś model o opisanie tego, co znajduje się na obrazie.

    W tym przykładzie poniżej, jeśli model odpowiada, podając przekąskę, która wydaje się zaskakująca w połączeniu z herbatą (np. popcorn), możesz najpierw rozwiązać problem, aby sprawdzić, czy model prawidłowo rozpoznał, że obraz zawiera herbatę.

    Prompt Prompt for troubleshooting

    Jaki przekąska mogę przygotować w 1 minutę, która będzie pasować do tego dania?

    Opisz, co znajduje się na tym obrazie.

    Inną strategią jest poproszenie modelu o wyjaśnienie jego rozumowania. Dzięki temu możesz określić, który element rozumowania zawodzi (jeśli w ogóle zawodzi).

    Prompt Prompt for troubleshooting

    Jaki przekąska mogę przygotować w 1 minutę, która będzie pasować do tego dania?

    Jaki przekąska mogę przygotować w 1 minutę, która będzie pasować do tego dania? W jaki sposób?

    Dostosowywanie parametrów próbkowania

    W każdym żądaniu wysyłasz do modelu nie tylko prompt multimodalny, ale też zestaw parametrów próbkowania. Model może generować różne wyniki zależnie od tych wartości. Wypróbuj różne parametry, aby uzyskać najlepsze wartości dla danego zadania. Najczęściej dostosowywane parametry to:

    • Temperatura
    • top-P
    • top-K

    Temperatura

    Temperatura jest używana do próbkowania podczas generowania odpowiedzi, co ma miejsce po zastosowaniu parametrów top-P i top-K. Temperatura decyduje o stopniu losowości wyboru tokenów. Niższe temperatury są przydatne w przypadku promptów, na które oczekuje się bardziej deterministycznej i mniej otwartej lub kreatywnej odpowiedzi, a wyższe mogą prowadzić do bardziej różnorodnych lub kreatywnych wyników. Temperatura o wartości 0 jest deterministyczna, co oznacza, że zawsze jest wybierana najbardziej prawdopodobna odpowiedź.

    W większości przypadków dobrze jest zacząć od temperatury 0, 4. Jeśli potrzebujesz bardziej kreatywnych wyników, spróbuj zwiększyć temperaturę. Jeśli zauważysz wyraźne halucynacje, spróbuj obniżyć temperaturę.

    Top-K

    Parametr Top-K zmienia sposób, w jaki model wybiera tokeny w celu wygenerowania odpowiedzi. Top-K o wartości 1 oznacza, że wybierany jest najbardziej prawdopodobny token spośród wszystkich tokenów w słowniku modelu (jest to też nazywane dekodowaniem zachłannym), natomiast Top-K o wartości 3 oznacza, że następny token jest wybierany z użyciem temperatury spośród 3 najbardziej prawdopodobnych.

    Na każdym etapie wyboru tokena próbkowane są tokeny Top-K o najwyższym prawdopodobieństwie. Tokeny są następnie filtrowane na podstawie parametru Top-P, a ostateczny wybór tokena dokonywany jest przy pomocy próbkowania z użyciem temperatury.

    Jeśli chcesz uzyskiwać mniej losowe odpowiedzi, podaj niższą wartość, a jeśli bardziej – wyższą. Wartością domyślną parametru górnego K jest 32.

    Top-P

    Parametr Top-P również zmienia sposób, w jaki model wybiera tokeny w celu wygenerowania odpowiedzi. Tokeny są wybierane w kolejności od najbardziej (patrz „Top-K”) do najmniej prawdopodobnych, aż suma ich prawdopodobieństw będzie równa wartości top-P. Jeśli na przykład tokeny A, B i C mają prawdopodobieństwa 0,6, 0,3 i 0,1, a wartością Top-P jest 0,9, jako kolejny token model wybierze A lub B (z użyciem temperatury), a token C zostanie wykluczony.

    Jeśli chcesz uzyskiwać mniej losowe odpowiedzi, podaj niższą wartość, a jeśli bardziej – wyższą. Wartość domyślna parametru górnego P to 1,0.

    Dalsze kroki