Nhóm mô hình trí tuệ nhân tạo (AI) Gemini được xây dựng để xử lý nhiều loại dữ liệu đầu vào, bao gồm văn bản, hình ảnh và âm thanh. Vì các mô hình này có thể xử lý nhiều loại hoặc chế độ dữ liệu, nên các mô hình Gemini được gọi là mô hình đa phương thức hoặc được giải thích là có khả năng đa phương thức.
Trang này cung cấp hướng dẫn và các phương pháp hay nhất để sử dụng tệp phương tiện có lời nhắc cho API Gemini. Để biết thông tin về cách sử dụng API Tệp Gemini để tải tệp phương tiện lên và đưa các tệp đó vào câu lệnh, hãy xem hướng dẫn về Vision, Âm thanh và Xử lý tài liệu.
Sử dụng tệp phương tiện có câu lệnh
Việc có thể sử dụng nhiều loại dữ liệu trong câu lệnh sẽ giúp bạn linh hoạt hơn về những nhiệm vụ mà bạn có thể giải quyết bằng API Gemini. Ví dụ: bạn có thể gửi cho mô hình một bức ảnh về một bữa ăn ngon và yêu cầu mô hình viết một bài blog ngắn về bữa ăn đó.
Câu lệnh | Đáp |
Viết một bài đăng ngắn, hấp dẫn trên blog dựa trên bức ảnh này. Nội dung này phải bao gồm phần mô tả bữa ăn trong ảnh và nói về hành trình chuẩn bị bữa ăn của tôi. ![]() |
Việc chuẩn bị bữa ăn là một cách hiệu quả để tiết kiệm thời gian và tiền bạc, đồng thời cũng có thể giúp bạn ăn uống lành mạnh hơn. Bữa ăn này là một ví dụ tuyệt vời về một bữa ăn ngon và bổ dưỡng mà bạn có thể dễ dàng chuẩn bị trước. Bữa ăn này có cơm nâu, rau củ nướng và thịt gà teriyaki. Gạo lứt là một loại cacbohydrat phức tạp và lành mạnh, giúp bạn duy trì năng lượng. Rau củ nướng là một cách tuyệt vời để bổ sung vitamin và khoáng chất hằng ngày, còn gà teriyaki là một lựa chọn ngon miệng và giàu protein. Bữa ăn này cũng rất dễ chuẩn bị. Bạn chỉ cần nấu cơm nâu, rang rau và nấu gà teriyaki. Sau khi nấu xong, hãy chia thành các hộp đựng bữa ăn và bảo quản trong tủ lạnh. Sau đó, bạn có thể lấy một vùng chứa và bắt đầu những buổi sáng bận rộn! Nếu bạn đang tìm một bữa ăn ngon và lành mạnh mà có thể dễ dàng chuẩn bị trước, thì đây là một lựa chọn tuyệt vời. Món ăn này chứa đầy dinh dưỡng và hương vị, chắc chắn sẽ giúp bạn cảm thấy no và hài lòng. Chúc bạn chuẩn bị được những bữa ăn ngon và lành mạnh! |
Chiến lược nhắc bằng nội dung nghe nhìn
Nếu bạn gặp khó khăn khi nhận được kết quả mong muốn từ các câu lệnh sử dụng tệp phương tiện, thì có một số chiến lược có thể giúp bạn nhận được kết quả mong muốn. Các phần sau đây cung cấp các phương pháp thiết kế và mẹo khắc phục sự cố để cải thiện lời nhắc sử dụng phương thức nhập đa phương thức.
Bạn có thể cải thiện lời nhắc đa phương thức bằng cách làm theo các phương pháp hay nhất sau đây:
-
Kiến thức cơ bản về thiết kế lời nhắc
- Cụ thể trong hướng dẫn: Tạo hướng dẫn rõ ràng và súc tích để giảm thiểu khả năng bị hiểu sai.
- Thêm một vài ví dụ vào câu lệnh: Sử dụng các ví dụ thực tế về ít lần chụp để minh hoạ những gì bạn muốn đạt được.
- Chia nhỏ từng bước: Phân chia các nhiệm vụ phức tạp thành các mục tiêu phụ dễ quản lý, hướng dẫn mô hình thực hiện quy trình.
- Chỉ định định dạng đầu ra: Trong câu lệnh, hãy yêu cầu đầu ra ở định dạng bạn muốn, chẳng hạn như markdown, JSON, HTML và các định dạng khác.
- Đặt hình ảnh lên trước đối với câu lệnh chỉ có một hình ảnh: Mặc dù Gemini có thể xử lý dữ liệu đầu vào hình ảnh và văn bản theo thứ tự bất kỳ, nhưng đối với câu lệnh chỉ có một hình ảnh, Gemini có thể hoạt động hiệu quả hơn nếu hình ảnh đó được đặt trước câu lệnh văn bản.
-
Khắc phục sự cố với câu lệnh đa phương thức
- Nếu mô hình không vẽ thông tin từ phần liên quan của hình ảnh: Hãy thả gợi ý về những khía cạnh của hình ảnh mà bạn muốn câu lệnh vẽ thông tin.
- Nếu kết quả của mô hình quá chung chung (chưa được điều chỉnh đủ cho hình ảnh): Ở đầu câu lệnh, hãy thử yêu cầu mô hình mô tả(các) hình ảnh trước khi đưa ra hướng dẫn thực hiện nhiệm vụ hoặc thử yêu cầu mô hình tham chiếu đến nội dung trong hình ảnh.
Kiến thức cơ bản về thiết kế lời nhắc
Phần này mở rộng các phương pháp hay nhất được liệt kê trong phần trước.
Lưu ý: Kết quả mô hình từ các ví dụ về Gemini sau đây có thể khác nhau tuỳ theo lần chạy.
Hướng dẫn cụ thể
Câu lệnh thành công nhất khi rõ ràng và chi tiết. Nếu bạn đã nghĩ đến một kết quả cụ thể, tốt hơn hết bạn nên đưa yêu cầu đó vào câu lệnh để đảm bảo bạn nhận được kết quả mong muốn.
Đôi khi, ý định của câu lệnh có vẻ rõ ràng với người viết, nhưng thực tế thì câu lệnh đó chưa được chỉ định rõ ràng. Để tuỳ chỉnh hành vi của mô hình, hãy cân nhắc cách câu lệnh của bạn có thể được (hiểu sai) và đảm bảo rằng hướng dẫn bạn đưa ra là cụ thể và rõ ràng. Hãy nhớ giảm thiểu khả năng bị hiểu sai
Đối với hình ảnh bảng thông tin tại sân bay này, việc chỉ yêu cầu mô hình "mô tả hình ảnh này" có thể tạo ra nội dung mô tả chung chung. Nếu cần mô hình phân tích cú pháp thời gian và thành phố từ hình ảnh, bạn có thể đưa yêu cầu đó vào câu lệnh trực tiếp.
Câu lệnh | Phản hồi của mô hình |
---|---|
![]() Mô tả hình ảnh này. |
Hình ảnh cho thấy bảng thông tin chuyến bay đến và đi của sân bay. |
Cập nhật lời nhắc | Cải thiện phản hồi |
---|---|
![]() Phân tích cú pháp thời gian và thành phố trên bảng thông tin sân bay hiển thị trong hình ảnh này thành một danh sách. |
Thêm một vài ví dụ
Mô hình Gemini có thể chấp nhận nhiều dữ liệu đầu vào để dùng làm ví dụ nhằm hiểu được kết quả mà bạn muốn. Việc thêm các ví dụ này có thể giúp mô hình xác định các mẫu và áp dụng mối quan hệ giữa hình ảnh đã cho và câu trả lời cho ví dụ mới. Phương pháp này còn được gọi là học "từ một vài dữ liệu".
Trong ví dụ bên dưới, kết quả ban đầu được viết ở dạng câu và cũng chứa quốc gia (Brazil). Giả sử bạn muốn đầu ra ở một định dạng hoặc kiểu khác và bạn chỉ muốn thành phố, chứ không phải quốc gia. Việc thêm các ví dụ về ít lần chụp vào câu lệnh của bạn có thể giúp mô hình phản hồi theo cách bạn muốn.
Câu lệnh | Phản hồi của mô hình |
---|---|
![]() Xác định thành phố cùng với địa danh. |
Cây cầu này bắc qua sông Guanabara, nối liền Rio de Janeiro với Niteroi. |
Cập nhật lời nhắc | Cải thiện phản hồi |
---|---|
Xác định thành phố cùng với địa danh. ![]() |
thành phố: Rome, địa danh: Đấu trường La Mã. |
![]() |
thành phố: Bắc Kinh, địa danh: Tử Cấm Thành |
![]() |
thành phố: Rio de Janeiro, địa danh: Tượng Chúa Kitô Cứu thế |
Phân tích từng bước
Đối với các nhiệm vụ phức tạp như những nhiệm vụ đòi hỏi cả khả năng hiểu bằng hình ảnh và lý luận, bạn nên chia nhiệm vụ thành các bước nhỏ hơn, đơn giản hơn. Ngoài ra, bạn cũng có thể yêu cầu trực tiếp mô hình "nghĩ từng bước" trong câu lệnh của mình.
Câu lệnh | Phản hồi của mô hình |
---|---|
![]() Khi nào tôi sẽ hết giấy vệ sinh? |
Chẳng mấy chốc, bạn sẽ chỉ còn 3 lần tung xúc xắc. |
Cập nhật lời nhắc | Cải thiện phản hồi |
---|---|
![]()
|
|
Bài toán toán học hoặc các loại bài toán có lời văn khác là những ứng cử viên phù hợp để yêu cầu mô hình suy nghĩ từng bước.
Câu lệnh | Đáp |
---|---|
![]()
Số hạng thứ 4 trong dãy số là bao nhiêu? |
-135 |
Phản hồi từ mô hình không chính xác. Một số cách để cải thiện vấn đề này là yêu cầu mô hình phân tích cú pháp vấn đề trước khi trả lời câu lệnh.
Câu lệnh | Đáp |
---|---|
![]()
Trước tiên, hãy phân tích cú pháp công thức trong hình ảnh. Sau đó, dựa trên công thức, hãy trả lời câu hỏi "thứ tự thứ 4 trong dãy số là gì?". |
Nhấp để mở rộng kết quả$$ b(n) = b(n-1) * (-3) $$ $$ b(1) = 15 $$
$$ b(4) = b(4-1) * (-3) $$ $$ b(4) = b(3) * (-3) $$ $$ b(3) = b(3-1) * (-3) $$ $$ b(3) = b(2) * (-3) $$ $$ b(2) = b(2-1) * (-3) $$ $$ b(2) = b(1) * (-3) $$ $$ b(2) = 15 * (-3) $$ $$ b(2) = -45 $$ $$ b(3) = b(2) * (-3) $$ $$ b(3) = -45 * (-3) $$ $$ b(3) = 135 $$ $$ b(4) = b(3) * (-3) $$ $$ b(4) = 135 * (-3) $$ $$ b(4) = -405 $$ Do đó, số hạng thứ 4 trong dãy số là -405. |
Câu trả lời của mô hình này là chính xác. Giờ đây, để câu trả lời trở nên đơn giản hơn, bạn có thể yêu cầu mô hình suy nghĩ từng bước.
Cập nhật lời nhắc | Cải thiện phản hồi |
---|---|
![]()
Số hạng thứ 4 trong dãy số là bao nhiêu? Hãy suy nghĩ từng bước. |
Số hạng đầu tiên là 15. Bậc thứ hai là b(1) * (-3) = 15 * (-3) = -45. Thuật ngữ thứ ba là b(2) * (-3) = -45 * (-3) = 135. Đơn thức thứ tư là b(3) * (-3) = 135 * (-3) = -405. |
Hãy thử chỉ định định dạng đầu ra
Một vấn đề thường gặp là cần phải có đầu ra mô hình ở một định dạng nhất định (ví dụ: markdown, JSON, HTML), đặc biệt là nếu đầu ra mô hình cần được một tác vụ hạ nguồn nhập. Bạn có thể thử tạo đầu ra ở định dạng đó bằng cách hướng dẫn mô hình thực hiện việc này trong lời nhắc. Dưới đây là hai ví dụ:
Câu lệnh | Phản hồi của mô hình |
---|---|
![]() Phân tích cú pháp bảng trong hình ảnh này thành định dạng markdown |
| Chủ đề | Trạng thái | Thời gian | Ngày bắt đầu | Ngày đến hạn | | ------- | ------ | ---- | --------- | ------ | | Toán học | Đã hoàn thành | 1,5 giờ | 29/11/2023 | 1/12/2023 | | Địa lý | Đã hoàn thành | 30 phút | 2/12/2023 | 4/12/2023 | | Vật lý | Đang diễn ra | 2 giờ | 3/12/2023 | 5/12/2023 | | Sinh học | Chưa bắt đầu | 6 giờ | 2/11/2016 | 6/12/2023 | |
Câu lệnh | Phản hồi của mô hình |
---|---|
![]() Cung cấp danh sách tất cả các thuộc tính sau: nguyên liệu, loại món ăn, có phải món ăn chay hay không, ở định dạng JSON |
|
Đặt hình ảnh lên trước đối với câu lệnh tạo hình ảnh đơn
Mặc dù Gemini có thể diễn giải hình ảnh và văn bản theo thứ tự bất kỳ trong một câu lệnh, nhưng việc đặt một hình ảnh trước câu lệnh dạng văn bản có thể mang lại kết quả tốt hơn. Trong các mẫu sau, bạn sẽ nhận thấy hình ảnh xuất hiện trước văn bản trong mỗi câu lệnh.
Khắc phục sự cố với lời nhắc đa phương thức
Bạn có thể cần khắc phục sự cố về câu lệnh nếu không nhận được câu trả lời hữu ích. Sau đây là một số chiến lược mà bạn có thể thử.
Nếu mô hình không vẽ thông tin từ phần có liên quan của hình ảnh
Để nhận được câu trả lời cụ thể hơn, bạn có thể chỉ ra những khía cạnh của hình ảnh mà bạn muốn câu lệnh lấy thông tin để đưa ra câu trả lời.
Câu lệnh | Phản hồi của mô hình |
---|---|
![]() Tã này dùng được bao nhiêu ngày cho một em bé? |
Tã sẽ dùng được trong 198 ngày. |
Cập nhật lời nhắc | Cải thiện phản hồi |
---|---|
![]() Những chiếc tã này sẽ dùng được bao lâu trước khi hết? Sử dụng trọng lượng hiển thị trên hộp để xác định độ tuổi của trẻ và sử dụng tổng số tã trong hộp. Chia tổng số tã cho số tã trẻ dùng mỗi ngày. |
Hộp này chứa 198 chiếc tã. Hộp ghi rõ tã dành cho trẻ có trọng lượng từ 10 đến 17 kg. Trẻ em trung bình trong phạm vi trọng lượng này có thể từ 1 đến 2 tuổi. Trẻ 2 tuổi thường dùng 6 chiếc tã mỗi ngày, do đó, tã sẽ dùng được khoảng 33 ngày (198/6). |
Nếu đầu ra của mô hình quá chung chung và không được điều chỉnh đủ cho dữ liệu đầu vào hình ảnh
Để giúp mô hình điều chỉnh phản hồi cho phù hợp với(các) hình ảnh, hãy thử yêu cầu mô hình mô tả hình ảnh trước khi thực hiện nhiệm vụ suy luận.
Câu lệnh | Phản hồi của mô hình |
---|---|
![]() ![]() ![]() ![]() Điểm chung giữa các hình ảnh này là gì? |
Cả 4 hình ảnh đều là ví dụ về ảnh phong cảnh. |
Cập nhật lời nhắc | Cải thiện phản hồi |
---|---|
![]() ![]() ![]() ![]() Trước tiên, hãy mô tả chi tiết nội dung trong từng hình ảnh. Những hình ảnh này có điểm gì chung? |
Hình ảnh đầu tiên cho thấy một người đang đóng hành lý. Hình ảnh thứ hai cho thấy một hành lang trống trong một trung tâm mua sắm. Hình ảnh thứ ba cho thấy một cuộn giấy vệ sinh. Hình ảnh thứ tư cho thấy một vùng biển tối và có giông bão. Điểm chung giữa những hình ảnh này là tất cả đều là ví dụ về không gian lề. Không gian lề là những địa điểm hoặc tình huống nằm giữa hai địa điểm hoặc tình huống khác. Những từ này thường có đặc điểm là không chắc chắn hoặc mơ hồ. Hình ảnh đầu tiên cho thấy người này đang ở nhà và đang đi du lịch. Hình ảnh thứ hai cho thấy hành lang giữa hai cửa hàng. Hình ảnh thứ ba là giấy vệ sinh, có thể đại diện cho phòng tắm. Phòng tắm là không gian chuyển tiếp giữa không gian riêng tư và không gian công cộng. Đây là nơi chúng ta chuẩn bị để bước vào hoặc rời khỏi thế giới bên ngoài. Hình ảnh thứ tư cho thấy biển đang ở trạng thái yên bình và có giông bão. Không gian lề có thể vừa thú vị vừa gây khó chịu. Đó có thể là nơi bắt đầu mới hoặc nơi kết thúc. Đó có thể là nơi để suy ngẫm hoặc nơi để hành động. |
Bạn cũng có thể thử yêu cầu rõ ràng mô hình tham chiếu đến nội dung trong hình ảnh.
Cập nhật lời nhắc | Cải thiện phản hồi |
---|---|
![]() ![]() ![]() ![]() Điểm chung giữa các hình ảnh này là gì? Tham khảo nội dung trong hình ảnh trong câu trả lời của bạn. |
Tất cả hình ảnh đều liên quan đến du lịch. Hình ảnh đầu tiên cho thấy một người đang đóng hành lý, hình ảnh thứ hai cho thấy một hành lang trống trong một trung tâm mua sắm, hình ảnh thứ ba cho thấy một chồng giấy vệ sinh và hình ảnh thứ tư cho thấy một vùng biển tối và có bão. Những hình ảnh này đều liên quan đến du lịch vì đó là những thứ mà mọi người cần hoặc sử dụng khi đi du lịch. Hình ảnh đầu tiên cho thấy một người đang đóng hành lý. Đây là việc mọi người thường làm khi đi du lịch. Hình ảnh thứ hai cho thấy một hành lang trống trong một trung tâm mua sắm. Đây là nơi mọi người thường đến để mua đồ cho chuyến đi của họ. Hình ảnh thứ ba cho thấy một chồng giấy vệ sinh, đây là thứ mà mọi người thường sử dụng khi đi du lịch. Hình ảnh thứ tư cho thấy một vùng biển tối và có giông bão, một cảnh tượng mà mọi người thường gặp phải khi đi du lịch. |
Bạn cũng có thể áp dụng các mẹo này cho kết quả mẫu quảng cáo từ hình ảnh. Trong ví dụ sau đây về thỏ, việc yêu cầu rõ ràng mô hình đưa các khía cạnh từ hình ảnh vào có thể cải thiện kết quả.
Câu lệnh | Phản hồi của mô hình |
---|---|
![]() Bạn có thể viết cho tôi một bài thơ về hình ảnh này không? |
Chú thỏ nhỏ, mềm mại và màu nâu, Bạn gặm cỏ, xanh và ngọt ngào, |
Cập nhật lời nhắc | Cải thiện phản hồi |
---|---|
![]() Bạn có thể viết cho tôi một bài thơ sống động và đầy tính mô tả về hình ảnh này, đồng thời cho biết vị trí của hình ảnh không? |
Chú thỏ nhỏ trên cỏ xanh, Đó có phải là màu xanh dương của đại dương, Thỏ con, hãy nói cho tôi biết, Có lẽ đó là sự rộng lớn của tất cả, Chú thỏ nhỏ, tôi tự hỏi bạn mơ thấy gì, Dù đó là gì đi nữa, thỏ con, |
Khắc phục sự cố không thực hiện được một phần của lời nhắc
Có thể khó biết liệu một câu lệnh không thành công là do mô hình không hiểu hình ảnh ngay từ đầu hay do mô hình hiểu hình ảnh nhưng không thực hiện đúng các bước suy luận sau đó.
Để phân biệt giữa những lý do đó, hãy yêu cầu mô hình mô tả nội dung trong hình ảnh.
Trong ví dụ dưới đây, nếu mô hình phản hồi bằng một món ăn nhẹ có vẻ đáng ngạc nhiên khi kết hợp với trà (ví dụ: bỏng ngô), trước tiên, bạn có thể khắc phục sự cố để xác định xem mô hình có nhận dạng chính xác rằng hình ảnh đó có chứa trà hay không.
Câu lệnh | Lời nhắc khắc phục sự cố |
---|---|
![]() Tôi có thể làm món ăn nhẹ nào trong 1 phút để ăn kèm với món này? |
![]() Mô tả nội dung trong hình ảnh này. |
Một chiến lược khác là yêu cầu mô hình giải thích lý do. Điều đó có thể giúp bạn thu hẹp phần nào của lý luận bị hỏng, nếu có.
Câu lệnh | Lời nhắc khắc phục sự cố |
---|---|
![]() Tôi có thể làm món ăn nhẹ nào trong 1 phút để ăn kèm với món này? |
![]() Tôi có thể làm món ăn nhẹ nào trong 1 phút để ăn kèm với món này? Vui lòng giải thích lý do. |
Điều chỉnh các thông số lấy mẫu
Trong mỗi yêu cầu, bạn không chỉ gửi lời nhắc đa phương thức mà còn gửi một tập hợp các thông số lấy mẫu đến mô hình. Mô hình có thể tạo ra nhiều kết quả cho nhiều giá trị tham số. Thử nghiệm với các tham số khác nhau để có được giá trị tốt nhất cho tác vụ. Sau đây là các thông số thường được điều chỉnh nhất:
- Nhiệt độ
- top-P
- top-K
Nhiệt độ
Nhiệt độ được dùng để lấy mẫu trong quá trình tạo phản hồi, quá trình này xảy ra khi áp dụng top-P và top-K.
Nhiệt độ kiểm soát mức độ ngẫu nhiên trong việc chọn mã thông báo. Nhiệt độ thấp hơn phù hợp với các câu lệnh yêu cầu câu trả lời có tính quyết định hơn và ít mở hơn hoặc sáng tạo hơn, trong khi nhiệt độ cao hơn có thể dẫn đến kết quả đa dạng hơn hoặc sáng tạo hơn. Nhiệt độ 0 là nhiệt độ xác định, nghĩa là phản hồi có xác suất cao nhất luôn được chọn.
Đối với hầu hết các trường hợp sử dụng, hãy thử bắt đầu với nhiệt độ 0,4. Nếu bạn cần thêm kết quả mẫu quảng cáo, hãy thử tăng nhiệt độ. Nếu bạn nhận thấy ảo giác rõ ràng, hãy thử giảm nhiệt độ.
Top-K
Top-K thay đổi cách mô hình chọn mã thông báo cho đầu ra. K-top là 1 có nghĩa là mã thông báo được chọn tiếp theo là mã thông báo có nhiều khả năng nhất trong số tất cả các mã thông báo trong từ vựng của mô hình (còn gọi là giải mã tham lam), trong khi K-top là 3 có nghĩa là mã thông báo tiếp theo được chọn trong số 3 mã thông báo có nhiều khả năng nhất bằng cách sử dụng nhiệt độ.
Đối với mỗi bước chọn mã thông báo, các mã thông báo hàng đầu có xác suất cao nhất sẽ được lấy mẫu. Sau đó, các mã thông báo được lọc thêm dựa trên P hàng đầu, trong đó mã thông báo cuối cùng được chọn bằng cách lấy mẫu nhiệt độ.
Chỉ định giá trị thấp hơn để có ít câu trả lời ngẫu nhiên hơn và giá trị cao hơn để có nhiều câu trả lời ngẫu nhiên hơn. Giá trị mặc định của top-K là 32.
Top-P
Top-P thay đổi cách mô hình chọn mã thông báo cho đầu ra. Các mã thông báo được chọn từ nhiều nhất (xem top-K) đến ít nhất cho đến khi tổng xác suất của các mã thông báo bằng giá trị top-P. Ví dụ: nếu các mã thông báo A, B và C có xác suất là 0,6, 0,3, 0,1 và giá trị P hàng đầu là 0,9, thì mô hình sẽ chọn A hoặc B làm mã thông báo tiếp theo bằng cách sử dụng nhiệt độ và loại trừ C làm đề xuất.
Chỉ định giá trị thấp hơn để có ít câu trả lời ngẫu nhiên hơn và giá trị cao hơn để có nhiều câu trả lời ngẫu nhiên hơn. Giá trị mặc định của top-P là 1.0.
Các bước tiếp theo
- Hãy thử viết câu lệnh đa phương thức của riêng bạn bằng Google AI Studio.
- Để biết thêm hướng dẫn về cách thiết kế câu lệnh, hãy xem trang Chiến lược câu lệnh.