Imagen 是 Google 的高擬真圖片生成模型,可根據文字提示生成逼真且高品質的圖片。所有生成的圖像都會加上 SynthID 浮水印。如要進一步瞭解可用的 Imagen 模型變體,請參閱「模型版本」一節。
使用 Imagen 模型生成圖像
本例示範如何使用 Imagen 模型生成圖片:
Python
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client()
response = client.models.generate_images(
model='imagen-4.0-generate-001',
prompt='Robot holding a red skateboard',
config=types.GenerateImagesConfig(
number_of_images= 4,
)
)
for generated_image in response.generated_images:
generated_image.image.show()
JavaScript
import { GoogleGenAI } from "@google/genai";
import * as fs from "node:fs";
async function main() {
const ai = new GoogleGenAI({});
const response = await ai.models.generateImages({
model: 'imagen-4.0-generate-001',
prompt: 'Robot holding a red skateboard',
config: {
numberOfImages: 4,
},
});
let idx = 1;
for (const generatedImage of response.generatedImages) {
let imgBytes = generatedImage.image.imageBytes;
const buffer = Buffer.from(imgBytes, "base64");
fs.writeFileSync(`imagen-${idx}.png`, buffer);
idx++;
}
}
main();
Go
package main
import (
"context"
"fmt"
"os"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, err := genai.NewClient(ctx, nil)
if err != nil {
log.Fatal(err)
}
config := &genai.GenerateImagesConfig{
NumberOfImages: 4,
}
response, _ := client.Models.GenerateImages(
ctx,
"imagen-4.0-generate-001",
"Robot holding a red skateboard",
config,
)
for n, image := range response.GeneratedImages {
fname := fmt.Sprintf("imagen-%d.png", n)
_ = os.WriteFile(fname, image.Image.ImageBytes, 0644)
}
}
REST
curl -X POST \
"https://generativelanguage.googleapis.com/v1beta/models/imagen-4.0-generate-001:predict" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"instances": [
{
"prompt": "Robot holding a red skateboard"
}
],
"parameters": {
"sampleCount": 4
}
}'

Imagen 設定
Imagen 目前僅支援英文提示,以及下列參數:
numberOfImages
:要生成的圖片數量,範圍為 1 到 4 (含 1 和 4)。預設值為 4。sampleImageSize
:生成的圖片大小。這項功能僅適用於 Standard 和 Ultra 模型。支援的值為1K
和2K
。 預設值為1K
。aspectRatio
:變更生成圖像的顯示比例。支援的值為"1:1"
、"3:4"
、"4:3"
、"9:16"
和"16:9"
。預設值為"1:1"
。personGeneration
:允許模型生成人物圖像。支援的值如下:"dont_allow"
:禁止生成人物圖像。"allow_adult"
:生成成人圖片,但不能生成兒童圖片。此為預設值。"allow_all"
:生成包含成人和兒童的圖片。
Imagen 提示指南
本節的 Imagen 指南將說明如何修改文字轉圖片提示,產生不同的結果,並提供可建立的圖片範例。
提示撰寫基本知識
好的提示應具體明確,並使用有意義的關鍵字和修飾符。首先,請思考主題、脈絡和風格。

主題:任何提示的第一個考量因素都是主題,也就是您想生成圖片的物件、人物、動物或風景。
背景資訊:背景或情境同樣重要,因為主體會放置在其中。嘗試將拍攝主體放在各種背景中。例如白色背景的攝影棚、戶外或室內環境。
風格:最後,新增想要的圖片風格。風格可以是廣泛的類型 (繪畫、攝影、素描),也可以是非常具體的類型 (粉彩畫、炭筆畫、等距 3D)。你也可以合併樣式。
撰寫提示的第一個版本後,請加入更多詳細資料來修正提示,直到生成想要的圖片為止。反覆運算很重要。 首先,請確立核心概念,然後不斷修正及擴充這個概念,直到生成的圖片接近您的想像。
![]() |
![]() |
![]() |
無論提示簡短或詳盡,Imagen 模型都能將您的想法轉換為詳細圖像。透過反覆提示來修正圖像,加入細節,直到獲得完美結果。
簡短提示可讓你快速生成圖片。 ![]() |
提示越長,就能加入更多詳細資料,打造出理想的圖片。 ![]() |
撰寫 Imagen 提示的其他建議:
- 使用描述性語言:使用詳細的形容詞和副詞,為 Imagen 描繪清晰的圖像。
- 提供背景資訊:視需要提供背景資訊,協助 AI 瞭解情況。
- 參考特定藝術家或風格:如果心中已有特定美學,參考特定藝術家或藝術運動會很有幫助。
- 使用提示工程工具:考慮探索提示工程工具或資源,協助您修正提示並獲得最佳結果。
- 強化個人和團體相片中的臉部細節:將臉部細節指定為相片的焦點 (例如在提示中使用「肖像」一詞)。
生成圖片中的文字
Imagen 模型可以在圖片中加入文字,開創更多創意圖像生成可能性。請參考下列指引,充分運用這項功能:
- 放心反覆生成:您可能需要多次重新生成圖片,直到達到想要的樣貌為止。Imagen 的文字整合功能仍在發展中,有時多次嘗試才能獲得最佳結果。
- 簡短扼要:文字長度應限制在 25 個字元以內,才能獲得最佳生成結果。
多個詞組:嘗試使用兩到三個不同的詞組,提供額外資訊。為求簡潔,請避免使用超過三個片語。
提示:海報,標題為粗體字「Summerland」,下方是「Summer never felt so good」的標語。 文字位置指引:Imagen 會盡量按照指示放置文字,但有時可能會出現變化。這項功能會持續改進。
字型樣式:指定一般字型樣式,以細微方式影響 Imagen 的選擇。請勿期待完全複製字型,但可接受創意詮釋。
字型大小:指定字型大小或一般大小 (例如小、中、大),以影響字型大小的生成。
提示參數化
如要進一步控管輸出結果,建議將輸入內容參數化至 Imagen。舉例來說,假設您希望顧客能為自己的商家生成標誌,並確保標誌一律以純色背景生成,您也想限制用戶端可從選單中選取的選項。
在本例中,您可以建立類似下列的參數化提示:
A {logo_style} logo for a {company_area} company on a solid color background. Include the text {company_name}.
在自訂使用者介面中,顧客可以使用選單輸入參數,而他們選擇的值會填入 Imagen 收到的提示。
例如:
提示:
A minimalist logo for a health care company on a solid color background. Include the text Journey.
提示:
A modern logo for a software company on a solid color background. Include the text Silo.
提示:
A traditional logo for a baking company on a solid color background. Include the text Seed.
進階提示撰寫技巧
根據攝影描述符、形狀和材質、歷史藝術運動和圖像品質修飾符等屬性,使用下列範例建立更具體的提示。
攝影
- 提示包含:「一張...的相片」
如要使用這種風格,請先使用清楚告知 Imagen 你要尋找相片的關鍵字。提示開頭為「一張<某某事物>的相片」。。.」。例如:
![]() |
![]() |
![]() |
圖片來源:每張圖片都是使用 Imagen 3 模型,根據對應的文字提示生成。
攝影修飾符
在下列範例中,您可以看到幾個攝影專屬的修飾符和參數。您可以組合多個修飾符,以便更精確地控制。
相機鄰近度 - 近距離拍攝的特寫照,以及遠距離拍攝的相片
提示:咖啡豆的特寫照片 提示:在凌亂的廚房中,一小袋咖啡豆的縮放相片 攝影機位置 - 空拍、由下往上拍
提示:空拍圖,城市有摩天大樓 提示:一張森林樹冠的照片,從下方拍攝,背景是藍天 光線 - 自然、戲劇化、暖色、冷色
提示:現代扶手椅的攝影棚照片,自然光 提示:現代扶手椅的攝影棚照片,戲劇性燈光 相機設定 - 動態模糊、柔焦、散景、人像
提示:從車內拍攝城市和摩天大樓的相片,並加上動態模糊效果 提示:夜晚城市中橋梁的柔焦相片 鏡頭類型 - 35 公釐、50 公釐、魚眼、廣角、微距
提示:葉子的相片,微距鏡頭 提示:街頭攝影、紐約市、魚眼鏡頭 底片類型 - 黑白、拍立得
提示:戴著太陽眼鏡的狗的拍立得肖像 提示:戴太陽眼鏡的狗的黑白相片
圖片來源:每張圖片都是使用 Imagen 3 模型,根據對應的文字提示生成。
插畫和藝術
- 提示包含:「painting」,「A sketch of...」(A 的...)
藝術風格從鉛筆素描等單色風格,到超寫實數位藝術都有。舉例來說,下列圖片使用相同提示,但風格不同:
「背景為摩天大樓的斜角運動風電動轎車」[art style or creation technique]
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
圖片來源:每張圖片都是使用 Imagen 2 模型,根據對應的文字提示生成。
形狀和材質
- 提示包含:「...製成...」、「...形狀...」
這項技術的優點之一,就是能製作出原本難以或無法實現的圖像。舉例來說,你可以用不同材質和紋理重新製作公司標誌。
![]() |
![]() |
![]() |
圖片來源:每張圖片都是使用 Imagen 3 模型,根據對應的文字提示生成。
歷史藝術參考資料
- 提示包含:「...的風格...」
多年來,某些風格已成為經典。以下提供一些歷史繪畫或藝術風格的點子,供您參考。
「generate an image in the style of [art period or movement] : a wind farm」(以「[art period or movement] 」的風格生成圖片:風力發電廠)
![]() |
![]() |
![]() |
圖片來源:每張圖片都是使用 Imagen 3 模型,根據對應的文字提示生成。
圖片品質修飾符
某些關鍵字可讓模型瞭解您要尋找高品質素材資源。品質修飾符的例子包括:
- 一般修飾符 - 高品質、美麗、風格化
- 相片 - 4K、HDR、攝影棚相片
- 藝術、插畫 - 由專業人士繪製,細緻
以下列舉幾個範例,說明沒有品質修飾符的提示,以及含有品質修飾符的相同提示。
![]() |
![]() photo of a corn stalk taken by a professional photographer |
圖片來源:每張圖片都是使用 Imagen 3 模型,根據對應的文字提示生成。
顯示比例
Imagen 圖像生成功能可讓你設定五種不同的圖像長寬比。
- 正方形 (1:1,預設) - 標準正方形相片。社群媒體貼文是這個長寬比的常見用途。
全螢幕 (4:3) - 媒體或電影通常會使用這個顯示比例。 這也是大多數舊型 (非寬螢幕) 電視和中片幅相機的尺寸。相較於 1:1,這種長寬比可捕捉更多橫向場景, 因此是攝影的首選長寬比。
提示:音樂家彈奏鋼琴的手指特寫,黑白電影,復古 (4:3 長寬比) 提示:為高級餐廳拍攝的薯條專業棚內照片,風格類似美食雜誌 (4:3 長寬比) 直向全螢幕 (3:4) - 這是旋轉 90 度的全螢幕顯示比例。與 1:1 顯示比例相比,這項功能可垂直擷取更多場景。
提示:一名女子在健行,水窪中映照出她的靴子,背景是高聳的山脈,風格類似廣告,角度戲劇化 (3:4 長寬比) 提示:空拍圖,一條河流流經神秘山谷 (顯示比例 3:4) 寬螢幕 (16:9) - 這個比例已取代 4:3,現在是電視、螢幕和手機螢幕 (橫向) 最常見的顯示比例。如要拍攝更多背景 (例如風景),請使用這個顯示比例。
提示:一名男子穿著全白服裝坐在沙灘上,特寫鏡頭,黃金時段光線 (16:9 顯示比例) 直向 (9:16):這個比例是寬螢幕,但經過旋轉。這是相對較新的長寬比,因短片應用程式 (例如 YouTube Shorts) 而廣為人知。適用於高聳的物件,例如建築物、樹木、瀑布或其他類似物件。
提示:以數位方式繪製宏偉的現代摩天大樓,背景是美麗的日落 (顯示比例 9:16)
擬真圖像
不同版本的圖片生成模型可能會提供藝術風格和寫實風格的輸出內容。在提示中使用下列字詞,根據要生成的主題,生成更逼真的輸出內容。
用途 | 鏡頭類型 | 焦距 | 其他詳細資訊 |
---|---|---|---|
人物 (肖像) | 縮放 | 24-35mm | 黑白電影、黑色電影、景深、雙色調 (提及兩種顏色) |
食物、昆蟲、植物 (物體、靜物) | 巨集 | 60-105mm | 細節豐富、精準對焦、光線受控 |
運動、野生動物 (動作) | 望遠變焦 | 100-400mm | 快速快門速度、動作或移動追蹤 |
天文、風景 (廣角) | 廣角 | 10-24mm | 長時間曝光、焦點清晰、長時間曝光、平滑的水面或雲朵 |
人像
用途 | 鏡頭類型 | 焦距 | 其他詳細資訊 |
---|---|---|---|
人物 (肖像) | 縮放 | 24-35mm | 黑白電影、黑色電影、景深、雙色調 (提及兩種顏色) |
Imagen 可使用表格中的多個關鍵字,生成下列肖像:
![]() |
![]() |
![]() |
![]() |
提示:一位女性,35 公釐肖像,藍色和灰色雙色調
模型:imagen-3.0-generate-002
![]() |
![]() |
![]() |
![]() |
提示:一位女性,35 公釐人像照,黑色電影
模型:imagen-3.0-generate-002
物件
用途 | 鏡頭類型 | 焦距 | 其他詳細資訊 |
---|---|---|---|
食物、昆蟲、植物 (物體、靜物) | 巨集 | 60-105mm | 細節豐富、精準對焦、光線受控 |
使用表格中的幾個關鍵字,Imagen 可以生成下列物件圖片:
![]() |
![]() |
![]() |
![]() |
提示:leaf of a prayer plant, macro lens, 60mm
模型:imagen-3.0-generate-002
![]() |
![]() |
![]() |
![]() |
提示:一盤義大利麵,100 公釐微距鏡頭
模型:imagen-3.0-generate-002
動作
用途 | 鏡頭類型 | 焦距 | 其他詳細資訊 |
---|---|---|---|
運動、野生動物 (動作) | 望遠變焦 | 100-400mm | 快速快門速度、動作或移動追蹤 |
Imagen 可以使用表格中的多個關鍵字,生成下列動態圖片:
![]() |
![]() |
![]() |
![]() |
提示:接球達陣、快速快門速度、動作追蹤
模型:imagen-3.0-generate-002
![]() |
![]() |
![]() |
![]() |
提示:森林中奔跑的鹿,快門速度快,動作追蹤
模型:imagen-3.0-generate-002
廣角
用途 | 鏡頭類型 | 焦距 | 其他詳細資訊 |
---|---|---|---|
天文、風景 (廣角) | 廣角 | 10-24mm | 長時間曝光、焦點清晰、長時間曝光、平滑的水面或雲朵 |
使用表格中的幾個關鍵字,Imagen 可以生成下列廣角圖像:
![]() |
![]() |
![]() |
![]() |
提示:an expansive mountain range, landscape wide angle 10mm
模型:imagen-3.0-generate-002
![]() |
![]() |
![]() |
![]() |
提示:月球相片,天文攝影,10 公釐廣角
模型:imagen-3.0-generate-002
模型版本
Imagen 4
屬性 | 說明 |
---|---|
模型代碼 |
Gemini API
|
支援的資料類型 |
輸入功率 文字 輸出內容 圖片 |
[*] | 代幣限制
輸入權杖限制 480 個符記 (文字) 輸出圖片 1 到 4 (Ultra/Standard/Fast) |
最新更新 | 2025 年 6 月 |
Imagen 3
屬性 | 說明 |
---|---|
模型代碼 |
Gemini API
|
支援的資料類型 |
輸入功率 文字 輸出內容 圖片 |
[*] | 代幣限制
輸入權杖限制 不適用 輸出圖片 最多 4 則 |
最新更新 | 2025 年 2 月 |