
Detyra MediaPipe Image Generator ju lejon të gjeneroni imazhe bazuar në një kërkesë teksti. Kjo detyrë përdor një model tekst-në-imazh për të gjeneruar imazhe duke përdorur teknikat e difuzionit.
Detyra pranon një kërkesë teksti si të dhënë hyrëse, së bashku me një imazh opsional kushti që modeli mund ta shtojë dhe ta përdorë si referencë për gjenerim. Për më shumë informacion mbi gjenerimin e kushtëzuar të tekstit në imazh, shihni Shtojcat e difuzionit në pajisje për gjenerimin e kushtëzuar të tekstit në imazh .
Gjeneratori i Imazheve mund të gjenerojë gjithashtu imazhe bazuar në koncepte specifike të dhëna modelit gjatë trajnimit ose ritrajnimit. Për më shumë informacion, shihni personalizimin me LoRA .
Filloni
Filloni ta përdorni këtë detyrë duke ndjekur një nga këto udhëzues zbatimi për platformën tuaj të synuar. Këta udhëzues specifikë për platformën ju udhëzojnë përmes një zbatimi bazë të kësaj detyre, me shembuj kodi që përdorin një model të paracaktuar dhe opsionet e rekomanduara të konfigurimit:
- Android - Shembull kodi - Udhëzues
- Personalizo me LoRA - Shembull kodi - Colab
Detajet e detyrës
Ky seksion përshkruan aftësitë, të dhënat hyrëse, të dhënat dalëse dhe opsionet e konfigurimit të kësaj detyre.
Karakteristikat
Mund të përdorni Gjeneratorin e Imazheve për të zbatuar sa vijon:
- Gjenerimi i tekstit në imazh - Gjeneroni imazhe me një kërkesë teksti.
- Gjenerimi i imazheve me imazhe kushtëzimi - Gjeneroni imazhe me një mesazh teksti dhe një imazh referimi. Gjeneratori i imazheve përdor imazhe kushtëzimi në mënyra të ngjashme me ControlNet .
- Gjenerimi i imazheve me peshat LoRA - Gjeneroni imazhe të njerëzve, objekteve dhe stileve specifike me një mesazh teksti duke përdorur peshat e modelit të personalizuara.
| Hyrjet e detyrave | Rezultatet e detyrave |
|---|---|
Gjeneratori i Imazhit pranon të dhënat e mëposhtme hyrëse:
| Gjeneratori i imazhit jep rezultatet e mëposhtme:
|
Opsionet e konfigurimit
Kjo detyrë ka opsionet e mëposhtme të konfigurimit:
| Emri i opsionit | Përshkrimi | Diapazoni i Vlerave |
|---|---|---|
imageGeneratorModelDirectory | Drejtoria e modelit të gjeneratorit të imazheve që ruan peshat e modelit. | PATH |
loraWeightsFilePath | Cakton shtegun për në skedarin e peshave LoRA. Opsionale dhe e zbatueshme vetëm nëse modeli është personalizuar me LoRA. | PATH |
errorListener | Cakton një dëgjues gabimi opsional. | N/A |
Detyra mbështet gjithashtu modelet e shtojcave, të cilat u lejojnë përdoruesve të përfshijnë imazhe të kushteve në të dhënat e detyrës, të cilat modeli themelor mund t'i shtojë dhe t'i përdorë si referencë për gjenerim. Këto imazhe të kushteve mund të jenë pika referimi të fytyrës, konture skajesh dhe vlerësime të thellësisë, të cilat modeli i përdor si kontekst dhe informacion shtesë për të gjeneruar imazhe.
Kur shtoni një model plugin-i në modelin themelor, konfiguroni edhe opsionet e plugin-it. Plugin-i Face landmark përdor faceConditionOptions , plugin-i Canny edge përdor edgeConditionOptions dhe plugin-i Depth përdor depthConditionOptions .
Opsione të zgjuara në skaje
Konfiguroni opsionet e mëposhtme në edgeConditionOptions .
| Emri i opsionit | Përshkrimi | Diapazoni i Vlerave | Vlera e parazgjedhur |
|---|---|---|---|
threshold1 | Pragu i parë për procedurën e histerezës. | Float | 100 |
threshold2 | Pragu i dytë për procedurën e histerezës. | Float | 200 |
apertureSize | Madhësia e aperturës për operatorin Sobel. Diapazoni tipik është midis 3-7. | Integer | 3 |
l2Gradient | Nëse norma L2 përdoret për të llogaritur madhësinë e gradientit të imazhit, në vend të normës së parazgjedhur L1. | BOOLEAN | False |
EdgePluginModelBaseOptions | Objekti BaseOptions që përcakton shtegun për modelin e plugin-it. | Objekti BaseOptions | N/A |
Për më shumë informacion se si funksionojnë këto opsione konfigurimi, shihni Detektorin e skajeve Canny .
Opsionet e pikave të referimit të fytyrës
Konfiguroni opsionet e mëposhtme në faceConditionOptions .
| Emri i opsionit | Përshkrimi | Diapazoni i Vlerave | Vlera e parazgjedhur |
|---|---|---|---|
minFaceDetectionConfidence | Rezultati minimal i besimit që zbulimi i fytyrës të konsiderohet i suksesshëm. | Float [0.0,1.0] | 0.5 |
minFacePresenceConfidence | Rezultati minimal i besimit të rezultatit të pranisë së fytyrës në zbulimin e pikave të referimit të fytyrës. | Float [0.0,1.0] | 0.5 |
faceModelBaseOptions | Objekti BaseOptions që përcakton rrugën për modelin që krijon imazhin e kushtit. | Objekti BaseOptions | N/A |
FacePluginModelBaseOptions | Objekti BaseOptions që përcakton shtegun për modelin e plugin-it. | Objekti BaseOptions | N/A |
Për më shumë informacion se si funksionojnë këto opsione konfigurimi, shihni detyrën Face Landmarker .
Opsionet e thellësisë
Konfiguroni opsionet e mëposhtme në depthConditionOptions .
| Emri i opsionit | Përshkrimi | Diapazoni i Vlerave | Vlera e parazgjedhur |
|---|---|---|---|
depthModelBaseOptions | Objekti BaseOptions që përcakton rrugën për modelin që krijon imazhin e kushtit. | Objekti BaseOptions | N/A |
depthPluginModelBaseOptions | Objekti BaseOptions që përcakton shtegun për modelin e plugin-it. | Objekti BaseOptions | N/A |
Modele
Gjeneratori i Imazheve kërkon një model bazë, i cili është një model i inteligjencës artificiale nga teksti në imazh që përdor teknikat e difuzionit për të gjeneruar imazhe të reja. Modelet bazë të listuara në këtë seksion janë modele të lehta të optimizuara për t'u përdorur në telefona inteligjentë të nivelit të lartë.
Modelet e shtojcave janë opsionale dhe plotësojnë modelet themelore, duke u mundësuar përdoruesve të ofrojnë një imazh shtesë të gjendjes së bashku me një kërkesë teksti, për gjenerim më specifik të imazheve. Përshtatja e modeleve themelore duke përdorur peshat LoRA është një opsion që i mëson modelit themelor një koncept specifik, siç është një objekt, person ose stil, dhe i injekton ato në imazhet e gjeneruara.
Modelet e themeleve
Modelet themelore janë modele të difuzionit latent tekst-në-imazh që gjenerojnë imazhe nga një kërkesë teksti. Gjeneratori i Imazheve kërkon që modeli themelor të përputhet me formatin e modelit stable-diffusion-v1-5/stable-diffusion-v1-5 EMA-only , bazuar në modelin e mëposhtëm:
Modelet e mëposhtme të fondacionit janë gjithashtu të pajtueshme me Image Generator:
Pasi të keni shkarkuar një model bazë, përdorni image_generator_converter për ta konvertuar modelin në formatin e duhur në pajisje për Image Generator.
Instaloni varësitë e nevojshme:
$ pip install torch typing_extensions numpy Pillow requests pytorch_lightning absl-py
Ekzekutoni skriptin convert.py :
$ python3 convert.py --ckpt_path <ckpt_path> --output_path <output_path>
Modelet e shtojcave
Modelet e shtojcave në këtë seksion janë zhvilluar nga Google dhe duhet të përdoren në kombinim me një model themelor. Modelet e shtojcave i mundësojnë Image Generator të pranojë një imazh kushti së bashku me një kërkesë teksti si të dhënë hyrëse, gjë që ju lejon të kontrolloni strukturën e imazheve të gjeneruara. Modelet e shtojcave ofrojnë aftësi të ngjashme me ControlNet , me një arkitekturë të re posaçërisht për shpërndarjen në pajisje .
Modelet e shtojcave duhet të specifikohen në opsionet bazë dhe mund të kërkojnë shkarkimin e skedarëve shtesë të modelit. Çdo shtojcë ka kërkesa unike për imazhin e gjendjes, i cili mund të gjenerohet nga Gjeneratori i Imazheve.
Plugin Canny Edge

Shtojca Canny Edge pranon një imazh kushti që përshkruan skajet e synuara të imazhit të gjeneruar. Modeli bazë përdor skajet e nënkuptuara nga imazhi i kushtit dhe gjeneron një imazh të ri bazuar në kërkesën me tekst. Gjeneratori i Imazheve përmban aftësi të integruara për të krijuar imazhe kushti dhe kërkon vetëm shkarkimin e modelit të shtojcës.
Shtojca Canny Edge përmban opsionet e mëposhtme të konfigurimit:
| Emri i opsionit | Përshkrimi | Diapazoni i Vlerave | Vlera e parazgjedhur |
|---|---|---|---|
threshold1 | Pragu i parë për procedurën e histerezës. | Float | 100 |
threshold2 | Pragu i dytë për procedurën e histerezës. | Float | 200 |
apertureSize | Madhësia e aperturës për operatorin Sobel. Diapazoni tipik është midis 3-7. | Integer | 3 |
l2Gradient | Nëse norma L2 përdoret për të llogaritur madhësinë e gradientit të imazhit, në vend të normës së parazgjedhur L1. | BOOLEAN | False |
EdgePluginModelBaseOptions | Objekti BaseOptions që përcakton shtegun për modelin e plugin-it. | Objekti BaseOptions | N/A |
Për më shumë informacion se si funksionojnë këto opsione konfigurimi, shihni Detektorin e skajeve Canny .
Shtojca Face Landmark

Shtojca Face Landmark pranon rezultatin nga MediaPipe Face Landmarker si imazh të gjendjes. Face Landmarker ofron një rrjetë të detajuar të fytyrës së një fytyre të vetme, e cila hartëzon praninë dhe vendndodhjen e tipareve të fytyrës. Modeli bazë përdor hartën e fytyrës të nënkuptuar nga imazhi i gjendjes dhe gjeneron një fytyrë të re mbi rrjetë.
Shkarkoni shtojcën "Face landmark" për fytyrën
Shtojca Face landmark kërkon gjithashtu paketën e modelit Face Landmarker për të krijuar imazhin e gjendjes. Kjo paketë modeli është e njëjta paketë e përdorur nga detyra Face Landmarker .
Shkarkoni paketën e modelit të pikës referuese të fytyrës
Shtojca Face Landmark përmban opsionet e mëposhtme të konfigurimit:
| Emri i opsionit | Përshkrimi | Diapazoni i Vlerave | Vlera e parazgjedhur |
|---|---|---|---|
minFaceDetectionConfidence | Rezultati minimal i besimit që zbulimi i fytyrës të konsiderohet i suksesshëm. | Float [0.0,1.0] | 0.5 |
minFacePresenceConfidence | Rezultati minimal i besimit të rezultatit të pranisë së fytyrës në zbulimin e pikave të referimit të fytyrës. | Float [0.0,1.0] | 0.5 |
faceModelBaseOptions | Objekti BaseOptions që përcakton rrugën për modelin që krijon imazhin e kushtit. | Objekti BaseOptions | N/A |
FacePluginModelBaseOptions | Objekti BaseOptions që përcakton shtegun për modelin e plugin-it. | Objekti BaseOptions | N/A |
Për më shumë informacion se si funksionojnë këto opsione konfigurimi, shihni detyrën Face Landmarker .
Plugin i thellësisë

Shtojca Depth pranon një imazh kushti që specifikon thellësinë monokulare të një objekti. Modeli themelor përdor imazhin e kushtit për të nxjerrë në pah madhësinë dhe thellësinë e objektit që do të gjenerohet dhe gjeneron një imazh të ri bazuar në kërkesën tekstuale.
Shtojca Depth kërkon gjithashtu një model vlerësimi të Depth për të krijuar imazhin e gjendjes.
Shkarkoni modelin e vlerësimit të thellësisë
Shtojca Depth përmban opsionet e mëposhtme të konfigurimit:
| Emri i opsionit | Përshkrimi | Diapazoni i Vlerave | Vlera e parazgjedhur |
|---|---|---|---|
depthModelBaseOptions | Objekti BaseOptions që përcakton rrugën për modelin që krijon imazhin e kushtit. | Objekti BaseOptions | N/A |
depthPluginModelBaseOptions | Objekti BaseOptions që përcakton shtegun për modelin e plugin-it. | Objekti BaseOptions | N/A |
Përshtatje me LoRA
Përshtatja e një modeli me LoRA mund t'i mundësojë Gjeneratorit të Imazheve të gjenerojë imazhe bazuar në koncepte specifike, të cilat identifikohen nga tokena unike gjatë trajnimit. Me peshat e reja LoRA pas trajnimit, modeli është në gjendje të gjenerojë imazhe të konceptit të ri kur tokeni specifikohet në njoftimin me tekst.
Krijimi i peshave LoRA kërkon trajnimin e një modeli bazë mbi imazhet e një objekti, personi ose stili specifik, gjë që i mundëson modelit të njohë konceptin e ri dhe ta zbatojë atë gjatë gjenerimit të imazheve. Nëse po krijoni pesha LoRa për të gjeneruar imazhe të njerëzve dhe fytyrave specifike, përdoreni këtë zgjidhje vetëm në fytyrën tuaj ose në fytyrat e njerëzve që ju kanë dhënë leje për ta bërë këtë.
Më poshtë është rezultati nga një model i personalizuar i trajnuar në imazhe të çajnikëve nga të dhënat DreamBooth , duke përdorur tokenin "monadikos teapot":

Nxitje : një çajnik monadikos pranë një pasqyre
Modeli i personalizuar mori tokenin në kërkesë dhe injektoi një çajnik që mësoi ta përshkruante nga peshat LoRA, dhe e vendos imazhin pranë një pasqyre siç kërkohet në kërkesë.
Për më shumë informacion, shihni udhëzuesin e personalizimit , i cili përdor Model Garden në Vertex AI për të personalizuar një model duke aplikuar peshat LoRA në një model themeli.