Udhëzues për gjenerimin e imazheve

Detyra e gjeneratorit të imazheve

Detyra MediaPipe Image Generator ju lejon të gjeneroni imazhe bazuar në një kërkesë teksti. Kjo detyrë përdor një model tekst-në-imazh për të gjeneruar imazhe duke përdorur teknikat e difuzionit.

Detyra pranon një kërkesë teksti si të dhënë hyrëse, së bashku me një imazh opsional kushti që modeli mund ta shtojë dhe ta përdorë si referencë për gjenerim. Për më shumë informacion mbi gjenerimin e kushtëzuar të tekstit në imazh, shihni Shtojcat e difuzionit në pajisje për gjenerimin e kushtëzuar të tekstit në imazh .

Gjeneratori i Imazheve mund të gjenerojë gjithashtu imazhe bazuar në koncepte specifike të dhëna modelit gjatë trajnimit ose ritrajnimit. Për më shumë informacion, shihni personalizimin me LoRA .

Filloni

Filloni ta përdorni këtë detyrë duke ndjekur një nga këto udhëzues zbatimi për platformën tuaj të synuar. Këta udhëzues specifikë për platformën ju udhëzojnë përmes një zbatimi bazë të kësaj detyre, me shembuj kodi që përdorin një model të paracaktuar dhe opsionet e rekomanduara të konfigurimit:

Detajet e detyrës

Ky seksion përshkruan aftësitë, të dhënat hyrëse, të dhënat dalëse dhe opsionet e konfigurimit të kësaj detyre.

Karakteristikat

Mund të përdorni Gjeneratorin e Imazheve për të zbatuar sa vijon:

  1. Gjenerimi i tekstit në imazh - Gjeneroni imazhe me një kërkesë teksti.
  2. Gjenerimi i imazheve me imazhe kushtëzimi - Gjeneroni imazhe me një mesazh teksti dhe një imazh referimi. Gjeneratori i imazheve përdor imazhe kushtëzimi në mënyra të ngjashme me ControlNet .
  3. Gjenerimi i imazheve me peshat LoRA - Gjeneroni imazhe të njerëzve, objekteve dhe stileve specifike me një mesazh teksti duke përdorur peshat e modelit të personalizuara.
Hyrjet e detyrave Rezultatet e detyrave
Gjeneratori i Imazhit pranon të dhënat e mëposhtme hyrëse:
  • Teksti i kërkesës
  • Fara
  • Numri i përsëritjeve gjeneruese
  • Opsionale: imazhi i gjendjes
Gjeneratori i imazhit jep rezultatet e mëposhtme:
  • Imazh i gjeneruar bazuar në të dhënat hyrëse.
  • Opsionale: Pamje të çastit iterative të imazhit të gjeneruar.

Opsionet e konfigurimit

Kjo detyrë ka opsionet e mëposhtme të konfigurimit:

Emri i opsionit Përshkrimi Diapazoni i Vlerave
imageGeneratorModelDirectory Drejtoria e modelit të gjeneratorit të imazheve që ruan peshat e modelit. PATH
loraWeightsFilePath Cakton shtegun për në skedarin e peshave LoRA. Opsionale dhe e zbatueshme vetëm nëse modeli është personalizuar me LoRA. PATH
errorListener Cakton një dëgjues gabimi opsional. N/A

Detyra mbështet gjithashtu modelet e shtojcave, të cilat u lejojnë përdoruesve të përfshijnë imazhe të kushteve në të dhënat e detyrës, të cilat modeli themelor mund t'i shtojë dhe t'i përdorë si referencë për gjenerim. Këto imazhe të kushteve mund të jenë pika referimi të fytyrës, konture skajesh dhe vlerësime të thellësisë, të cilat modeli i përdor si kontekst dhe informacion shtesë për të gjeneruar imazhe.

Kur shtoni një model plugin-i në modelin themelor, konfiguroni edhe opsionet e plugin-it. Plugin-i Face landmark përdor faceConditionOptions , plugin-i Canny edge përdor edgeConditionOptions dhe plugin-i Depth përdor depthConditionOptions .

Opsione të zgjuara në skaje

Konfiguroni opsionet e mëposhtme në edgeConditionOptions .

Emri i opsionit Përshkrimi Diapazoni i Vlerave Vlera e parazgjedhur
threshold1 Pragu i parë për procedurën e histerezës. Float 100
threshold2 Pragu i dytë për procedurën e histerezës. Float 200
apertureSize Madhësia e aperturës për operatorin Sobel. Diapazoni tipik është midis 3-7. Integer 3
l2Gradient Nëse norma L2 përdoret për të llogaritur madhësinë e gradientit të imazhit, në vend të normës së parazgjedhur L1. BOOLEAN False
EdgePluginModelBaseOptions Objekti BaseOptions që përcakton shtegun për modelin e plugin-it. Objekti BaseOptions N/A

Për më shumë informacion se si funksionojnë këto opsione konfigurimi, shihni Detektorin e skajeve Canny .

Opsionet e pikave të referimit të fytyrës

Konfiguroni opsionet e mëposhtme në faceConditionOptions .

Emri i opsionit Përshkrimi Diapazoni i Vlerave Vlera e parazgjedhur
minFaceDetectionConfidence Rezultati minimal i besimit që zbulimi i fytyrës të konsiderohet i suksesshëm. Float [0.0,1.0] 0.5
minFacePresenceConfidence Rezultati minimal i besimit të rezultatit të pranisë së fytyrës në zbulimin e pikave të referimit të fytyrës. Float [0.0,1.0] 0.5
faceModelBaseOptions Objekti BaseOptions që përcakton rrugën për modelin që krijon imazhin e kushtit. Objekti BaseOptions N/A
FacePluginModelBaseOptions Objekti BaseOptions që përcakton shtegun për modelin e plugin-it. Objekti BaseOptions N/A

Për më shumë informacion se si funksionojnë këto opsione konfigurimi, shihni detyrën Face Landmarker .

Opsionet e thellësisë

Konfiguroni opsionet e mëposhtme në depthConditionOptions .

Emri i opsionit Përshkrimi Diapazoni i Vlerave Vlera e parazgjedhur
depthModelBaseOptions Objekti BaseOptions që përcakton rrugën për modelin që krijon imazhin e kushtit. Objekti BaseOptions N/A
depthPluginModelBaseOptions Objekti BaseOptions që përcakton shtegun për modelin e plugin-it. Objekti BaseOptions N/A

Modele

Gjeneratori i Imazheve kërkon një model bazë, i cili është një model i inteligjencës artificiale nga teksti në imazh që përdor teknikat e difuzionit për të gjeneruar imazhe të reja. Modelet bazë të listuara në këtë seksion janë modele të lehta të optimizuara për t'u përdorur në telefona inteligjentë të nivelit të lartë.

Modelet e shtojcave janë opsionale dhe plotësojnë modelet themelore, duke u mundësuar përdoruesve të ofrojnë një imazh shtesë të gjendjes së bashku me një kërkesë teksti, për gjenerim më specifik të imazheve. Përshtatja e modeleve themelore duke përdorur peshat LoRA është një opsion që i mëson modelit themelor një koncept specifik, siç është një objekt, person ose stil, dhe i injekton ato në imazhet e gjeneruara.

Modelet e themeleve

Modelet themelore janë modele të difuzionit latent tekst-në-imazh që gjenerojnë imazhe nga një kërkesë teksti. Gjeneratori i Imazheve kërkon që modeli themelor të përputhet me formatin e modelit stable-diffusion-v1-5/stable-diffusion-v1-5 EMA-only , bazuar në modelin e mëposhtëm:

Modelet e mëposhtme të fondacionit janë gjithashtu të pajtueshme me Image Generator:

Pasi të keni shkarkuar një model bazë, përdorni image_generator_converter për ta konvertuar modelin në formatin e duhur në pajisje për Image Generator.

Instaloni varësitë e nevojshme:

$ pip install torch typing_extensions numpy Pillow requests pytorch_lightning absl-py

Ekzekutoni skriptin convert.py :

$ python3 convert.py --ckpt_path <ckpt_path> --output_path <output_path>

Modelet e shtojcave

Modelet e shtojcave në këtë seksion janë zhvilluar nga Google dhe duhet të përdoren në kombinim me një model themelor. Modelet e shtojcave i mundësojnë Image Generator të pranojë një imazh kushti së bashku me një kërkesë teksti si të dhënë hyrëse, gjë që ju lejon të kontrolloni strukturën e imazheve të gjeneruara. Modelet e shtojcave ofrojnë aftësi të ngjashme me ControlNet , me një arkitekturë të re posaçërisht për shpërndarjen në pajisje .

Modelet e shtojcave duhet të specifikohen në opsionet bazë dhe mund të kërkojnë shkarkimin e skedarëve shtesë të modelit. Çdo shtojcë ka kërkesa unike për imazhin e gjendjes, i cili mund të gjenerohet nga Gjeneratori i Imazheve.

Plugin Canny Edge

Shembull rezultati i dy imazheve të gjeneruara që përdorin një imazh të kushtit të dhënë me një skicë të fortë të tullave dhe të kërkesës

Shtojca Canny Edge pranon një imazh kushti që përshkruan skajet e synuara të imazhit të gjeneruar. Modeli bazë përdor skajet e nënkuptuara nga imazhi i kushtit dhe gjeneron një imazh të ri bazuar në kërkesën me tekst. Gjeneratori i Imazheve përmban aftësi të integruara për të krijuar imazhe kushti dhe kërkon vetëm shkarkimin e modelit të shtojcës.

Shkarkoni shtojcën Canny Edge

Shtojca Canny Edge përmban opsionet e mëposhtme të konfigurimit:

Emri i opsionit Përshkrimi Diapazoni i Vlerave Vlera e parazgjedhur
threshold1 Pragu i parë për procedurën e histerezës. Float 100
threshold2 Pragu i dytë për procedurën e histerezës. Float 200
apertureSize Madhësia e aperturës për operatorin Sobel. Diapazoni tipik është midis 3-7. Integer 3
l2Gradient Nëse norma L2 përdoret për të llogaritur madhësinë e gradientit të imazhit, në vend të normës së parazgjedhur L1. BOOLEAN False
EdgePluginModelBaseOptions Objekti BaseOptions që përcakton shtegun për modelin e plugin-it. Objekti BaseOptions N/A

Për më shumë informacion se si funksionojnë këto opsione konfigurimi, shihni Detektorin e skajeve Canny .

Shtojca Face Landmark

Shembull rezultati i dy imazheve të gjeneruara që përdorin një imazh të gjendjes së dhënë të një fytyre të skicuar dhe dy kërkesa të ndryshme për të treguar se e njëjta imazh gjendjeje mund të përdoret për të gjeneruar imazhe me pamje shumë të ndryshme.

Shtojca Face Landmark pranon rezultatin nga MediaPipe Face Landmarker si imazh të gjendjes. Face Landmarker ofron një rrjetë të detajuar të fytyrës së një fytyre të vetme, e cila hartëzon praninë dhe vendndodhjen e tipareve të fytyrës. Modeli bazë përdor hartën e fytyrës të nënkuptuar nga imazhi i gjendjes dhe gjeneron një fytyrë të re mbi rrjetë.

Shkarkoni shtojcën "Face landmark" për fytyrën

Shtojca Face landmark kërkon gjithashtu paketën e modelit Face Landmarker për të krijuar imazhin e gjendjes. Kjo paketë modeli është e njëjta paketë e përdorur nga detyra Face Landmarker .

Shkarkoni paketën e modelit të pikës referuese të fytyrës

Shtojca Face Landmark përmban opsionet e mëposhtme të konfigurimit:

Emri i opsionit Përshkrimi Diapazoni i Vlerave Vlera e parazgjedhur
minFaceDetectionConfidence Rezultati minimal i besimit që zbulimi i fytyrës të konsiderohet i suksesshëm. Float [0.0,1.0] 0.5
minFacePresenceConfidence Rezultati minimal i besimit të rezultatit të pranisë së fytyrës në zbulimin e pikave të referimit të fytyrës. Float [0.0,1.0] 0.5
faceModelBaseOptions Objekti BaseOptions që përcakton rrugën për modelin që krijon imazhin e kushtit. Objekti BaseOptions N/A
FacePluginModelBaseOptions Objekti BaseOptions që përcakton shtegun për modelin e plugin-it. Objekti BaseOptions N/A

Për më shumë informacion se si funksionojnë këto opsione konfigurimi, shihni detyrën Face Landmarker .

Plugin i thellësisë

Shembull rezultati i dy imazheve të gjeneruara që përdorin një imazh të kushtit të dhënë që tregon një formë të përgjithshme të një makine për të treguar se shtojca Depth mund të krijojë imazhe që shtojnë thellësi në një imazh të sheshtë

Shtojca Depth pranon një imazh kushti që specifikon thellësinë monokulare të një objekti. Modeli themelor përdor imazhin e kushtit për të nxjerrë në pah madhësinë dhe thellësinë e objektit që do të gjenerohet dhe gjeneron një imazh të ri bazuar në kërkesën tekstuale.

Shkarkoni shtojcën Depth

Shtojca Depth kërkon gjithashtu një model vlerësimi të Depth për të krijuar imazhin e gjendjes.

Shkarkoni modelin e vlerësimit të thellësisë

Shtojca Depth përmban opsionet e mëposhtme të konfigurimit:

Emri i opsionit Përshkrimi Diapazoni i Vlerave Vlera e parazgjedhur
depthModelBaseOptions Objekti BaseOptions që përcakton rrugën për modelin që krijon imazhin e kushtit. Objekti BaseOptions N/A
depthPluginModelBaseOptions Objekti BaseOptions që përcakton shtegun për modelin e plugin-it. Objekti BaseOptions N/A

Përshtatje me LoRA

Përshtatja e një modeli me LoRA mund t'i mundësojë Gjeneratorit të Imazheve të gjenerojë imazhe bazuar në koncepte specifike, të cilat identifikohen nga tokena unike gjatë trajnimit. Me peshat e reja LoRA pas trajnimit, modeli është në gjendje të gjenerojë imazhe të konceptit të ri kur tokeni specifikohet në njoftimin me tekst.

Krijimi i peshave LoRA kërkon trajnimin e një modeli bazë mbi imazhet e një objekti, personi ose stili specifik, gjë që i mundëson modelit të njohë konceptin e ri dhe ta zbatojë atë gjatë gjenerimit të imazheve. Nëse po krijoni pesha LoRa për të gjeneruar imazhe të njerëzve dhe fytyrave specifike, përdoreni këtë zgjidhje vetëm në fytyrën tuaj ose në fytyrat e njerëzve që ju kanë dhënë leje për ta bërë këtë.

Më poshtë është rezultati nga një model i personalizuar i trajnuar në imazhe të çajnikëve nga të dhënat DreamBooth , duke përdorur tokenin "monadikos teapot":

Një imazh fotorealist i gjeneruar i një çajniku të vendosur mbi një tavolinë pranë një pasqyre të montuar në mur

Nxitje : një çajnik monadikos pranë një pasqyre

Modeli i personalizuar mori tokenin në kërkesë dhe injektoi një çajnik që mësoi ta përshkruante nga peshat LoRA, dhe e vendos imazhin pranë një pasqyre siç kërkohet në kërkesë.

LoRA me Vertex AI

Për më shumë informacion, shihni udhëzuesin e personalizimit , i cili përdor Model Garden në Vertex AI për të personalizuar një model duke aplikuar peshat LoRA në një model themeli.