Eksploroni aftësitë e shikimit me Gemini API

Modelet e Gemini janë në gjendje të përpunojnë imazhe dhe video, duke mundësuar shumë raste të përdorimit të zhvilluesve kufitarë që do të kishin kërkuar historikisht modele specifike të domenit. Disa nga aftësitë e vizionit të Binjakëve përfshijnë aftësinë për të:

  • Shkruani dhe përgjigjuni pyetjeve rreth imazheve
  • Transkriptoni dhe arsyetoni mbi skedarët PDF, duke përfshirë deri në 2 milion argumente
  • Përshkruani, segmentoni dhe nxirrni informacione nga videot deri në 90 minuta
  • Zbuloni objektet në një imazh dhe ktheni koordinatat e kutisë kufizuese për to

Binjakët u ndërtuan për të qenë multimodal nga themeli dhe ne vazhdojmë të shtyjmë kufirin e asaj që është e mundur.

Çfarë është tjetër

Ky udhëzues tregon se si të ngarkoni skedarët e imazhit dhe videove duke përdorur API të skedarit dhe më pas të gjeneroni rezultate të tekstit nga inputet e figurës dhe videove. Për të mësuar më shumë, shihni burimet e mëposhtme:

  • Strategjitë e nxitjes së skedarëve : API Binjakët mbështet të dhënat e tekstit, imazhit, audios dhe videove, të njohura edhe si nxitje multimodale.
  • Udhëzimet e sistemit : Udhëzimet e sistemit ju lejojnë të drejtoni sjelljen e modelit bazuar në nevojat tuaja specifike dhe të përdorni raste.
  • Udhëzimi i sigurisë : Ndonjëherë modelet gjeneruese të AI prodhojnë rezultate të papritura, siç janë rezultatet që janë të pasakta, të njëanshme ose fyese. Pas përpunimit dhe vlerësimit njerëzor janë thelbësore për të kufizuar rrezikun e dëmtimit nga rezultatet e tilla.