Eksploroni aftësitë e përpunimit të dokumenteve me Gemini API

Gemini API mbështet hyrjen PDF, duke përfshirë dokumente të gjata (deri në 3600 faqe). Modelet Gemini përpunojnë PDF-të me vizion origjinal, dhe për këtë arsye janë në gjendje të kuptojnë përmbajtjen e tekstit dhe të imazhit brenda dokumenteve. Me mbështetjen origjinale të vizionit PDF, modelet Gemini janë në gjendje të:

  • Analizoni diagramet, grafikët dhe tabelat brenda dokumenteve.
  • Ekstraktoni informacionin në formate të strukturuara të daljes.
  • Përgjigjuni pyetjeve në lidhje me përmbajtjen vizuale dhe tekstuale në dokumente.
  • Përmblidhni dokumentet.
  • Transkriptoni përmbajtjen e dokumentit (p.sh. në HTML) duke ruajtur paraqitjet dhe formatimin, për përdorim në aplikacionet e rrjedhës së poshtme (si p.sh. në tubacionet RAG).

Ky udhëzues demonstron disa mënyra të mundshme për të përdorur Gemini API me dokumente PDF. E gjithë dalja është vetëm me tekst.

Para se të filloni

Përpara se të telefononi Gemini API, sigurohuni që keni të instaluar SDK-në tuaj të zgjedhur dhe një çelës Gemini API të konfiguruar dhe gati për t'u përdorur.

Çfarë është më pas

Ky udhëzues tregon se si të përdorni generateContent dhe të krijoni rezultate teksti nga dokumentet e përpunuara. Për të mësuar më shumë, shikoni burimet e mëposhtme:

  • Strategjitë e nxitjes së skedarëve : Gemini API mbështet nxitjen me të dhëna teksti, imazhi, audio dhe video, të njohura gjithashtu si nxitje multimodale.
  • Udhëzimet e sistemit : Udhëzimet e sistemit ju lejojnë të drejtoni sjelljen e modelit bazuar në nevojat tuaja specifike dhe rastet e përdorimit.
  • Udhëzime për sigurinë : Ndonjëherë modelet gjeneruese të AI prodhojnë rezultate të papritura, të tilla si rezultate që janë të pasakta, të njëanshme ose fyese. Pas-përpunimi dhe vlerësimi njerëzor janë thelbësore për të kufizuar rrezikun e dëmtimit nga rezultate të tilla.
,

Gemini API mbështet hyrjen PDF, duke përfshirë dokumente të gjata (deri në 3600 faqe). Modelet Gemini përpunojnë PDF-të me vizion origjinal, dhe për këtë arsye janë në gjendje të kuptojnë përmbajtjen e tekstit dhe të imazhit brenda dokumenteve. Me mbështetjen origjinale të vizionit PDF, modelet Gemini janë në gjendje të:

  • Analizoni diagramet, grafikët dhe tabelat brenda dokumenteve.
  • Ekstraktoni informacionin në formate të strukturuara të daljes.
  • Përgjigjuni pyetjeve në lidhje me përmbajtjen vizuale dhe tekstuale në dokumente.
  • Përmblidhni dokumentet.
  • Transkriptoni përmbajtjen e dokumentit (p.sh. në HTML) duke ruajtur paraqitjet dhe formatimin, për përdorim në aplikacionet e rrjedhës së poshtme (si p.sh. në tubacionet RAG).

Ky udhëzues demonstron disa mënyra të mundshme për të përdorur Gemini API me dokumente PDF. E gjithë dalja është vetëm me tekst.

Para se të filloni

Përpara se të telefononi Gemini API, sigurohuni që keni të instaluar SDK-në tuaj të zgjedhur dhe një çelës Gemini API të konfiguruar dhe gati për t'u përdorur.

Çfarë është më pas

Ky udhëzues tregon se si të përdorni generateContent dhe të krijoni rezultate teksti nga dokumentet e përpunuara. Për të mësuar më shumë, shikoni burimet e mëposhtme:

  • Strategjitë e nxitjes së skedarëve : Gemini API mbështet nxitjen me të dhëna teksti, imazhi, audio dhe video, të njohura gjithashtu si nxitje multimodale.
  • Udhëzimet e sistemit : Udhëzimet e sistemit ju lejojnë të drejtoni sjelljen e modelit bazuar në nevojat tuaja specifike dhe rastet e përdorimit.
  • Udhëzime për sigurinë : Ndonjëherë modelet gjeneruese të AI prodhojnë rezultate të papritura, të tilla si rezultate që janë të pasakta, të njëanshme ose fyese. Pas-përpunimi dhe vlerësimi njerëzor janë thelbësore për të kufizuar rrezikun e dëmtimit nga rezultate të tilla.