قابلیت‌های بینایی را با Gemini API کاوش کنید

مدل‌های Gemini می‌توانند تصاویر و ویدیوها را پردازش کنند، و بسیاری از موارد استفاده از توسعه‌دهندگان مرزی را که از لحاظ تاریخی به مدل‌های دامنه خاصی نیاز دارند، ممکن می‌سازند. برخی از قابلیت های بینایی Gemini عبارتند از:

  • شرح تصاویر و پاسخ به سوالات
  • رونویسی و استدلال روی فایل های PDF، از جمله تا 2 میلیون توکن
  • توصیف، بخش‌بندی و استخراج اطلاعات از ویدیوهای تا ۹۰ دقیقه
  • اشیاء را در یک تصویر شناسایی کنید و مختصات جعبه مرزی را برای آنها برگردانید

Gemini به گونه ای ساخته شده است که از ابتدا چند وجهی باشد و ما همچنان به پیشبرد مرزهای ممکن ادامه می دهیم.

بعدش چی

این راهنما نحوه بارگذاری فایلهای تصویر و ویدیویی را با استفاده از API فایل نشان می دهد و سپس خروجی های متنی را از ورودی های تصویر و ویدیویی تولید می کند. برای کسب اطلاعات بیشتر به منابع زیر مراجعه کنید:

  • استراتژی های فرکانس پرونده : API Gemini از ارسال با داده های متن ، تصویر ، صدا و ویدیویی پشتیبانی می کند ، همچنین به عنوان فرکانس چند حالته شناخته می شود.
  • دستورالعمل های سیستم : دستورالعمل های سیستم به شما امکان می دهد رفتار مدل را بر اساس نیازهای خاص خود هدایت کنید و موارد استفاده کنید.
  • راهنمایی ایمنی : گاهی اوقات مدل های هوش مصنوعی تولیدی خروجی های غیر منتظره مانند خروجی هایی را که نادرست ، مغرضانه یا توهین آمیز هستند ، تولید می کنند. پس از پردازش و ارزیابی انسانی برای محدود کردن خطر آسیب از چنین خروجی ها ضروری است.