جمینای ۳ پرو: مرز هوش مصنوعی بینایی

۹ دقیقه مطالعه

Gemini 3 Pro عملکرد پیشرفته‌ای را در زمینه درک اسناد، مکان، صفحه نمایش و ویدیو ارائه می‌دهد.

روهان دوشی

مدیر محصول، گوگل دیپ‌مایند

تصویر با پس‌زمینه مشکی و لوگوی Gemini 3 Pro

به مقاله گوش دهید

۸:۰۵ دقیقه

جمینی ۳ پرو نشان‌دهنده‌ی جهشی نسلی از تشخیص ساده به استدلال بصری و فضایی واقعی است. این مدل، توانمندترین مدل چندوجهی ما تا به امروز است که عملکرد پیشرفته‌ای را در درک اسناد، فضا، صفحه نمایش و ویدئو ارائه می‌دهد.

این مدل، در معیارهای بینایی مانند MMMU Pro و Video MMMU برای استدلال بصری پیچیده، و همچنین معیارهای خاص هر مورد استفاده در درک سند، مکان، صفحه نمایش و ویدیوی طولانی، به سطوح جدیدی دست می‌یابد.

محتویات جدول

۱. درک سند

اسناد دنیای واقعی، نامرتب، بدون ساختار و دشوار برای تجزیه و تحلیل هستند – اغلب پر از تصاویر درهم‌تنیده، متن دست‌نویس ناخوانا، جداول تو در تو، نمادهای ریاضی پیچیده و طرح‌بندی‌های غیرخطی. Gemini 3 Pro جهشی بزرگ در این حوزه محسوب می‌شود و در کل خط پردازش اسناد – از تشخیص کاراکتر نوری (OCR) بسیار دقیق گرفته تا استدلال بصری پیچیده – عملکرد فوق‌العاده‌ای دارد.

ادراک هوشمند

برای درک واقعی یک سند، یک مدل باید متن، جداول، فرمول‌های ریاضی، شکل‌ها و نمودارها را صرف نظر از نویز یا فرمت، به طور دقیق شناسایی و تشخیص دهد.

یک قابلیت اساسی «رندر کردن» است – توانایی مهندسی معکوس یک سند بصری و تبدیل آن به کد ساختاریافته (HTML، LaTeX، Markdown) که آن را از نو می‌سازد. همانطور که در زیر نشان داده شده است، Gemini 3 درک دقیقی را در روش‌های مختلف از جمله تبدیل یک لاگ تجاری قرن هجدهم به یک جدول پیچیده یا تبدیل یک تصویر خام با حاشیه‌نویسی ریاضی به کد دقیق LaTeX نشان می‌دهد.

تصویر ورودی از یک دفتر کل قدیمی بازرگانان به همراه تصویر خروجی که رونویسی را به وضوح بازسازی کرده است — مثال ۱: جدول پیچیده دست‌نویس از کتاب راهنمای بازرگانان آلبانی در قرن ۱۸

استدلال پیچیده

کاربران می‌توانند برای انجام استدلال‌های پیچیده و چند مرحله‌ای در جداول و نمودارها – حتی در گزارش‌های طولانی – به Gemini 3 تکیه کنند. در واقع، این مدل به طور قابل توجهی از مبنای انسانی در معیار CharXiv Reasoning (80.5٪) بهتر عمل می‌کند.

برای روشن شدن این موضوع، تصور کنید کاربری گزارش ۶۲ صفحه‌ای « درآمد در ایالات متحده: ۲۰۲۲ » اداره سرشماری ایالات متحده را با این سوال تحلیل می‌کند: «تغییر درصد ۲۰۲۱-۲۰۲۲ در شاخص جینی برای «درآمد پولی» را در مقابل «درآمد پس از کسر مالیات» مقایسه کنید، و چه چیزی باعث واگرایی در معیار پس از کسر مالیات شده است، و از نظر «درآمد پولی»، آیا سهم پایین‌ترین پنجک افزایش یا کاهش را نشان می‌دهد؟»

برای دیدن استدلال گام به گام مدل، تصاویر زیر را ورق بزنید.

تصویر پی‌دی‌اف که اعداد -۱.۲ و ۳.۲ را هایلایت کرده است — استخراج بصری: برای پاسخ به سوال مقایسه شاخص جینی، Gemini این اطلاعات را در شکل ۳ در مورد «درآمد پولی ۱.۲ درصد کاهش یافته است» و در جدول B-3 در مورد «درآمد پس از کسر مالیات ۳.۲ درصد افزایش یافته است» پیدا کرده و به یکدیگر ارجاع متقابل داده است.

۲. درک فضایی

جمینی ۳ پرو قوی‌ترین مدل درک فضایی ما تاکنون است. این ویژگی در کنار استدلال قوی آن، مدل را قادر می‌سازد تا جهان فیزیکی را درک کند.

قابلیت اشاره‌گری: جمینی ۳ این قابلیت را دارد که با خروجی مختصات دقیق پیکسلی، به مکان‌های خاص در تصاویر اشاره کند. توالی‌هایی از نقاط دوبعدی را می‌توان برای انجام وظایف پیچیده، مانند تخمین حالت‌های انسان یا انعکاس مسیرها در طول زمان، به هم متصل کرد.
ارجاعات واژگان باز: Gemini 3 اشیاء و هدف آنها را با استفاده از واژگان باز شناسایی می‌کند. مستقیم‌ترین کاربرد آن رباتیک است: کاربر می‌تواند از یک ربات بخواهد برنامه‌های مبتنی بر فضا تولید کند، مانند «با توجه به این میز به‌هم‌ریخته، طرحی برای نحوه مرتب‌سازی زباله‌ها ارائه دهید». این امر همچنین به دستگاه‌های AR/XR نیز گسترش می‌یابد، جایی که کاربر می‌تواند از یک دستیار هوش مصنوعی بخواهد «طبق دفترچه راهنمای کاربر به پیچ اشاره کند».

تصویری که یک جعبه‌ی به‌هم‌ریخته، یک بطری، یک پیچ‌گوشتی، یک کیسه و یک متر نواری را روی میز نشان می‌دهد. یک خط، مسیر مشخصی را بین متر نواری و جعبه ایجاد شده توسط Gemini 3 Pro متصل می‌کند.

۳. درک صفحه نمایش

درک مکانی Gemini 3.0 Pro واقعاً از طریق درک صفحه نمایش آن از صفحات سیستم عامل دسکتاپ و موبایل می‌درخشد. این قابلیت اطمینان به عامل‌های استفاده از کامپیوتر کمک می‌کند تا به اندازه کافی قوی باشند تا وظایف تکراری را خودکار کنند. قابلیت‌های درک رابط کاربری همچنین می‌توانند وظایفی مانند آزمایش QA، آشنایی کاربر با سیستم و تجزیه و تحلیل UX را فعال کنند. نسخه آزمایشی استفاده از کامپیوتر زیر، درک و کلیک مدل را با دقت بالا نشان می‌دهد.

ویدئویی از تعامل مدل با یک صفحه اکسل، کلیک دقیق، استفاده از مکان‌نما و تایپ.

وظیفه: با استفاده از ویژگی جدول محوری، کل درآمد هر نوع تبلیغ را در یک برگه جدید (برگه ۲) با نام‌های تبلیغ به عنوان سرستون‌ها خلاصه کنید.

۴. درک ویدیو

جمینی ۳ پرو جهش بزرگی در درک هوش مصنوعی از ویدیو، پیچیده‌ترین فرمت داده‌ای که با آن تعامل داریم، برداشته است. این فرمت متراکم، پویا، چندوجهی و غنی از محتوا است.

درک نرخ فریم بالا: ما مدل را بهینه کرده‌ایم تا در درک اقدامات سریع هنگام نمونه‌برداری با سرعت بیش از ۱ فریم در ثانیه، بسیار قوی‌تر باشد. Gemini 3 Pro می‌تواند جزئیات سریع را ثبت کند – که برای کارهایی مانند تجزیه و تحلیل مکانیک ضربه گلف حیاتی است.

با پردازش ویدیو با سرعت 10 فریم در ثانیه – 10 برابر سرعت پیش‌فرض – Gemini 3 Pro هر نوسان و تغییر وزن را ثبت می‌کند و بینش عمیقی از مکانیک بازیکن به دست می‌دهد.

۲. استدلال ویدیویی با حالت «تفکر»: ما حالت «تفکر» را ارتقا دادیم تا از تشخیص اشیا فراتر رفته و به سمت استدلال ویدیویی واقعی حرکت کند. این مدل اکنون می‌تواند روابط پیچیده علت و معلولی را در طول زمان بهتر ردیابی کند. به جای اینکه فقط آنچه اتفاق می‌افتد را شناسایی کند، دلیل وقوع آن را درک می‌کند .

۳. تبدیل ویدیوهای طولانی به عمل: Gemini 3 Pro شکاف بین ویدیو و کد را پر می‌کند. این نرم‌افزار می‌تواند دانش را از محتوای طولانی استخراج کرده و بلافاصله آن را به برنامه‌های کاربردی یا کد ساختاریافته تبدیل کند.

۵. کاربردهای دنیای واقعی

در اینجا چند روش وجود دارد که فکر می‌کنیم زمینه‌های مختلف از قابلیت‌های Gemini 3 بهره‌مند خواهند شد.

آموزش

قابلیت‌های بینایی بهبود یافته‌ی Gemini 3.0 Pro دستاوردهای قابل توجهی را در حوزه آموزش، به ویژه برای سوالات سنگین نموداری مربوط به ریاضی و علوم، به همراه داشته است. این نرم‌افزار با موفقیت طیف کاملی از مسائل استدلال چندوجهی را که از دوره راهنمایی تا دوره‌های آموزشی پس از دبیرستان یافت می‌شوند، برطرف می‌کند. این شامل پازل‌های استدلال بصری (مانند ریاضی کانگورو ) و نمودارهای پیچیده شیمی و فیزیک می‌شود.

هوش بصری Gemini 3 همچنین قابلیت‌های تولیدی Nano Banana Pro را تقویت می‌کند . به عنوان مثال، این مدل با ترکیب استدلال پیشرفته با تولید دقیق، می‌تواند به کاربران کمک کند تا دقیقاً تشخیص دهند که در یک مسئله تکالیف کجا اشتباه کرده‌اند.

تصویری که ورودی یک معادله دست‌نویس را در سمت چپ و تصحیح مدل را که در بالای معادله دست‌نویس حاشیه‌نویسی شده است، نشان می‌دهد

سوال: «این عکسی از تلاش من برای انجام تکالیف است. لطفاً مراحل من را بررسی کنید و به من بگویید کجا اشتباه کردم. به جای توضیح در متن، به صورت بصری روی تصویر من را نشان دهید.» (توجه: کار دانش‌آموز با رنگ آبی نشان داده شده است؛ اصلاحات مدل با رنگ قرمز نشان داده شده است). [ به سوال در Google AI Studio مراجعه کنید ]

تصویربرداری پزشکی و زیست پزشکی

جمینی ۳ پرو ^۱ این مدل به عنوان توانمندترین مدل عمومی ما برای درک تصاویر پزشکی و زیست‌پزشکی، به عملکرد پیشرفته‌ای در معیارهای عمومی اصلی در MedXpertQA-MM (یک آزمون استدلال پزشکی دشوار در سطح متخصصان)، VQA-RAD (پرسش و پاسخ تصاویر رادیولوژی) و MicroVQA (معیارهای استدلال چندوجهی برای تحقیقات بیولوژیکی مبتنی بر میکروسکوپ) دست یافته است.

تصویری که تصویر رنگ‌آمیزی شده قشر کلیه را در سمت چپ و مدل و پاسخ را در سمت راست نشان می‌دهد

تصویر ورودی از MicroVQA – معیاری برای تحقیقات بیولوژیکی مبتنی بر میکروسکوپ

حقوق و امور مالی

درک پیشرفته اسناد Gemini 3 Pro به متخصصان امور مالی و حقوقی کمک می‌کند تا با گردش‌های کاری بسیار پیچیده مقابله کنند. پلتفرم‌های مالی می‌توانند گزارش‌های انبوه پر از نمودار و جدول را به طور یکپارچه تجزیه و تحلیل کنند، در حالی که پلتفرم‌های حقوقی از استدلال اسنادی پیچیده این مدل بهره‌مند می‌شوند.

«ما از پیشرفت‌های Gemini 3 در استدلال حقوقی پیشرفته، به ویژه توانایی آن در درک و ویرایش قراردادهایی با خطوط قرمز پیچیده، تحت تأثیر قرار گرفته‌ایم. این امر به ویژه برای مشتریان داخلی ما به دلیل حجم بالا و تنوع قراردادهای حقوقی که آنها مدیریت می‌کنند، ارزشمند بوده است.»

هاروی.ای.آی

۶. کنترل وضوح رسانه

Gemini 3 Pro با حفظ نسبت ابعاد تصاویر، نحوه پردازش ورودی‌های بصری را بهبود می‌بخشد. این امر باعث بهبود قابل توجه کیفیت در سراسر صفحه می‌شود.

علاوه بر این، توسعه‌دهندگان از طریق پارامتر جدید media_resolution کنترل دقیقی بر عملکرد و هزینه به دست می‌آورند . این به شما امکان می‌دهد تا میزان استفاده از توکن‌های بصری را تنظیم کنید تا وفاداری را در برابر مصرف متعادل کنید:

وضوح بالا: برای کارهایی که نیاز به جزئیات دقیق دارند، مانند OCR فشرده یا درک اسناد پیچیده، دقت را به حداکثر می‌رساند.
وضوح پایین: برای هزینه و تأخیر در کارهای ساده‌تر، مانند تشخیص صحنه عمومی یا کارهای با زمینه طولانی، بهینه می‌شود.

برای توصیه‌های خاص، به راهنمای مستندات Gemini 3.0 ما مراجعه کنید .