
به مقاله گوش دهید
جمینی ۳ پرو نشاندهندهی جهشی نسلی از تشخیص ساده به استدلال بصری و فضایی واقعی است. این مدل، توانمندترین مدل چندوجهی ما تا به امروز است که عملکرد پیشرفتهای را در درک اسناد، فضا، صفحه نمایش و ویدئو ارائه میدهد.
این مدل، در معیارهای بینایی مانند MMMU Pro و Video MMMU برای استدلال بصری پیچیده، و همچنین معیارهای خاص هر مورد استفاده در درک سند، مکان، صفحه نمایش و ویدیوی طولانی، به سطوح جدیدی دست مییابد.

۱. درک سند
اسناد دنیای واقعی، نامرتب، بدون ساختار و دشوار برای تجزیه و تحلیل هستند – اغلب پر از تصاویر درهمتنیده، متن دستنویس ناخوانا، جداول تو در تو، نمادهای ریاضی پیچیده و طرحبندیهای غیرخطی. Gemini 3 Pro جهشی بزرگ در این حوزه محسوب میشود و در کل خط پردازش اسناد – از تشخیص کاراکتر نوری (OCR) بسیار دقیق گرفته تا استدلال بصری پیچیده – عملکرد فوقالعادهای دارد.
ادراک هوشمند
برای درک واقعی یک سند، یک مدل باید متن، جداول، فرمولهای ریاضی، شکلها و نمودارها را صرف نظر از نویز یا فرمت، به طور دقیق شناسایی و تشخیص دهد.
یک قابلیت اساسی «رندر کردن» است – توانایی مهندسی معکوس یک سند بصری و تبدیل آن به کد ساختاریافته (HTML، LaTeX، Markdown) که آن را از نو میسازد. همانطور که در زیر نشان داده شده است، Gemini 3 درک دقیقی را در روشهای مختلف از جمله تبدیل یک لاگ تجاری قرن هجدهم به یک جدول پیچیده یا تبدیل یک تصویر خام با حاشیهنویسی ریاضی به کد دقیق LaTeX نشان میدهد.
استدلال پیچیده
کاربران میتوانند برای انجام استدلالهای پیچیده و چند مرحلهای در جداول و نمودارها – حتی در گزارشهای طولانی – به Gemini 3 تکیه کنند. در واقع، این مدل به طور قابل توجهی از مبنای انسانی در معیار CharXiv Reasoning (80.5٪) بهتر عمل میکند.
برای روشن شدن این موضوع، تصور کنید کاربری گزارش ۶۲ صفحهای « درآمد در ایالات متحده: ۲۰۲۲ » اداره سرشماری ایالات متحده را با این سوال تحلیل میکند: «تغییر درصد ۲۰۲۱-۲۰۲۲ در شاخص جینی برای «درآمد پولی» را در مقابل «درآمد پس از کسر مالیات» مقایسه کنید، و چه چیزی باعث واگرایی در معیار پس از کسر مالیات شده است، و از نظر «درآمد پولی»، آیا سهم پایینترین پنجک افزایش یا کاهش را نشان میدهد؟»
برای دیدن استدلال گام به گام مدل، تصاویر زیر را ورق بزنید.
۲. درک فضایی
جمینی ۳ پرو قویترین مدل درک فضایی ما تاکنون است. این ویژگی در کنار استدلال قوی آن، مدل را قادر میسازد تا جهان فیزیکی را درک کند.
- قابلیت اشارهگری: جمینی ۳ این قابلیت را دارد که با خروجی مختصات دقیق پیکسلی، به مکانهای خاص در تصاویر اشاره کند. توالیهایی از نقاط دوبعدی را میتوان برای انجام وظایف پیچیده، مانند تخمین حالتهای انسان یا انعکاس مسیرها در طول زمان، به هم متصل کرد.
- ارجاعات واژگان باز: Gemini 3 اشیاء و هدف آنها را با استفاده از واژگان باز شناسایی میکند. مستقیمترین کاربرد آن رباتیک است: کاربر میتواند از یک ربات بخواهد برنامههای مبتنی بر فضا تولید کند، مانند «با توجه به این میز بههمریخته، طرحی برای نحوه مرتبسازی زبالهها ارائه دهید». این امر همچنین به دستگاههای AR/XR نیز گسترش مییابد، جایی که کاربر میتواند از یک دستیار هوش مصنوعی بخواهد «طبق دفترچه راهنمای کاربر به پیچ اشاره کند».
۳. درک صفحه نمایش
درک مکانی Gemini 3.0 Pro واقعاً از طریق درک صفحه نمایش آن از صفحات سیستم عامل دسکتاپ و موبایل میدرخشد. این قابلیت اطمینان به عاملهای استفاده از کامپیوتر کمک میکند تا به اندازه کافی قوی باشند تا وظایف تکراری را خودکار کنند. قابلیتهای درک رابط کاربری همچنین میتوانند وظایفی مانند آزمایش QA، آشنایی کاربر با سیستم و تجزیه و تحلیل UX را فعال کنند. نسخه آزمایشی استفاده از کامپیوتر زیر، درک و کلیک مدل را با دقت بالا نشان میدهد.

وظیفه: با استفاده از ویژگی جدول محوری، کل درآمد هر نوع تبلیغ را در یک برگه جدید (برگه ۲) با نامهای تبلیغ به عنوان سرستونها خلاصه کنید.
۴. درک ویدیو
جمینی ۳ پرو جهش بزرگی در درک هوش مصنوعی از ویدیو، پیچیدهترین فرمت دادهای که با آن تعامل داریم، برداشته است. این فرمت متراکم، پویا، چندوجهی و غنی از محتوا است.
- درک نرخ فریم بالا: ما مدل را بهینه کردهایم تا در درک اقدامات سریع هنگام نمونهبرداری با سرعت بیش از ۱ فریم در ثانیه، بسیار قویتر باشد. Gemini 3 Pro میتواند جزئیات سریع را ثبت کند – که برای کارهایی مانند تجزیه و تحلیل مکانیک ضربه گلف حیاتی است.
با پردازش ویدیو با سرعت 10 فریم در ثانیه – 10 برابر سرعت پیشفرض – Gemini 3 Pro هر نوسان و تغییر وزن را ثبت میکند و بینش عمیقی از مکانیک بازیکن به دست میدهد.
۲. استدلال ویدیویی با حالت «تفکر»: ما حالت «تفکر» را ارتقا دادیم تا از تشخیص اشیا فراتر رفته و به سمت استدلال ویدیویی واقعی حرکت کند. این مدل اکنون میتواند روابط پیچیده علت و معلولی را در طول زمان بهتر ردیابی کند. به جای اینکه فقط آنچه اتفاق میافتد را شناسایی کند، دلیل وقوع آن را درک میکند .
۳. تبدیل ویدیوهای طولانی به عمل: Gemini 3 Pro شکاف بین ویدیو و کد را پر میکند. این نرمافزار میتواند دانش را از محتوای طولانی استخراج کرده و بلافاصله آن را به برنامههای کاربردی یا کد ساختاریافته تبدیل کند.
۵. کاربردهای دنیای واقعی
در اینجا چند روش وجود دارد که فکر میکنیم زمینههای مختلف از قابلیتهای Gemini 3 بهرهمند خواهند شد.
آموزش
قابلیتهای بینایی بهبود یافتهی Gemini 3.0 Pro دستاوردهای قابل توجهی را در حوزه آموزش، به ویژه برای سوالات سنگین نموداری مربوط به ریاضی و علوم، به همراه داشته است. این نرمافزار با موفقیت طیف کاملی از مسائل استدلال چندوجهی را که از دوره راهنمایی تا دورههای آموزشی پس از دبیرستان یافت میشوند، برطرف میکند. این شامل پازلهای استدلال بصری (مانند ریاضی کانگورو ) و نمودارهای پیچیده شیمی و فیزیک میشود.
هوش بصری Gemini 3 همچنین قابلیتهای تولیدی Nano Banana Pro را تقویت میکند . به عنوان مثال، این مدل با ترکیب استدلال پیشرفته با تولید دقیق، میتواند به کاربران کمک کند تا دقیقاً تشخیص دهند که در یک مسئله تکالیف کجا اشتباه کردهاند.

سوال: «این عکسی از تلاش من برای انجام تکالیف است. لطفاً مراحل من را بررسی کنید و به من بگویید کجا اشتباه کردم. به جای توضیح در متن، به صورت بصری روی تصویر من را نشان دهید.» (توجه: کار دانشآموز با رنگ آبی نشان داده شده است؛ اصلاحات مدل با رنگ قرمز نشان داده شده است). [ به سوال در Google AI Studio مراجعه کنید ]
تصویربرداری پزشکی و زیست پزشکی
جمینی ۳ پرو ۱ این مدل به عنوان توانمندترین مدل عمومی ما برای درک تصاویر پزشکی و زیستپزشکی، به عملکرد پیشرفتهای در معیارهای عمومی اصلی در MedXpertQA-MM (یک آزمون استدلال پزشکی دشوار در سطح متخصصان)، VQA-RAD (پرسش و پاسخ تصاویر رادیولوژی) و MicroVQA (معیارهای استدلال چندوجهی برای تحقیقات بیولوژیکی مبتنی بر میکروسکوپ) دست یافته است.

تصویر ورودی از MicroVQA – معیاری برای تحقیقات بیولوژیکی مبتنی بر میکروسکوپ
حقوق و امور مالی
درک پیشرفته اسناد Gemini 3 Pro به متخصصان امور مالی و حقوقی کمک میکند تا با گردشهای کاری بسیار پیچیده مقابله کنند. پلتفرمهای مالی میتوانند گزارشهای انبوه پر از نمودار و جدول را به طور یکپارچه تجزیه و تحلیل کنند، در حالی که پلتفرمهای حقوقی از استدلال اسنادی پیچیده این مدل بهرهمند میشوند.
«ما از پیشرفتهای Gemini 3 در استدلال حقوقی پیشرفته، به ویژه توانایی آن در درک و ویرایش قراردادهایی با خطوط قرمز پیچیده، تحت تأثیر قرار گرفتهایم. این امر به ویژه برای مشتریان داخلی ما به دلیل حجم بالا و تنوع قراردادهای حقوقی که آنها مدیریت میکنند، ارزشمند بوده است.»
۶. کنترل وضوح رسانه
Gemini 3 Pro با حفظ نسبت ابعاد تصاویر، نحوه پردازش ورودیهای بصری را بهبود میبخشد. این امر باعث بهبود قابل توجه کیفیت در سراسر صفحه میشود.
علاوه بر این، توسعهدهندگان از طریق پارامتر جدید media_resolution کنترل دقیقی بر عملکرد و هزینه به دست میآورند . این به شما امکان میدهد تا میزان استفاده از توکنهای بصری را تنظیم کنید تا وفاداری را در برابر مصرف متعادل کنید:
- وضوح بالا: برای کارهایی که نیاز به جزئیات دقیق دارند، مانند OCR فشرده یا درک اسناد پیچیده، دقت را به حداکثر میرساند.
- وضوح پایین: برای هزینه و تأخیر در کارهای سادهتر، مانند تشخیص صحنه عمومی یا کارهای با زمینه طولانی، بهینه میشود.
برای توصیههای خاص، به راهنمای مستندات Gemini 3.0 ما مراجعه کنید .
با Gemini 3 Pro بسازید
ما مشتاقیم ببینیم با این قابلیتهای جدید چه چیزهایی میسازید. برای شروع، مستندات توسعهدهندگان ما را بررسی کنید یا همین امروز در Google AI Studio با مدل کار کنید .
| فروش مطمئن لپ تاپ استوک حسابداری، صنعتی و مهندسی









