MiniCPM-V4.6: مدل 1.3B اوج فناوری چندوجهی لبه را بازتعریف می‌کند

اخبار هوش مصنوعیزمان: ۶ خرداد ۱۴۰۵مطالعه: 5 دقیقه مطالعه4 بازدید

در 11 می، هوش مصنوعی مینگشی با همکاری دانشگاه چینهوا و جامعه متن‌باز OpenBMB، مدل بزرگ چندوجهی جدید لبه‌ای MiniCPM-V4.6 را رسماً معرفی کرد. این مدل «سبک‌وزن» با تنها 1.3 میلیارد پارامتر، با موفقیت عملکرد مدل‌های بزرگ‌تر را به چالش کشیده است.

در تاریخ 11 می، شرکت هوش مصنوعی مینگشی (Mingshi Intelligence) با همکاری دانشگاه چینهوا (Tsinghua University) و جامعه متن‌باز OpenBMB، رسماً مدل بزرگ چندوجهی جدید لبه‌ای MiniCPM-V4.6 را معرفی کرد. این مدل «سبک‌وزن» با تنها 1.3 میلیارد پارامتر، از طریق چگالی هوشمند فوق‌العاده و سازگاری با پلتفرم‌های مختلف، با موفقیت سقف عملکرد مدل‌های بزرگ‌تر را به چالش کشیده و کاربرد عملی هوش مصنوعی لبه‌ای را تسریع بخشیده است.

1. اوج عملکرد: «عملکرد فوق‌العاده» با 1.3 میلیارد پارامتر

MiniCPM-V4.6 دو نسخه Instruct و Thinking را معرفی کرده است که در ارزیابی‌های مختلف، قابلیت‌های استدلال و درک قابل توجهی را در مقایسه با مدل‌های هم‌اندازه خود نشان می‌دهد:

رهبری جهانی: در لیست Artificial Analysis (AA)، مدل MiniCPM-V4.6 امتیاز عالی 13 را کسب کرد. این مدل نه تنها به طور قابل توجهی از رقبای هم‌اندازه خود (مانند Qwen3.5-0.8B از Alibaba و Gemma4-E2B-it از Google) پیشی گرفت، بلکه به عملکرد مدل‌های با پارامترهای بزرگ‌تر مانند Qwen3.5-2B نیز نزدیک شد و به یک معیار عملکرد در میان مدل‌های سطح 1 میلیارد پارامتر تبدیل گشت.
قابلیت‌های پیشرفته: چه در درک عمومی تصویر-متن، استدلال پیچیده ریاضی STEM، یا OCR اسناد چالش‌برانگیز و درک زمانی ویدئو، این مدل سطح بالایی از هوش را به نمایش می‌گذارد. به ویژه در استدلال چند تصویری و سرکوب توهم، نسخه Thinking عملکرد فوق‌العاده‌ای دارد.

2. انقلاب کارایی: «چگالی هوشمند» فوق‌العاده در لبه

برای رفع «اضطراب حافظه» در استقرار لبه‌ای، MiniCPM-V4.6 بهینه‌سازی عمیقی در سرعت استنتاج و مصرف منابع داشته است:

آستانه سریع: نیاز به حافظه به 6 گیگابایت کاهش یافته است که به گوشی‌های هوشمند، رایانه‌های شخصی و دستگاه‌های خانه هوشمند اصلی اجازه می‌دهد به راحتی اجرا شوند.
کارایی استنتاج: بر اساس vLLM، توان عملیاتی استنتاج به 1.5 برابر رقبا می‌رسد؛ هنگام پردازش یک تصویر بزرگ با وضوح فوق‌العاده 3136² در لبه، تأخیر اولین پاسخ تنها 75.7 میلی‌ثانیه است که 2.2 برابر سریع‌تر از رقباست.
قابلیت توان عملیاتی: یک کارت گرافیک می‌تواند قابلیت تولید متن 7013 توکن بر ثانیه و ظرفیت پردازش تصویر 1344² با 54.79 تصویر در ثانیه را با عملکرد کارایی چشمگیر به دست آورد.

3. هسته فنی: LLaVA-UHD v4 سربار را کاهش می‌دهد

دلیل اینکه این مدل می‌تواند «سبک» باشد، به دلیل فناوری LLaVA-UHD v4 است که به طور مشترک توسط هوش مصنوعی مینگشی و دانشگاه چینهوا توسعه یافته است:

بازسازی رمزگذاری: با بازسازی رمزگذاری تصویر ViT و ماژول‌های فشرده‌سازی سطحی، سربار رمزگذاری تصویر 50% و عملیات ممیز شناور با وضوح بالا 55.8% کاهش می‌یابد.
مکانیزم فشرده‌سازی ترکیبی: این مدل به طور نوآورانه از فشرده‌سازی توکن ترکیبی 4x/16x پشتیبانی می‌کند که امکان جابجایی انعطاف‌پذیر بین «اولویت عملکرد» و «اولویت سرعت» را فراهم می‌آورد. این فناوری قبلاً در مدل بزرگ توصیه‌گر OneRec شرکت Kuaishou تأیید شده و از درخواست‌های ترافیکی عظیم پشتیبانی می‌کند.

4. پیاده‌سازی اکولوژیکی: از آزمایشگاه تا خط مقدم صنعت

متن‌باز بودن MiniCPM-V4.6 نه تنها یک پیروزی فنی، بلکه یک پیروزی اکولوژیکی نیز هست:

توسعه آسان: این مدل به طور عمیقی با فریم‌ورک‌های تنظیم دقیق (micro-tuning) مانند ms-swift و LLaMA-Factory سازگار است و به توسعه‌دهندگان اجازه می‌دهد با یک GPU RTX4090، تنظیمات کامل را انجام دهند.
سازگاری کامل با پلتفرم: این مدل از فریم‌ورک‌های اصلی مانند vLLM و Ollama پشتیبانی می‌کند و نسخه‌های آزمایشی را برای iOS، Android و HarmonyOS ارائه می‌دهد که هوش مصنوعی را قادر می‌سازد به اشکال بیشتری از پایانه‌های سخت‌افزاری دست یابد.
توانمندسازی پیاده‌سازی: در حال حاضر، این سری در چندین زمینه مانند خودرو، رایانه‌های شخصی، خانه هوشمند و بازرسی صنعتی پیاده‌سازی شده است، با شرکایی از جمله شرکت‌های پیشرو صنعتی مانند Lenovo، Geely، SAIC Volkswagen، Xiaomi و OPPO.