در تاریخ 11 می، شرکت هوش مصنوعی مینگشی (Mingshi Intelligence) با همکاری دانشگاه چینهوا (Tsinghua University) و جامعه متنباز OpenBMB، رسماً مدل بزرگ چندوجهی جدید لبهای MiniCPM-V4.6 را معرفی کرد. این مدل «سبکوزن» با تنها 1.3 میلیارد پارامتر، از طریق چگالی هوشمند فوقالعاده و سازگاری با پلتفرمهای مختلف، با موفقیت سقف عملکرد مدلهای بزرگتر را به چالش کشیده و کاربرد عملی هوش مصنوعی لبهای را تسریع بخشیده است.
1. اوج عملکرد: «عملکرد فوقالعاده» با 1.3 میلیارد پارامتر
MiniCPM-V4.6 دو نسخه Instruct و Thinking را معرفی کرده است که در ارزیابیهای مختلف، قابلیتهای استدلال و درک قابل توجهی را در مقایسه با مدلهای هماندازه خود نشان میدهد:
- رهبری جهانی: در لیست Artificial Analysis (AA)، مدل MiniCPM-V4.6 امتیاز عالی 13 را کسب کرد. این مدل نه تنها به طور قابل توجهی از رقبای هماندازه خود (مانند Qwen3.5-0.8B از Alibaba و Gemma4-E2B-it از Google) پیشی گرفت، بلکه به عملکرد مدلهای با پارامترهای بزرگتر مانند Qwen3.5-2B نیز نزدیک شد و به یک معیار عملکرد در میان مدلهای سطح 1 میلیارد پارامتر تبدیل گشت.
- قابلیتهای پیشرفته: چه در درک عمومی تصویر-متن، استدلال پیچیده ریاضی STEM، یا OCR اسناد چالشبرانگیز و درک زمانی ویدئو، این مدل سطح بالایی از هوش را به نمایش میگذارد. به ویژه در استدلال چند تصویری و سرکوب توهم، نسخه Thinking عملکرد فوقالعادهای دارد.
2. انقلاب کارایی: «چگالی هوشمند» فوقالعاده در لبه
برای رفع «اضطراب حافظه» در استقرار لبهای، MiniCPM-V4.6 بهینهسازی عمیقی در سرعت استنتاج و مصرف منابع داشته است:
- آستانه سریع: نیاز به حافظه به 6 گیگابایت کاهش یافته است که به گوشیهای هوشمند، رایانههای شخصی و دستگاههای خانه هوشمند اصلی اجازه میدهد به راحتی اجرا شوند.
- کارایی استنتاج: بر اساس vLLM، توان عملیاتی استنتاج به 1.5 برابر رقبا میرسد؛ هنگام پردازش یک تصویر بزرگ با وضوح فوقالعاده 3136² در لبه، تأخیر اولین پاسخ تنها 75.7 میلیثانیه است که 2.2 برابر سریعتر از رقباست.
- قابلیت توان عملیاتی: یک کارت گرافیک میتواند قابلیت تولید متن 7013 توکن بر ثانیه و ظرفیت پردازش تصویر 1344² با 54.79 تصویر در ثانیه را با عملکرد کارایی چشمگیر به دست آورد.
3. هسته فنی: LLaVA-UHD v4 سربار را کاهش میدهد
دلیل اینکه این مدل میتواند «سبک» باشد، به دلیل فناوری LLaVA-UHD v4 است که به طور مشترک توسط هوش مصنوعی مینگشی و دانشگاه چینهوا توسعه یافته است:
- بازسازی رمزگذاری: با بازسازی رمزگذاری تصویر ViT و ماژولهای فشردهسازی سطحی، سربار رمزگذاری تصویر 50% و عملیات ممیز شناور با وضوح بالا 55.8% کاهش مییابد.
- مکانیزم فشردهسازی ترکیبی: این مدل به طور نوآورانه از فشردهسازی توکن ترکیبی 4x/16x پشتیبانی میکند که امکان جابجایی انعطافپذیر بین «اولویت عملکرد» و «اولویت سرعت» را فراهم میآورد. این فناوری قبلاً در مدل بزرگ توصیهگر OneRec شرکت Kuaishou تأیید شده و از درخواستهای ترافیکی عظیم پشتیبانی میکند.
4. پیادهسازی اکولوژیکی: از آزمایشگاه تا خط مقدم صنعت
متنباز بودن MiniCPM-V4.6 نه تنها یک پیروزی فنی، بلکه یک پیروزی اکولوژیکی نیز هست:
- توسعه آسان: این مدل به طور عمیقی با فریمورکهای تنظیم دقیق (micro-tuning) مانند ms-swift و LLaMA-Factory سازگار است و به توسعهدهندگان اجازه میدهد با یک GPU RTX4090، تنظیمات کامل را انجام دهند.
- سازگاری کامل با پلتفرم: این مدل از فریمورکهای اصلی مانند vLLM و Ollama پشتیبانی میکند و نسخههای آزمایشی را برای iOS، Android و HarmonyOS ارائه میدهد که هوش مصنوعی را قادر میسازد به اشکال بیشتری از پایانههای سختافزاری دست یابد.
- توانمندسازی پیادهسازی: در حال حاضر، این سری در چندین زمینه مانند خودرو، رایانههای شخصی، خانه هوشمند و بازرسی صنعتی پیادهسازی شده است، با شرکایی از جمله شرکتهای پیشرو صنعتی مانند Lenovo، Geely، SAIC Volkswagen، Xiaomi و OPPO.
