
پرسشی در عین حال جذاب برای مرز علم و ترسناک برای همه انسان ها، در این بخش به یکی از جذاب ترین ساختار های آزمون مدل های جدید هوش مصنوعی در جهان می پردازیم.
همانطور که هر چند وقت با خبر رونمایی از یک مدل هوش مصنوعی جدید، با بررسی نمودار های مقایسه آن مدل با دیگر مدل ها، برایمان سوال پیش می آید که دقیقاً این مدل های زبانی بزرگ (LLM) را با چه معیار یا مقیاسی می سنجند که ما می شنویم باهوش تر از دکترا، استاد مسائل علمی و مقالات و ..
موضوع به آزمون ها یا رتبه بندی ها بیاییم بهتر بگیم بنچمارک ها برمیگرده و توی این بخش می خواییم یکی از جذاب ترین بنچمارک ها رو پوشش بدهیم.
اسمش که وایب فیلمای تم آخرالزمانی و زامبی و این حرفا می ده، ولی واقعیت امر هم یه کوچولو اشتباه هم نمیگه! سال 2020 تعداد کثیری متخصص و مهندس یک آزمونی طراحی می کنند که محوریت آن پرسش هایی از شیر مرغ تا جون آدمیزاد از علم باشد، آزمونی برای سنجش میزان انعطاف پذیری مدل ها، اما خب این سوالا دو دو تا چهارتا نیستند و به جای توضیح چند تا ازشون رو میزارم خودتون ببینید (به دلیل اصطلاحات سنگین علمی ترجمه سوالات صرفه نداشته!). و یک نکته مهم، برای حل این سوالات تلاض نکنید! براتون تو ادامه توضیح می دهم.

ummingbirds within Apodiformes uniquely have a bilaterally paired oval bone, a sesamoid embedded in the caudolateral portion of the expanded, cruciate aponeurosis of insertion of m. depressor caudae. How many paired tendons are supported by this sesamoid bone? Answer with a number.

Provide your answer for the electrocyclizations in the form of [nπ]-con or [nπ]-dis (where n is the number of π electrons involved, and whether it is conrotatory or disrotatory), and your answer for the cycloaddition in the form of [m+n] (where m and n are the number of atoms on each component).
خب… جالب بود مگه نه، حتماً برای حلشون تلاش کردید درسته؟ موضوع اینجاست که این پرسش ها اونقدر سنگین، حافظه محور و تحلیلی هستند که عملاً حلشون برای انسان های خیلی خاصی مطرح می شود و این دقیقاً هدف این آزمون هست.
موضوع وقتی جالب می شه که می توان هوش انسانی را با این آزمون با هوش مصنوعی به سنجش درآورد که اگر روزی این درصد به 100% رسید. بله، هوش مصنوعی از ما در همه زمینه ها باهوش تر است!
اون موقع است که این سوال از قالب فلسفه به حقیقت وارد می شود.
بیشتر توضیح نمی دهم و برایتان از جایگاه فعلی مدل ها در این آزمون می گذارم! البته قطعاً ماه به ماه در حال تغییر است!






