ام‌ام‌ال‌یو

در هوش مصنوعی، اندازه‌گیری فهم زبان چند وظیفه‌ای بزرگ (به انگلیسی: Measuring Massive Multitask Language Understanding) با به‌طور خلاصه شده ام‌ام‌ال‌یو (به انگلیسی: MMLU) معیاری برای محک و ارزیابی قابلیت‌های مدل‌های زبانی بزرگ است.

این معیار حدود ۱۶۰۰۰ سؤال چند گزینه ای دارد که ۵۷ موضوع دانشگاهی از جمله ریاضیات، فلسفه، حقوق و پزشکی را شامل می‌شود. این ارزیابی یکی از رایج‌ترین معیارهای مورد استفاده برای مقایسه قابلیت‌های مدل‌های زبانی بزرگ است که تا ژوئیه ۲۰۲۴ بیش از ۱۰۰ میلیون بارگیری داشته است.

ام‌ام‌ال‌یو توسط دن هندریکس و تیمی از محققان در سال ۲۰۲۰ منتشر شد. ام‌ام‌ال‌یو به گونه‌ای طراحی شده که چالش‌برانگیزتر از معیارهای ارزیابی موجود در دیگر معیارها باشد. در زمان انتشار ام‌ام‌ال‌یو، اکثر مدل‌های زبانی موجود در حدود سطح شانس تصادفی (۲۵٪) عمل می‌کردند که بهترین عملکرد را مدل جی‌پی‌تی ۳ داشت با دقت ۴۳٫۹٪. توسعه دهندگان ام‌ام‌ال‌یو تخمین می‌زنند که کارشناسان حوزه انسانی به دقت حدود ۸۹٫۸ درصد دست می‌یابند. تا سال ۲۰۲۴، برخی از قدرتمندترین مدل‌های زبان مانند اوپن‌ای‌آی او۱، جمینای و کلاد ۳ نمرات حدود ۹۰ درصد را دریافت کرده‌اند.^[۱]^[۲]

جدول رده‌بندی


شرکت	مدل زبانی بزرگ	امتیاز ام‌ام‌ال‌یو
اوپن‌ای‌آی	اوپن‌ای‌آی او۱	90.8^[۱]
Anthropic	Claude 3.5 Sonnet	۸۸٫۷
متا	Llama-3.1 405B	۸۸٫۶
ایکس‌ای‌آی	Grok-2	۸۷٫۵
Anthropic	Claude 3 Opus	۸۶٫۸
متا	Llama-3.1 70B	۸۶٫۰
گوگل	Gemini-1.5 Pro	۸۵٫۹
Inflection	Inflection-2.5	۸۵٫۵
Mistral	Mistral Large 2	۸۴٫۰
Reka	Reka Core	۸۳٫۲
AI21	Jamba-1.5 Large	۸۱٫۲

منابع

1 2 OpenAI o1 System Card. OpenAI. p. 33. Retrieved 13 September 2024.
↑ "Multi-task Language Understanding on MMLU | Leaderboard". Papers with Code (به انگلیسی). Retrieved 2024-10-10.

مشارکت‌کنندگان ویکی‌پدیا. «MMLU». در دانشنامهٔ ویکی‌پدیای انگلیسی، بازبینی‌شده در ۲۴ اکتبر ۲۰۲۴.

[:0-1] 1 2 OpenAI o1 System Card. OpenAI. p. 33. Retrieved 13 September 2024.

[2] "Multi-task Language Understanding on MMLU | Leaderboard". Papers with Code (به انگلیسی). Retrieved 2024-10-10.

[۱]

[۲]