ام‌ام‌ال‌یو

در هوش مصنوعی، اندازه‌گیری فهم زبان چند وظیفه‌ای بزرگ (به انگلیسی: Measuring Massive Multitask Language Understanding) با به‌طور خلاصه شده ام‌ام‌ال‌یو (به انگلیسی: MMLU) معیاری برای محک و ارزیابی قابلیت‌های مدل‌های زبانی بزرگ است.

این معیار حدود ۱۶۰۰۰ سؤال چند گزینه ای دارد که ۵۷ موضوع دانشگاهی از جمله ریاضیات، فلسفه، حقوق و پزشکی را شامل می‌شود. این ارزیابی یکی از رایج‌ترین معیارهای مورد استفاده برای مقایسه قابلیت‌های مدل‌های زبانی بزرگ است که تا ژوئیه ۲۰۲۴ بیش از ۱۰۰ میلیون بارگیری داشته است.

ام‌ام‌ال‌یو توسط دن هندریکس و تیمی از محققان در سال ۲۰۲۰ منتشر شد. ام‌ام‌ال‌یو به گونه‌ای طراحی شده که چالش‌برانگیزتر از معیارهای ارزیابی موجود در دیگر معیارها باشد. در زمان انتشار ام‌ام‌ال‌یو، اکثر مدل‌های زبانی موجود در حدود سطح شانس تصادفی (۲۵٪) عمل می‌کردند که بهترین عملکرد را مدل جی‌پی‌تی ۳ داشت با دقت ۴۳٫۹٪. توسعه دهندگان ام‌ام‌ال‌یو تخمین می‌زنند که کارشناسان حوزه انسانی به دقت حدود ۸۹٫۸ درصد دست می‌یابند. تا سال ۲۰۲۴، برخی از قدرتمندترین مدل‌های زبان مانند اوپن‌ای‌آی او۱، جمینای و کلاد ۳ نمرات حدود ۹۰ درصد را دریافت کرده‌اند.[۱][۲]

جدول رده‌بندی

شرکتمدل زبانی بزرگامتیاز ام‌ام‌ال‌یو
اوپن‌ای‌آیاوپن‌ای‌آی او۱90.8[۱]
AnthropicClaude 3.5 Sonnet۸۸٫۷
متاLlama-3.1 405B۸۸٫۶
ایکس‌ای‌آیGrok-2۸۷٫۵
AnthropicClaude 3 Opus۸۶٫۸
متاLlama-3.1 70B۸۶٫۰
گوگلGemini-1.5 Pro۸۵٫۹
InflectionInflection-2.5۸۵٫۵
MistralMistral Large 2۸۴٫۰
RekaReka Core۸۳٫۲
AI21Jamba-1.5 Large۸۱٫۲

منابع

  1. 1 2 OpenAI o1 System Card. OpenAI. p. 33. Retrieved 13 September 2024.
  2. "Multi-task Language Understanding on MMLU | Leaderboard". Papers with Code (به انگلیسی). Retrieved 2024-10-10.