مدل زبانی کوچک
مدلهای زبانی کوچک[الف] یا مدلهای زبانی فشرده[ب] نوعی از انواع مدلهای زبانی هوش مصنوعی هستند که برای پردازش زبانهای طبیعی انسانی، از جمله تولید زبان و متن، طراحی شدهاند. این مدلها از نظر مقیاس و دامنه، کوچکتر از مدلهای زبانی بزرگ هستند.
بهطور معمول، تعداد پارامترهای آموزشی یک مدل زبانی «بزرگ» در حد صدها میلیارد است و برخی از مدلها حتی از یک تریلیون پارامتر نیز فراتر میروند. اندازه یک مدل زبانی بزرگ بسیار عظیم است، زیرا حاوی حجم زیادی از اطلاعات است که به آن اجازه میدهد محتوای بهتری تولید کند. با این حال، این امر به توان محاسباتی بسیار عظیمی نیاز دارد و همین موضوع باعث میشود که آموزش یک مدل زبانی بزرگ تنها با استفاده از یک رایانه شخصی و یک واحد پردازش گرافیکی برای یک فرد عملاً غیرممکن باشد.
در مقابل، مدلهای زبانی کوچک از تعداد پارامترهای بسیار کمتری استفاده میکنند که معمولاً از چند هزار تا چند صد میلیون متغیر است. این موضوع آموزش و میزبانی آنها را در محیطهایی با منابع محدود، مانند یک رایانه شخصی یا حتی یک دستگاه تلفن همراه، امکانپذیرتر میکند.[۱][۲][۳][۴]
بیشتر مدلهای زبانی کوچک معاصر (دهه ۲۰۲۰) از همان معماری مدلهای زبانی بزرگ استفاده میکنند، اما با تعداد پارامتر کمتر و گاهی دقت محاسباتی پایینتر. کاهش تعداد پارامترها از طریق ترکیبی از تقطیر دانش و هرس کردن انجام میشود. دقت محاسباتی نیز میتواند با کوانتیزهسازی کاهش یابد. پژوهشها و روشهایی که برای مدلهای زبانی بزرگ توسعه داده میشوند، عمدتاً به مدلهای زبانی کوچک نیز قابل انتقال هستند؛ به طوری که هرسسازی و کوانتیزهسازی برای افزایش سرعت مدلهای زبانی بزرگ نیز بهطور گسترده مورد استفاده قرار میگیرند.
مدلها
برخی از مدلهای شاخص عبارتاند از:
- کمتر از ۱ میلیارد پارامتر:
- Llama-Prompt-Guard-2-22M (تشخیص تزریق پرامپت و جیلبریککردن، مبتنی بر DeBERTa-xsmall)،
- SmolLM2-135M،
- SmolLM2-360M
- ۱ تا ۴ میلیارد پارامتر:
- Llama3.2-1B،
- Qwen2.5-1.5B،
- DeepSeek-R1-1.5B،
- SmolLM2-1.7B،
- SmolVLM-2.25B،
- Phi-3.5-Mini-3.8B،
- Phi-4-Mini-3.8B،
- Gemma3-4B؛ مدلهایی با وزنهای بسته شامل جمینای نانو هستند
- ۴ تا ۱۴ میلیارد پارامتر:
- Mistral 7B،
- Gemma 9B،
- Phi-4 14B
مدل Phi-4 14B در بهترین حالت تنها بهطور حاشیهای «کوچک» محسوب میشود، اما مایکروسافت آن را بهعنوان یک مدل کوچک بازاریابی میکند.
مدلهای زبانی با مجوعه داده پیشآموزش کوچک
سامانههای سنتی هوش مصنوعی زبانی به رایانههای بسیار قدرتمند و حجم عظیمی از داده نیاز دارند. در این میان، پیشآموزش اهمیت زیادی دارد و حتی مدلهای بسیار کوچک نیز با پیشآموزش مناسب، بهبودهای عملکرد قابلتوجهی نشان میدهند و عملکرد آنها با افزایش اندازه مجموعهداده پیشآموزش افزایش مییابد. دقت طبقهبندی زمانی بهبود پیدا میکند که مجموعهدادههای پیشآموزش و آزمون دارای نشانههای واژگانی مشابهی باشند. معماریهای کمعمق میتوانند از طریق یادگیری مشارکتی، عملکرد مدلهای عمیق را بازتولید کنند.[۵]
جستارهای وابسته
یادداشتها
مراجع
- ↑ Rina Diane Caballar (31 October 2024). "What are small language models?". IBM.
- ↑ John Johnson (25 February 2025). "Small Language Models (SLM): A Comprehensive Overview". Huggingface.
- ↑ "SLM (Small Language Model) with your Data". Microsoft. 11 July 2024.
- ↑ Ciaramella, Alberto; Ciaramella, Marco (2024). Introduction to Artificial Intelligence: from data analysis to generative AI. Intellisemantic Editions. ISBN 9788894787603.
- ↑ Gross, Ronit D.; Tzach, Yarden; Halevi, Tal; Koresh, Ella; Kanter, Ido (2025). "Tiny language models". arXiv:2507.14871 [cs.CL].