مدل زبانی کوچک

مدل‌های زبانی کوچک^[الف] یا مدل‌های زبانی فشرده^[ب] نوعی از انواع مدل‌های زبانی هوش مصنوعی هستند که برای پردازش زبان‌های طبیعی انسانی، از جمله تولید زبان و متن، طراحی شده‌اند. این مدل‌ها از نظر مقیاس و دامنه، کوچک‌تر از مدل‌های زبانی بزرگ هستند.

به‌طور معمول، تعداد پارامترهای آموزشی یک مدل زبانی «بزرگ» در حد صدها میلیارد است و برخی از مدل‌ها حتی از یک تریلیون پارامتر نیز فراتر می‌روند. اندازه یک مدل زبانی بزرگ بسیار عظیم است، زیرا حاوی حجم زیادی از اطلاعات است که به آن اجازه می‌دهد محتوای بهتری تولید کند. با این حال، این امر به توان محاسباتی بسیار عظیمی نیاز دارد و همین موضوع باعث می‌شود که آموزش یک مدل زبانی بزرگ تنها با استفاده از یک رایانه شخصی و یک واحد پردازش گرافیکی برای یک فرد عملاً غیرممکن باشد.

در مقابل، مدل‌های زبانی کوچک از تعداد پارامترهای بسیار کمتری استفاده می‌کنند که معمولاً از چند هزار تا چند صد میلیون متغیر است. این موضوع آموزش و میزبانی آن‌ها را در محیط‌هایی با منابع محدود، مانند یک رایانه شخصی یا حتی یک دستگاه تلفن همراه، امکان‌پذیرتر می‌کند.^[۱]^[۲]^[۳]^[۴]

بیشتر مدل‌های زبانی کوچک معاصر (دهه ۲۰۲۰) از همان معماری مدل‌های زبانی بزرگ استفاده می‌کنند، اما با تعداد پارامتر کمتر و گاهی دقت محاسباتی پایین‌تر. کاهش تعداد پارامترها از طریق ترکیبی از تقطیر دانش و هرس کردن انجام می‌شود. دقت محاسباتی نیز می‌تواند با کوانتیزه‌سازی کاهش یابد. پژوهش‌ها و روش‌هایی که برای مدل‌های زبانی بزرگ توسعه داده می‌شوند، عمدتاً به مدل‌های زبانی کوچک نیز قابل انتقال هستند؛ به طوری که هرس‌سازی و کوانتیزه‌سازی برای افزایش سرعت مدل‌های زبانی بزرگ نیز به‌طور گسترده مورد استفاده قرار می‌گیرند.

مدل‌ها

برخی از مدل‌های شاخص عبارت‌اند از:

کمتر از ۱ میلیارد پارامتر:
- Llama-Prompt-Guard-2-22M (تشخیص تزریق پرامپت و جیلبریک‌کردن، مبتنی بر DeBERTa-xsmall)،
- SmolLM2-135M،
- SmolLM2-360M
۱ تا ۴ میلیارد پارامتر:
- Llama3.2-1B،
- Qwen2.5-1.5B،
- DeepSeek-R1-1.5B،
- SmolLM2-1.7B،
- SmolVLM-2.25B،
- Phi-3.5-Mini-3.8B،
- Phi-4-Mini-3.8B،
- Gemma3-4B؛ مدل‌هایی با وزن‌های بسته شامل جمینای نانو هستند
۴ تا ۱۴ میلیارد پارامتر:
- Mistral 7B،
- Gemma 9B،
- Phi-4 14B

مدل Phi-4 14B در بهترین حالت تنها به‌طور حاشیه‌ای «کوچک» محسوب می‌شود، اما مایکروسافت آن را به‌عنوان یک مدل کوچک بازاریابی می‌کند.

مدل‌های زبانی با مجوعه داده پیش‌آموزش کوچک

سامانه‌های سنتی هوش مصنوعی زبانی به رایانه‌های بسیار قدرتمند و حجم عظیمی از داده نیاز دارند. در این میان، پیش‌آموزش اهمیت زیادی دارد و حتی مدل‌های بسیار کوچک نیز با پیش‌آموزش مناسب، بهبودهای عملکرد قابل‌توجهی نشان می‌دهند و عملکرد آن‌ها با افزایش اندازه مجموعه‌داده پیش‌آموزش افزایش می‌یابد. دقت طبقه‌بندی زمانی بهبود پیدا می‌کند که مجموعه‌داده‌های پیش‌آموزش و آزمون دارای نشانه‌های واژگانی مشابهی باشند. معماری‌های کم‌عمق می‌توانند از طریق یادگیری مشارکتی، عملکرد مدل‌های عمیق را بازتولید کنند.^[۵]

جستارهای وابسته

رایانش لبه‌ای

یادداشت‌ها

↑ Small language models
↑ compact language models

مراجع

↑ Rina Diane Caballar (31 October 2024). "What are small language models?". IBM.
↑ John Johnson (25 February 2025). "Small Language Models (SLM): A Comprehensive Overview". Huggingface.
↑ "SLM (Small Language Model) with your Data". Microsoft. 11 July 2024.
↑ Ciaramella, Alberto; Ciaramella, Marco (2024). Introduction to Artificial Intelligence: from data analysis to generative AI. Intellisemantic Editions. ISBN 9788894787603.
↑ Gross, Ronit D.; Tzach, Yarden; Halevi, Tal; Koresh, Ella; Kanter, Ido (2025). "Tiny language models". arXiv:2507.14871 [cs.CL].

[1] Small language models

[2] t language models

[3] Rina Diane Caballar (31 October 2024). "What are small language models?". IBM.

[jjokah-4] John Johnson (25 February 2025). "Small Language Models (SLM): A Comprehensive Overview". Huggingface.

[5] "SLM (Small Language Model) with your Data". Microsoft. 11 July 2024.

[Ciaramella-6] Ciaramella, Alberto; Ciaramella, Marco (2024). Introduction to Artificial Intelligence: from data analysis to generative AI. Intellisemantic Editions. ISBN 9788894787603.

[Gross2025-TinyLM-7] Gross, Ronit D.; Tzach, Yarden; Halevi, Tal; Koresh, Ella; Kanter, Ido (2025). "Tiny language models". arXiv:2507.14871 [cs.CL].

[الف]

[ب]

[۱]

[۲]

[۳]

[۴]

[۵]