ایکس‌ال‌نت

XLNet
نویسنده(های); اصلی	گوگل ای‌آی
انتشار اولیه	۱۹ June ۲۰۱۹
مخزن	https://github.com/zihangdai/xlnet/
نوع	مدل زبانی بزرگ; ترنسفورمر (یادگیری عمیق);
مجوز	پروانه آپاچی ۲٫۰

ایکس‌ال‌نت (به انگلیسی: XLNet) یک ترنسفورمر خودهمبسته است که به عنوان روش بهبود یافته نسبت به برت طراحی و معرفی شد. این مدل حداکثر دارای ۳۴۰ میلیون پارامتر است و بر روی ۳۳ میلیارد واژه آموزش داده شده‌است. ایکس‌ال‌نت در ۱۹ ژوئن ۲۰۱۹ تحت مجوز آپاچی ۲٫۰ منتشر شد.^[۱] این مدل در طیف گسترده‌ای از وظایف پردازش زبان طبیعی، از جمله مدل‌سازی زبان، پاسخ‌گویی به پرسش و استنتاج زبان طبیعی، به نتایج پیشرفته در زمان خود دست یافت.

ساختار

ایده اصلی ایکس‌ال‌نت این است که زبان را به صورت خودهمبسته و مشابه مدل‌های جی‌پی‌تی مدل‌سازی کند، اما در عین حال اجازه دهد که تمامی جایگشت‌های ممکن یک جمله نیز در نظر گرفته شوند.^[۲] به طور مشخص، جمله زیر را در نظر بگیرید:

سگ من بامزه است.

در مدل‌سازی زبانی خودهمبسته استاندارد، مدل وظیفه دارد با قرار دادن واژه‌های قبلی به عنوان زمینه موضوع کاری (به انگلیسی: context) احتمال هر واژه را پیش‌بینی کند:

احتمال توأم دنباله‌ای از واژه‌های $x_{1},\ldots ,x_{T}$ با استفاده از قاعده زنجیره‌ای به شکل زیر خواهد بود: $\Pr(x_{1},\ldots ,x_{T})=\Pr(x_{1})\Pr(x_{2}|x_{1})\Pr(x_{3}|x_{1},x_{2})\ldots \Pr(x_{T}|x_{1},\ldots ,x_{T-1}).$ برای مثال، جمله «سگ من بامزه است.» به صورت زیر تجزیه می‌شود: $\Pr({\text{My}},{\text{dog}},{\text{is}},{\text{cute}})=\Pr({\text{My}})\Pr({\text{dog}}|{\text{My}})\Pr({\text{is}}|{\text{My}},{\text{dog}})\Pr({\text{cute}}|{\text{My}},{\text{dog}},{\text{is}}).$ به صورت شماتیک، می‌توان این فرایند را به شکل زیر نوشت: ${\texttt {<MASK>}}{\texttt {<MASK>}}{\texttt {<MASK>}}{\texttt {<MASK>}}\to {\text{My }}{\texttt {<MASK>}}{\texttt {<MASK>}}{\texttt {<MASK>}}\to {\text{My dog }}{\texttt {<MASK>}}{\texttt {<MASK>}}\to {\text{My dog is }}{\texttt {<MASK>}}\to {\text{My dog is cute}}.$ با این حال، در اکس‌ال‌نت مدل ملزم است واژه‌ها را در یک ترتیب تصادفی تولیدشده پیش‌بینی کند. فرض کنید یک ترتیب تصادفی برابر با ۳۲۴۱ نمونه‌برداری شده باشد؛ در این صورت، مدل باید به صورت شماتیک وظیفه پیش‌بینی زیر را انجام دهد: ${\texttt {<MASK>}}{\texttt {<MASK>}}{\texttt {<MASK>}}{\texttt {<MASK>}}\to {\texttt {<MASK>}}{\texttt {<MASK>}}{\text{is }}{\texttt {<MASK>}}\to {\texttt {<MASK>}}{\text{dog is }}{\texttt {<MASK>}}\to {\texttt {<MASK>}}{\text{dog is cute}}\to {\text{My dog is cute}}$ با در نظر گرفتن تمامی جایگشت‌ها، اکس‌ال‌نت قادر است وابستگی‌های دوربردتر را بهتر ثبت کند و زمینه دوسویه واژه‌ها را به طور مؤثرتری مدل‌سازی نماید.

خود-توجهی دو-جریانی

برای پیاده‌سازی مدل‌سازی زبانی مبتنی بر جایگشت، ایکس‌ال‌نت از سازوکار «خود-توجهی دو-جریانی»^[الف] استفاده می‌کند. این دو جریان عبارت‌اند از:

جریان محتوا^[ب]: این جریان محتوای هر واژه را، مشابه خودتوجهی ماسک‌شده علیّتی استاندارد^[پ]، کُدگذاری می‌کند.
جریان پرسش^[ت]: این جریان محتوای هر واژه را در زمینه آنچه پیش‌تر آمده است کُدگذاری می‌کند. به طور دقیق‌تر، این جریان یک سازوکار توجه متقاطعِ ماسک‌شده^[ث] است که در آن، پرسش‌ها از جریان پرسش و همچنین جفت‌های کلید–مقدار از جریان محتوا گرفته می‌شوند.

جریان محتوا از ماسک علیّتی زیر استفاده می‌کند:

$M_{\text{causal}}={\begin{bmatrix}0&-\infty &-\infty &\dots &-\infty \\0&0&-\infty &\dots &-\infty \\0&0&0&\dots &-\infty \\\vdots &\vdots &\vdots &\ddots &\vdots \\0&0&0&\dots &0\end{bmatrix}}$

که توسط یک ماتریس جایگشت تصادفی به شکل $PM_{\text{causal}}P^{-1}$ جایگشت داده می‌شود.

جریان پرسش از ماسک توجه متقاطع $P(M_{\text{causal}}-\infty I)P^{-1}$ استفاده می‌کند که در آن، مؤلفه‌های روی قطر به طور خاص حذف شده‌اند تا از «تقلب» مدل جلوگیری شود؛ یعنی حالتی که مدل بتواند با نگاه کردن به جریان محتوا، توکن ماسک‌شده فعلی را مستقیماً تشخیص دهد.

مشابه ماسک‌گذاری علیّتی در مدل‌های جی‌پی‌تی، این معماری ماسک‌شده دو-جریانی به مدل اجازه می‌دهد که تمامی توکن‌ها را در یک گذر رو به جلو^[ج] آموزش دهد.

آموزش

دو مدل منتشر شدند:^[۱]^[۲]

XLNet-Large، حساس به حروف بزرگ و کوچک^[چ]: دارای ۱۱۰ میلیون پارامتر، ۲۴ لایه، بُعد پنهان ۱۰۲۴ و ۱۶ سر توجه
XLNet-Base، حساس به حروف بزرگ و کوچک: دارای ۳۴۰ میلیون پارامتر، ۱۲ لایه، بُعد پنهان ۷۶۸ و ۱۲ سر توجه

این مدل بر روی مجموعه داده‌ای آموزش داده شد که پس از توکن‌سازی با استفاده از سنتنس‌پیس^[ح]، شامل ۳۲٫۸۹ میلیارد توکن بود. این مجموعه‌داده از بوک‌کورپوس، ویکی‌پدیای انگلیسی، Giga5، ClueWeb 2012-B و کامن کرال تشکیل شده بود.

آموزش مدل بر روی ۵۱۲ تراشه تی‌پی‌یو نسخه ۳ و به‌مدت ۵٫۵ روز انجام شد. در پایان فرایند آموزش، مدل همچنان نسبت به داده‌ها کم‌برازش^[خ] بود؛ به این معنا که با آموزش بیشتر می‌توانست به مقدار خطای کمتری دست یابد. آموزش در مجموع شامل ۰٫۵ میلیون گام با استفاده از بهینه‌ساز آدام، کاهش خطی نرخ یادگیری و اندازه بچ برابر با ۸۱۹۲ بود.^[۳]

جستارهای وابسته

یادداشت‌ها

↑ Two-Stream Self-Attention
↑ Content stream
↑ standard causally masked self-attention
↑ Query stream
↑ masked cross-attention mechanism
↑ forward pass
↑ cased
↑ SentencePiece
↑ underfitting

منابع

1 2 "xlnet". GitHub. Retrieved 2 January 2024.
1 2 "Pretrained models — transformers 2.0.0 documentation". huggingface.co. Retrieved 2024-08-05.
↑ Yang, Zhilin; Dai, Zihang; Yang, Yiming; Carbonell, Jaime; Salakhutdinov, Ruslan; Le, Quoc V. (2 January 2020). "XLNet: Generalized Autoregressive Pretraining for Language Understanding". arXiv:1906.08237 [cs.CL].

[3] Two-Stream Self-Attention

[4] Content stream

[5] standard causally masked self-attention

[6] Query stream

[7] sked cross-attention mechanism

[8] rward pass

[9] sed

[10] SentencePiece

[11] underfitting

[xlnet-1] 1 2 "xlnet". GitHub. Retrieved 2 January 2024.

[:0-2] 1 2 "Pretrained models — transformers 2.0.0 documentation". huggingface.co. Retrieved 2024-08-05.

[LX3rI-12] Yang, Zhilin; Dai, Zihang; Yang, Yiming; Carbonell, Jaime; Salakhutdinov, Ruslan; Le, Quoc V. (2 January 2020). "XLNet: Generalized Autoregressive Pretraining for Language Understanding". arXiv:1906.08237 [cs.CL].

[۱]

[۲]

[الف]

[ب]

[پ]

[ت]

[ث]

[ج]

[چ]

[ح]

[خ]

[۳]

پردازش زبان‌های طبیعی
شرایط عمومی	پیکره متنی Speech corpus کلمات توقف مدل بسته کلمات Ai-complete ان-گرم (Bigram, Trigram)
متن‌کاوی	Text segmentation برچسب‌زنی اجزای کلام Text chunking Compound term processing Collocation extraction Stemming Lemmatisation Named-entity recognition Coreference resolution تجزیه و تحلیل احساسات Concept mining تجزیه‌کننده Word sense disambiguation Terminology extraction Truecasing
خلاصه‌سازی خودکار	Multi-document summarization Sentence extraction Text simplification
ترجمه ماشینی	ترجمه به کمک کامپیوتر Example-based Rule-based
شناسایی خودکار و ضبط داده‌ها	بازشناسی گفتار متن به گفتار نویسه‌خوان نوری Natural language generation
مدل عناوین	Pachinko allocation تخصیص پنهان دیریکله آنالیز پنهان مفهومی
بررسی به کمک کامپیوتر	Automated essay scoring Concordancer Grammar checker Predictive text غلط‌یاب Syntax guessing
زبان طبیعی رابط کاربر	دستیار شخصی هوشمند ربات سخنگو Interactive fiction Question answering