توجه، تنها چیزی است که نیاز دارید

تصویری از اجزای اصلی مدل ترانسفورماتور از مقاله

توجه تنها چیزی است که نیاز دارید^[۱] یک مقاله پژوهشی شاخص در سال ۲۰۱۷ در حوزه یادگیری ماشین است که توسط هشت پژوهشگر در گوگل نوشته شده است.^[۲]^[۳] این مقاله معماری جدیدی در حوزه یادگیری عمیق معرفی کرد به نام ترنسفورمر که بر اساس مکانیزم توجه (ارائه‌شده در سال ۲۰۱۴ توسط بهادانائو و همکارانش) کار می‌کند.^[۴] این مقاله یکی از مقالات بنیادین^[۵] در هوش مصنوعی مدرن محسوب می‌شود، چه که ترنسفورمر به عنوان معماری اصلی بسیاری از مدل‌های هوش مصنوعی مانند مدل‌های زبانی بزرگ تبدیل شده است.^[۶]^[۷] در زمان انتشار، تمرکز اصلی این پژوهش بر بهبود روش‌های سک۲سک برای ترجمه ماشینی بود، اما نویسندگان در مقاله فراتر رفتند و به ظرفیت این روش برای وظایف دیگر مانند پاسخ به پرسش و آنچه امروز هوش مصنوعی مدل چندوجهی خوانده می‌شود، اشاره کردند.^[۱]

عنوان مقاله اشاره‌ای دارد به ترانه «All You Need Is Love» از گروه بیتلز.^[۸] نام «ترنسفورمر» توسط یوشکرویت انتخاب شد.^[۹]

برخی آزمایش‌های اولیه شامل ترجمه انگلیسی به آلمانی، تولید مقاله ویکی‌پدیا دربارهٔ «ترنسفورمر» و تحلیل نحوی بودند. این آزمایش‌ها تیم را قانع کرد که ترنسفورمر تنها یک مدل ترجمه نیست، بلکه یک مدل زبانی عمومی است.^[۹]

به این مقاله بیش از ۱۷۳٬۰۰۰ بار ارجاع داده شده است،^[۱۰] و مقاله جزو ده مقاله پرارجاع قرن ۲۱ محسوب می‌شود.^[۱۱]

نویسندگان

نویسندگان مقاله عبارت‌اند از: آشیش واسوانی، نوآم شازیر، نیکی پارمار، یاکوب اوشکوریت، لیون جونز، آیدان گومز، لوکاش کایزر، و ایلیا پولوسوخین. هر هشت نفر به‌عنوان مشارکت‌کنندگان مساوی شناخته شدند و ترتیب اسامی به‌صورت تصادفی تعیین شده است. مقاله وایرد به تنوع فرهنگی گروه اشاره می‌کند:^[۸]

شش نفر از نویسندگان خارج از ایالات متحده به دنیا آمده‌اند؛ دو نفر دیگر یکی فرزند مهاجران آلمانی دارای گرین‌کارت در کالیفرنیا بوده و دیگری فرزند یک خانواده پناهنده است.

پس از انتشار مقاله، همه نویسندگان گوگل را ترک کرده و به شرکت‌های دیگر پیوسته یا استارتاپ تأسیس کردند. بسیاری از آن‌ها اظهار داشتند که در گوگل امکان گسترش و نوآوری بیشتر در ترنسفورمر را نمی‌داشتند.^[۱۲]

روش‌های مطرح‌شده

این مقاله بیش از هر چیز به خاطر معرفی معماری ترنسفورمر شناخته می‌شود، که امروزه پایه بسیاری از مدل‌های زبانی بزرگ است. یکی از دلایل اصلی موفقیت آن، قابلیت موازی‌سازی کامل این معماری نسبت به مدل‌های پیشین است، که آموزش سریع‌تر و مدل‌های بزرگ‌تر را ممکن می‌سازد.

مکانیسم‌های زیر در مقاله معرفی شدند:

توجه نقطه‌ای مقیاس‌شده و خود-توجه

فرمول ارائه‌شده در مقاله:

${\rm {Attention}}(Q,K,V):={\rm {softmax}}\left({\frac {Q\times K^{T}}{\sqrt {d_{k}}}}\right)\times V$

که در آن $Q$ ، $K$ ، $V$ ماتریس‌های پرسش، کلید و مقدار هستند، و $d_{k}$ بُعد کلید است. این فرمول امکان حذف کامل شبکه عصبی بازگشتی را فراهم می‌کند و موازی‌سازی را بهبود می‌دهد.

توجه چندسری

توجه چندسری امکان بررسی همزمان چندین رابطه درون توالی را فراهم می‌کند. خروجی‌ها در پایان با هم ترکیب شده و از یک لایه خطی عبور داده می‌شوند.

کدگذاری موقعیتی

مدل ترنسفورمر بر ترتیب توکن‌ها متکی نیست؛ بنابراین، از توابع سینوس و کسینوس برای افزودن اطلاعات موقعیتی استفاده می‌شود:

$PE_{({\rm {pos}},2i)}=\sin({\rm {pos}}/{10000}^{2i/d_{\rm {model}}})$

$PE_{({\rm {pos}},2i+1)}=\cos({\rm {pos}}/{10000}^{2i/d_{\rm {model}}})$

دلیل انتخاب این روش توانایی مدل برای تعمیم به توالی‌های بلندتر ذکر شده است.^[۱]

آموزشِ مدل

مدل بر روی ترجمه انگلیسی-آلمانی و همچنین تحلیل نحوی اجزایی انگلیسی آزمایش شده و نتایج قابل توجهی کسب کرده است.

دادهٔ آموزشی

ترجمه انگلیسی-آلمانی با مجموعه داده WMT 2014 شامل ۴٫۵ میلیون جمله و انگلیسی-فرانسوی با ۳۶ میلیون جمله آموزش دیده است.

سخت‌افزار

مدل‌ها با ۸ GPU مدل P100 آموزش داده شدند. آموزش مدل پایه ۱۲ ساعت و مدل بزرگ ۳٫۵ روز به‌طول انجامید.

ابَرمولفه‌ها و تنظیم مدل

نرخ یادگیری ابتدا به‌صورت خطی افزایش یافته و سپس با عکس ریشه مربع گام کاهش می‌یابد. از حذف تصادفی با نرخ ۰٫۱ و صاف‌سازی برچسب با مقدار ۰٫۱ استفاده شد.^[۱]

منابع

1 2 3 4 . arXiv:1706.03762.
↑ Love، Julia (۱۰ ژوئیه ۲۰۲۳). «محقق هوش مصنوعی که به نوشتن مقاله‌ای تأثیرگذار کمک کرد، گوگل را ترک می‌کند». Bloomberg News. دریافت‌شده در ۱ آوریل ۲۰۲۴.
↑ Goldman، Sharon (۲۰ مارس ۲۰۲۴). «خالقان «توجه تنها چیزی است که نیاز دارید» در رویداد GTC انویدیا فراتر از ترنسفورمرها می‌اندیشند». VentureBeat. دریافت‌شده در ۱ آوریل ۲۰۲۴.
↑ الگو:یادکرد arXiv
↑ Shinde، Gitanjali؛ Wasatkar، Namrata؛ Mahalle، Parikshit (۶ ژوئن ۲۰۲۴). هوش مصنوعی داده‌محور برای کاربردهای میان‌رشته‌ای. CRC Press. ص. ۷۵. شابک ۹۷۸۱۰۴۰۰۳۱۱۳۱.
↑ Toews, Rob (3 September 2023). "Transformers Revolutionized AI. What Will Replace Them?". Forbes. Archived from the original on 26 September 2023. Retrieved 3 December 2023.
↑ Murgia, Madhumita (23 July 2023). "Transformers: the Google scientists who pioneered an AI revolution". Financial Times. Archived from the original on 2023-12-28. Retrieved 2024-03-22.
1 2 Levy، Steven. «۸ کارمند گوگل هوش مصنوعی مدرن را اختراع کردند؛ داستان پشت‌پرده». Wired (به انگلیسی). شاپا 1059-1028. دریافت‌شده در ۲۰ مارس ۲۰۲۴.
1 2 Marche، Stephen (۲۳ اوت ۲۰۲۴). «آیا هوش زبانی به‌صورت تصادفی خلق شد؟». The New Yorker (به انگلیسی). شاپا 0028-792X. دریافت‌شده در ۲۴ اوت ۲۰۲۴.
↑ «آشنایی با ستارگان ۴ میلیارد دلاری هوش مصنوعی که گوگل را ترک کردند». Bloomberg. www.bloomberg.com. ۱۳ ژوئیه ۲۰۲۳.
↑ «مقالاتی با بیشترین ارجاع در قرن ۲۱». Nature. ۱۵ آوریل ۲۰۲۵. دریافت‌شده در ۱۸ آوریل ۲۰۲۵.
↑ Murgia، Madhumita (۲۳ ژوئیه ۲۰۲۳). «ترنسفورمرها: دانشمندان گوگل که انقلابی در هوش مصنوعی رقم زدند». Financial Times. دریافت‌شده در ۲۲ مارس ۲۰۲۵.

پیوند به بیرون

Uszkoreit, Jakob (August 31, 2017). "Transformer: A Novel Neural Network Architecture for Language Understanding". research.google (به انگلیسی). Retrieved 2024-08-09. A concurrent blog post on Google Research blog.

[2017_Attention_Is_All_You_Need-1] 1 2 3 4 . arXiv:1706.03762.

[2] Love، Julia (۱۰ ژوئیه ۲۰۲۳). «محقق هوش مصنوعی که به نوشتن مقاله‌ای تأثیرگذار کمک کرد، گوگل را ترک می‌کند». Bloomberg News. دریافت‌شده در ۱ آوریل ۲۰۲۴.

[3] Goldman، Sharon (۲۰ مارس ۲۰۲۴). «خالقان «توجه تنها چیزی است که نیاز دارید» در رویداد GTC انویدیا فراتر از ترنسفورمرها می‌اندیشند». VentureBeat. دریافت‌شده در ۱ آوریل ۲۰۲۴.

[inventors-4] الگو:یادکرد arXiv

[5] Shinde، Gitanjali؛ Wasatkar، Namrata؛ Mahalle، Parikshit (۶ ژوئن ۲۰۲۴). هوش مصنوعی داده‌محور برای کاربردهای میان‌رشته‌ای. CRC Press. ص. ۷۵. شابک ۹۷۸۱۰۴۰۰۳۱۱۳۱.

[Forbes-6] Toews, Rob (3 September 2023). "Transformers Revolutionized AI. What Will Replace Them?". Forbes. Archived from the original on 26 September 2023. Retrieved 3 December 2023.

[Financial_Times-7] Murgia, Madhumita (23 July 2023). "Transformers: the Google scientists who pioneered an AI revolution". Financial Times. Archived from the original on 2023-12-28. Retrieved 2024-03-22.

[wired-8] 1 2 Levy، Steven. «۸ کارمند گوگل هوش مصنوعی مدرن را اختراع کردند؛ داستان پشت‌پرده». Wired (به انگلیسی). شاپا 1059-1028. دریافت‌شده در ۲۰ مارس ۲۰۲۴.

[:1-9] 1 2 Marche، Stephen (۲۳ اوت ۲۰۲۴). «آیا هوش زبانی به‌صورت تصادفی خلق شد؟». The New Yorker (به انگلیسی). شاپا 0028-792X. دریافت‌شده در ۲۴ اوت ۲۰۲۴.

[bloomberg-10] «آشنایی با ستارگان ۴ میلیارد دلاری هوش مصنوعی که گوگل را ترک کردند». Bloomberg. www.bloomberg.com. ۱۳ ژوئیه ۲۰۲۳.

[11] «مقالاتی با بیشترین ارجاع در قرن ۲۱». Nature. ۱۵ آوریل ۲۰۲۵. دریافت‌شده در ۱۸ آوریل ۲۰۲۵.

[12] Murgia، Madhumita (۲۳ ژوئیه ۲۰۲۳). «ترنسفورمرها: دانشمندان گوگل که انقلابی در هوش مصنوعی رقم زدند». Financial Times. دریافت‌شده در ۲۲ مارس ۲۰۲۵.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]

[۱۱]

[۱۲]