توجه، تنها چیزی است که نیاز دارید

توجه تنها چیزی است که نیاز دارید[۱] یک مقاله پژوهشی شاخص در سال ۲۰۱۷ در حوزه یادگیری ماشین است که توسط هشت پژوهشگر در گوگل نوشته شده است.[۲][۳] این مقاله معماری جدیدی در حوزه یادگیری عمیق معرفی کرد به نام ترنسفورمر که بر اساس مکانیزم توجه (ارائهشده در سال ۲۰۱۴ توسط بهادانائو و همکارانش) کار میکند.[۴] این مقاله یکی از مقالات بنیادین[۵] در هوش مصنوعی مدرن محسوب میشود، چه که ترنسفورمر به عنوان معماری اصلی بسیاری از مدلهای هوش مصنوعی مانند مدلهای زبانی بزرگ تبدیل شده است.[۶][۷] در زمان انتشار، تمرکز اصلی این پژوهش بر بهبود روشهای سک۲سک برای ترجمه ماشینی بود، اما نویسندگان در مقاله فراتر رفتند و به ظرفیت این روش برای وظایف دیگر مانند پاسخ به پرسش و آنچه امروز هوش مصنوعی مدل چندوجهی خوانده میشود، اشاره کردند.[۱]
عنوان مقاله اشارهای دارد به ترانه «All You Need Is Love» از گروه بیتلز.[۸] نام «ترنسفورمر» توسط یوشکرویت انتخاب شد.[۹]
برخی آزمایشهای اولیه شامل ترجمه انگلیسی به آلمانی، تولید مقاله ویکیپدیا دربارهٔ «ترنسفورمر» و تحلیل نحوی بودند. این آزمایشها تیم را قانع کرد که ترنسفورمر تنها یک مدل ترجمه نیست، بلکه یک مدل زبانی عمومی است.[۹]
به این مقاله بیش از ۱۷۳٬۰۰۰ بار ارجاع داده شده است،[۱۰] و مقاله جزو ده مقاله پرارجاع قرن ۲۱ محسوب میشود.[۱۱]
نویسندگان
نویسندگان مقاله عبارتاند از: آشیش واسوانی، نوآم شازیر، نیکی پارمار، یاکوب اوشکوریت، لیون جونز، آیدان گومز، لوکاش کایزر، و ایلیا پولوسوخین. هر هشت نفر بهعنوان مشارکتکنندگان مساوی شناخته شدند و ترتیب اسامی بهصورت تصادفی تعیین شده است. مقاله وایرد به تنوع فرهنگی گروه اشاره میکند:[۸]
شش نفر از نویسندگان خارج از ایالات متحده به دنیا آمدهاند؛ دو نفر دیگر یکی فرزند مهاجران آلمانی دارای گرینکارت در کالیفرنیا بوده و دیگری فرزند یک خانواده پناهنده است.
پس از انتشار مقاله، همه نویسندگان گوگل را ترک کرده و به شرکتهای دیگر پیوسته یا استارتاپ تأسیس کردند. بسیاری از آنها اظهار داشتند که در گوگل امکان گسترش و نوآوری بیشتر در ترنسفورمر را نمیداشتند.[۱۲]
روشهای مطرحشده
این مقاله بیش از هر چیز به خاطر معرفی معماری ترنسفورمر شناخته میشود، که امروزه پایه بسیاری از مدلهای زبانی بزرگ است. یکی از دلایل اصلی موفقیت آن، قابلیت موازیسازی کامل این معماری نسبت به مدلهای پیشین است، که آموزش سریعتر و مدلهای بزرگتر را ممکن میسازد.
مکانیسمهای زیر در مقاله معرفی شدند:
توجه نقطهای مقیاسشده و خود-توجه
فرمول ارائهشده در مقاله:
که در آن ، ، ماتریسهای پرسش، کلید و مقدار هستند، و بُعد کلید است. این فرمول امکان حذف کامل شبکه عصبی بازگشتی را فراهم میکند و موازیسازی را بهبود میدهد.
توجه چندسری
توجه چندسری امکان بررسی همزمان چندین رابطه درون توالی را فراهم میکند. خروجیها در پایان با هم ترکیب شده و از یک لایه خطی عبور داده میشوند.
کدگذاری موقعیتی
مدل ترنسفورمر بر ترتیب توکنها متکی نیست؛ بنابراین، از توابع سینوس و کسینوس برای افزودن اطلاعات موقعیتی استفاده میشود:
دلیل انتخاب این روش توانایی مدل برای تعمیم به توالیهای بلندتر ذکر شده است.[۱]
آموزشِ مدل
مدل بر روی ترجمه انگلیسی-آلمانی و همچنین تحلیل نحوی اجزایی انگلیسی آزمایش شده و نتایج قابل توجهی کسب کرده است.
دادهٔ آموزشی
ترجمه انگلیسی-آلمانی با مجموعه داده WMT 2014 شامل ۴٫۵ میلیون جمله و انگلیسی-فرانسوی با ۳۶ میلیون جمله آموزش دیده است.
سختافزار
مدلها با ۸ GPU مدل P100 آموزش داده شدند. آموزش مدل پایه ۱۲ ساعت و مدل بزرگ ۳٫۵ روز بهطول انجامید.
ابَرمولفهها و تنظیم مدل
نرخ یادگیری ابتدا بهصورت خطی افزایش یافته و سپس با عکس ریشه مربع گام کاهش مییابد. از حذف تصادفی با نرخ ۰٫۱ و صافسازی برچسب با مقدار ۰٫۱ استفاده شد.[۱]
منابع
- 1 2 3 4 . arXiv:1706.03762.
- ↑ Love، Julia (۱۰ ژوئیه ۲۰۲۳). «محقق هوش مصنوعی که به نوشتن مقالهای تأثیرگذار کمک کرد، گوگل را ترک میکند». Bloomberg News. دریافتشده در ۱ آوریل ۲۰۲۴.
- ↑ Goldman، Sharon (۲۰ مارس ۲۰۲۴). «خالقان «توجه تنها چیزی است که نیاز دارید» در رویداد GTC انویدیا فراتر از ترنسفورمرها میاندیشند». VentureBeat. دریافتشده در ۱ آوریل ۲۰۲۴.
- ↑ الگو:یادکرد arXiv
- ↑ Shinde، Gitanjali؛ Wasatkar، Namrata؛ Mahalle، Parikshit (۶ ژوئن ۲۰۲۴). هوش مصنوعی دادهمحور برای کاربردهای میانرشتهای. CRC Press. ص. ۷۵. شابک ۹۷۸۱۰۴۰۰۳۱۱۳۱.
- ↑ Toews, Rob (3 September 2023). "Transformers Revolutionized AI. What Will Replace Them?". Forbes. Archived from the original on 26 September 2023. Retrieved 3 December 2023.
- ↑ Murgia, Madhumita (23 July 2023). "Transformers: the Google scientists who pioneered an AI revolution". Financial Times. Archived from the original on 2023-12-28. Retrieved 2024-03-22.
- 1 2 Levy، Steven. «۸ کارمند گوگل هوش مصنوعی مدرن را اختراع کردند؛ داستان پشتپرده». Wired (به انگلیسی). شاپا 1059-1028. دریافتشده در ۲۰ مارس ۲۰۲۴.
- 1 2 Marche، Stephen (۲۳ اوت ۲۰۲۴). «آیا هوش زبانی بهصورت تصادفی خلق شد؟». The New Yorker (به انگلیسی). شاپا 0028-792X. دریافتشده در ۲۴ اوت ۲۰۲۴.
- ↑ «آشنایی با ستارگان ۴ میلیارد دلاری هوش مصنوعی که گوگل را ترک کردند». Bloomberg. www.bloomberg.com. ۱۳ ژوئیه ۲۰۲۳.
- ↑ «مقالاتی با بیشترین ارجاع در قرن ۲۱». Nature. ۱۵ آوریل ۲۰۲۵. دریافتشده در ۱۸ آوریل ۲۰۲۵.
- ↑ Murgia، Madhumita (۲۳ ژوئیه ۲۰۲۳). «ترنسفورمرها: دانشمندان گوگل که انقلابی در هوش مصنوعی رقم زدند». Financial Times. دریافتشده در ۲۲ مارس ۲۰۲۵.
پیوند به بیرون
- Uszkoreit, Jakob (August 31, 2017). "Transformer: A Novel Neural Network Architecture for Language Understanding". research.google (به انگلیسی). Retrieved 2024-08-09. A concurrent blog post on Google Research blog.