ابرنمونهبرداری یادگیری عمیق
| توسعهدهنده(ها) | انویدیا |
|---|---|
| انتشار اولیه | ۲۰۱۹ (DLSS 1.0) |
| انتشار پایدار | DLSS 4
/ اکتبر ۲۰۲۵ |
| نوشتهشده با | کودا (CUDA) |
| سیستمعامل | مایکروسافت ویندوز، لینوکس (از طریق پروتون) |
| پلتفرم | کامپیوتر شخصی |
| حجم | وابسته به نسخه |
| در دسترس به | انگلیسی |
| نوع | فناوری پردازش گرافیکی و یادگیری عمیق |
| مجوز | مالکیتی |
| وبگاه | |
ابرنمونهبرداری یادگیری عمیق (به انگلیسی: Deep Learning Super Sampling؛ به اختصار: DLSS)، مجموعهای از فناوریهای بیدرنگ یادگیری عمیق در زمینهٔ بهبود تصویر و ارتقای مقیاس[الف] است که توسط انویدیا توسعه یافته و در شماری از بازیهای ویدئویی پشتیبانی میشود. هدف این فناوریها، فراهم آوردن امکانی است تا بخش عمدهٔ پایپلاین گرافیکی برای دستیابی به عملکردی بالاتر، در وضوح پایینتری اجرا شود. سپس، بر اساس این خروجی، تصویری با وضوح بالاتر بازسازی میشود که سطحی از جزئیات را مشابه حالتی تقریب میزند که گویی تصویر از ابتدا در همان وضوح بالا رندر شده است. این امر، بسته به ترجیح کاربر، امکان دستیابی به تنظیمات گرافیکی بالاتر ویا نرخ فریم بیشتر را در یک وضوح خروجی مشخص فراهم میآورد.[۳]
تمام نسلهای DLSS بر روی تمامی کارتهای سری RTX[ب] انویدیا در عناوین پشتیبانیشده در دسترس هستند. با این حال، قابلیت فریم جنِرِیشن[پ] تنها بر روی پردازندههای گرافیکی سری ۴۰ یا جدیدتر پشتیبانی میشود و مالتی فریم جنریشن[ت] نیز تنها در پردازندههای گرافیکی سری ۵۰[ث] در دسترس است.[۱۲][۱۳]
تاریخچه
انویدیا در زمان عرضهٔ کارتهای سری جیفورس ۲۰ در سپتامبر ۲۰۱۸، «ابرنمونهبرداری یادگیری عمیق» را به عنوان یکی از ویژگیهای کلیدی این محصولات معرفی کرد.[۱۴] در آن زمان، نتایج این فناوری به چند بازی ویدئویی معدود، از جمله بتلفیلد ۵[۱۵] یا مترو اکسدس محدود میشد؛ زیرا الگوریتم میبایست برای هر بازی بهصورت جداگانه آموزش داده شود و نتایج حاصل نیز معمولاً بهاندازهٔ «ارتقای مقیاس وضوح ساده»[a] رضایتبخش نبود.[۱۶][۱۷] در سال ۲۰۱۹، بازی ویدئویی کنترل به همراه رهگیری پرتو[b] و یک الگوریتم پردازش تصویر عرضه شد که عملکردی مشابه DLSS را تقریب میزد، اما از هستههای تنسور[c] استفاده نمیکرد.[۱۸][۱۹]
در آوریل ۲۰۲۰، انویدیا نسخهٔ بهبودیافتهای از DLSS را با نام DLSS 2.0 به همراه راهانداز «نسخهٔ ۴۴۵٫۷۵» معرفی و عرضه کرد. DLSS 2.0 برای چند بازی موجود از جمله کنترل و ولفنشتاین: نیروی تازهنفس در دسترس قرار گرفت و بعداً به بسیاری از بازیهای تازهمنتشرشده و موتورهای بازی نظیر آنریل انجین[d] و یونیتی[e] افزوده شد.[۲۰][۲۱] این بار انویدیا اعلام کرد که در این نسخه مجدداً از «هستههای تنسور»[f] استفاده شده است و هوش مصنوعی نیازی به آموزش اختصاصی برای هر بازی ندارد.[۱۴][۲۲] با وجود اشتراک در نام تجاری DLSS، این دو نسخه[g] از این فناوری تفاوتهای قابلتوجهی با یکدیگر دارند و با نسخههای پیشین سازگار نیستند.[۲۳][۲۴]
در ژانویهٔ ۲۰۲۵، انویدیا اعلام کرد که بیش از «۵۴۰» بازی و برنامه از DLSS پشتیبانی میکنند و بیش از ۸۰ درصد از کاربران کارتهای گرافیک سری RTX این قابلیت را فعال کردهاند.[۲۵]
در مارس ۲۰۲۵، به گفتهٔ انویدیا، بیش از «۱۰۰» بازی از DLSS 4 پشتیبانی میکردند.[۲۶] تا مه ۲۰۲۵، بیش از ۱۲۵ بازی از DLSS 4 پشتیبانی میکردند.[۲۷][۲۸]
نخستین کنسول بازی ویدئویی که از DLSS استفاده کرد، نینتندو سوئیچ ۲، در ۵ ژوئن ۲۰۲۵ منتشر شد.[۲۹]
تاریخچه انتشار
| انتشار | تاریخ انتشار | نکات برجسته |
|---|---|---|
| ۱٫۰ | فوریه ۲۰۱۹ | عمدتاً یک ارتقادهنده مقیاس تصویر فضایی،[h] نیازمند آموزش اختصاصی برای پیادهسازی در هر بازی، در بتلفیلد ۵ و مترو اکسدس و موارد دیگر گنجانده شد[۱۵] |
| «۱٫۹» (نام غیررسمی) | اوت ۲۰۱۹ | نسخه ۱٫۰ ابرنمونهبرداری (DLSS) که بهجای هستههای تنسور، برای اجرا بر روی هستههای سایهزن[i] کودا تطبیق داده شده بود و در کنترل استفاده شد[۱۸][۱۴][۳۰] |
| ۲٫۰ | آوریل ۲۰۲۰ | شکلی از TAAU[ج] (هموارسازی زمانی ارتقایافته) که توسط هوش مصنوعی و با استفاده از هستههای تنسور شتابدهی شده و بهصورت عمومی آموزش دیده است[۳۳] |
| ۳٫۰ | سپتامبر ۲۰۲۲ | ابرنمونهبرداری ۳٫۰، تقویتشده با یک الگوریتم تولید فریم مبتنی بر «جریان نوری»[j] (فقط در پردازندههای گرافیکی سری RTX 40 موجود است) تا فریمهایی را مابین فریمهای رندرشده ایجاد کند[۱۲][۳۴] |
| ۳٫۵ | سپتامبر ۲۰۲۳ | ابرنمونهبرداری ۳٫۵ قابلیت «بازسازی پرتو»[k] را اضافه میکند، که چندین الگوریتم نویززدا[l] را با یک مدل هوش مصنوعی واحد جایگزین میکند که بر روی دادههایی پنج برابر بیشتر از DLSS 3 آموزش دیده است.[۳۵][۳۴] |
| ۴٫۰ | ژانویه ۲۰۲۵ | ابرنمونهبرداری ۴٫۰ قابلیت «تولید چندفریمی»،[m] و یک مدل هوش مصنوعی جدید مبتنی بر معماری ترنسفورمر را اضافه میکند که پایداری فریم را بهبود بخشیده، استفاده از حافظه را کاهش داده و جزئیات نورپردازی را افزایش میدهد.[۱۳][۳۶] |
ایستهای از پیش تنظیمشده کیفیت
هنگام استفاده از DLSS، بسته به بازی، کاربران علاوه بر گزینهٔ تنظیم دستی وضوح ارتقایافتهٔ رندرشدهٔ داخلی، به ایستهای کیفیت از پیش تنظیمشدهٔ مختلفی دسترسی دارند:
| ایست از پیش تنظیمشده کیفیت[چ] | ضریب مقیاس[ح] | مقیاس رندر[خ] |
|---|---|---|
| DLAA[د] | ۱ برابر | ۱۰۰٪ |
| کیفیت فوقالعاده[n][۳۹] (استفادهنشده) | ۱٫۳۲ برابر | ۷۷٫۰٪ |
| کیفیت[o] | ۱٫۵۰ برابر | ۶۶٫۷٪ |
| متعادل[p] | ۱٫۷۲ برابر | ۵۸٫۰٪ |
| عملکرد[q] | ۲٫۰۰ برابر | ۵۰٫۰٪ |
| عملکرد فوقالعاده[r] (از نسخه ۲٫۱؛ تنها برای وضوحهای 8K و بالاتر توصیه میشود[۳۹]) | ۳٫۰۰ برابر | ۳۳٫۳٪ |
| خودکار[s] | وضوح رندرشده بهصورت پویا و بیدرنگ تنظیم میشود تا به اهداف نرخ فریم (fps) تعریفشده توسط کاربر دست یابد (مثلاً، ۱۴۴ فریم بر ثانیه در یک نمایشگر ۱۴۴ هرتز).[۴۰] | |
پیادهسازی
ابرنمونهبرداری ۱٫۰
نخستین تکرار DLSS، عمدتاً یک «ارتقادهنده مقیاس تصویر فضایی»[t] با دو مرحله است، که هر دو بر پیچشی خودرمزگذار شبکههای عصبی تکیه دارند.[۴۱] مرحله اول یک شبکه بهبود تصویر است که از فریم کنونی و «بردارهای حرکت»[u] برای انجام بهبود لبه[ذ] و هموارسازی فضایی[ر] استفاده میکند. مرحله دوم یک گام ارتقای مقیاس تصویر است که از تکفریم خام و کموضوح برای ارتقای مقیاس تصویر به وضوح خروجیِ مورد نظر استفاده میکند. استفاده از تنها یک فریم برای ارتقای مقیاس بدین معناست که خود شبکه عصبی باید حجم زیادی اطلاعات جدید برای تولید خروجی با وضوح بالا ایجاد کند؛ این امر میتواند منجر به توهمهای[v] جزئی شود، مانند برگهایی که سبک متفاوتی با محتوای منبع دارند.[۲۳]
این شبکههای عصبی بهصورت مجزا برای هر بازی آموزش داده میشوند؛ این کار با تولید یک «فریم بینقص» با استفاده از ابرنمونهبرداری سنتی تا ۶۴ نمونه در هر پیکسل، و همچنین بردارهای حرکت برای هر فریم، انجام میشود. دادههای جمعآوریشده باید تا حد امکان جامع باشند، و شامل بیشترین تعداد ممکن از مراحل، ساعات مختلف روز، تنظیمات گرافیکی، وضوحها و غیره باشند. این دادهها همچنین با استفاده از روشهای رایج «افزایش داده»[w] مانند چرخش، تغییرات رنگ و نویز تصادفی، تقویت میشوند تا به تعمیم دادههای آزمایشی کمک کنند. آموزش شبکه بر روی ابررایانه Saturn V انویدیا انجام میشود.[۲۴][۴۶]
این تکرار نخستین با بازخوردی دوگانه مواجه شد و بسیاری از ظاهر اغلب «نرم»[x] و «آرتیفکتها»[y] در موقعیتهای خاص انتقاد کردند؛[۴۷][۱۶][۱۵] این مشکلات احتمالاً یک عارضه جانبی ناشی از دادههای محدودِ حاصل از بهکارگیری تنها یک فریم ورودی برای شبکههای عصبی بوده است، که نمیتوانستند برای عملکرد بهینه در همه سناریوها و موارد مرزی[z] آموزش ببینند.[۲۳][۲۴] انویدیا همچنین توانایی شبکههای خودرمزگذار را در یادگیری قابلیت بازآفرینی عمق میدان و تاری حرکتی نشان داد،[۲۴] اگرچه این قابلیت هرگز در یک محصول منتشرشدهٔ عمومی گنجانده نشد.[۴۸]
ابرنمونهبرداری ۲٫۰
ابرنمونهبرداری ۲٫۰ یک پیادهسازی هموارسازی زمانی[ز] ارتقای نمونه[aa] (TAAU) است که از دادههای فریمهای پیشین بهطور گسترده و از طریق «لرزش زیرپیکسلی»[ab] برای تفکیک جزئیات ظریف و کاهش دندانهدار شدن[ac] استفاده میکند. دادههایی که ابرنمونهبرداری ۲٫۰ گردآوری میکند شامل: ورودی خام کموضوح، بردارهای حرکتی،[ژ] بافرهای عمق،[ad] و اطلاعات نوردهی و روشنایی است.[۲۳] این فناوری همچنین میتواند بهعنوان یک پیادهسازی سادهتر TAA استفاده شود که در آن تصویر بهجای ارتقای مقیاس توسط DLSS، در وضوح ۱۰۰٪ رندر میشود؛ انویدیا این قابلیت را DLAA (هموارسازی یادگیری عمیق) مینامد.[۵۳]
TAAU در بسیاری از بازیهای ویدئویی و موتورهای بازی مدرن استفاده میشود؛[۵۴] با این حال، تمام پیادهسازیهای پیشین از نوعی اکتشاف دستی نوشتهشده برای جلوگیری از آرتیفکتهای زمانی مانند شبحزدگی[ae] و چشمکزدن[af] استفاده میکردند. یک نمونه از این روشها «بستارسازی همسایگی»[ag] است که بهاجبار مانع از آن میشود که نمونههای جمعآوریشده در فریمهای قبلی، در مقایسه با پیکسلهای مجاور در فریمهای جدیدتر، بیش از حد انحراف داشته باشند. این روش به شناسایی و رفع بسیاری از آرتیفکتهای زمانی کمک میکند، اما حذف عمدی جزئیات ظریف به این شیوه، مشابه اعمال یک فیلتر تاری[ah] است و در نتیجه، هنگام استفاده از این روش، تصویر نهایی ممکن است تار به نظر برسد.[۲۳]
ابرنمونهبرداری ۲٫۰ بهجای اکتشافهای برنامهریزیشده دستی که در بالا ذکر شد، از یک پیچشی خودرمزگذار شبکه عصبی[۴۷] استفاده میکند که برای شناسایی و رفع آرتیفکتهای زمانی آموزش دیده است. به همین دلیل، DLSS 2.0 عموماً میتواند جزئیات را بهتر از سایر پیادهسازیهای TAA و TAAU تفکیک کند و در عین حال، بیشتر آرتیفکتهای زمانی را نیز حذف نماید. به همین دلیل است که DLSS 2.0 گاهی اوقات میتواند تصویری واضحتر از رندر در وضوحهای بالاتر، یا حتی وضوح اصلی با استفاده از TAA سنتی، تولید کند. با این حال، هیچ راهحل زمانی بینقص نیست، و آرتیفکتها (بهویژه شبحزدگی) همچنان در برخی سناریوها هنگام استفاده از DLSS 2.0 قابل مشاهده هستند.
از آنجایی که آرتیفکتهای زمانی در اکثر سبکهای هنری و محیطها به شکلی مشابه رخ میدهند، شبکه عصبی که DLSS 2.0 را قدرت میبخشد، نیازی به آموزش مجدد هنگام استفاده در بازیهای مختلف ندارد. با وجود این، انویدیا مکرراً بازبینیهای جزئی جدیدی از DLSS 2.0 را همزمان با انتشار عناوین جدید عرضه میکند،[۵۵] بنابراین این موضوع میتواند نشاندهنده آن باشد که ممکن است برخی بهینهسازیهای آموزشی جزئی همزمان با انتشار بازیها انجام شود، اگرچه انویدیا برای تأیید این امر، سیاهه تغییرات[ai] این بازبینیهای جزئی را ارائه نمیدهد. پیشرفتهای اصلی در مقایسه با DLSS 1.0 عبارتند از: حفظ جزئیات بهطور قابل توجهی بهبودیافته، یک شبکه عصبی تعمیمیافته که نیازی به آموزش مجدد برای هر بازی ندارد، و سربار[aj] تقریباً ۲ برابر کمتر (حدود ۱ تا ۲ میلیثانیه در مقابل حدود ۲ تا ۴ میلیثانیه).[۲۳]
همچنین باید اشاره کرد که اشکال TAAU مانند DLSS 2.0، به همان معنایی که تکنیکهایی نظیر ESRGAN یا DLSS 1.0 هستند، ارتقادهنده مقیاس ویدئو[س] محسوب نمیشوند؛ تکنیکهایی مانند DLSS 1.0 تلاش میکنند اطلاعات جدیدی از یک منبع کموضوح خلق کنند؛ در عوض، TAAU برای بازیابی دادهها از فریمهای قبلی کار میکند، نه خلق دادههای جدید. در عمل، این بدان معناست که بافتهای[ak] کموضوح در بازیها، هنگام استفاده از تکنیکهای TAAU فعلی، همچنان کموضوح به نظر خواهند رسید. به همین دلیل است که انویدیا به توسعهدهندگان بازی توصیه میکند که هنگام فعال بودن DLSS 2.0، با اعمال یک «بایاس mip-map»،[ش] از بافتهایی با وضوح بالاتر از آنچه معمولاً برای یک وضوح رندر مشخص استفاده میکنند، بهره ببرند.[۲۳]
ابرنمونهبرداری ۳٫۰
این نسخه با بهرهگیری از درونیابی حرکتی،[ص] ابرنمونهبرداری ۲٫۰ را تقویت میکند. الگوریتم «فریم جنریشن» در DLSS، دو فریم رندرشده را از خط لوله رندر دریافت میکند و یک فریم جدید ایجاد میکند که گذار[al] بین آن دو را به نرمی انجام میدهد؛ بنابراین، به ازای هر فریم رندرشده، یک فریم اضافی تولید میشود.[۱۲] ابرنمونهبرداری ۳٫۰ از نسل جدید «شتابدهنده جریان نوری» (OFA)[am] که در پردازندههای گرافیکی RTX نسل Ada Lovelace گنجانده شده است، استفاده میکند. شتابدهنده جریان نوری (OFA) جدید، سریعتر و دقیقتر از OFAهایی است که پیشتر در پردازندههای گرافیکی RTX نسل تورینگ و آمپر در دسترس بودند.[۶۲] این امر منجر به انحصاری بودن DLSS 3.0 برای سری RTX 40 شده است. در زمان عرضه، DLSS 3.0 برای نمایشگرهای واقعیت مجازی (VR) کار نمیکند.[۶۳]
ابرنمونهبرداری ۳٫۵
ابرنمونهبرداری ۳٫۵ قابلیت «بازسازی پرتو» را اضافه میکند، و چندین الگوریتم نویززدا[an] را با یک مدل هوش مصنوعی واحد جایگزین میسازد که بر روی دادههایی پنج برابر بیشتر از DLSS 3 آموزش دیده است. «بازسازی پرتو» بر روی تمام پردازندههای گرافیکی RTX در دسترس است و نخست، بازیهای دارای رهگیری مسیر («رهگیری کامل پرتو»[ao]) را هدف قرار داد، از جمله بسته الحاقی[ap] شبح آزادی برای بازی سایبرپانک ۲۰۷۷ و همچنین بازیهای پورتال و اَلن ویک ۲.[۳۵][۳۴]
ابرنمونهبرداری ۴٫۰
نسل چهارم ابرنمونهبرداری یادگیری عمیق در کنار سری جیفورس آرتیایکس ۵۰ رونمایی شد. ارتقای مقیاس در DLSS 4 از یک مدل جدید بینایی مبتنی بر ترنسفورمر[aq] برای بهبود کیفیت تصویر با شبحزدگی یا گوستینگ کمتر و پایداری بیشتر تصویر در حرکت، در مقایسه با مدل پیشین شبکه عصبی پیچشی (CNN)، استفاده میکند.[۶۴] ابرنمونهبرداری ۴٫۰ امکان تولید و درونیابی[ض][ar] تعداد بیشتری فریم را بر اساس یک فریم رندرشدهٔ سنتی فراهم میآورد. این شکل از فریم جنریشن که «تولید چندفریمی»[as] نام دارد، منحصر به سری جیفورس آرتیایکس ۵۰ است، در حالی که سری جیفورس آرتیایکس ۴۰ به یک فریم درونیابیشده به ازای هر فریم رندرشدهٔ سنتی محدود است. به گفته انویدیا، این تکنیک عملکرد را تا ۸۰۰٪ افزایش میدهد و در عین حال با Nvidia Reflex[ط] تأخیر را پایین نگه میدارد.[۶۹] انویدیا مدعی است که مدل «فریم جنریشن ۴ برابری»[at] در DLSS 4، سی درصد کمتر حافظه ویدئویی مصرف میکند و برای مثال، بازی وارهمر ۴۰٬۰۰۰: دارکتاید در وضوح 4K با فعال بودن «فریم جنریشن»، ۴۰۰ مگابایت کمتر حافظه مصرف میکند.[۷۰] انویدیا مدعی است که ۷۵ بازی در زمان عرضه، قابلیت «تولید چندفریمی» DLSS 4 را یکپارچهسازی خواهند کرد، از جمله اَلن ویک ۲، سایبرپانک ۲۰۷۷، ایندیانا جونز و دایره بزرگ و جنگ ستارگان: قانون شکنان.[۷۱]
| سری جیفورس آرتیایکس ۲۰ | سری جیفورس آرتیایکس ۳۰ | سری جیفورس آرتیایکس ۴۰ | سری جیفورس آرتیایکس ۵۰ | |
|---|---|---|---|---|
| مدل ترنسفورمر | ||||
| تولید فریم ۲× | ||||
| تولید فریم ۳–۴× |
ارتقای دستی پشتیبانی DLSS
کاربران میتوانند بهصورت دستی «کتابخانههای پیوند پویا»[au] را در بازیها جایگزین کنند تا از نسخه جدیدتر DLSS پشتیبانی شود. ابزار «DLSS Swapper»، که یک ابزار کمکی متنباز[av] است، میتواند این کار را بهطور خودکار برای تمام بازیهای نصبشده انجام دهد.[۷۲] جایگزینی فایلهای DLL نمیتواند پشتیبانی یا ویژگیهای DLSS را به بازیهایی که قبلاً آن را پیادهسازی نکردهاند اضافه کند، اگرچه برخی مادها[aw] میتوانند پشتیبانی از «فریم جنریشن» را اضافه کنند.[۷۳]
هموارسازی لبه
ابرنمونهبرداری به روش هموارسازی لبه[ax] خاص خود نیاز دارد و آن را اعمال میکند؛ بنابراین، بسته به بازی و تنظیمات کیفیتی مورد استفاده، استفاده از DLSS ممکن است کیفیت تصویر را حتی نسبت به رندر در وضوح اصلی بهبود بخشد.[۷۴] این فناوری بر اساس اصولی مشابه هموارسازی زمانی لبه (TAA) عمل میکند. مانند TAA، این فناوری نیز از اطلاعات فریمهای گذشته برای تولید فریم فعلی استفاده میکند. برخلاف TAA، ابرنمونهبرداری از تمام پیکسلها در هر فریم نمونهبرداری نمیکند. در عوض، پیکسلهای متفاوتی را در فریمهای مختلف نمونهبرداری کرده و از پیکسلهای نمونهبرداریشده در فریمهای گذشته برای پر کردن پیکسلهای نمونهبردارینشده در فریم فعلی استفاده میکند. DLSS از یادگیری ماشین برای ترکیب نمونهها در فریم فعلی و فریمهای گذشته بهره میبرد و میتوان آن را یک پیادهسازی پیشرفته و برتر TAA در نظر گرفت که به لطف هستههای تنسورِ در دسترس، امکانپذیر شده است.[۲۳] انویدیا همچنین هموارسازی لبه یادگیری عمیق (DLAA) را ارائه میدهد، که همان هموارسازی لبه مبتنی بر هوش مصنوعی مورد استفاده در DLSS را، اما بدون هیچگونه ارتقای مقیاس یا کاهش مقیاس،[ay] فراهم میکند.[۵۳]
معماری
به استثنای نسخه مبتنی بر «هسته سایهزن»[ظ] که در بازی کنترل[az] پیادهسازی شد، DLSS تنها بر روی کارتهای ویدئویی سری جیفورس آرتیایکس ۲۰،جیفورس آرتیایکس ۳۰، جیفورس آرتیایکس ۴۰، جیفورس آرتیایکس ۵۰ و کوادرو آرتیایکس در دسترس است و از شتابدهندههای هوش مصنوعی[ع] اختصاصی به نام هستههای تنسور[ba] استفاده میکند.[۴۷][۷۹] هستههای تنسور از زمان ریزمعماری پردازنده گرافیکی ولتا[غ] انویدیا، که نخستین بار در خط محصولات تسلا وی۱۰۰[bb] استفاده شد، در دسترس بودهاند.[۸۲] این هستهها برای انجام عملیات جمع-ضرب ذوبشده (FMA)[ف] استفاده میشوند که بهطور گسترده در محاسبات شبکه عصبی برای اعمال سری بزرگی از ضربها بر روی وزنها، و به دنبال آن افزودن یک بایاس،[ق] به کار میروند. هستههای تنسور میتوانند بر روی انواع دادههای FP16 ،INT8 ،INT4 و INT1 عمل کنند. هر هسته میتواند ۱۰۲۴ بیت عملیات FMA را در هر چرخه کلاک[bc] انجام دهد، بنابراین ۱۰۲۴ عملیات INT1 ،۲۵۶ عملیات INT4 ،۱۲۸ عملیات INT8 و ۶۴ عملیات FP16 در هر چرخه کلاک به ازای هر هسته تنسور انجام میشود، و اکثر پردازندههای گرافیکی تورینگ چند صد هسته تنسور دارند.[۸۷] هستههای تنسور از «ابتداییهای سطح Warp»[ک][bd] در کودا[گ] بر روی ۳۲ رشته[bf] موازی استفاده میکنند تا از معماری موازی خود بهره ببرند.[۹۲] یک «Warp»[ل][bg] مجموعهای از ۳۲ رشته است که برای اجرای دستورالعمل یکسان پیکربندی شدهاند. از ویندوز ۱۰ نسخه ۱۹۰۳، مایکروسافت ویندوزدایرکتاکس را بهعنوان بخشی از دایرکتاکس برای پشتیبانی از هستههای تنسور فراهم کرد.
بازخورد
بهویژه در نسخههای اولیه DLSS، کاربران فریمهای تار را گزارش کردند. از این رو، اندرو ادلستن، کارمند انویدیا، در سال ۲۰۱۹ در یک پست وبلاگی در مورد این مشکل اظهار نظر کرد و وعده داد که آنها در حال کار بر روی بهبود این فناوری هستند و توضیح داد که الگوریتم هوش مصنوعی DLSS عمدتاً با مواد تصویری 4K آموزش دیده است. این که استفاده از DLSS منجر به تصاویر بهخصوص تار در وضوحهای پایینتر، مانند فول اچدی[bh] میشود، به این دلیل است که الگوریتم، در مقایسه با وضوحهای بالاتر مانند 4K، اطلاعات تصویری بسیار کمتری برای محاسبه تصویر مناسب در اختیار دارد.[۹۵]
استفاده از «فریم جنریشن» در DLSS ممکن است منجر به افزایش «تأخیر ورودی»[م][bi][۹۸] و همچنین «آرتیفکتهای بصری»[ن] شود.[۱۰۱] همچنین این انتقاد مطرح شده است که با پیادهسازی DLSS در بازیهایشان، توسعهدهندگان بازی دیگر انگیزهای برای بهینهسازی آنها ندارند تا بازیها در وضوح اصلی[bj] بر روی سختافزارهای مدرن رایانه شخصی نیز روان اجرا شوند. برای مثال، برای بازی اَلن ویک ۲ در وضوح 4K در بالاترین تنظیمات گرافیکی با فعال بودن رهگیری پرتو، استفاده از DLSS در حالت «عملکرد»[bk] حتی با کارتهای گرافیکی مانند Nvidia GeForce RTX 4080 برای دستیابی به ۶۰ فریم بر ثانیه توصیه میشود.[۱۰۲]
مدل ارتقای مقیاس مبتنی بر هوش مصنوعی ترنسفورمر که با DLSS 4 معرفی شد، به دلیل بهبود کیفیت تصویر از نظر افزایش پایداری، کاهش شبحزدگی،[ه] هموارسازی لبه بهتر و سطح بالاتر جزئیات، و همچنین سازگاری عقبگرد و مقیاسپذیری آموزشی بالاتر در مورد بهبودهای آینده، با تحسین متوسطی روبرو شد.[۱۰۷][۱۰۸]
جستارهای وابسته
پینوشتها
یادداشتها
- ↑ «ارتقای مقیاس» (Upscaling) در گرافیک بلادرنگ، فرایندی است که در آن تصویر در وضوح داخلی (Internal Resolution) پایینتری رندر شده و سپس توسط یک الگوریتم به وضوح خروجی (Output Resolution) بالاتری بازسازی میشود. هدف اصلی این کار، کاهش بار محاسباتی بر «واحد پردازش گرافیکی» (GPU) و در نتیجه، دستیابی به نرخ فریم (Framerate) بالاتر است. روشهای ارتقای مقیاس به دو دستهٔ اصلی تقسیم میشوند:
- ۱. فضایی (Spatial)
- این روشها، مانند «درونیابی دونقطهای» (Bilinear) یا FSR 1.0 ایامدی، تنها با استفاده از دادههای همان فریم فعلی، پیکسلهای اضافی را تخمین میزنند که معمولاً منجر به از دست رفتن جزئیات ظریف میشود.[۱]
- ۲. زمانی (Temporal)
- این روشهای بسیار پیشرفتهتر، مانند «بازسازی زمانی» (Temporal Reconstruction) در TAAU یا DLSS 2، از دادههای فریمهای پیشین بهویژه «بردارهای حرکتی» (Motion Vectors) برای انباشت (Accumulate) اطلاعات در طول زمان استفاده میکنند. این انباشت زمانی به الگوریتم اجازه میدهد جزئیاتی را بازسازی کند که حتی در وضوح پایینتر ورودی نیز وجود نداشتهاند و در نتیجه، کیفیتی بسیار نزدیک به رندر بومی (Native) یا حتی بهتر از آن (به دلیل مؤلفهٔ پسهموارسازی) ارائه دهد.[۲]
- ↑ «آرتیایکس» (RTX) یک برند پلتفرمی از انویدیا است که در سال ۲۰۱۸ با معرفی معماری «تورینگ» (Turing) آغاز شد و صرفاً به کارتهای گرافیک اشاره ندارد، بلکه یک اکوسیستم کامل برای «گرافیک ترکیبی» (Hybrid Graphics) است. این پلتفرم، رندرینگ سنتی «شطرنجیسازی» (Rasterization) را با دو قابلیت سختافزاری جدید ترکیب میکند:
- ۱. هستههای رهگیری پرتو (RT Cores)
- واحدهای پردازشی اختصاصی که وظیفهٔ شتابدهی به محاسبات سنگین تقاطع پرتو با ساختار پیمایش (BVH Traversal) را برای «رهگیری پرتو» (Ray Tracing) بلادرنگ بر عهده دارند و افکتهایی مانند بازتابها، سایهها و نورپردازی سراسری (GI) واقعی را ممکن میسازند.[۴]
- ۲. هستههای تنسوری (Tensor Cores)
- واحدهای پردازشی تخصصی برای عملیات ماتریسی در «یادگیری عمیق»، که ستون فقرات ویژگیهای مبتنی بر هوش مصنوعی این پلتفرم، بهویژه «اَبَرنمونهگیری با یادگیری عمیق» (DLSS) و قابلیتهای حذف نویز (Denoising) پیشرفته هستند. این پلتفرم همچنین شامل مجموعهای از SDKها و APIها مانند OptiX و RTXGI برای توسعهدهندگان است.[۵]
- ↑ «تولید فریم» (Frame Generation) که با نام «درونیابی فریم» (Frame Interpolation) نیز شناخته میشود، تکنیکی است که با معرفی معماری «اِیدا لاولیس» (Ada Lovelace) و فناوری (DLSS 3) توسط انویدیا همگانی شد. برخلاف «ارتقای مقیاس» که پیکسلهای یک فریم موجود را بازسازی میکند، این روش یک فریم کاملاً جدید را در محور زمان، بین دو فریم رندرسدهٔ متوالی (مثلاً فریم ۱ و فریم ۲) تولید و درج میکند. این کار نرخ فریم دریافتی توسط کاربر را به شکل چشمگیری افزایش داده و سیالی حرکت (Fluidity) را بهبود میبخشد. هستهٔ مرکزی این فناوری، تحلیل حرکت صحنه بین دو فریم متوالی است. برای این منظور، الگوریتم از دو ورودی کلیدی استفاده میکند: «بردارهای حرکتی» (Motion Vectors) که از موتور بازی دریافت میشوند (و نشاندهندهٔ حرکت هندسهٔ صحنه هستند) و «جریان نوری» (Optical Flow) که توسط یک شتابدهندهٔ سختافزاری اختصاصی (Optical Flow Accelerator یا OFA) محاسبه میشود و حرکت پیکسلهایی را که توسط بردارهای حرکتی پوشش داده نمیشوند (مانند ذرات، سایهها یا بازتابها) تخمین میزند.[۶] یک شبکهٔ عصبی سپس این دو ورودی را ترکیب کرده تا فریم میانی را با کمترین مصنوعات (Artifacts) بصری، مانند شبحزدگی یا پارگی، تولید نماید.[۷]
- ↑ «تولید چند-فریمی» (Multi-Frame Generation یا MFG) نسخهٔ تکاملیافتهٔ «تولید فریم» (Frame Generation) است که توسط انویدیا همزمان با معرفی معماری «بلکول» (Blackwell) (سری RTX 50) و فناوری (DLSS 4) رونمایی شد. تفاوت اساسی این نسل جدید با «تولید فریم» (نسل DLSS 3) در نحوهٔ تحلیل و تولید فریمهای میانی است. در حالی که نسل قبلی (OFA) عمدتاً بر اساس دو فریم متوالی (جاری و قبلی) و جریان نوری بین آنها کار میکرد، MFG از دادههای بیشتری برای بازسازی استفاده میکند. این فناوری نهتنها بردارهای حرکتی و جریان نوری، بلکه اطلاعاتی از بافرهای عمق (Depth Buffers) و احتمالاً دادههای انباشتهشده از فریمهای قدیمیتر (بیش از دو فریم) را نیز وارد مدل هوش مصنوعی خود میکند.[۸] این ورودیهای غنیتر به شبکهٔ عصبی اجازه میدهد تا درک بسیار دقیقتری از هندسهٔ سهبعدی صحنه و نحوهٔ حرکت اجسام، بهویژه در موارد پیچیدهای مانند پدیدههای نوظهور (Disocclusions) و اجسام شفاف، داشته باشد. در نتیجه، MFG قادر است فریمهای میانی را با «مصنوعات» (Artifacts) بصری به مراتب کمتر و پایداری زمانی (Temporal Stability) بالاتری نسبت به نسل قبل تولید کند و همچنین پایهای برای قابلیتهای جدیدی مانند حذف نویز پیشرفتهٔ مبتنی بر هوش مصنوعی باشد.[۹]
- ↑ «سری جیفورس آرتیایکس ۵۰» (NVIDIA GeForce RTX 50 series)، که گاهی بهصورت غیررسمی سری ۵۰۰۰ نیز خوانده میشود، خانوادهٔ واحدهای پردازش گرافیکی (GPU) انویدیا است که بر پایهٔ معماری «بلکوِل» (Blackwell) ساخته شدهاند. این معماری، که جانشین «اِیدا لاولیس» (Ada Lovelace) (سری ۴۰) محسوب میشود، بهصورت رسمی در اواخر سال ۲۰۲۴ با معرفی مدلهای پرچمدار، از جمله GeForce RTX 5090، رونمایی شد. معماری بلکول بر مبنای فرایند لیتوگرافی سفارشی (4NP) شرکت TSMC توسعه یافته است.[۱۰] از تغییرات فنی بنیادین این نسل میتوان به بازطراحی «پردازندههای جریانی» (Streaming Multiprocessors یا SMs)، معرفی نسل پنجم «هستههای تنسوری» (Tensor Cores) و نسل سوم «هستههای رهگیری پرتو» (RT Cores) اشاره کرد. هستههای تنسوری جدید، قابلیتهای هوش مصنوعی پیشرفتهتری، از جمله فناوری «اَبَرنمونهگیری با یادگیری عمیق» (DLSS 4) و بهطور خاص، «تولید چند-فریمی» (Multi-Frame Generation) را پشتیبانی میکنند. همچنین، این نسل در مدلهای ردهبالای خود برای اولین بار از حافظههای پرسرعت GDDR7 بهره میبرد.[۱۱]
- ↑ «پسهموارسازی زمانی ارتقای وضوح» (TAAU)، که مخفف Temporal Anti-Aliasing Upscaling است، تکنیکی پیشرفته در رندرینگ سهبعدی است که هدف آن بهبود عملکرد (Performance) با رندر کردن صحنه در وضوح پایینتر، همراه با حفظ یا بهبود کیفیت بصری از طریق هموارسازی لبهها و بازسازی تصویر است. این تکنیک، در واقع، یک سیستم ارتقای وضوح (Upscaling) است که از دادههای زمانی و هستهٔ مرکزی تکنیک TAA برای بازسازی پیکسلهای از دست رفته بهره میبرد.
هستهٔ مرکزی TAAU بر این مفهوم استوار است که موتور رندر، تصویر را در یک وضوح داخلی (Internal Resolution) که کسری از وضوح خروجی (مثلاً ۵۰ تا ۷۵ درصد وضوح نمایشگر) است، محاسبه میکند. سپس، برای پر کردن فضای خالی و رسیدن به وضوح هدف، از همان مکانیسمهای نمونهبرداری زیرپیکسلی متغیر (لرزش یا Jitter) و ترکیب دادههای فریمهای پیشین (از طریق بافر تاریخچه و بردارهای حرکتی) که در TAA وجود دارد، استفاده میکند. این انباشت زمانی نه تنها لبههای دندانهدندانه را هموار میکند، بلکه به طور همزمان اطلاعات فضایی کافی برای بازسازی یک تصویر با وضوح بالاتر را نیز فراهم میآورد.
پیادهسازی TAAU با موفقیت در موتورهایی مانند آنریل انجین مورد استفاده قرار گرفته است. با این حال، همان چالشهای ذاتی TAA در TAAU نیز تشدید میشوند:
- شبحزدگی (Ghosting): ناشی از بازتاب نادرست دادههای تاریخی در نواحی دارای حرکت سریع یا اشیاء نوظهور (Disocclusion).
- تاری (Blurriness) و از دست دادن جزئیات: که ممکن است به دلیل رندر اولیه در وضوح پایین و تلاش برای تخمین جزئیات از دست رفته توسط الگوریتمهای ترکیب، بیشتر نمود پیدا کند.
- ↑ لزوماً نیازی نیست که الگوریتم با استفاده از این ایستهای از پیش تنظیمشده پیادهسازی شود؛ این امکان برای پیادهکننده وجود دارد که وضوحهای ورودی و خروجی سفارشی تعریف کند.
- ↑ ضریب مقیاس خطی که برای ارتقای نمونه (upsampling) وضوح ورودی به وضوح خروجی استفاده میشود. برای مثال، صحنهای که در 540p رندر شده، با ضریب مقیاس ۲٫۰۰ برابر، وضوح خروجی 1080p خواهد داشت.
- ↑ مقیاس رندر خطی، در مقایسه با وضوح خروجی، که فناوری برای رندر داخلی صحنهها پیش از ارتقای نمونه (upsampling) استفاده میکند. برای مثال، یک صحنه 1080p با مقیاس رندر ۵۰٪، وضوح داخلی 540p خواهد داشت.
- ↑ «پسهموارسازی با یادگیری عمیق» (Deep Learning Anti-Aliasing) (DLAA) یک تکنیک پسهموارسازی انحصاری توسعهیافته توسط انویدیا است که برای اجرا به «هستههای تنسوری» (Tensor Cores) موجود در کارتهای گرافیک سری RTX نیاز دارد. این فناوری، برخلاف «اَبَرنمونهگیری با یادگیری عمیق» (DLSS) که هدف آن افزایش نرخ فریم از طریق بازسازی تصویر از رزولوشن پایینتر است، بر مبنای استفاده از همان مدل هوش مصنوعی DLSS بر روی یک تصویر با رزولوشن بومی (Native) عمل میکند.[۳۷] هدف اصلی DLAA نه افزایش عملکرد، بلکه دستیابی به حداکثر کیفیت بصری ممکن است. این روش، همانند TAA، یک راهحل زمانی (Temporal) است و از دادههایی نظیر بردارهای حرکتی و بافرهای عمق از فریمهای پیشین بهره میبرد. اما تفاوت بنیادین آن با TAA، که بر اکتشافیهای (Heuristics) دستی برای ترکیب فریمها تکیه دارد و اغلب منجر به تاری یا شبحزدگی میشود، در استفاده از یک شبکه عصبی پیچشی (مبتنی بر یک خودرمزگذار) برای بازسازی زمانی تصویر است. این شبکه آموزش دیده تا جزئیات دقیق را حفظ کرده و مصنوعات زمانی (Temporal Artifacts) مانند سوسو زدن (Shimmering) را بسیار مؤثرتر از TAA حذف کند.[۳۸]
- ↑ «بهبود لبه» (Edge Enhancement) یا «تیز کردن» (Sharpening)، دستهای از تکنیکهای «پردازش تصویر» (Image Processing) است که با هدف افزایش «کنتراست» (Contrast) در امتداد لبههای شناساییشده در یک تصویر عمل میکند و در نتیجه، وضوح درکشدهٔ (Perceived Sharpness) تصویر را بهبود میبخشد. برخلاف تصور رایج، این فرایند جزئیات جدیدی را به تصویر اضافه نمیکند، بلکه جزئیات موجود را برجستهتر میسازد. الگوریتمهای رایج بهبود لبه، مانند «ماسک کردن غیرواضح» (Unsharp Masking)، ابتدا یک نسخهٔ تار (Blur) از تصویر اصلی ایجاد میکنند، سپس این نسخهٔ تار را از نسخهٔ اصلی کم میکنند تا فقط لبهها (مناطق با فرکانس بالا) باقی بمانند؛ در نهایت، این «ماسکِ لبه» با ضریبی مشخص به تصویر اصلی اضافه میشود.[۴۲] اگرچه این تکنیک میتواند وضوح تصویر را بهبود بخشد، اما استفادهٔ بیش از حد از آن میتواند منجر به «مصنوعات بصری» (Visual Artifacts) شود؛ از جملهٔ این مصنوعات میتوان به «اثر هاله» (Halo Effect) (ایجاد حلقههای روشن یا تیرهٔ غیرطبیعی در دو طرف لبههای پرکنتراست) یا افزایش قابل توجه «نویز» (Noise) در تصویر اشاره کرد.[۴۳]
- ↑ «هموارسازی فضایی» (Spatial Anti-Aliasing) به مجموعهای از تکنیکهای «پسهموارسازی» (Anti-Aliasing) اطلاق میشود که منحصراً با استفاده از دادههای یک فریم واحد (Single Frame) برای تشخیص و هموارسازی لبههای دندانهدار (Jaggies) عمل میکنند. این روشها، برخلاف «هموارسازی زمانی» (Temporal Anti-Aliasing)، هیچ اطلاعاتی را از فریمهای پیشین به ارث نمیبرند. روشهای کلاسیک مانند «اَبَرنمونهگیری» (Supersampling یا SSAA) که کل صحنه را در رزولوشن بالاتر رندر و سپس کوچک میکنند، گرانترین و باکیفیتترین نوع هموارسازی فضایی محسوب میشوند.[۴۴] روشهای کارآمدتری مانند «پسهموارسازی چندنمونهای» (MSAA) تنها لبههای چندضلعیها را اَبَرنمونهگیری میکنند. در دوران مدرن، روشهای «پسپردازشی» (Post-Processing) مانند «پسهموارسازی تقریبی سریع» (FXAA) یا (SMAA)، با تحلیل کنتراست فریم رندرشدهٔ نهایی، لبهها را شناسایی کرده و آنها را بهصورت فضایی محو (Blur) میکنند تا دندانهزدگی کاهش یابد. این روشها بسیار سریع هستند اما ممکن است باعث تاری کل تصویر شوند.[۴۵]
- ↑ «هموارسازی زمانی» (Temporal Anti-Aliasing یا TAA) یک تکنیک پسهموارسازی است که از اطلاعات فریمهای پیشین برای بهبود کیفیت تصویر فریم فعلی استفاده میکند. برخلاف روشهای «فضایی» (Spatial) که فقط دادههای یک فریم را تحلیل میکنند، TAA با انباشت (Accumulate) دادهها در طول زمان کار میکند. هستهٔ مرکزی این روش بر پایهٔ «لرزش» (Jittering) موقعیت نمونهبرداری پیکسلها در هر فریم استوار است؛ به این معنا که در هر فریم، دوربین به اندازهٔ کسری از یک پیکسل جابجا میشود. سپس، الگوریتم با استفاده از «بردارهای حرکتی» (Motion Vectors) که از موتور بازی دریافت میکند، فریم قبلی را «بازتاب» (Reproject) میدهد تا با فریم فعلی تراز شود.[۴۹] در نهایت، نمونهٔ بازتابشدهٔ قبلی با نمونهٔ فعلی ترکیب (Blend) میشود. این فرایند انباشت زمانی، بهطور مؤثری «نرخ نمونهبرداری» (Sampling Rate) را افزایش داده و نهتنها «دندانهزدگی» (Aliasing) هندسی، بلکه «نویز الایسینگ» سایهزنی و «سوسو زدن» (Shimmering) را نیز که بزرگترین ضعف روشهای فضایی است، به شکل چشمگیری کاهش میدهد. چالش اصلی TAA، مدیریت «شبحزدگی» (Ghosting) ناشی از بازتاب نادرست دادههای تاریخی است.[۵۰]
- ↑ «بردارهای حرکتی» (Motion Vectors) دادههای دوبعدی هستند که نشان میدهند پیکسلها (یا بلوکهایی از پیکسلها) از یک فریم به فریم بعدی چقدر جابجا شدهاند. در گرافیک رایانهای بلادرنگ، این بردارها معمولاً توسط «موتور بازی» (Game Engine) و در طی فرایند رندرینگ، با محاسبهٔ تفاوت موقعیت هر رأس (Vertex) در فریم فعلی و موقعیت آن در فریم قبلی (با استفاده از ماتریسهای تبدیل فریم قبل) تولید میشوند. این دادهها سپس در یک بافت تمامصفحه (که اغلب «بافر سرعت» یا Velocity Buffer نامیده میشود) ذخیره میشوند.[۵۱] بردارهای حرکتی نقشی حیاتی و ضروری در بسیاری از تکنیکهای «زمانی» (Temporal) مدرن ایفا میکنند؛ آنها به الگوریتمهایی مانند «پسهموارسازی زمانی» (TAA) یا «اَبَرنمونهگیری با یادگیری عمیق» (DLSS) اجازه میدهند تا دادههای فریم قبلی را بهطور دقیق «بازتاب» (Reproject) دهند تا با فریم فعلی تراز شوند. همچنین، این بردارها ورودی اصلی برای ایجاد افکت «تاری حرکتی» (Motion Blur) پسپردازشی هستند.[۵۲]
- ↑ «ارتقادهندهٔ مقیاس ویدئو» (Video Upscaler) به یک سامانهٔ نرمافزاری یا سختافزاری اطلاق میشود که یک جریان ویدئویی با وضوح (رزولوشن) پایین را به وضوح بالاتر تبدیل میکند (مانند تبدیل 1080p به 4K). برخلاف روشهای «درونیابی» (Interpolation) فضایی سنتی مانند «دومکعبی» (Bicubic) که تنها با استفاده از پیکسلهای مجاور در همان فریم، تصویر را بزرگ کرده و اغلب منجر به تاری (Blurriness) و از دست رفتن جزئیات میشوند، ارتقادهندههای مدرن از تکنیکهای بسیار پیچیدهتری بهره میبرند.[۵۶] این سیستمهای پیشرفته، بهویژه آنهایی که مبتنی بر «یادگیری عمیق» (Deep Learning) هستند، از «شبکههای عصبی پیچشی» (CNNs) استفاده میکنند. این شبکهها با تحلیل اطلاعات «زمانی» (Temporal) (یعنی دادههای چندین فریم متوالی) و همچنین دادههای فضایی، الگوهای حرکتی و بافتها را تشخیص داده و قادرند جزئیات را بهجای «حدس زدن»، بهصورت هوشمندانه «بازسازی» (Reconstruct) کنند. این امر منجر به تصویری نهایی میشود که وضوح و پایداری زمانی بسیار بالاتری نسبت به درونیابیهای کلاسیک دارد.[۵۷]
- ↑ «بایاس میپمپ» (Mip-map Bias) یا «بایاس اِلاودی» (LOD Bias)، یک مقدار اُفسِت (Offset) یا انحراف دستی است که توسط برنامهنویس یا کاربر بر فرایند «نمونهبرداری» (Sampling) از «میپمپها» اعمال میشود. در رندرینگ سهبعدی، GPU بهطور خودکار بر اساس فاصلهٔ سطح از دوربین و زاویهٔ دید، محاسبه میکند که از کدام سطح (Level) از زنجیرهٔ میپمپ برای نمونهبرداری بافت (Texture) استفاده کند؛ این محاسبه «سطح جزئیات» (Level of Detail یا LOD) نام دارد.[۵۸] بایاس میپمپ به این مقدار LOD محاسبهشده اضافه (یا از آن کم) میشود. اعمال یک بایاس مثبت، GPU را وادار میکند تا از سطوح میپمپ پایینتر (کوچکتر و تارتر) زودتر از حالت عادی استفاده کند؛ این کار معمولاً برای کاهش «سوسو زدن» (Shimmering) یا «نویز» (Aliasing) بافتها در فواصل دور، به قیمت افزایش تاری (Blurriness) تصویر، به کار میرود. برعکس، یک بایاس منفی، GPU را مجبور میکند تا از سطوح میپمپ بالاتر (بزرگتر و پرجزئیاتتر) برای مدت طولانیتری استفاده کند که منجر به افزایش وضوح و جزئیات بافتها، اما با ریسک شدید افزایش «نویز الایسینگ» و سوسو زدن میشود.[۵۹]
- ↑ «درونیابی حرکتی» (Motion Interpolation) یک تکنیک پردازش ویدئو است که هدف آن ایجاد فریمهای میانی جدید بر پایهٔ تحلیل و تخمین «حرکت» (Motion) بین فریمهای اصلی است. این فرایند سنگ بنای اصلی اکثر روشهای «افزایش نرخ فریم» (Frame Rate Up-Conversion) مدرن، مانند قابلیتهای «حرکت روان» (Motion Smoothing) در تلویزیونها است. فرایند معمولاً در دو مرحله انجام میشود:
- ۱. تخمین حرکت (Motion Estimation)
- در این مرحله، الگوریتم (که میتواند مبتنی بر «جریان نوری» یا یک شبکهٔ عصنی باشد) فریمهای متوالی را تحلیل کرده و «بردارهای حرکتی» (Motion Vectors) را برای پیکسلها یا بلوکهای پیکسلی محاسبه میکند. این بردارها نشان میدهند که هر بخش از تصویر از فریم اول به کجا در فریم دوم حرکت کرده است.[۶۰]
- ۲. جبران حرکت و درونیابی (Motion Compensation & Interpolation)
- الگوریتم با استفاده از بردارهای حرکتی محاسبهشده، یک فریم میانی را «سنتز» میکند. این کار با جابجایی (Warping) پیکسلها از هر دو فریم اصلی به یک نقطهٔ زمانی میانی (مثلاً t=۰٫۵) و سپس ترکیب (Blend) نتایج انجام میشود. چالش اصلی این روش، مدیریت دقیق «انسداد» (Occlusions) (جایی که یک شیء، شیء دیگری را میپوشاند یا از پشت آن آشکار میشود) است که مدیریت نادرست آن منجر به «مصنوعات» (Artifacts) شدید میشود.[۶۱]
- ↑ «درونیابی فریم» (Frame Interpolation) فرایندی در پردازش ویدئو و گرافیک رایانهای است که در آن، فریمهای میانی جدیدی بین فریمهای موجودِ یک ویدئو، بهصورت مصنوعی «سنتز» (Synthesize) میشوند.[۶۵] هدف اصلی این تکنیک، افزایش «نرخ فریم» (Frame Rate) یا همان «نمونهبرداری زمانی» (Temporal Up-sampling) است که منجر به دو کاربرد عمده میشود:
- ۱. ایجاد حرکت بسیار نرمتر و روانتر (Motion Smoothing)، که در تلویزیونها (اغلب تحت عنوان «جلوهٔ سریال آبکی») و فناوریهای نوین بازی، مانند (DLSS 3)، به کار میرود.
- ۲. امکان ایجاد جلوههای «حرکت آهسته» (Slow-Motion) باکیفیت از ویدئوهایی با نرخ فریم استاندارد. روشهای سنتی این کار، مانند «ترکیب فریم» (Frame Blending) یا «جریان نوری» (Optical Flow)، اغلب با حرکات پیچیده یا «انسداد» (Occlusion) دچار چالش شده و «مصنوعات بصری» (Visual Artifacts) مانند «شبحزدگی» (Ghosting) یا تاری (Blurriness) ایجاد میکنند. در مقابل، روشهای مدرن مبتنی بر «یادگیری عمیق» (Deep Learning)، از شبکههای عصبی پیچشی برای تحلیل الگوهای حرکتی پیچیده و بازسازی فریمهای میانی با دقت و وضوح بصری به مراتب بالاتر استفاده میکنند.[۶۶]
- ↑ «انویدیا رفلکس» (Nvidia Reflex) یک مجموعه فناوری (SDK) نرمافزاری است که با هدف اندازهگیری و کاهش «تأخیر ورودی» (Input Lag) یا همان «تأخیر سیستم» (System Latency) در بازیهای ویدئویی طراحی شده است. تأخیر سیستم به فاصلهٔ زمانی بین کلیک ماوس (یا ورودی دیگر) تا نمایش واکنش آن روی نمایشگر اطلاق میشود. رفلکس این کار را از طریق دو مؤلفهٔ اصلی انجام میدهد:
- ۱. بهینهسازی SDK
- این بخش به موتور بازی اجازه میدهد تا صف رندر (Render Queue) را بهطور کامل حذف یا به حداقل برساند. این کار تضمین میکند که CPU کار خود (آمادهسازی فریمها) را دقیقاً در آخرین لحظهٔ ممکن قبل از نیاز GPU به آن، انجام میدهد و از ایجاد «پسفشار» (Back Pressure) و انباشتگی فریمها که عامل اصلی تأخیر است، جلوگیری میکند.[۶۷]
- ۲. تحلیلگر تأخیر (Latency Analyzer)
- این قابلیت، که نیازمند سختافزار سازگار (مانیتورهای G-Sync خاص و ماوسهای سازگار) است، به کاربران اجازه میدهد تا برای اولین بار، تأخیر سیستمِ «پایان-به-پایان» (End-to-End) خود را بهطور دقیق و بلادرنگ اندازهگیری کنند. با کاهش تأخیر سیستم، رفلکس مستقیماً به بهبود زمان واکنش بازیکن در بازیهای رقابتی کمک میکند.[۶۸]
- ↑ «هستهٔ سایهزن» (Shader Core) یک اصطلاح عمومی برای توصیف واحد پردازشگر اصلی و قابلبرنامهریزی در یک «واحد پردازش گرافیکی» (GPU) مدرن است. این واحد، بلوک ساختمانی (Building Block) بنیادی برای اجرای موازیسازی گسترده محسوب میشود. هر هستهٔ سایهزن معمولاً شامل مجموعهای از واحدهای اجرایی (مانند ALUs یا واحدهای FMA)، یک فایل ثبات (Register File)، حافظهٔ کش سطح ۱ و «حافظهٔ مشترک» (Shared Memory) است[۷۵] این هسته مسئول اجرای «رشتهها» (Threads)هایی است که برنامههای سایهزن (Shader Programs) مانند سایهزنهای رأسی (Vertex)، قطعه (Fragment) یا محاسباتی (Compute) را اجرا میکنند. اگرچه این اصطلاح عمومی است، اما معادلهای انحصاری آن در معماریهای مختلف شناختهشدهتر هستند: انویدیا از این واحدها با نام «پردازندهٔ جریانی چندگانه» (Streaming Multiprocessor یا SM) یاد میکند، در حالی که ایامدی آنها را «واحد محاسباتی» (Compute Unit یا CU) مینامد.[۷۶]
- ↑ «شتابدهندههای هوش مصنوعی» (AI Accelerators) به دستهای از سختافزارهای تخصصی یا «مدارهای مجتمع با کاربرد خاص» (ASICs) اطلاق میشود که برای تسریع محاسبات رایج در بارهای کاری «یادگیری ماشین» (Machine Learning) و «یادگیری عمیق» (Deep Learning) طراحی شدهاند. برخلاف «واحدهای پردازش مرکزی» (CPUs) که برای وظایf عمومی بهینهاند، شتابدهندهها بر انجام عملیات ریاضی خاصی، بهویژه «جبر خطی» (Linear Algebra) با «دقت پایین» (Low Precision) (مانند INT8 یا FP16) و عملیات «ضرب-انباشت ماتریسی» (Matrix Multiply-Accumulate)، تمرکز دارند.[۷۷] این سختافزارها با اجرای موازیسازی گستردهٔ این عملیات، توان عملیاتی (Throughput) و بهرهوری انرژی (Power Efficiency) بسیار بالاتری را نسبت به پردازندههای همهمنظوره ارائه میدهند. نمونههای برجستهٔ این شتابدهندهها شامل «واحدهای پردازش تنسوری» (TPUs) گوگل، «واحدهای پردازش عصبی» (NPUs) در دستگاههای موبایل و «هستههای تنسوری» (Tensor Cores) در پردازندههای گرافیکی انویدیا میشوند.[۷۸]
- ↑ «وُلتا» (Volta) یک ریزمعماری پردازندهٔ گرافیکی (GPU) و پلتفرم محاسباتی از انویدیا است که در سال ۲۰۱۷ بهعنوان جانشین معماری «پاسکال» (Pascal) و عمدتاً برای بازارهای «محاسبات با کارایی بالا» (HPC)، «مراکز داده» (Data Center) و «هوش مصنوعی» (AI) معرفی شد. ولتا یک گام تحولآفرین در طراحی GPU بود، زیرا برای اولین بار «هستههای تنسوری» (Tensor Cores) را معرفی کرد؛ هستههای تنسوری واحدهای پردازشی تخصصی هستند که برای اجرای بسیار سریع عملیات «ضرب-انباشت ماتریسی» (Matrix Multiply-Accumulate) با «دقت ترکیبی» (Mixed Precision) (FP16 و FP32) طراحی شدهاند و توان عملیاتی یادگیری عمیق را به شکل چشمگیری افزایش دادند.[۸۰] علاوه بر این، ولتا (در پرچمدار خود، Tesla V100) از نسل دوم «حافظه با پهنای باند بالا» (HBM2) استفاده میکرد و قابلیت «زمانبندی مستقل رشتهها» (Independent Thread Scheduling) را معرفی نمود که به پردازنده اجازه میداد تا رشتههای (Threads) واگرا (Divergent) بهطور مستقل مدیریت شوند و این امر، کارایی و سهولت برنامهنویسی در CUDA را بهبود بخشید.[۸۱]
- ↑ «اِفاِماِی» (FMA) یا «جمع-ضرب ذوبشده» (Fused Multiply-Add)، به دستورالعملهای محاسباتی خاصی در پردازندههای مدرن (CPU و GPU) اشاره دارد که عملیات $a \times b + c$ را بهعنوان یک دستورالعمل واحد اجرا میکنند. این دستورالعملها، مانند FMA3 (معرفی شده در معماری «هَسوِل» اینتل و «پایلدرایور» ایامدی) یا FMA4، سنگ بنای «محاسبات با کارایی بالا» (HPC) و بهویژه، «جبر خطی» (Linear Algebra) هستند. اهمیت آنها در این است که عملیات «ضرب نقطهای» (Dot Product)، که هستهٔ مرکزی «ضرب ماتریسی» (Matrix Multiplication) است، اساساً مجموعهای از عملیات FMA محسوب میشود.[۸۳] در حوزهٔ «هوش مصنوعی»، تقریباً تمام محاسبات در «شبکههای عصبی» (Neural Networks) به عملیات ضرب ماتریسی (GEMM) بازمیگردند؛ بنابراین، توان عملیاتی (Throughput) واحدهای FMA در یک پردازنده (مانند هستههای تنسوری که نسخههای تخصصی FMA هستند) مستقیماً «فلاپس» (FLOPS) یا توان محاسباتی خام آن را در بارهای کاری یادگیری عمیق تعیین میکند.[۸۴]
- ↑ «بایاس» (Bias) در محاسبات فنی و گرافیک رایانهای، به یک مقدار اُفسِت (Offset) یا انحراف ثابت اطلاق میشود که برای تنظیم دقیق یک الگوریتم یا جلوگیری از «مصنوعات بصری» (Visual Artifacts) به کار میرود. این اصطلاح بسته به زمینه، معانی متفاوتی دارد:
- ۱. در شبکههای عصبی (AI)
- بایاس یک پارامتر قابلیادگیری و مستقل از ورودی است که به مجموع وزنی ورودیهای یک نورون (قبل از اعمال «تابع فعالسازی») اضافه میشود. این مقدار به مدل اجازه میدهد تا تابع تصمیمگیری را در فضا جابجا کند و انعطافپذیری مدل را برای یادگیری الگوهایی که لزوماً از مبدأ عبور نمیکنند، به شدت افزایش میدهد.[۸۵]
- ۲. در گرافیک (Shadow Bias)
- در تکنیک «نگاشت سایه» (Shadow Mapping)، بایاس عمق یک اُفست کوچک است که به مقدار عمق یک قطعه (Fragment) قبل از مقایسه با نقشهٔ سایه اضافه میشود تا از پدیدهای به نام «آکنهٔ سایه» (Shadow Acne) یا خود-سایهزنی (Self-Shadowing) که ناشی از خطاهای دقت ممیز شناور است، جلوگیری کند.[۸۶]
- ↑ «اَبتداییهای سطح Warp" (Warp-Level Primitives) مجموعهای از دستورالعملها یا توابع «درونذاتی» (Intrinsics) در مدل برنامهنویسی CUDAی انویدیا هستند که به رشتههای (Threads) درون یک «وارپ» (Warp) واحد اجازه میدهند تا بدون نیاز به استفاده از «حافظهٔ مشترک» (Shared Memory) یا «حافظهٔ سراسری» (Global Memory)، مستقیماً با یکدیگر همکاری کرده و دادهها را مبادله کنند. این عملیات شامل توابعی مانند __shfl_sync() (برای جابجایی دادهها بین رشتهها)، __ballot_sync() (برای رأیگیری یا بررسی یک شرط در تمام رشتههای وارپ) و __any_sync()/__all_sync() (برای بررسی نتایج بولی) میشود.[۸۸] مزیت اصلی این اَبتداییها، کارایی بسیار بالای آنها است؛ از آنجایی که ارتباط مستقیماً در سطح «ثبات» (Register) و واحدهای اجرایی رخ میدهد، از چرخهٔ پرهزینهٔ نوشتن داده در حافظه (Store) و سپس خواندن مجدد آن (Load) جلوگیری میشود. این امر «تأخیر» (Latency) را به شدت کاهش داده و الگوهای ارتباطی رایج در الگوریتمهای موازی، مانند «کاهش» (Reductions) یا «اسکن پیشوندی» (Prefix Scans) را تسریع میبخشد.[۸۹]
- ↑ «کودا» (CUDA) که سرواژهٔ «معماری یکپارچه دستگاههای محاسباتی» (Compute Unified Device Architecture) است، یک پلتفرم «محاسبات موازی» (Parallel Computing) و «مدل برنامهنویسی» (Programming Model) انحصاری است که توسط انویدیا توسعه یافته. این پلتفرم به توسعهدهندگان نرمافزار اجازه میدهد تا از توان محاسباتی عظیم «واحدهای پردازش گرافیکی» (GPUs) انویدیا برای مقاصد «محاسبات همهمنظوره» (GPGPU) فراتر از پردازش گرافیکی سنتی، بهره ببرند.[۹۰] کودا زبانهایی مانند C++ و Fortran را با مجموعهای از افزونهها و APIها گسترش میدهد و به برنامهنویس اجازه میدهد تا «هستهها»[be] توابعی که قرار است روی GPU اجرا شوند را تعریف کند. مدل اجرای کودا، هزاران «رشتهها» (Thread) را سازماندهی میکند که این رشتههاها در قالب «بلوکها» (Blocks) و «گریدها» (Grids) مرتب شدهاند. این انتزاع، مدیریت موازیسازی گسترده (Massive Parallelism) را ساده میسازد و کودا را به ابزار غالب در زمینههایی مانند «محاسبات علمی» (Scientific Computing)، «هوش مصنوعی» (AI) و «تحلیل داده» (Data Analytics) تبدیل کرده است.[۹۱]
- ↑ «وارپ» (Warp) واحد بنیادین زمانبندی و اجرای «رشته» (Thread) در ریزمعماریهای پردازندهٔ گرافیکی (GPU) انویدیا است. وارپ، گروهی متشکل از ۳۲ رشته موازی است. معماری GPUهای انویدیا از مدل «یک دستور، چند رشته» (SIMT) یا (Single Instruction, Multiple Thread) پیروی میکند؛ این بدان معناست که در هر چرخهٔ ساعت، تمام ۳۲ رشته در یک وارپ، دستورالعمل یکسانی را اجرا میکنند، اما هر کدام بر روی دادههای متفاوتی عمل مینمایند.[۹۳] مدیریت رشتهها در قالب وارپ، سربار (Overhead) سختافزاری برای زمانبندی و مدیریت دستورالعملها را به شدت کاهش میدهد. با این حال، اگر رشتههای درون یک وارپ به دلیل یک عبارت شرطی (مانند if-else) به مسیرهای اجرایی متفاوتی بروند، پدیدهای به نام «واگرایی وارپ» (Warp Divergence) رخ میدهد. در این حالت، سختافزار مجبور است هر مسیر (Path) را بهصورت «سریالی» (Serially) اجرا کند (درحالیکه رشتههای مسیر دیگر غیرفعال هستند)، که این امر میتواند منجر به کاهش قابل توجهی در کارایی و بهرهبرداری از واحدهای محاسباتی شود.[۹۴]
- ↑ «تأخیر ورودی» (Input Lag) به فاصلهٔ زمانی بین ارسال یک سیگنال توسط کاربر از طریق یک دستگاه ورودی (مانند کلیک ماوس، فشردن دکمهٔ کنترلر یا ضربه زدن به کلید کیبورد) و نمایش واکنش متناظر آن بر روی صفحهٔ نمایش اطلاق میشود. این معیار، یک سنجش «پایان-به-پایان» (End-to-End) است و مجموع تأخیرهای ایجاد شده در کل «زنجیرهٔ رندرینگ» (Rendering Pipeline) را شامل میشود.[۹۶] اجزای اصلی تأخیر ورودی عبارتند از:
- ۱. تأخیر دستگاه ورودی (پردازش و انتقال سیگنال).
- ۲. تأخیر سیستم (شامل زمان پردازش CPU، زمانبندی و زمان رندر GPU).
- ۳. تأخیر نمایشگر (شامل زمان پردازش داخلی تصویر توسط مانیتور و زمان اسکن فریم). تأخیر ورودی نباید با «زمان پاسخدهی» (Response Time) پیکسل اشتباه گرفته شود؛ زمان پاسخدهی صرفاً مدت زمان تغییر رنگ یک پیکسل است، در حالی که تأخیر ورودی کل زمان واکنش سیستم است و یک عامل حیاتی در بازیهای رقابتی و سریع محسوب میشود.[۹۷]
- ↑ «آرتیفکتهای بصری» (Visual Artifacts) یا «مصنوعات بصری»، به هرگونه ناهنجاری یا خطای ناخواسته در تصویر یا ویدیوی دیجیتال اشاره دارد که در صحنهٔ اصلی وجود نداشته و در طی فرایند «رندرینگ» (Rendering)، «فشردهسازی» (Compression)، انتقال داده یا نمایش (Display) ایجاد شده باشد. این ناهنجاریها کیفیت بصری درکشده را کاهش میدهند. مصنوعات رندرینگ میتوانند شامل «دندانهزدگی» (Aliasing) (لبههای پلکانی)، «سوسو زدن» (Shimmering) (ناپایداری پیکسلها در حرکت)، «شبحزدگی» (Ghosting) (دنبالههای حرکتی)، Z-Fighting (سوسو زدن سطوح همپوشان) یا «سایهزنی نواری» (Color Banding) باشند.[۹۹] دستهٔ دیگری از مصنوعات، ناشی از فشردهسازی با اتلاف (Lossy Compression) هستند، مانند «بلوکی شدن» (Blocking) (نمایان شدن مرزهای بلوکهای تبدیل در JPEG یا MPEG) یا «اثر پشه» (Mosquito Noise) (نویزهای لرزان در اطراف لبههای تیز). شناسایی و کاهش این مصنوعات، یکی از اهداف اصلی در الگوریتمهای گرافیک رایانهای و پردازش تصویر است.[۱۰۰]
- ↑ «بازسازی زمانی» (Temporal Reconstruction) یک تکنیک بنیادی در گرافیک بلادرنگ است که در آن، اطلاعات پیکسلها از فریمهای گذشته (که در یک «بافر تاریخچه» یا History Buffer ذخیره شدهاند) با استفاده از «بردارهای حرکتی» (Motion Vectors) به موقعیت صحیح خود در فریم فعلی «بازتاب» (Reproject) داده میشوند. سپس، این دادههای تاریخیِ بازتابشده با نمونهٔ جدید فریم فعلی (که اغلب برای جمعآوری اطلاعات زیرپیکسلی، «لرزش» یا Jitter یافته) «انباشت» (Accumulate) یا ترکیب میشوند.[۱۰۴] هدف این فرایند، استفاده از دادههای جمعآوریشده در طول زمان برای بازسازی یک تصویر با کیفیت بسیار بالاتر از آن چیزی است که رندر کردن یک فریم واحد اجازه میدهد. این تکنیک، هستهٔ مرکزی تقریباً تمام راهحلهای مدرن «ارتقای مقیاس زمانی» (Temporal Upscaling) مانند (FSR 2/3)، (DLSS 2) و (XeSS) و همچنین «پسهموارسازی زمانی» (TAA) را تشکیل میدهد و برای مبارزه با «دندانهزدگی» (Aliasing) و بازسازی جزئیات از یک ورودی با رزولوشن پایینتر به کار میرود.[۱۰۵]
- ↑ «شبحزدگی» (Ghosting) یک «مصنوع بصری» (Visual Artifact) رایج است که در آن، دنبالهای شبحمانند و محو از یک شیء متحرک در فریمهای بعدی قابل مشاهده است. این پدیده میتواند دو منشأ کاملاً متفاوت داشته باشد:
- ۱. منشأ سختافزاری (نمایشگر): این نوع شبحزدگی، که گاهی «تاری حرکتی» (Motion Blur) نیز نامیده میشود، ناشی از «زمان پاسخدهی» (Response Time) کند پیکسلها در نمایشگرها، بهویژه پنلهای (LCD) مانند VA یا IPS است. در این حالت، کریستالهای مایع نمیتوانند با سرعت کافی از یک رنگ به رنگ دیگر تغییر حالت دهند و در نتیجه، تصویر قبلی برای مدتی کوتاه باقی میماند.[۱۰۳]
- ۲. منشأ نرمافزاری (رندرینگ): این نوع شبحزدگی، یک مصنوع رایج در الگوریتمهای «بازسازی زمانی»[و] مانند «پسهموارسازی زمانی» (TAA) یا (DLSS) است. این الگوریتمها از دادههای فریمهای قبلی برای بهبود فریم فعلی استفاده میکنند. اگر «بازتاب» (Reprojection) دادههای تاریخی (بر اساس بردارهای حرکتی) نادرست باشد بهخصوص در مناطقی که یک شیء جدید ظاهر میشود (Disocclusion) دادههای قدیمی به اشتباه با فریم جدید ترکیب شده و یک دنبالهٔ شبحمانند از موقعیت قبلی شیء ایجاد میکنند.[۱۰۶]
واژهنامه
- ↑ simple resolution upscaling
- ↑ ray tracing
- ↑ Tensor Cores
- ↑ Unreal Engine
- ↑ Unity
- ↑ Tensor Cores
- ↑ iterations
- ↑ spatial image upscaler
- ↑ shader cores
- ↑ optical flow
- ↑ Ray Reconstruction
- ↑ denoising
- ↑ Multi Frame Generation
- ↑ Ultra Quality
- ↑ Quality
- ↑ Balanced
- ↑ Performance
- ↑ Ultra Performance
- ↑ Auto
- ↑ spatial image upscaler
- ↑ motion vectors
- ↑ Hallucinations
- ↑ Data augmentation
- ↑ soft appearance
- ↑ artifacts
- ↑ Edge cases
- ↑ upsampling
- ↑ sub-pixel jittering
- ↑ aliasing
- ↑ depth buffers
- ↑ ghosting
- ↑ flickering
- ↑ neighborhood clamping
- ↑ blur filter
- ↑ changelogs
- ↑ overhead
- ↑ Textures
- ↑ transitions
- ↑ Optical Flow Accelerator
- ↑ denoising
- ↑ full ray tracing
- ↑ DLC (Downloadable content)
- ↑ Transformer (deep learning architecture)
- ↑ interpolated
- ↑ Multi Frame Generation
- ↑ 4x Frame Generation
- ↑ Dynamic-link library (DLLs)
- ↑ open source
- ↑ mods
- ↑ anti-aliasing
- ↑ downscaling
- ↑ Control
- ↑ Tensor Cores
- ↑ Tesla V100
- ↑ clock
- ↑ Warp-Level Primitives
- ↑ Kernels
- ↑ thread
- ↑ Warp (CUDA)
- ↑ Full HD
- ↑ input latency
- ↑ native
- ↑ Performance
پانویس
- ↑ Ljevak, E. (15 ژوئن 2021). "FidelityFX Super Resolution (FSR) 1.0 - Spatial Upscaling". GPUOpen (AMD) (به انگلیسی).
- ↑ "Temporal Upsampling". Intel Developer Zone (به انگلیسی). 26 آوریل 2022.
- ↑ "Nvidia RTX DLSS: Everything you need to know". Digital Trends. 2020-02-14. Retrieved 2020-04-05.
«ابرنمونهبرداری یادگیری عمیق از هوش مصنوعی و یادگیری ماشین برای تولید تصویری بهره میبرد که بدون تحمیل سربار رندر، مشابه یک تصویر با وضوح بالاتر به نظر میرسد. الگوریتم انویدیا از دهها هزار سکانس تصویری رندر شده که توسط یک ابررایانه ایجاد گشتهاند، میآموزد. این فرایند، الگوریتم را قادر میسازد تا تصاویری با زیبایی مشابه تولید کند، بیآنکه نیازی باشد کارت گرافیک برای انجام این کار، سخت تلاش کند.»
- ↑ S., Pieter (16 سپتامبر 2018). "NVIDIA Turing Architecture Deep Dive: More Than Just Ray Tracing". AnandTech (به انگلیسی).
- ↑ "NVIDIA Turing GPU Architecture" (PDF) (به انگلیسی). NVIDIA. 2018. pp. ۴–۷ (معرفی هستههای RT و تنسور).
- ↑ Spataro, G.; Salvi, M.; Pantaleoni, J. (12 اکتبر 2022). "NVIDIA DLSS 3: AI-Powered Frame Generation for Fast Gaming". NVIDIA Developer Blog (به انگلیسی).
- ↑ Evans, Alex (21 سپتامبر 2022). "Nvidia DLSS 3 in-depth: how AI frame generation works, and why it's a big deal". Eurogamer (Digital Foundry) (به انگلیسی).
- ↑ Mujtaba, Hassan (18 اوت 2024). "NVIDIA Blackwell RTX 50 GPUs To Feature DLSS 4, AI-Powered Multi-Frame Generation & De-Noising". Wccftech (به انگلیسی).
- ↑ Willetts, R. (21 اوت 2024). "NVIDIA RTX 50 'Blackwell' rumors: DLSS 4, Multi-Frame Generation, and new AI features". PC Gamer (به انگلیسی).
- ↑ Leadbetter, Richard (12 اکتبر 2024). "Nvidia GeForce RTX 5090 review: the Blackwell era begins". Eurogamer (Digital Foundry) (به انگلیسی).
- ↑ W1zzard (9 اکتبر 2024). "NVIDIA Blackwell GPU Architecture Deep Dive". TechPowerUp (به انگلیسی).
- 1 2 3 "Introducing NVIDIA DLSS 3". NVIDIA (به انگلیسی). Retrieved 2022-09-20.
- 1 2 "NVIDIA DLSS 4 Introduces Multi Frame Generation & Enhancements For All DLSS Technologies". NVIDIA (به انگلیسی). Retrieved 2025-01-14.
- 1 2 3 "Nvidia DLSS in 2020: stunning results". techspot.com. 2020-02-26. Retrieved 2020-04-05.
- 1 2 3 "Battlefield V DLSS Tested: Overpromised, Underdelivered". techspot.com. 2019-02-19. Retrieved 2020-04-06.
'Of course, this is to be expected. DLSS was never going to provide the same image quality as native 4K while providing a 37% performance uplift. That would be black magic. But the quality difference comparing the two is almost laughable, in how far away DLSS is from the native presentation in these stressful areas.'
- 1 2 "AMD Thinks NVIDIA DLSS is not Good Enough; Calls TAA & SMAA Better Alternatives". TechQuila. techquila.co.in. 2019-02-15. Retrieved 2020-04-06.
«اخیراً، دو عنوان بزرگ، یعنی Metro Exodus و Battlefield V، پشتیبانی از NVIDIA DLSS را دریافت کردهاند. هر دوی این بازیها با پیادهسازی DXR (رهگیری پرتو دایرکتایکس) انویدیا عرضه میشوند که در حال حاضر تنها توسط کارتهای GeForce RTX پشتیبانی میشود. DLSS این بازیها را در وضوحهای بالاتر با نرخ فریم بسیار بهتر قابل بازی میکند، اگرچه کاهش قابل توجهی در شفافیت تصویر وجود دارد. اکنون، AMD به DLSS کنایه زده و میگوید که روشهای AA سنتی مانند SMAA و TAA "ترکیب برتری از کیفیت تصویر و عملکرد را ارائه میده دهند."»
- ↑ "Nvidia Very Quietly Made DLSS A Hell Of A Lot Better". Kotaku. 2020-02-22. Archived from the original on February 21, 2020. Retrieved 2020-04-06.
«مزیت [این فناوری] برای اکثر مردم این است که، بهطور کلی، DLSS با بهبود قابل توجهی در FPS همراه است. این میزان از بازی به بازی دیگر متفاوت است. در Metro Exodus، جهش FPS به سختی وجود داشت و قطعاً ارزش ضربهٔ عجیبی را که به کیفیت تصویر میزد، نداشت.»
- 1 2 "Remedy's Control vs DLSS 2.0 – AI upscaling reaches the next level". Eurogamer. 2020-04-04. Retrieved 2020-04-05.
«البته، این اولین پیادهسازی DLSS نیست که ما در Control دیدهایم. بازی با اجرای نسبتاً مناسبی از این فناوری عرضه شد که در واقع از مؤلفهٔ هستهٔ تنسور (Tensor core) یادگیری ماشین در معماری تورینگ انویدیا استفاده نمیکرد و به جای آن، بر هستههای استاندارد CUDA تکیه داشت»
- ↑ "NVIDIA DLSS: Control and Beyond". nvidia. nvidia.
«با بهرهگیری از این پژوهش هوش مصنوعی، ما یک الگوریتم پردازش تصویر جدید توسعه دادیم که مدل پژوهشی هوش مصنوعی ما را تقریب میزد و با بودجهٔ عملکردی ما سازگار بود.»
- ↑ "NVIDIA DLSS Plugin and Reflex Now Available for Unreal Engine". NVIDIA Developer Blog (به انگلیسی). 2021-02-11. Retrieved 2022-02-07.
- ↑ "NVIDIA DLSS Natively Supported in Unity 2021.2". NVIDIA Developer Blog (به انگلیسی). 2021-04-14. Retrieved 2022-02-07.
- ↑ "HW News - Crysis Remastered Ray Tracing, NVIDIA DLSS 2, Ryzen 3100 Rumors". 2020-04-19. Archived from the original on 2020-09-26. Retrieved 2020-04-19.
The original DLSS required training the AI network for each new game. DLSS 2.0 trains using non-game-specific content, delivering a generalized network that works across games. This means faster game integrations, and ultimately more DLSS games.
- 1 2 3 4 5 6 7 8 Edward Liu, NVIDIA "DLSS 2.0 - Image Reconstruction for Real-time Rendering with Deep Learning"
- 1 2 3 4 "Truly Next-Gen: Adding Deep Learning to Games & Graphics (Presented by NVIDIA)". GDC Vault. Retrieved 2022-02-07.
- ↑ "DLSS enabled by over 80% of GeForce RTX gaming GPU owners, claims Nvidia". PCGamesN (به انگلیسی). 2025-01-16. Retrieved 2025-01-31.
- ↑ Mujtaba, Hassan (2025-03-13). "NVIDIA DLSS 4 Now In Over 100 Games With More Titles Coming Soon, Neural Shading Support For DirectX Arriving Next Month". Wccftech (به انگلیسی). Retrieved 2025-05-20.
- ↑ Mujtaba, Hassan (2025-05-19). "NVIDIA DLSS 4 Now Available In Over 125 Games & Apps, DOOM: The Dark Ages Path Tracing Update In June & Even More DLSS Titles". Wccftech (به انگلیسی). Retrieved 2025-05-20.
- ↑ Palumbo, Alessio (2025-05-19). "NVIDIA DLSS 4 Multi Frame Generation and Other RTX Updates Shown Off for Upcoming and Existing PC Games". Wccftech (به انگلیسی). Retrieved 2025-05-20.
- ↑ Stuart, Keith (2025-06-05). "The Nintendo Switch 2 is out – here's everything you need to know". The Guardian (به انگلیسی). ISSN 0261-3077. Retrieved 2025-06-09.
- ↑ Edelsten, Andrew (30 August 2019). "NVIDIA DLSS: Control and Beyond". Nvidia. Retrieved 11 August 2020.
Leveraging this AI research, we developed a new image processing algorithm that approximated our AI research model and fit within our performance budget. This image processing approach to DLSS is integrated into Control, and it delivers up to 75% faster frame rates.
- ↑ Karis, Brian (2014). "High Quality Temporal Supersampling" (PDF). ارائه در SIGGRAPH 2014 (به انگلیسی). Epic Games.
- ↑ Schied، Christian؛ Eisemann، Elmar (اوت ۲۰۲۱). «Temporal Upsampling for Real-Time Rendering». ACM Transactions on Graphics (TOG). ۴۰ (۴): Article ۴۰. doi:10.1145/3450621.3451199.
- ↑ "NVIDIA DLSS 2.0 Review with Control – Is This Magic?". TechQuila. techquila.co.in. 2020-04-05. Retrieved 2020-04-06.
- 1 2 3 "Nvidia's new DLSS 3.5 works on all RTX GPUs to improve the quality of ray tracing". The Verge. 22 August 2023. Retrieved 6 September 2023.
- 1 2 "Nvidia announces DLSS 3.5 with ray reconstruction, boosting RT quality with an AI-trained denoiser". EuroGamer. 23 August 2023. Retrieved 6 September 2023.
- ↑ Khan, Sarfraz (2025-01-14). "NVIDIA Confirms Updated DLSS Frame Generation On RTX 40 GPUs, Leads to Lower VRAM Usage & Faster Performance". Wccftech (به انگلیسی). Retrieved 2025-01-14.
- ↑ maxus24 (22 سپتامبر 2021). "NVIDIA DLAA Anti-Aliasing Review - DLSS at Native Resolution". TechPowerUp (به انگلیسی).
- ↑ Liu, Edward (23 مارس 2020). "DLSS 2.0 – Image Reconstruction for Real-Time Rendering With Deep Learning" (PDF) (به انگلیسی). Behind the Pixels.
- 1 2 "NVIDIA preparing Ultra Quality mode for DLSS, 2.2.9.0 version spotted". VideoCardz.com (به انگلیسی). Retrieved 2021-07-06.
- ↑ "DLSS 3 explained: How Nvidia's AI-infused RTX tech turbocharges PC gaming". PCWorld (به انگلیسی). Retrieved 2024-06-08.
- ↑ "DLSS: What Does It Mean for Game Developers?". NVIDIA Developer Blog (به انگلیسی). 2018-09-19. Retrieved 2022-02-07.
- ↑ McHugh, Sean. "Digital Image Processing: Sharpening". Cambridge in Colour (به انگلیسی).
- ↑ "Understanding Edge Enhancement". EIZO (Library) (به انگلیسی).
- ↑ Akenine-Möller، Tomas؛ Haines، Eric؛ Hoffman، Naty (۲۰۱۸). «۵٫۴٫۱ Supersampling». Real-Time Rendering (ویراست ۴th). CRC Press. شابک ۹۷۸-۱-۱۳۸-۶۲۷۰۰-۰.
- ↑ Gite, Mangesh (10 ژوئن 2024). "Anti-Aliasing Techniques in Computer Graphics: A Review" (PDF). International Journal of Computer Applications (IJCA) (به انگلیسی).
- ↑ "NVIDIA DLSS: Your Questions, Answered". Nvidia. 2019-02-15. Retrieved 2020-04-19.
«تیم DLSS ابتدا فریمهای دندانهدار (aliased) فراوانی را از بازی مورد نظر استخراج میکند و سپس برای هر یک، با استفاده از اَبَرنمونهبرداری (super-sampling) یا رندر انباشتی (accumulation rendering)، یک "فریم بینقص" منطبق تولید میکنیم. این فریمهای جفتشده به ابررایانه انویدیا خورانده میشوند. ابررایانه، مدل DLSS را آموزش میدهد تا ورودیهای دندانهدار را شناسایی کرده و تصاویر پسهموارسازیشده (anti-aliased) با کیفیتی بالا تولید کند که تا حد امکان با "فریم بینقص" مطابقت داشته باشند. سپس فرایند را تکرار میکنیم، اما این بار مدل را آموزش میدهیم تا به جای اِعمال پسهموارسازی (AA)، پیکسلهای اضافی تولید کند. این کار موجب افزایش وضوح ورودی میشود. ترکیب هر دو تکنیک، واحد پردازش گرافیکی (GPU) را قادر میسازد تا وضوح کامل نمایشگر را در نرخ فریمهای بالاتر رندر کند.»
- 1 2 3 "NVIDIA DLSS 2.0: A Big Leap In AI Rendering". Nvidia. 2020-03-23. Retrieved 2020-04-07.
- ↑ "DLSS در ۲۰۲۰: چه چیزی جدید است و چه چیزی در راه است؟" (به انگلیسی). وبلاگ توسعهدهندگان انویدیا. July 20, 2020. بخش "The First Version of DLSS". Retrieved November 7, 2025.
- ↑ Karis, Brian. "High Quality Temporal Supersampling" (PDF). ارائه در SIGGRAPH 2014 (به انگلیسی). Epic Games.
- ↑ Yang، Lei؛ Liu، Shiqiu؛ Salvi، Marco (۲۰۲۰). «A Survey of Temporal Antialiasing Techniques» (PDF). Computer Graphics Forum. ۳۹ (۲): ۶۰۷–۶۲۱. doi:10.1111/cgf.14018.
- ↑ Zucconi, Alan (15 ژانویه 2018). "Motion Vectors". Alan Zucconi (Tutorials) (به انگلیسی).
- ↑ "Utilizing Motion Vectors for Post Processing Effects" (به انگلیسی). Unity Technologies (Documentation).
- 1 2 "What is Nvidia DLAA? An Anti-Aliasing Explainer". Digital Trends (به انگلیسی). 2021-09-28. Retrieved 2022-02-10.
- ↑ Temporal AA small Cloud Front
- ↑ "NVIDIA DLSS DLL (2.3.7) Download". TechPowerUp (به انگلیسی). Retrieved 2022-02-10.
- ↑ Wang, Z. (19 ژانویه 2020). "Deep Learning for Video Super-Resolution: A Survey". arXiv (Cornell University) (به انگلیسی).
- ↑ Gold, Stephen (28 فوریه 2023). "Introducing RTX Video Super Resolution". NVIDIA Developer Blog (به انگلیسی).
- ↑ "Sampling: Mipmap Selection". Khronos Group (Vulkan 1.3.297 Specification) (به انگلیسی).
- ↑ "Sampler States (Direct3D 9)". Microsoft Docs (Learn) (به انگلیسی).
- ↑ "Motion estimation (ME) and motion compensation (MC)". CSIT (Queen's University Belfast) (به انگلیسی).
- ↑ Niklaus, Simon; Mai, Long; Liu, Feng (26 مارس 2017). "Video Frame Interpolation via Adaptive Separable Convolution". arXiv (Cornell University) (به انگلیسی).
- ↑ "NVIDIA Optical Flow SDK". NVIDIA Developer (به انگلیسی). 2018-11-29. Retrieved 2022-09-20.
- ↑ Heaney, David (September 21, 2022). "انویدیا: DLSS 3 در حال حاضر در VR پشتیبانی نمیشود" (به انگلیسی). UploadVR. Retrieved November 7, 2025.
- ↑ Leadbetter, Richard (January 7, 2025). "Hands-on with DLSS 4 on Nvidia's new GeForce RTX 5080". Eurogamer (به انگلیسی). Retrieved January 7, 2025.
- ↑ K, Nik (4 اکتبر 2022). "Large Motion Frame Interpolation". Google Research (به انگلیسی).
- ↑ "What Is Frame Interpolation?". Cloudinary (به انگلیسی).
- ↑ Battaglia, Alex (29 اوت 2020). "Nvidia Reflex Analysis: How System Latency is Measured and Reduced". Eurogamer (Digital Foundry) (به انگلیسی).
- ↑ "Nvidia Reflex: Reduce Input Lag & Measure Latency". NVIDIA (به انگلیسی).
- ↑ "NVIDIA Blackwell GeForce RTX 50 Series Opens New World of AI Computer Graphics". NVIDIA Newsroom (به انگلیسی). Retrieved 2025-01-07.
- ↑ Lin, Henry; Burnes, Andrew (January 6, 2025). "Nvidia DLSS 4 Introduces Multi Frame Generation & Enhancements For All DLSS Technologies". Nvidia (به انگلیسی). Retrieved January 7, 2025.
- ↑ Mujtaba, Hassan (January 6, 2025). "Nvidia DLSS 4 Delivers An Insane 8x Performance Boost Versus DLSS 3 With Multi Frame Generation Technology, Enhanced Upscaling For RTX 20 & Above". Wccftech (به انگلیسی). Retrieved January 7, 2025.
- ↑ Edser, Andy (2024-08-30). "This open source tool updates DLSS to the latest version in all your games at once and no matter the launcher". PC Gamer. Retrieved 2025-01-28.
- ↑ Nasir, Hassam (2025-01-27). "DLSS Swapper now updates FSR, XeSS, and DLSS, too — Supports all major upscaling/frame gen technologies". Tom's Hardware. Retrieved 2025-01-28.
- ↑ Smith, Matthew S. (2023-12-28). "What Is DLSS and Why Does it Matter for Gaming?". IGN (به انگلیسی). Retrieved 2024-06-13.
- ↑ "Architecture of a Modern GPU" (PDF). University of Illinois Urbana-Champaign (به انگلیسی).
- ↑ "RDNA 2 Compute Unit". GPUOpen (AMD) (به انگلیسی). 18 مه 2021.
- ↑ Reuther, Albert; Michaleas, Peter (19 مه 2020). "A Survey of AI Accelerators for Edge Computing" (PDF). MIT Lincoln Laboratory (به انگلیسی).
- ↑ Jouppi, Norman P. (12 آوریل 2017). "In-Datacenter Performance Analysis of a Tensor Processing Unit". ACM (ISCA 2017) (به انگلیسی). doi:10.1145/3079856.3080246.
- ↑ "بررسی انویدیا DLSS 2.0" (به انگلیسی). TechPowerUp. March 23, 2020. صفحه ۳ (بخش "DLSS 1.9 in Control"). Retrieved November 7, 2025.
- ↑ "NVIDIA Volta Architecture Whitepaper" (PDF) (به انگلیسی). NVIDIA Corporation. 2017.
- ↑ Smith, Ryan (10 مه 2017). "The NVIDIA Tesla V100 & Volta GPU Architecture: A Detailed Look". AnandTech (به انگلیسی).
- ↑ "On Tensors, Tensorflow, And Nvidia's Latest 'Tensor Cores'". tomshardware.com. 2017-04-11. Retrieved 2020-04-08.
- ↑ Fog, Agner (21 دسامبر 2023). "The microarchitecture of Intel, AMD and VIA CPUs" (PDF). Agner Fog's technical notes (به انگلیسی).
- ↑ Hooker, S. (2021). "The Hardware Lottery". IEEE Access (به انگلیسی). doi:10.1109/ACCESS.2021.3079636.
- ↑ "Neural networks and deep learning (Chapter 1)" (به انگلیسی). Determination Press.
- ↑ "Advanced-OpenGL/Shadows: Shadow Mapping". LearnOpenGL (به انگلیسی).
- ↑ "Tensor Core DL Performance Guide" (PDF). Nvidia. Archived (PDF) from the original on 2020-11-11.
- ↑ "Warp-Level Primitives" (به انگلیسی). NVIDIA Developer (CUDA C++ Programming Guide). 19 سپتامبر 2024.
- ↑ Harris, Mark (13 نوامبر 2012). "Faster Parallel Reductions with Kepler's __shfl Instruction". NVIDIA Developer Blog (به انگلیسی).
- ↑ Kirk، David B.؛ Hwu، Wen-mei W. (۲۰۱۷). «۲: CUDA Programming Model». Programming Massively Parallel Processors: A Hands-on Approach (ویراست ۳rd). Morgan Kaufmann. شابک ۹۷۸-۰۱۲۸۱۱۹۸۶۰.
- ↑ "CUDA C++ Programming Guide" (به انگلیسی). NVIDIA Developer. 19 سپتامبر 2024.
- ↑ "Using CUDA Warp-Level Primitives". Nvidia. 2018-01-15. Retrieved 2020-04-08.
NVIDIA GPUs execute groups of threads known as warps in SIMT (Single Instruction, Multiple Thread) fashion.
- ↑ "The CUDA Parallel Programming Model - Warps" (PDF) (به انگلیسی). University of California, Davis.
- ↑ Edwards, Chris (10 سپتامبر 2018). "Understanding CUDA: Threads, Blocks, Warps, and SMs". Acceleware (به انگلیسی).
- ↑ "NVIDIA DLSS: Your Questions, Answered" (به انگلیسی). Nvidia. Retrieved 2024-07-09.
- ↑ Battaglia, Alex (29 اوت 2020). "Nvidia Reflex Analysis: How System Latency is Measured and Reduced". Eurogamer (Digital Foundry) (به انگلیسی).
- ↑ "Input Lag vs. Response Time". Rtings.com (به انگلیسی). 15 ژانویه 2020.
- ↑ "When a high frame rate can lose you the game". Digital Trends (به انگلیسی). 2023-11-21. Retrieved 2024-07-09.
- ↑ Möller، T.؛ Haines، E.؛ Hoffman، N. (۲۰۱۸). «۵٫ Anti-Aliasing». Real-Time Rendering (ویراست ۴th). CRC Press. شابک ۹۷۸-۱۱۳۸۶۲۷۰۰۰.
- ↑ "Understanding Digital Image Artifacts" (به انگلیسی). Cambridge in Colour.
- ↑ "Nvidia DLSS 3 Revisit: We Try It Out in 9 Games". TechSpot (به انگلیسی). 2023-03-08. Retrieved 2024-07-09.
- ↑ "Alan Wake 2 on PC is an embarrassment of riches". Digital Trends (به انگلیسی). 2023-10-26. Retrieved 2024-07-09.
- ↑ "What Is Ghosting on a Monitor? (And How to Fix It)". Blur Busters (به انگلیسی). 10 ژوئیه 2023.
- ↑ "FidelityFX Super Resolution 2 (FSR 2)". GPUOpen (AMD) (به انگلیسی). 10 مارس 2022.
- ↑ "Intel® Arc™ Xe Super Sampling (XeSS) - Whitepaper" (به انگلیسی). Intel Corporation. 31 مه 2023.
- ↑ Karis, Brian. "High Quality Temporal Supersampling" (PDF). ارائه در SIGGRAPH 2014 (به انگلیسی). Epic Games.
- ↑ "NVIDIA DLSS 4 Transformer Review - Better Image Quality for Everyone". TechPowerUp (به انگلیسی). Archived from the original on 2025-01-28. Retrieved 2025-01-31.
- ↑ Leadbetter, Richard (2025-01-07). "Hands-on with DLSS 4 on Nvidia's new GeForce RTX 5080". Eurogamer.net (به انگلیسی). Retrieved 2025-01-31.
منابع
- مشارکتکنندگان ویکیپدیا. «Deep Learning Super Sampling». در دانشنامهٔ ویکیپدیای انگلیسی، بازبینیشده در ۶ نوامبر ۲۰۲۵.[۱]
پیوند به بیرون
- انویدیا
- صفحهٔ رسمی DLSS در وبگاه انویدیا
- بخش DLSS در وبگاه توسعهدهندگان انویدیا
- بخش تازهترین خبرهای فناوریهای GeForce
- ↑ "Deep Learning Super Sampling". Wikipedia (به انگلیسی). Wikimedia Foundation. 2 November 2025. Retrieved 6 November 2025.