بلکول (ریزمعماری)
| بلکول (ریزمعماری پردازنده گرافیکی) | |
|---|---|
معرفی و تولید | |
| معرفی | ۱۸ مارس ۲۰۲۴ |
| طراح | انویدیا |
| سازنده | TSMC |
| فرایند ساخت | TSMC 4N (مصرفی/ موبایل)[۱] TSMC 4NP (مرکز داده)[۲] |
| نام رمز | GB100 / GB20x |
محصولات | |
| دسکتاپ | جیفورس آرتیاکس سری ۵۰ |
| حرفهای / ورکاستیشن | سری RTX PRO بلکول |
| مرکز داده | B100، B200، GB200 |
مشخصات فنی | |
| هستهها | هستههای RT نسل چهارم؛ هستههای تنسور نسل پنجم؛ SM بازطراحیشده |
| حافظه | GDDR7 (مصرفی) HBM3e (مرکز داده) |
| گذرگاه(ها) | PCIe 5.0 (مصرفی) / PCIe 6.0 (مرکز داده) |
| API(ها) | DirectX 12 Ultimate, Vulkan 1.4, OpenGL 4.6, OpenCL 3.0 (64-bit) |
| توان محاسباتی | توان محاسباتی ۱۰٫۰ |
| فرکانس / پهنای باند | جزئیات فرکانس کلاک و پهنای باند حافظه (بهزودی) |
| رمزگشایی و رمزگذاری | NVENC / موتور رمزگشا |
تاریخچه و جانشینی | |
| پیشین | Ada Lovelace (مصرفی) Hopper (مرکز داده) |
| جانشین | Rubin |
| توضیحات | گرههای 4N و 4NP نامهای تجاری انویدیا (مبتنی بر گرههای TSMC) هستند؛ اندازهٔ واقعی ترانزیستور لزوماً برابر با عدد گره نیست؛ شامل قابلیتهای سایهزنی عصبی (Neural Shading) و رندر عصبی (Neural Rendering)؛ مناسب برای دسکتاپ، لپتاپ و مرکز داده (Data Center) |
| پشتیبانی نرمافزاری | CUDA, OptiX, DirectCompute, Vulkan, OpenCL, DirectX Raytracing |
| محصولات مصرفی | RTX 5080 ،GeForce RTX 5090 و سایر مدلهای سری ۵۰ |
| محصولات مرکز داده | NVIDIA B100, NVIDIA B200, GB200 Superchip |
بلکول (به انگلیسی: Blackwell) یک ریزمعماری واحد پردازش گرافیکی (GPU) است که توسط انویدیا به عنوان جانشین ریزمعماریهای هاپر و ایدا لاولیس توسعه یافته است.
_07.png)
نام معماری بلکول که به افتخار آماردان و ریاضیدان، دیوید بلکول، نامگذاری شده است، در سال ۲۰۲۲ فاش شد و شتابدهندههای B40 و B100[الف] در اکتبر ۲۰۲۳ با یک نقشه راه[c] رسمی انویدیا که طی یک ارائه به سرمایهگذاران نشان داده شد، تأیید شدند.[۵] این معماری بهطور رسمی در سخنرانی کلیدی انویدیا در «GTC 2024» در ۱۸ مارس ۲۰۲۴ معرفی شد.[۶]
تاریخچه
.jpg)
در مارس ۲۰۲۲، انویدیا معماری مرکز داده هاپر را برای شتابدهندههای هوش مصنوعی معرفی کرد. تقاضا برای محصولات هاپر در طول تبوتاب هوش مصنوعی[d] در سال ۲۰۲۳ بالا بود.[۷] زمان تحویل[e] از زمان سفارش تا تحویل سرورهای مبتنی بر H100[ب] به دلیل کمبودها و تقاضای بالا، بین ۳۶ تا ۵۲ هفته بود.[۱۲] طبق گزارشها، انویدیا تنها در سهماهه سوم ۲۰۲۳، تعداد «۵۰۰٬۰۰۰» شتابدهنده H100 مبتنی بر هاپر را فروخت.[۱۲] سلطه انویدیا در زمینه هوش مصنوعی با محصولات هاپر منجر به افزایش ارزش بازار این شرکت به بیش از ۲ تریلیون دلار شد، که پس از مایکروسافت و اپل قرار میگیرد.[۱۳]
معماری بلکول به افتخار ریاضیدان آمریکایی، دیوید بلکول، نامگذاری شده است که به دلیل مشارکتهایش در زمینههای ریاضی نظریه بازیها، نظریه احتمالات، نظریه اطلاعات و آمار شناخته میشود. این حوزهها بر طراحیهای مدل هوش مصنوعی مولد مبتنی بر ترنسفورمر یا الگوریتمهای آموزشی آنها تأثیر گذاشته یا در آنها پیادهسازی شدهاند. بلکول نخستین دانشمند آفریقایی-آمریکایی بود که به عضویت آکادمی ملی علوم درآمد.[۱۴]
در ارائه به سرمایهگذاران انویدیا در اکتبر ۲۰۲۳، نقشه راه مرکز داده آن بهروزرسانی شد تا به شتابدهندههای B100 و B40 و معماری بلکول اشاره کند.[۱۵][۱۶] پیش از این، جانشین هاپر در نقشههای راه صرفاً «Hopper-Next» نامیده میشد. نقشه راه بهروزشده انویدیا بر تغییر از آهنگ انتشار[f] دوساله برای محصولات مرکز داده به انتشار سالانه، با هدفگیری سیستمهای x86 و ARM، تأکید داشت.
در کنفرانس فناوری گرافیک (GTC)[پ] در ۱۸ مارس ۲۰۲۴، انویدیا رسماً معماری بلکول را با تمرکز بر شتابدهندههای مرکز داده B100 و B200[ت] و محصولات مرتبط، مانند «برد هشت-GPU HGX B200» و «سیستم ۷۲-GPU» در مقیاس رک[g] NVL72، معرفی کرد.[۲۱] جنسن هوانگ، مدیرعامل انویدیا، گفت که با بلکول، «ما پردازندهای برای عصر هوش مصنوعی مولد ساختیم» و بر پلتفرم کلی بلکول که شتابدهندههای بلکول را با سیپییو Grace مبتنی بر ARM انویدیا ترکیب میکند، تأکید کرد.[۲۲][۲۳] انویدیا حمایت مدیران عامل گوگل، متا، مایکروسافت، اوپنایآی و اورکل از بلکول را اعلام کرد.[۲۳] در این سخنرانی کلیدی به گیمینگ اشارهای نشد.
در اکتبر ۲۰۲۴ گزارش شد که یک نقص طراحی در معماری بلکول وجود داشته که با همکاری TSMC برطرف شده است.[۲۴] به گفته هوانگ، این نقص طراحی «عملکردی»[h] بوده و «باعث پایین آمدن بازده تولید»[i] شده بود.[۲۵] تا نوامبر ۲۰۲۴، مورگان استنلی گزارش میداد که «تمام تولید ۲۰۲۵» سیلیکون بلکول «از قبل فروخته شده است».[۲۶]
در جریان سخنرانی کلیدی این شرکت در سیئیاس ۲۰۲۵، انویدیا اعلام کرد که مدلهای پایه برای بلکول شامل مدلهایی از بلک فورست لبز،[j] (فلاکس)، متا ایآی، میسترال ایآی و استبیلیتی ایآی خواهد بود.[۲۷]
معماری
بلکول معماریای است که هم برای کاربردهای محاسباتی مرکز داده و هم برای کاربردهای گیمینگ و ایستگاه کاری،[k] با دایهای اختصاصی برای هر منظور، طراحی شده است.
گره فرایند
بلکول بر روی گره فرایند سفارشی 4NP برای محصولات مرکز داده و بر روی گره فرایند سفارشی 4N برای محصولات مصرفی، از TSMC، ساخته میشود. 4NP یک نسخه بهبودیافته از گره ۴ان است که برای معماریهای هاپر و ایدا لاولیس استفاده شد. فرایند ۴انپیِ مختص-انویدیا احتمالاً لایههای فلزی[l] را به فناوری استاندارد ۴امپی TSMC اضافه میکند.[۲۸] دای GB100[ث] حاوی ۱۰۴ میلیارد ترانزیستور است (که افزایشی ۳۰ درصدی نسبت به ۸۰ میلیارد ترانزیستور در دای GH100 نسل قبلی هاپر نشان میدهد).[۳۱] از آنجایی که بلکول نمیتواند از مزایای ناشی از یک پیشرفت عمده در گره فرایند بهرهمند شود، باید از طریق تغییرات معماری زیربنایی به بهرهوری انرژی[m] و افزایش عملکرد دست یابد.[۳۲]
دای GB100 در محدوده رتیکل[n] ساخت نیمههادی[o] قرار دارد.[۳۳] محدوده رتیکل در ساخت نیمههادی، حداکثر اندازه ویژگیهایی است که دستگاههای لیتوگرافی[p] میتوانند بر روی یک دای سیلیکونی حک کنند. پیش از این، انویدیا با دای ۸۱۴ میلیمتر مربعی GH100 تقریباً به محدوده رتیکل TSMC رسیده بود. برای اینکه اندازه دای محدودیتی ایجاد نکند، شتابدهنده B200 انویدیا از دو دای GB100 در یک بسته[q] واحد استفاده میکند که با یک پیوند ۱۰ ترابایت بر ثانیه که انویدیا آن را رابط پهنای باند بالای انوی (NV-HBI)[ج] مینامد، به هم متصل شدهاند. NV-HBI مبتنی بر پروتکل نسل پنجم انویلینک[چ] است. جنسن هوانگ، مدیرعامل انویدیا، در مصاحبهای با سیانبیسی گفت که انویدیا حدود ۱۰ میلیارد دلار صرف تحقیق و توسعه برای معماری بلکول کرده است. مهندس کهنهکار نیمههادی، جیم کلر، که بر روی معماریهای K7 [ح]،K12[خ] و زِن (Zen)[د] شرکت AMD کار کرده بود، با انتقاد از این رقم (و اشاره به سیستم شبکه اختصاصی انویدیا)، مدعی شد که همین نتیجه را میتوان با استفاده از اترنت اولترا[r] به جای سیستم اختصاصی انویلینک، با ۱ میلیارد دلار به دست آورد.[۴۴] دو دای GB100 متصلشده میتوانند مانند یک قطعه سیلیکونی یکپارچه[s] بزرگ با انسجام کامل حافظه کش بین هر دو دای عمل کنند.[۴۵] این بسته دو-دای مجموعاً ۲۰۸ میلیارد ترانزیستور دارد.[۳۳] این دو دای GB100 بر روی یک اینترپوزر[t] سیلیکونی قرار گرفتهاند که با استفاده از تکنیک بستهبندی CoWoS-L 2.5D تیاسامسی تولید شده است.[۴۶]
در بخش مصرفی، بزرگترین دای بلکول، GB202، ابعادی برابر با ۷۵۰ میلیمتر۲ دارد که ۲۰٪ بزرگتر از AD102، بزرگترین دای ایدا لاولیس است.[۴۷] GB202 در مجموع شامل ۲۴٬۵۷۶ هسته کودا است که ۲۸٫۵٪ بیشتر از ۱۸٬۴۳۲ هسته کودا در AD102 است. GB202 بزرگترین دای مصرفی طراحیشده توسط انویدیا از زمان دای ۷۵۴ میلیمتر۲ TU102 در سال ۲۰۱۸، مبتنی بر ریزمعماری تورینگ، محسوب میشود. شکاف بین GB202 و GB203 نیز در مقایسه با نسلهای قبلی بسیار گستردهتر شده است. GB202 بیش از دو برابر تعداد هستههای کودا نسبت به GB203 دارد که در مورد AD102 نسبت به AD103 اینگونه نبود.
پردازنده جریانی چندگانه
هستههای کودا[ذ]
توانایی محاسباتی کودا ۱۰٫۰ با بلکول اضافه شده است.[۵۰]
هستههای تنسور[ر]
معماری بلکول، هستههای تنسور نسل پنجم را برای محاسبات هوش مصنوعی و انجام محاسبات ممیز شناور معرفی میکند. در مرکز داده، بلکول پشتیبانی بومی[u] از انواع دادههای زیر-۸-بیت، از جمله فرمتهای میکرومقیاسپذیری[v] MXFP6 و MXFP4 تعریفشده توسط جامعه پروژهٔ رایانش باز (OCP)[ز] را اضافه میکند تا کارایی و دقت را در محاسبات با دقت پایین بهبود بخشد.[۵۵][۵۶][۵۷][۵۸][۵۹] معماری قبلی هاپر، موتور ترنسفورمر[w] را معرفی کرد، نرمافزاری برای تسهیل کوانتیزهسازی[x] مدلهای با دقت بالاتر (مانند FP32) به دقت پایینتر، که هاپر برای آن توان عملیاتی[y] بیشتری دارد. نسل دوم موتور ترنسفورمر در بلکول، پشتیبانی از «MXFP4 و MXFP6» را اضافه میکند. استفاده از دادههای ۴-بیتی امکان کارایی و توان عملیاتی بیشتر را برای استنتاج مدل[z] در طول آموزش هوش مصنوعی مولد فراهم میکند. انویدیا ادعای ۴۰ پتافلاپس (بدون احتساب ۲ برابر بهرهوری که این شرکت برای پراکندگی[aa] ادعا میکند) توان محاسباتی FP4 را برای ابرتراشه[ab] «جیبی۲۰۰» (GB200) دارد (که هر ابرتراشه شامل دو شتابدهنده B200 است).[۶۰]
هستههای رهگیری پرتو[ژ]
نسل چهارم هستههای رهگیری پرتو در بلکول معرفی شدهاند و شامل قابلیت «تقاطع خوشه مثلثی»[س][ac] برای «هندسه مگا»[ش][ad] و «کرههای جاروبشده خطی»[ص][ae] برای شتابدهی به رهگیری پرتو در جزئیات ظریفتر، مانند مو، هستند.[۱]
پردازنده مدیریت هوش مصنوعی[ض]
بلکول یک پردازنده مدیریت هوش مصنوعی (AMP)،[ط][af] یک تراشه زمانبند[ag] اختصاصی بر روی GPU مبتنی بر RISC-V،[ظ] را معرفی میکند.[۱] این پردازنده طوری طراحی شده است که زمانبندی را به میزان بیشتری نسبت به نسلهای گذشته از CPU تخلیه[ah] کند و به GPU کمک میکند تا منابع خود را بهتر کنترل نماید. این قابلیت از طریق «زمانبندی سختافزاری شتابدادهشده پردازنده گرافیکی» (HAGS)[ع][ai] در ویندوز مورد استفاده قرار میگیرد.
دایهای بلکول
مرکز داده
| دای | GB100 | |
|---|---|---|
| گونه(ها) | ن/م | |
| تاریخ عرضه | دسامبر ۲۰۲۴ | |
| هستهها | هستههای کودا | ۲۴٬۵۷۶ (پیکربندی کامل دای) |
| TMUها[غ] | ۷۶۸ | |
| ROPها[ف] | ۱۹۲ | |
| هستههای RT | ۱۹۲ | |
| هستههای تنسور | ۷۶۸ | |
| پردازندههای جریانی چندگانه[ق] | ۱۹۲ | |
| حافظه کش | ال۱ | ۲۴ مگابایت |
| ال۲ | ۱۱۲ مگابایت | |
| رابط حافظه | ۸۱۹۲-بیت | |
| اندازه دای | ن/م | |
| تعداد ترانزیستور | ۱۰۴ میلیارد | |
| تراکم ترانزیستور | ن/م | |
| سوکت پکیج | SXM6 | |
| محصولات | B100, B200 | |
مصرفی
| دای | GB202 | GB203 | GB205 | GB206 | GB207 | |
|---|---|---|---|---|---|---|
| گونه(ها) | GB202-300-A1 | GB203-200-A1 GB203-300-A1 GB203-400-A1 |
GB205-300-A1 | GB206-250-A1 GB206-300-A1 |
GB207-300-A1 | |
| تاریخ عرضه | ۳۰ ژانویه ۲۰۲۵ | ۳۰ ژانویه ۲۰۲۵ | ۴ مارس ۲۰۲۵ | ۱۶ آوریل ۲۰۲۵ | ۲۴ ژوئن ۲۰۲۵ | |
| هستهها | هستههای کودا | ۲۴٬۵۷۶ | ۱۰٬۷۵۲ | ۶٬۴۰۰ | ۴٬۶۰۸ | ۲٬۵۶۰ |
| TMUها | ۷۶۸ | ۳۳۶ | ۲۰۰ | ۱۴۴ | ۸۰ | |
| ROPها | ۱۹۲ | ۱۱۲ | ۸۰ | ۴۸ | ۳۲ | |
| هستههای RT | ۱۹۲ | ۸۴ | ۵۰ | ۳۶ | ۲۰ | |
| هستههای تنسور | ۷۶۸ | ۳۳۶ | ۲۰۰ | ۱۴۴ | ۸۰ | |
| SMs | ۱۹۲ | ۸۴ | ۵۰ | ۳۶ | ۲۰ | |
| GPCها | ۱۲ | ۷ | ۵ | ۳ | ۲ | |
| حافظه کش | ال۱ | ۲۴ مگابایت | ۱۰٫۵ مگابایت | ۶٫۲۵ مگابایت | ۴٫۵ مگابایت | ۲٫۵ مگابایت |
| ال۲ | ۱۲۸ مگابایت | ۶۴ مگابایت | ۴۸ مگابایت | ۳۲ مگابایت | ۳۲ مگابایت | |
| رابط حافظه | ۵۱۲-بیت | ۲۵۶-بیت | ۱۹۲-بیت | ۱۲۸-بیت | ۱۲۸-بیت | |
| اندازه دای | ۷۵۰ mm2 | ۳۷۸ mm2 | ۲۶۳ mm2 | ۱۸۱ mm2 | ۱۴۹ mm2 | |
| تعداد ترانزیستور | ۹۲٫۲ میلیارد | ۴۵٫۶ میلیارد | ۳۱٫۱ میلیارد | ۲۱٫۹ میلیارد | ۱۶٫۹ میلیارد | |
| تراکم ترانزیستور | ۱۲۲٫۶ MTr/mm2 | ۱۲۰٫۶ MTr/mm2 | ۱۱۸٫۳ MTr/mm2 | ۱۲۱٫۰ MTr/mm2 | ۱۱۳٫۴ MTr/mm2 | |
| محصولات | ||||||
| مصرفی | دسکتاپ | RTX 5090 RTX 5090 D |
RTX 5070 Ti RTX 5080 |
RTX 5070 | RTX 5060 RTX 5060 Ti |
RTX 5050 |
| موبایل (قابلحمل) | — | RTX 5080 Laptop RTX 5090 Laptop |
RTX 5070 Ti Laptop | RTX 5060 Laptop RTX 5070 Laptop |
RTX 5050 Laptop | |
| ورکاستیشن
(حرفهای) |
دسکتاپ | RTX PRO 6000 | RTX PRO 4000 RTX PRO 4500 RTX PRO 5000 |
— | — | — |
| موبایل | — | RTX PRO 4000 Mobile RTX PRO 5000 Mobile |
RTX PRO 3000 Mobile | RTX PRO 2000 Mobile | RTX PRO 500 Mobile RTX PRO 1000 Mobile | |
| سرور | RTX PRO 6000 | — | — | — | — | |
جستارهای وابسته
پینوشتها
یادداشتها
- ↑ «انویدیا B100» (NVIDIA B100) و «انویدیا B40» (NVIDIA B40) دو «واحد پردازش گرافیکی» (GPU) «مرکز داده» (Data Center) هستند که بر پایهٔ ریزمعماری «بلکول» (Blackwell) ساخته شدهاند و جانشینان (H100) (مبتنی بر هاپر) و (L40S) (مبتنی بر ایدا) محسوب میشوند. (B100) پردازندهٔ پرچمدار و گرانقیمت برای آموزش (Training) مدلهای «هوش مصنوعی» (AI) در مقیاس عظیم است؛ این (GPU) از حافظهٔ بسیار پرسرعت (HBM3e) و نسل پنجم (NVLink) بهره میبرد و معمولاً در فرم فاکتور (SXM) برای سرورهای (DGX) و (HGX) عرضه میشود.[۳] در مقابل، (B40) برای بارهای کاری «جریان اصلی» (Mainstream) و «استنتاج» (Inference) هوش مصنوعی، رندرینگ حرفهای و «ایستگاههای کاری» (Workstations) ردهبالا طراحی شده است. (B40) بهجای (HBM)، از حافظهٔ (GDDR7) استفاده میکند و در فرم فاکتور استاندارد «کارت پیسیآی اکسپرس» (PCIe) عرضه میشود که امکان استفاده از آن در طیف وسیعتری از سرورهای استاندارد صنعتی را فراهم میآورد.[۴]
- ↑ «انویدیا H100» (NVIDIA H100) یک «واحد پردازش گرافیکی» (GPU) مبتنی بر «ریزمعماری» (Microarchitecture) «هاپر» (Hopper) است که توسط انویدیا در سال ۲۰۲۲ بهعنوان جانشین (A100) (مبتنی بر معماری اَمپِر) معرفی شد. این (GPU) که بر پایهٔ فرایند سفارشی (4N) شرکت (TSMC) ساخته شده، بهطور خاص برای تسریع بارهای کاری «محاسبات با کارایی بالا» (HPC) و «هوش مصنوعی» (AI) در «مراکز داده» (Data Center) طراحی شده است.[۸] نوآوریهای کلیدی معماری (H100) شامل «هستههای تنسوری» (Tensor Cores) نسل چهارم و «موتور ترنسفورمر» (Transformer Engine) است که پشتیبانی سختافزاری از فرمت «ممیز شناور» ۸-بیتی (FP8) را برای تسریع چشمگیر آموزش و استنتاج «مدلهای زبانی بزرگ» (LLMs) فراهم میکند. همچنین این تراشه از نسل چهارم (NVLink) برای اتصال پرسرعت (GPU-به-GPU) و نسل دوم «(GPU) چند-نمونهای» (MIG) برای تقسیم منابع (GPU) بهره میبرد.[۹] «سرورهای مبتنی بر H100» به پلتفرمهای محاسباتی اطلاق میشود که از این (GPU)ها بهعنوان شتابدهندهٔ اصلی استفاده میکنند. شناختهشدهترین پیکربندی این سرورها، پلتفرم مرجع خود انویدیا، «دیجیایکس H100» (DGX H100) است که هشت واحد (H100) را از طریق «انویسوییچ» (NVSwitch) به یکدیگر متصل میکند تا یک (GPU) واحد و غولپیکر را شبیهسازی نماید.[۱۰] تولیدکنندگان تجهیزات اصلی (OEMs) مانند (Dell), (HPE) و (Supermicro) نیز شاسیهای سرور تخصصی (مانند (Dell PowerEdge XE9680)) را بر پایهٔ همین طرحهای ۸-گانه یا ۴-گانهٔ (H100) توسعه دادهاند. این سرورها که اغلب با اتصال (InfiniBand) با تأخیر کم به هم متصل میشوند، بلوکهای ساختمانی اساسی برای ایجاد «اَبَررایانههای» (Supercomputers) هوش مصنوعی و «اَبَرپادهای» (SuperPODs) چند-اگزافلاپی محسوب میشوند.[۱۱]
- ↑ «کنفرانس فناوری گرافیک» (GPU Technology Conference یا GTC) یک رویداد جهانی است که انویدیا میزبان آن است. این کنفرانس که در ابتدا (در سال ۲۰۰۹) بهعنوان یک رویداد تخصصی با تمرکز بر «محاسبات همهمنظوره روی (GPU)" (GPGPU) و کاربردهای حرفهای «واحد پردازش گرافیکی» (GPU) آغاز شد، بهسرعت فراتر از گرافیک رایانهای گسترش یافت.[۱۷] امروزه، (GTC) به مهمترین رویداد انویدیا برای رونمایی از «معماریهای» (Architectures) جدید (GPU) (مانند «بلکول»)، پلتفرمهای نرمافزاری (مانند CUDA) و پیشرفتها در حوزههای «هوش مصنوعی» (AI)، «یادگیری عمیق» (Deep Learning)، «مراکز داده» (Data Center)، «رباتیک» (Robotics) و «خودروهای خودران» (Autonomous Vehicles) تبدیل شده است. این کنفرانس، محل گردهمایی توسعهدهندگان، پژوهشگران و رهبران صنعت برای ارائهٔ سخنرانیهای کلیدی (Keynotes) و جلسات فنی عمیق است.[۱۸]
- ↑ «بی۲۰۰» (NVIDIA B200) یک «مدل» (SKU) محصول «شتابدهندهٔ (GPU)» «مرکز داده» (Data Center) است که بر پایهٔ «دای» (Die) «جیبی۱۰۰» (GB100) ساخته شده. (B200) نشاندهندهٔ نسخهٔ کاملاً «فعالشده» (Fully Enabled) معماری بلکول است که هر دو چیپلت (DCP) آن بهطور کامل عملیاتی هستند. این محصول در «فرم فاکتور» (SXM) (ماژول سوکتدار) عرضه میشود که برای استفاده در سرورهای «محاسبات با کارایی بالا» (HPC) با تراکم بالا، مانند پلتفرمهای (HGX) و (DGX)، طراحی شده است.[۱۹] (B200) با مشخصات فنی ردهبالای خود، شامل ۱۹۲ گیگابایت حافظهٔ (HBM3e) با پهنای باند ۸ ترابایت بر ثانیه و «توان طراحی حرارتی» (TDP) تا ۱۰۰۰ وات (و قابلتنظیم تا ۱۲۰۰ وات)، برای سنگینترین بارهای کاری آموزش «هوش مصنوعی» (AI) بهینهسازی شده است. هر «اَبَرچیپ جیبی۲۰۰» (GB200 Superchip)، که واحد محاسباتی سیستم NVL72 است، از دو «(GPU) بی۲۰۰» و یک «(CPU) گریس» (Grace) تشکیل شده است.[۲۰]
- ↑ «جیبی۱۰۰» (GB100) نام رمز «دای» (Die) «واحد پردازش گرافیکی» (GPU) پرچمدار انویدیا و مبتنی بر ریزمعماری «بلکول» (Blackwell) است که بهعنوان جانشین (GH100) (معماری هاپر) در سال ۲۰۲۴ معرفی شد. (GB100) یک طراحی «ماژول چند-تراشهای» (MCM) یا «چیپلت» (Chiplet) بسیار پیچیده است؛ این (GPU) در واقع از دو «دای» (Die) کاملاً یکسان تشکیل شده که بر روی یک «میاننهاد» (Interposer) سیلیکونی (CoWoS-L) قرار گرفتهاند.[۲۹] این دو دای، از طریق یک اتصال داخلی بسیار پرسرعت ۱۰ ترابایت بر ثانیه به نام «رابط پهنای باند بالای انوی» (NV-HBI) به یکدیگر متصل شدهاند که به آنها اجازه میدهد تا بهعنوان یک (GPU) واحد، یکپارچه و غولپیکر عمل کنند. این (GPU) که بر پایهٔ فرایند سفارشی (4NP) شرکت (TSMC) ساخته شده، مجهز به نسل پنجم «هستههای تنسوری» (Tensor Cores) و حافظهٔ (HBM3e) است و نیروبخش محصولاتی مانند (B100)، (B200) و «اَبَرچیپ» (GB200) میباشد.[۳۰]
- ↑ «رابط پهنای باند بالای انوی» (NVIDIA High-Bandwidth Interface یا NV-HBI) یک «اتصال داخلی» (Interconnect) انحصاری، «تراشه-به-تراشه» (Chip-to-Chip) و با انرژی بسیار بهینه است که توسط انویدیا توسعه یافته. این پروتکل بر پایهٔ فناوری (NVLink-C2C) (تراشه-به-تراشه) ساخته شده و وظیفهٔ آن اتصال مستقیم «دای» (Die) «واحد پردازش مرکزی» (CPU) به «دای» «واحد پردازش گرافیکی» (GPU) در پلتفرمهای «اَبَرچیپ» (Superchip) این شرکت است.[۳۴] این فناوری، ستون فقرات «اَبَرچیپ گریس بلکول» (Grace Blackwell Superchip) مدل (GB200) را تشکیل میدهد و «(CPU) گریس» را با حافظهٔ (LPDDR5X) آن، به «(GPU) بلکول» با حافظهٔ (HBM3e) آن متصل میکند. (NV-HBI) یک «پهنای باند» (Bandwidth) مجموع ۹۰۰ گیگابایت بر ثانیه (۴۵۰ گیگابایت بر ثانیه در هر جهت) فراهم میآورد و یک «فضای حافظهٔ منسجم» (Coherent Memory Space) واحد ایجاد میکند که به (CPU) و (GPU) اجازه میدهد با «تأخیر» (Latency) بسیار پایین به حافظهٔ یکدیگر دسترسی داشته باشند.[۳۵]
- ↑ «اِنویلینک» (NVLink) یک پروتکل «اتصال داخلی» (Interconnect) انحصاری و پرسرعت است که توسط انویدیا برای ایجاد یک «بافت» (Fabric) حافظهٔ منسجم و با پهنای باند بسیار بالا، مستقیماً بین «واحدهای پردازش گرافیکی» (GPUs) و همچنین بین (GPU) و (CPU) در سرورهای «محاسبات با کارایی بالا» (HPC) و «هوش مصنوعی» (AI) طراحی شده است. «نسل پنجم NVLink» که همزمان با معماری «بلکوِل» (Blackwell) (مانند (GPU)های B100 و B200) در سال ۲۰۲۴ معرفی شد، یک جهش فنی بزرگ محسوب میشود.[۳۶] هر (GPU) بلکول مجهز به ۱۸ پیوند (Link) نسل پنجم (NVLink) است که هر پیوند قادر به ارائهٔ پهنای باند ۱۰۰ گیگابایت بر ثانیه بهصورت دوطرفه (Bidirectional) میباشد. این امر، مجموع پهنای باند «(GPU)-به-(GPU)» را برای هر تراشه به ۱٫۸ ترابایت بر ثانیه میرساند. این پهنای باند عظیم برای حفظ «انسجام حافظه» (Memory Coherency) در «اَبَرچیپ» (Superchip)هایی مانند (GB200) (که یک (CPU) گریس را به دو (GPU) بلکول متصل میکند) و همچنین در ساخت خوشههای (Clusters) غولپیکر (NVL72) برای آموزش «مدلهای زبانی بزرگ» (LLMs) تریلیون-پارامتری، حیاتی است.[۳۷]
- ↑ «کی۱۲» (K12) نام رمز یک ریزمعماری «پردازندهٔ مرکزی» (CPU) سفارشی مبتنی بر مجموعه دستورالعمل «(ARMv8-A) ۶۴-بیتی» بود که توسط ایامدی (AMD) تحت رهبری «جیم کِلِر» (Jim Keller) توسعه مییافت. این پروژه در سال ۲۰۱۴، همزمان با معماری «زِن» (Zen) (مبتنی بر x86)، بهعنوان بخشی از استراتژی «دوسوارگی» (Ambidrous) ایامدی برای رقابت همزمان در بازارهای (x86) و (ARM) معرفی شد.[۳۸] هدف (K12) ایجاد یک هستهٔ (ARM) با کارایی بالا (High-Performance) بود که برای استفاده در سرورهای «مرکز داده» (Data Center)، سیستمهای «نهفته» (Embedded) و لپتاپهای کممصرف در نظر گرفته شده بود. با این حال، علیرغم تکمیل طراحی، ایامدی عرضهٔ (K12) را به نفع تمرکز کامل منابع خود بر موفقیت چشمگیر و اولویتبندی معماری «زِن» در بازارهای پرسود (x86) (دسکتاپ و سرور)، به تعویق انداخت و در نهایت این پروژه را پیش از عرضه به بازار، بهطور کامل کنار گذاشت.[۳۹]
- ↑ «کی۷» (K7) نام رمز ریزمعماری «پردازندهٔ مرکزی» (CPU) است که توسط ایامدی (AMD) توسعه یافت و در سال ۱۹۹۹ با عرضهٔ پردازندههای «اَتلون» (Athlon) رسماً معرفی شد. این معماری یک نقطهٔ عطف حیاتی برای ایامدی بود، زیرا اولین طراحی کاملاً جدید این شرکت پس از (K6) و رقیب مستقیم و توانمند معماری (P6) اینتل (پردازندههای پنتیوم III) محسوب میشد.[۴۰] معماری (K7) از نظر فنی بسیار پیشرفته بود و شامل یک «خط لولهٔ» (Pipeline) «اَبَرپیمانهای» (Superscalar) و «خارج از نوبت» (Out-of-Order) با قابلیت اجرای ۹ دستورالعمل در هر چرخه بود. همچنین از یک «واحد ممیز شناور» (FPU) قدرتمند و یک «گذرگاه سامانه» (System Bus) جدید به نام (EV6) (که از پروتکل (Alpha 21264) اقتباس شده بود) با فرکانس «نرخ دادهٔ دوگانه» (DDR) ۲۰۰ مگاهرتز بهره میبرد که پهنای باند بسیار بالاتری نسبت به گذرگاه (GTL+) اینتل ارائه میداد. مدلهای اولیهٔ (K7) از «حافظهٔ نهان» (Cache) سطح دوم (L2) «خارج از دای» (Off-die) بر روی یک ماژول کارتریج-مانند به نام (Slot A) استفاده میکردند، اما نسلهای بعدی آن (مانند Thunderbird) حافظهٔ (L2) را مستقیماً بر روی «دای» (On-die) یکپارچه کردند.[۴۱]
- ↑ «زِن» (Zen) نام رمز خانوادهٔ ریزمعماریهای «پردازندهٔ مرکزی» (CPU) مبتنی بر (x86-64) است که توسط ایامدی (AMD) طراحی و در سال ۲۰۱۷ با عرضهٔ پردازندههای «رایزن» (Ryzen) رسماً معرفی شد. این معماری، که توسعهٔ آن تحت رهبری «جیم کِلِر» (Jim Keller) آغاز شد، یک بازطراحی کامل (Clean-Sheet Design) و فاصله گرفتن بنیادی از معماریهای پیشین مبتنی بر «بولدوزر» (Bulldozer) بود.[۴۲] هدف اصلی «زِن»، افزایش چشمگیر «دستورالعملها در هر چرخه» (IPC) (که در نسل اول بیش از ۵۲٪ نسبت به نسل قبل بهبود یافت) و بهبود قابل توجه «بهرهوری انرژی» (Power Efficiency) بود. معماری «زِن» برای اولین بار «چندنخی همزمان» (Simultaneous Multithreading یا SMT) (مشابه هایپر-تردینگ اینتل) را به پردازندههای ایامدی آورد. همچنین ساختار «مجتمع هسته» (Core Complex یا CCX) و «بافت بینهایت» (Infinity Fabric) را بهعنوان اتصال داخلی (Interconnect) پرسرعت برای اتصال (CCX)ها به یکدیگر و (در نسلهای بعدی) اتصال «چیپلت» (Chiplet)های هسته به «دای» ورودی/خروجی (I/O Die) معرفی کرد.[۴۳]
- ↑ «هستههای کودا» (CUDA Cores) نام تجاری انویدیا برای واحدهای اجرایی (Execution Units) همهمنظوره و پایهای در «پردازندههای جریانی چندگانه» (Streaming Multiprocessors یا SM) است. این هستهها، سنگ بنای مدل برنامهنویسی «کودا» (CUDA) و مسئول اجرای بخش عمدهٔ محاسبات گرافیکی (مانند «سایهزنها») و وظایف «محاسبات همهمنظوره» (GPGPU) هستند.[۴۸] هر هستهٔ کودا اساساً یک «واحد منطق و حساب» (ALU) است که برای عملیات «ممیز شناور» با دقت واحد (FP32) و «عدد صحیح» (Integer) بهینهسازی شده است. تعداد این هستهها (که در «(GPU)» های مدرن به دهها هزار میرسد) مستقیماً با توان محاسباتی خام (Raw Compute Power) پردازنده در بارهای کاری سنتی و شطرنجیسازی (Rasterization) ارتباط دارد.[۴۹]
- ↑ «هستههای تنسوری» (Tensor Cores) واحدهای پردازشی بسیار تخصصی («مدار مجتمع با کاربرد خاص» یا ASIC) هستند که انویدیا از زمان معماری «وُلتا» (Volta) در «پردازندههای جریانی چندگانه» (SMs) خود ادغام کرده است. وظیفهٔ انحصاری این هستهها، شتابدهی سختافزاری به عملیات «جبر خطی» (Linear Algebra)، بهویژه «ضرب-انباشت ماتریسی» (Matrix Multiply-Accumulate یا MMA)، است.[۵۱] برخلاف هستههای (CUDA) که همهمنظوره هستند، هستههای تنسوری برای اجرای بسیار سریع این عملیات در «دقت ترکیبی» (Mixed Precision) (مانند FP16, FP8, INT8) بهینهسازی شدهاند. این قابلیت، سنگ بنای اصلی فناوریهای مبتنی بر «هوش مصنوعی» (AI) انویدیا، مانند «اَبَرنمونهگیری با یادگیری عمیق» (DLSS)، «حذف نویز» (Denoising) و آموزش شبکههای عصبی در مراکز داده است.[۵۲]
- ↑ «پروژهٔ محاسبات باز» (Open Compute Project یا OCP) یک سازمان و «کنسرسیوم» (Consortium) صنعتی است که با هدف بهکارگیری اصول «متنباز» (Open Source) در طراحی سختافزار «مراکز داده» (Data Center) فعالیت میکند. این بنیاد در سال ۲۰۱۱ توسط «فیسبوک» (اکنون مِتا)، اینتل و رَکاِسپِیس (Rackspace) رسماً پایهگذاری شد. ریشهٔ این پروژه به یک طرح داخلی در فیسبوک در سال ۲۰۰۹ بازمیگردد که هدف آن طراحی و ساخت بهینهترین مرکز دادهٔ جهان (واقع در پرینویل، اورگن) از ابتدا تا انتها بود؛ این طرح منجر به سختافزاری شد که ۳۸٪ بهینهتر از نظر مصرف انرژی و ۲۴٪ ارزانتر برای ساخت بود.[۵۳] مأموریت اصلی (OCP)، «تجزیه» (Disaggregation) سختافزارهای یکپارچه و انحصاری (Proprietary) رایج در بازار (مانند سرورها، ذخیرهسازها و تجهیزات شبکه) و بازطراحی آنها بهصورت «ماژولار» (Modular)، کارآمد و مبتنی بر استانداردهای باز است. این کار، «قفل شدن در یک فروشنده» (Vendor Lock-in) را از بین میبرد و به «اَبَرمقیاسها» (Hyperscalers) و سایر شرکتها اجازه میدهد تا زیرساخت خود را دقیقاً مطابق با نیازهای بار کاری (Workload) خود سفارشیسازی کنند. این پروژه بر طراحیهای کلیدی مانند «قفسههای باز» (Open Rack) (که استاندارد ۱۹ اینچی سنتی را با طراحی عریضتر ۲۱ اینچی برای بهبود جریان هوا و مدیریت توان جایگزین کرد)، سرورهای ماژولار، ماژولهای شتابدهندهٔ (OAM) برای هوش مصنوعی و راهحلهای «سرمایش مایع» (Liquid Cooling) تمرکز دارد.[۵۴]
- ↑ «هستههای رهگیری پرتو» (Ray Tracing Cores یا RT Cores) واحدهای سختافزاری اختصاصی (ASICs) هستند که انویدیا برای اولین بار در معماری «تورینگ» (Turing) (سری RTX 20) معرفی کرد. وظیفهٔ این هستهها، شتابدهی به محاسبات بسیار سنگین و پرتکرار مورد نیاز برای «رهگیری پرتو بیدرنگ» (Real-time Ray Tracing) است.[۶۱] بهطور خاص، هستههای (RT) دو عملیات کلیدی را از دوش «سایهزنها» (Shaders) برمیدارند: ۱. «پیمایش ساختار سلسلهمراتبی حجم محدودکننده» (BVH Traversal)، برای یافتن سریع تقاطعهای احتمالی پرتو در صحنه؛ و ۲. «آزمون تقاطع پرتو-مثلث» (Ray-Triangle Intersection Testing)، برای تأیید برخورد دقیق پرتو. بدون این شتابدهی سختافزاری، اجرای رهگیری پرتو بیدرنگ با نرخ فریم قابلقبول در بازیها، غیرممکن خواهد بود.[۶۲]
- ↑ «تقاطع خوشهٔ مثلثی» (Triangle Cluster Intersection) یک قابلیت سختافزاری است که در نسل سوم «هستههای رهگیری پرتو» (RT Cores) انویدیا (موجود در معماری «اِیدا لاولیس») معرفی شد. در معماریهای قبلی (مانند تورینگ و اَمپِر)، هستهٔ (RT) میتوانست تنها تقاطع یک «پرتو» (Ray) را با یک «مثلث» (Triangle) واحد در هر چرخهٔ ساعت ارزیابی کند. این امر هنگام برخورد پرتو با بخشهای متراکم صحنه که از «ریز-مِش» (Micromesh) (مانند شاخ و برگ درختان یا فنسها) تشکیل شدهاند، ناکارآمد بود.[۶۳] معماری «اِیدا» واحدهای جدیدی را معرفی کرد که میتوانند تقاطع پرتو را همزمان با یک «خوشه» (Cluster) کامل از مثلثها (که بهصورت دستهای در ساختار (BVH) ذخیره شدهاند) آزمایش کنند. این قابلیت، سرعت پیمایش (BVH) و تست تقاطع را در صحنههایی با هندسهٔ بسیار پیچیده و متراکم، بهطور چشمگیری (تا دو برابر) افزایش میدهد.[۶۴]
- ↑ «هندسهٔ مگا» (Mega Geometry) یک اصطلاح بازاریابی نیست، بلکه احتمالاً اشارهای به توانایی «واحد پردازش گرافیکی» (GPU) معماری «بلکول» (Blackwell) انویدیا در مدیریت و رندر کردن صحنههایی با پیچیدگی هندسی بسیار بالا (در مقیاس تریلیونها مثلث) است. این قابلیت، نتیجهٔ ترکیبی از پیشرفتها در «پردازندههای جریانی چندگانه» (SMs) جدید و بهویژه، نسل چهارم «هستههای رهگیری پرتو» (RT Cores) است.[۶۵] هستههای (RT) نسل چهارم، توانایی (GPU) در «پیمایش» (Traversal) ساختارهای (BVH) و «آزمون تقاطع» (Intersection Testing) را به شکل قابل توجهی افزایش دادهاند. این پیشرفتها به (GPU) اجازه میدهد تا صحنههایی با جزئیات هندسی بیسابقه، مانند مدلهای کامل «همزاد دیجیتال» (Digital Twin) کارخانهها یا شهرها را بهصورت «بیدرنگ» (Real-time) و با «رهگیری پرتو» (Ray Tracing) کامل، پردازش و رندر کند.[۶۶]
- ↑ «کُرههای جاروبشدهٔ خطی» (Linearly Swept Spheres یا LSS) یک قابلیت سختافزاری جدید در نسل چهارم «هستههای رهگیری پرتو» (RT Cores) (معماری «بلکول») است که برای تسریع رندرینگ «مو» (Hair)، «خز» (Fur) و «علف» (Grass) طراحی شده است. در معماریهای قبلی، رندر کردن این عناصر نیازمند نمایش هر تار مو بهوسیلهٔ زنجیرهای از مثلثهای بسیار باریک یا «نوارهای دوربین-محور» (Camera-facing Ribbons) بود که هم از نظر حافظه ناکارآمد و هم از نظر محاسبات تقاطع پرتو، بسیار پرهزینه بود.[۶۷] هستهٔ (RT) نسل پنجم اکنون میتواند مستقیماً تقاطع پرتو را با یک «اَبتدایی» (Primitive) هندسی جدید به نام (LSS) آزمایش کند. (LSS) یک تار مو را بهصورت یک «کُره» (Sphere) که در طول یک خط مستقیم «جاروب» (Swept) شده (حرکت کرده) و دارای شعاع متغیر (برای نوکتیز شدن) است، نمایش میدهد. این روش، نمایش هندسی مو را تا ۱۴ برابر فشردهتر کرده و با حذف کامل نیاز به مثلثسازی، عملکرد رهگیری پرتو برای این عناصر را به شدت بهبود میبخشد.[۶۸]
- ↑ اگرچه «پردازندهٔ مدیریت هوش مصنوعی» یک اصطلاح رسمی در معماری انویدیا نیست، اما نزدیکترین معادل فنی برای این مفهوم، «موتور ترنسفورمر» (Transformer Engine) است که در معماریهای «هاپر» (Hopper) و «بلکول» (Blackwell) معرفی شد. این موتور، یک واحد سختافزاری-نرمافزاری است که وظیفهٔ «مدیریت» و بهینهسازی عملیات «هستههای تنسوری» (Tensor Cores) را بر عهده دارد.[۶۹] موتور ترنسفورمر بهطور هوشمند و پویا، «دقت» (Precision) محاسبات (مانند جابجایی بین فرمتهای FP8 و FP16) را برای هر لایه از یک مدل «ترنسفورمر» (مانند مدلهای زبانی بزرگ) مدیریت میکند. این کار به «(GPU)» اجازه میدهد تا ضمن حفظ «دقت» (Accuracy) مورد نیاز مدل، از حداکثر سرعت محاسباتی (Throughput) هستههای تنسوری، بهویژه با استفاده از فرمتهای کمدقت (FP8)، بهره ببرد.[۷۰]
- ↑ «پردازندهٔ مدیریت هوش مصنوعی» (AI Management Processor یا AMP) یک «پردازندهٔ مرکزی» (CPU) سفارشی مبتنی بر معماری (ARM) است که در «واحد پردازش گرافیکی» (GPU) «بلکول» (Blackwell) انویدیا تعبیه شده است. وظیفهٔ این پردازنده، «تخلیه» (Offload) کردن کامل وظایف مدیریت زیرساخت (Infrastructure Management) و امنیت از (CPU) میزبان (Host CPU) است.[۷۱] در نسلهای گذشته (مانند هاپر)، (CPU) میزبان همچنان مسئول مدیریت وظایف سطح پایین (GPU) مانند راهاندازی، نظارت بر وضعیت (Health Monitoring)، مدیریت خطا و امنیت بود. در معماری بلکول، (AMP) این مسئولیتها را مستقیماً بر عهده میگیرد. این امر نهتنها (CPU) میزبان را برای تمرکز کامل بر روی بار کاری اصلی (مانند آموزش مدل هوش مصنوعی) آزاد میسازد، بلکه پایداری (Reliability) و «زمان فعال بودن» (Uptime) سیستم را با فراهم کردن قابلیتهای مدیریتی «خارج از باند» (Out-of-Band) و پیشبینی خطاهای سختافزاری (Predictive Maintenance) به شکل چشمگیری افزایش میدهد.[۷۲]
- ↑ «ریسک-فایو» (RISC-V) یک «معماری مجموعه دستورالعمل» (ISA) استاندارد و باز است که بر پایهٔ اصول «رایانش با مجموعه دستورالعملهای کاهشیافته» (RISC) توسعه یافته است. برخلاف اکثر معماریهای (ISA) رایج مانند (x86) یا (ARM) که «انحصاری» (Proprietary) هستند و استفاده از آنها مستلزم پرداخت «حق امتیاز» (Royalty) و هزینههای صدور مجوز (Licensing) سنگین است، (RISC-V) بهصورت کاملاً باز و رایگان (Royalty-Free) در دسترس همگان قرار دارد.[۷۳] این معماری که ریشه در پروژههای آکادمیک «دانشگاه کالیفرنیا، برکلی» (UC Berkeley) دارد، اکنون توسط «بنیاد بینالمللی ریسک-فایو» (RISC-V International)، یک کنسرسیوم صنعتی غیرانتفاعی، مدیریت و استانداردسازی میشود. ویژگی بنیادین (RISC-V) «ماژولار بودن» (Modularity) آن است؛ این (ISA) از یک مجموعه دستورالعمل پایهٔ الزامی (مانند RV32I) و مجموعهای گسترده از «توسعهدهندههای» (Extensions) استاندارد و اختیاری (مانند 'M' برای ضرب، 'F' برای ممیز شناور، یا 'V' برای پردازش برداری) تشکیل شده است. این طراحی به شرکتها اجازه میدهد تا پردازندههایی را دقیقاً متناسب با نیازهای خاص خود—از میکروکنترلرهای «نهفته» (Embedded) کممصرف گرفته تا پردازندههای شتابدهندهٔ هوش مصنوعی و «اَبَررایانهها» (Supercomputers)—طراحی و تولید کنند.[۷۴]
- ↑ «زمانبندی سختافزاری شتابدادهشده پردازنده گرافیکی» (Hardware-accelerated GPU scheduling یا HAGS) قابلیتی است که با «مدل درایور نمایش ویندوز» (WDDM) نسخهٔ ۲٫۷ و بهعنوان بخشی از بهروزرسانی مه ۲۰۲۰ ویندوز ۱۰ معرفی شد. در مدل زمانبندی سنتی (نرمافزاری)، «واحد پردازش مرکزی» (CPU) مسئولیت مدیریت و اولویتبندی «دستهفرمانها» (Command Buffers) و کارهایی را که باید توسط (GPU) اجرا شوند، بر عهده داشت. این فرایند میتوانست منجر به «سربار» (Overhead) پردازشی و افزایش «تأخیر» (Latency) شود.[۷۵] با فعالسازی (HAGS)، این وظیفهٔ زمانبندی با اولویت بالا، از (CPU) «تخلیه» (Offload) شده و مستقیماً به یک «پردازندهٔ زمانبندی» (Scheduling Processor) اختصاصی در سختافزار (GPU) سپرده میشود. این کار با کاهش سربار (CPU) و مدیریت مستقیمتر حافظهٔ (GPU)، به کاهش تأخیر ورودی (Input Lag) و بهبود پاسخدهی سیستم، بهویژه در سناریوهایی که (CPU) دچار «گلوگاه» (Bottleneck) است، کمک میکند.[۷۶]
- ↑ «تیامیوها» (TMUs) سرواژهٔ «واحدهای نگاشت بافت» (Texture Mapping Units) هستند. این واحدها، اجزای سختافزاری تخصصی در «واحد پردازش گرافیکی» (GPU) محسوب میشوند که مسئولیت اجرای عملیات «نمونهبرداری بافت» (Texture Sampling) را بر عهده دارند. هنگامی که یک «سایهزن» (Shader) نیاز به اعمال یک «بافت» (Texture) بر روی یک مدل سهبعدی دارد، (TMU)ها وارد عمل میشوند.[۷۷] وظیفهٔ اصلی (TMU) دریافت «مختصات بافت» (UV Coordinates)، واکشی (Fetch) «تِکسِل» (Texels) (عناصر بافت) مربوطه از «حافظهٔ ویدئویی» (VRAM) و اعمال «فیلترینگ» (Filtering) (مانند فیلترهای دونقطهای، سهنقطهای یا ناهمسانگرد) بر روی آنها برای جلوگیری از «دندانهزدگی» (Aliasing) یا تاری بافتها است. تعداد (TMU)ها در یک (GPU) مستقیماً «نرخ پُرکردن بافت» (Texture Fillrate) آن را تعیین میکند و بر توانایی (GPU) در مدیریت بافتهای با وضوح بالا تأثیر میگذارد.[۷۸]
- ↑ «آراوپیها» (ROPs) سرواژهٔ «واحدهای خروجی رندر» (Render Output Units) هستند که بهعنوان یکی از آخرین مراحل در «خط لولهٔ رندرینگ» (Rendering Pipeline) «واحد پردازش گرافیکی» (GPU) عمل میکنند. این واحدها مسئولیت نهاییسازی «قطعه» (Fragments)هایی را که توسط «سایهزنها» (Shaders) پردازش شدهاند، پیش از نوشتن آنها در «بافر فریم» (Framebuffer) (حافظهٔ ویدئویی) بر عهده دارند.[۷۹] وظایای کلیدی (ROP)ها شامل اجرای «آزمون عمق» (Depth Test) و «آزمون استنسیل» (Stencil Test) (برای مدیریت اینکه کدام پیکسلها قابل مشاهده هستند)، «ترکیب آلفا» (Alpha Blending) (برای مدیریت شفافیت) و اجرای عملیات «پسهموارسازی» (Anti-Aliasing) (مانند ترکیب نمونههای (MSAA)) است. تعداد (ROP)ها در یک (GPU) مستقیماً «نرخ پُرکردن پیکسل» (Pixel Fillrate) آن را تعیین میکند و بر عملکرد (GPU) در «وضوح» (Resolution) بالا تأثیر مستقیم دارد.[۸۰]
- ↑ «پردازندههای جریانی چندگانه» (Streaming Multiprocessors یا SMs) واحدهای محاسباتی بنیادی، مستقل و همهکاره در «ریزمعماری» (Microarchitecture) «واحدهای پردازش گرافیکی» (GPU) انویدیا هستند. یک (GPU) کامل، از آرایهای از این (SM)ها تشکیل شده است. هر (SM) بهمثابه یک «هستهٔ» (Core) پردازندهٔ موازی عمل میکند و تمام واحدهای اجرایی لازم برای اجرای «نخ» (Threads)های «کودا» (CUDA) را در خود جای داده است.[۸۱] این واحدهای اجرایی معمولاً شامل مجموعهای از «هستههای کودا» (برای محاسبات FP32 و INT32)، «هستههای تنسوری» (Tensor Cores) (برای عملیات ماتریسی هوش مصنوعی)، «هستههای رهگیری پرتو» (RT Cores) (در (GPU)های (RTX))، یک «زمانبند» (Scheduler) مستقل، یک «فایل ثبات» (Register File) حجیم، «حافظهٔ نهان» (Cache) سطح اول (L1) و «حافظهٔ مشترک» (Shared Memory) است. معماری و تعداد واحدهای اجرایی درون هر (SM) در هر نسل (GPU) (مانند اَمپِر، ایدا یا بلکول) تکامل مییابد و مستقیماً بر کارایی و قابلیتهای کلی آن (GPU) تأثیر میگذارد.[۸۲]
واژهنامه
- ↑ Die
- ↑ Multi-chip Module
- ↑ roadmap
- ↑ AI hype
- ↑ lead time
- ↑ release cadence
- ↑ rack-scale system
- ↑ functional
- ↑ yields
- ↑ Black Forest Labs
- ↑ workstation
- ↑ metal layers
- ↑ power efficiency
- ↑ reticle limit
- ↑ semiconductor fabrication
- ↑ lithography machines
- ↑ package
- ↑ Ultra Ethernet
- ↑ monolithic piece of silicon
- ↑ interposer
- ↑ native support
- ↑ microscaling formats
- ↑ Transformer Engine
- ↑ quantization
- ↑ throughput
- ↑ model inference
- ↑ sparsity
- ↑ superchip
- ↑ Triangle Cluster Intersection Engine
- ↑ Mega Geometry
- ↑ Linear Swept Spheres
- ↑ AI Management Processor (AMP)
- ↑ scheduler chip
- ↑ offload
- ↑ Hardware-Accelerated GPU Scheduling (HAGS)
یادکردها
- 1 2 3 «NVIDIA RTX BLACKWELL GPU ARCHITECTURE» (PDF). انویدیا. دریافتشده در ۲ فوریه ۲۰۲۵.
- ↑ «NVIDIA Blackwell Architecture Technical Brief». انویدیا. دریافتشده در ۲ فوریه ۲۰۲۵.
- ↑ "NVIDIA B100 Data Sheet" (به انگلیسی). NVIDIA Corporation. مارس 2024.
- ↑ Kennedy, Patrick (19 مارس 2024). "NVIDIA B40 and B100 Get PCIe Versions". ServeTheHome (STH) (به انگلیسی).
- ↑ "Nvidia Corporation - Nvidia Investor Presentation October 2023". Nvidia (به انگلیسی). Retrieved March 19, 2024.
- ↑ "Nvidia Blackwell Platform Arrives to Power a New Era of Computing". Nvidia Newsroom (به انگلیسی). Retrieved 2024-03-19.
- ↑ Szewczyk, Chris (August 18, 2023). "The AI hype means Nvidia is making shiploads of cash". Tom's Hardware (به انگلیسی). Retrieved March 24, 2024.
- ↑ "NVIDIA H100 Tensor Core GPU Architecture" (به انگلیسی). NVIDIA Corporation. 2022.
- ↑ Smith, Ryan (22 مارس 2022). "NVIDIA Hopper Architecture and H100 GPU: Powering the AI Frontier". AnandTech (به انگلیسی).
- ↑ "NVIDIA DGX H100 System Architecture" (به انگلیسی). NVIDIA Corporation. 2022.
- ↑ Kennedy, Patrick (10 ژانویه 2023). "Dell PowerEdge XE9680 8x NVIDIA H100 GPU Server Overview". ServeTheHome (STH) (به انگلیسی).
- 1 2 Shilov, Anton (November 28, 2023). "Nvidia sold half a million H100 AI GPUs in Q3 thanks to Meta, Facebook — lead times stretch up to 52 weeks: Report". Tom's Hardware (به انگلیسی). Retrieved March 24, 2024.
- ↑ King, Ian (March 19, 2024). "Nvidia Looks to Extend AI Dominance With New Blackwell Chips". Yahoo! Finance (به انگلیسی). Retrieved March 24, 2024.
- ↑ Lee, Jane Lanhee (March 19, 2024). "Why Nvidia's New Blackwell Chip Is Key to the Next Stage of AI". Bloomberg (به انگلیسی). Retrieved March 24, 2024.
- ↑ "Investor Presentation" (PDF). Nvidia (به انگلیسی). October 2023. Retrieved March 24, 2024.
- ↑ Garreffa, Anthony (October 10, 2023). "Nvidia's next-gen GB200 'Blackwell' GPU listed on its 2024 data center roadmap". TweakTown (به انگلیسی). Retrieved March 24, 2024.
- ↑ Kanter, David (1 اکتبر 2009). "NVIDIA's GTC '09: The Rise of the GPU". Real World Tech (به انگلیسی).
- ↑ "About GTC". NVIDIA (به انگلیسی).
- ↑ "NVIDIA B200 SXM 192 GB Specs". TechPowerUp (به انگلیسی).
- ↑ "nvidia-blackwell-b200-datasheet.pdf" (PDF) (به انگلیسی). NVIDIA Corporation (via Primeline Solutions).
- ↑ "Nvidia GB200 NVL72". Nvidia (به انگلیسی). Retrieved July 4, 2024.
- ↑ Leswing, Kif (March 18, 2024). "Nvidia CEO Jensen Huang announces new AI chips: 'We need bigger GPUs'". CNBC (به انگلیسی). Retrieved March 24, 2024.
- 1 2 Caulfield, Brian (March 18, 2024). "'We Created a Processor for the Generative AI Era,' Nvidia CEO Says". Nvidia (به انگلیسی). Retrieved March 24, 2024.
- ↑ Gronholt-Pedersen, Jacob; Mukherjee, Supantha (October 23, 2024). "Nvidia's design flaw with Blackwell AI chips now fixed, CEO says". Reuters (به انگلیسی). Retrieved December 17, 2024.
- ↑ Shilov, Anton (October 23, 2024). "Nvidia's Jensen Huang admits AI chip design flaw was '100% Nvidia's fault' — TSMC not to blame, now-fixed Blackwell chips are in production". Tom's Hardware (به انگلیسی). Retrieved December 17, 2024.
- ↑ Kahn, Jeremy (November 12, 2024). "60 direct reports, but no 1-on-1 meetings: How an unconventional leadership style helped Jensen Huang of Nvidia become one of the most powerful people in business". Fortune. Retrieved November 16, 2024.
- ↑ Takahashi, Dean (2025-01-07). "Nvidia unveils AI foundation models running on RTX AI PCs". VentureBeat (به انگلیسی). Retrieved 2025-01-19.
- ↑ Byrne, Joseph (March 28, 2024). "Monster Nvidia Blackwell GPU Promises 30× Speedup, but Expect 3×". XPU.pub (به انگلیسی). Retrieved July 4, 2024.
- ↑ "NVIDIA Blackwell Architecture Technical Brief" (PDF) (به انگلیسی). NVIDIA Corporation. مارس 2024.
- ↑ Kennedy, Patrick (18 مارس 2024). "NVIDIA Blackwell Brings 1.8TB/s of GPU Bandwidth with NVLink 5". ServeTheHome (STH) (به انگلیسی).
- ↑ Smith, Ryan (March 18, 2024). "Nvidia Blackwell Architecture and B200/B100 Accelerators Announced: Going Bigger With Smaller Data". AnandTech (به انگلیسی). Archived from the original on March 18, 2024. Retrieved March 24, 2024.
- ↑ Prickett Morgan, Timothy (March 18, 2024). "With Blackwell GPUs, AI Gets Cheaper and Easier, Competing with Nvidia Gets Harder". The Next Platform (به انگلیسی). Retrieved March 24, 2024.
- 1 2 "Nvidia Blackwell Platform Arrives to Power a New Era of Computing". Nvidia Newsroom (به انگلیسی). March 18, 2024. Retrieved March 24, 2024.
- ↑ "NVIDIA Blackwell Architecture Whitepaper" (به انگلیسی). NVIDIA Corporation. مارس 2024.
- ↑ Kennedy, Patrick (18 مارس 2024). "NVIDIA GB200 NVL72 Grace Blackwell Superchip and More". ServeTheHome (STH) (به انگلیسی).
- ↑ "NVIDIA Blackwell Architecture Whitepaper" (به انگلیسی). NVIDIA Corporation. مارس 2024.
- ↑ Kennedy, Patrick (18 مارس 2024). "NVIDIA Blackwell Brings 1.8TB/s of GPU Bandwidth with NVLink 5". ServeTheHome (STH) (به انگلیسی).
- ↑ Lal Shimpi, Anand (5 مه 2014). "AMD Announces K12 Core: Custom 64-bit ARM Core in 2016". AnandTech (به انگلیسی).
- ↑ Hachman, Mark (18 آوریل 2016). "AMD's K12, a custom ARM chip, is 'still on the roadmap' but trails Zen". PCWorld (به انگلیسی).
- ↑ Lal Shimpi, Anand (9 اوت 1999). "AMD K7 Athlon 600 MHz". AnandTech (به انگلیسی).
- ↑ Cunningham, Andrew (1 نوامبر 2017). "A history of AMD's x86 processors". Ars Technica (به انگلیسی).
- ↑ Lal Shimpi, Anand; Cutress, Ian (2 مارس 2017). "The AMD Zen and Ryzen 7 Review: A Deep Dive on 1800X, 1700X and 1700". AnandTech (به انگلیسی).
- ↑ Clark, Mike (22 اوت 2017). "AMD Zen Microarchitecture". ارائه در Hot Chips 29 (به انگلیسی). AMD (via IEEE). doi:10.1109/HOTCHIPS.2017.8525091.
- ↑ Garreffa, Anthony (April 14, 2024). "Jim Keller laughs at $10B R&D cost for Nvidia Blackwell, should've used ethernet for $1B". TweakTown (به انگلیسی). Retrieved April 16, 2024.
- ↑ Hagedoom, Hilbert (March 18, 2024). "Nvidia B200 and GB200 AI GPUs Technical Overview: Unveiled at GTC 2024". Guru3D (به انگلیسی). Retrieved April 7, 2024.
- ↑ "Nvidia Blackwell "B100" to feature 2 dies and 192GB of HBM3e memory, B200 with 288GB". VideoCardz (به انگلیسی). March 17, 2024. Retrieved March 24, 2024.
- ↑ "Nvidia GeForce RTX 5090 GB202 GPU die reportedly measures 744 mm2, 20% larger than AD102". VideoCardz (به انگلیسی). November 22, 2024. Retrieved January 7, 2025.
- ↑ "What Is a CUDA Core?". NVIDIA (Glossary) (به انگلیسی).
- ↑ Tyson, Mark (10 مه 2024). "What Are CUDA Cores? A Basic Definition". Tom's Hardware (به انگلیسی).
- ↑ "CUDA C Programming Guide". Nvidia. Retrieved 28 January 2025.
- ↑ "NVIDIA Tensor Cores: AI and HPC Acceleration". NVIDIA Developer (به انگلیسی).
- ↑ Paul, Ian (21 مه 2024). "What are tensor cores in an Nvidia GPU?". PCWorld (به انگلیسی).
- ↑ "About OCP". Open Compute Project (به انگلیسی).
- ↑ K, B (15 اوت 2024). "What is the Open Compute Project (OCP)?". Stackscale (به انگلیسی).
- ↑ Edwards, Benj (March 18, 2024). "Nvidia unveils Blackwell B200, the "world's most powerful chip" designed for AI". Ars Technica (به انگلیسی). Retrieved March 24, 2024.
- ↑ "Blackwell Architecture". Nvidia (به انگلیسی). Retrieved February 5, 2025.
- ↑ Rouhani, Bita Darvish; Zhao, Ritchie; More, Ankit; Hall, Mathew; Khodamoradi, Alireza; Deng, Summer; Choudhary, Dhruv; Cornea, Marius; Dellinger, Eric; Denolf, Kristof (2023). "Microscaling Data Formats for Deep Learning". arXiv:2310.10537 [cs.LG].
- ↑ "OCP Microscaling Formats (MX) v1.0 Specification". Open Compute Project. 2024. Retrieved 2025-02-05.
- ↑ "OpenAI Triton on NVIDIA Blackwell Boosts AI Performance and Programmability". NVIDIA Developer Blog. NVIDIA. 2024. Retrieved 2025-02-05.
- ↑ "Nvidia GB200 NVL72". Nvidia (به انگلیسی). Retrieved July 4, 2024.
- ↑ "Ray Tracing Cores". NVIDIA (Glossary) (به انگلیسی).
- ↑ Hill, Brandon (15 ژوئن 2021). "What Is Nvidia RTX and Ray Tracing? (RT Cores Explained)". How-To Geek (به انگلیسی).
- ↑ "NVIDIA Ada Lovelace Architecture Whitepaper" (PDF) (به انگلیسی). NVIDIA Corporation. سپتامبر 2022.
- ↑ Walton, Jarred (18 اکتبر 2022). "Nvidia's Ada Lovelace GPU Architecture: Deeper Dive". Tom's Hardware (به انگلیسی).
- ↑ "NVIDIA Blackwell Architecture Whitepaper" (به انگلیسی). NVIDIA Corporation. مارس 2024.
- ↑ Edwards, Benj (18 مارس 2024). "Nvidia unveils Blackwell B200, the "world's most powerful chip" for AI". Ars Technica (به انگلیسی).
- ↑ "NVIDIA Blackwell Architecture Whitepaper" (به انگلیسی). NVIDIA Corporation. مارس 2024.
- ↑ Walton, Jarred (9 اکتبر 2024). "Nvidia's Blackwell GPU Architecture: A Deep Dive". Tom's Hardware (به انگلیسی).
- ↑ "NVIDIA Hopper Architecture Whitepaper" (به انگلیسی). NVIDIA Corporation. مارس 2022.
- ↑ Kennedy, Patrick (22 مارس 2022). "NVIDIA H100 GPU is a Transformer Engine for AI". ServeTheHome (STH) (به انگلیسی).
- ↑ "NVIDIA Blackwell Architecture Whitepaper" (به انگلیسی). NVIDIA Corporation. مارس 2024.
- ↑ Kennedy, Patrick (18 مارس 2024). "NVIDIA Blackwell Brings 1.8TB/s of GPU Bandwidth with NVLink 5". ServeTheHome (STH) (به انگلیسی).
- ↑ "About RISC-V". RISC-V International (به انگلیسی).
- ↑ Cunningham, Andrew (18 اوت 2021). "RISC-V explained: What it is, and why it's a big deal". Ars Technica (به انگلیسی).
- ↑ Sandy, William (15 ژوئیه 2020). "Hardware-Accelerated GPU Scheduling". Microsoft DirectX Developer Blog (به انگلیسی).
- ↑ Leather, Antony (31 ژوئیه 2024). "What Is Hardware-Accelerated GPU Scheduling In Windows 11?". How-To Geek (به انگلیسی).
- ↑ "Definition of TMU (Texture Mapping Unit)". TechTerms (به انگلیسی).
- ↑ Sinha, A. (11 مه 2020). "GPU 101: What are Shader Cores, TMUs, and ROPs?". Hardware Times (به انگلیسی).
- ↑ Perry, Alex (18 فوریه 2022). "What Are ROPs (Render Output Units) on a GPU?". Lifewire (به انگلیسی).
- ↑ "ROP (Render Output Unit)". PCMag Encyclopedia (به انگلیسی).
- ↑ "NVIDIA Ampere GA102 GPU Architecture Whitepaper" (PDF) (به انگلیسی). NVIDIA Corporation. 2020.
- ↑ Smith, Ryan (1 سپتامبر 2020). "The NVIDIA GeForce RTX 3080 & 3090 Review: Ampere, Deep-Dive". AnandTech (به انگلیسی).
منابع
- مشارکتکنندگان ویکیپدیا. «Blackwell (microarchitecture)». در دانشنامهٔ ویکیپدیای انگلیسی، بازبینیشده در ۶ نوامبر ۲۰۲۵.[۱]
پیوند به بیرون
- صفحه رسمی معماری Blackwell در NVIDIA – توضیح رسمی و معرفی معماری Blackwell توسط شرکت انویدیا.
- مرور فنی معماری Blackwell – منابع و بررسیهای فنی دقیقتر معماری.
- اعلامیه رسمی رونمایی معماری Blackwell – خبر رسمی انویدیا دربارهٔ معرفی این معماری.
- تحلیل تخصصی AnandTech دربارهٔ معماری Blackwell – بررسی و تحلیل مستقل از رسانهٔ فناوری AnandTech.
- ↑ "Blackwell (microarchitecture)". Wikipedia (به انگلیسی). 10 November 2025.