بلک‌ول (ریزمعماری)

بلک‌ول (ریزمعماری پردازنده گرافیکی)
معرفی و تولید
معرفی۱۸ مارس ۲۰۲۴
طراحانویدیا
سازندهTSMC
فرایند ساختTSMC 4N (مصرفی/ موبایل)[۱]
TSMC 4NP (مرکز داده)[۲]
نام رمزGB100 / GB20x
محصولات
دسکتاپجی‌فورس آرتی‌اکس سری ۵۰
حرفه‌ای / ورک‌استیشنسری RTX PRO بلک‌ول
مرکز دادهB100، B200، GB200
مشخصات فنی
هسته‌هاهسته‌های RT نسل چهارم؛ هسته‌های تنسور نسل پنجم؛ SM بازطراحی‌شده
حافظهGDDR7 (مصرفی)
HBM3e (مرکز داده)
گذرگاه(ها)PCIe 5.0 (مصرفی) / PCIe 6.0 (مرکز داده)
API(ها)DirectX 12 Ultimate, Vulkan 1.4, OpenGL 4.6, OpenCL 3.0 (64-bit)
توان محاسباتیتوان محاسباتی ۱۰٫۰
فرکانس / پهنای باندجزئیات فرکانس کلاک و پهنای باند حافظه (به‌زودی)
رمزگشایی و رمزگذاریNVENC / موتور رمزگشا
تاریخچه و جانشینی
پیشینAda Lovelace (مصرفی)
Hopper (مرکز داده)
جانشینRubin
توضیحاتگره‌های 4N و 4NP نام‌های تجاری انویدیا (مبتنی بر گره‌های TSMC) هستند؛ اندازهٔ واقعی ترانزیستور لزوماً برابر با عدد گره نیست؛ شامل قابلیت‌های سایه‌زنی عصبی (Neural Shading) و رندر عصبی (Neural Rendering)؛ مناسب برای دسکتاپ، لپ‌تاپ و مرکز داده (Data Center)
پشتیبانی نرم‌افزاریCUDA, OptiX, DirectCompute, Vulkan, OpenCL, DirectX Raytracing
محصولات مصرفیRTX 5080 ،GeForce RTX 5090 و سایر مدل‌های سری ۵۰
محصولات مرکز دادهNVIDIA B100, NVIDIA B200, GB200 Superchip

بلک‌ول (به انگلیسی: Blackwell) یک ریزمعماری واحد پردازش گرافیکی (GPU) است که توسط انویدیا به عنوان جانشین ریزمعماری‌های هاپر و ایدا لاولیس توسعه یافته است.

یک دای[a] (ماژول چند-تراشه‌ای)[b] GB200 با پردازنده‌های بلک‌ول

نام معماری بلک‌ول که به افتخار آماردان و ریاضی‌دان، دیوید بلک‌ول، نام‌گذاری شده است، در سال ۲۰۲۲ فاش شد و شتاب‌دهنده‌های B40 و B100[الف] در اکتبر ۲۰۲۳ با یک نقشه راه[c] رسمی انویدیا که طی یک ارائه به سرمایه‌گذاران نشان داده شد، تأیید شدند.[۵] این معماری به‌طور رسمی در سخنرانی کلیدی انویدیا در «GTC 2024» در ۱۸ مارس ۲۰۲۴ معرفی شد.[۶]

تاریخچه

دیوید بلک‌ول (۱۹۱۹–۲۰۱۰)

در مارس ۲۰۲۲، انویدیا معماری مرکز داده هاپر را برای شتاب‌دهنده‌های هوش مصنوعی معرفی کرد. تقاضا برای محصولات هاپر در طول تب‌وتاب هوش مصنوعی[d] در سال ۲۰۲۳ بالا بود.[۷] زمان تحویل[e] از زمان سفارش تا تحویل سرورهای مبتنی بر H100[ب] به دلیل کمبودها و تقاضای بالا، بین ۳۶ تا ۵۲ هفته بود.[۱۲] طبق گزارش‌ها، انویدیا تنها در سه‌ماهه سوم ۲۰۲۳، تعداد «۵۰۰٬۰۰۰» شتاب‌دهنده H100 مبتنی بر هاپر را فروخت.[۱۲] سلطه انویدیا در زمینه هوش مصنوعی با محصولات هاپر منجر به افزایش ارزش بازار این شرکت به بیش از ۲ تریلیون دلار شد، که پس از مایکروسافت و اپل قرار می‌گیرد.[۱۳]

معماری بلک‌ول به افتخار ریاضی‌دان آمریکایی، دیوید بلک‌ول، نام‌گذاری شده است که به دلیل مشارکت‌هایش در زمینه‌های ریاضی نظریه بازی‌ها، نظریه احتمالات، نظریه اطلاعات و آمار شناخته می‌شود. این حوزه‌ها بر طراحی‌های مدل هوش مصنوعی مولد مبتنی بر ترنسفورمر یا الگوریتم‌های آموزشی آن‌ها تأثیر گذاشته یا در آن‌ها پیاده‌سازی شده‌اند. بلک‌ول نخستین دانشمند آفریقایی-آمریکایی بود که به عضویت آکادمی ملی علوم درآمد.[۱۴]

در ارائه به سرمایه‌گذاران انویدیا در اکتبر ۲۰۲۳، نقشه راه مرکز داده آن به‌روزرسانی شد تا به شتاب‌دهنده‌های B100 و B40 و معماری بلک‌ول اشاره کند.[۱۵][۱۶] پیش از این، جانشین هاپر در نقشه‌های راه صرفاً «Hopper-Next» نامیده می‌شد. نقشه راه به‌روزشده انویدیا بر تغییر از آهنگ انتشار[f] دوساله برای محصولات مرکز داده به انتشار سالانه، با هدف‌گیری سیستم‌های x86 و ARM، تأکید داشت.

در کنفرانس فناوری گرافیک (GTC)[پ] در ۱۸ مارس ۲۰۲۴، انویدیا رسماً معماری بلک‌ول را با تمرکز بر شتاب‌دهنده‌های مرکز داده B100 و B200[ت] و محصولات مرتبط، مانند «برد هشت-GPU HGX B200» و «سیستم ۷۲-GPU» در مقیاس رک[g] NVL72، معرفی کرد.[۲۱] جنسن هوانگ، مدیرعامل انویدیا، گفت که با بلک‌ول، «ما پردازنده‌ای برای عصر هوش مصنوعی مولد ساختیم» و بر پلتفرم کلی بلک‌ول که شتاب‌دهنده‌های بلک‌ول را با سی‌پی‌یو Grace مبتنی بر ARM انویدیا ترکیب می‌کند، تأکید کرد.[۲۲][۲۳] انویدیا حمایت مدیران عامل گوگل، متا، مایکروسافت، اوپن‌ای‌آی و اورکل از بلک‌ول را اعلام کرد.[۲۳] در این سخنرانی کلیدی به گیمینگ اشاره‌ای نشد.

در اکتبر ۲۰۲۴ گزارش شد که یک نقص طراحی در معماری بلک‌ول وجود داشته که با همکاری TSMC برطرف شده است.[۲۴] به گفته هوانگ، این نقص طراحی «عملکردی»[h] بوده و «باعث پایین آمدن بازده تولید»[i] شده بود.[۲۵] تا نوامبر ۲۰۲۴، مورگان استنلی گزارش می‌داد که «تمام تولید ۲۰۲۵» سیلیکون بلک‌ول «از قبل فروخته شده است».[۲۶]

در جریان سخنرانی کلیدی این شرکت در سی‌ئی‌اس ۲۰۲۵، انویدیا اعلام کرد که مدل‌های پایه برای بلک‌ول شامل مدل‌هایی از بلک فورست لبز،[j] (فلاکسمتا ای‌آی، میسترال ای‌آی و استبیلیتی ای‌آی خواهد بود.[۲۷]

معماری

بلک‌ول معماری‌ای است که هم برای کاربردهای محاسباتی مرکز داده و هم برای کاربردهای گیمینگ و ایستگاه کاری،[k] با دای‌های اختصاصی برای هر منظور، طراحی شده است.

گره فرایند

بلک‌ول بر روی گره فرایند سفارشی 4NP برای محصولات مرکز داده و بر روی گره فرایند سفارشی 4N برای محصولات مصرفی، از TSMC، ساخته می‌شود. 4NP یک نسخه بهبودیافته از گره ۴ان است که برای معماری‌های هاپر و ایدا لاولیس استفاده شد. فرایند ۴ان‌پیِ مختص-انویدیا احتمالاً لایه‌های فلزی[l] را به فناوری استاندارد ۴ام‌پی TSMC اضافه می‌کند.[۲۸] دای GB100[ث] حاوی ۱۰۴ میلیارد ترانزیستور است (که افزایشی ۳۰ درصدی نسبت به ۸۰ میلیارد ترانزیستور در دای GH100 نسل قبلی هاپر نشان می‌دهد).[۳۱] از آنجایی که بلک‌ول نمی‌تواند از مزایای ناشی از یک پیشرفت عمده در گره فرایند بهره‌مند شود، باید از طریق تغییرات معماری زیربنایی به بهره‌وری انرژی[m] و افزایش عملکرد دست یابد.[۳۲]

دای GB100 در محدوده رتیکل[n] ساخت نیمه‌هادی[o] قرار دارد.[۳۳] محدوده رتیکل در ساخت نیمه‌هادی، حداکثر اندازه ویژگی‌هایی است که دستگاه‌های لیتوگرافی[p] می‌توانند بر روی یک دای سیلیکونی حک کنند. پیش از این، انویدیا با دای ۸۱۴ میلی‌متر مربعی GH100 تقریباً به محدوده رتیکل TSMC رسیده بود. برای اینکه اندازه دای محدودیتی ایجاد نکند، شتاب‌دهنده B200 انویدیا از دو دای GB100 در یک بسته[q] واحد استفاده می‌کند که با یک پیوند ۱۰ ترابایت بر ثانیه که انویدیا آن را رابط پهنای باند بالای ان‌وی (NV-HBI)[ج] می‌نامد، به هم متصل شده‌اند. NV-HBI مبتنی بر پروتکل نسل پنجم ان‌وی‌لینک[چ] است. جنسن هوانگ، مدیرعامل انویدیا، در مصاحبه‌ای با سی‌ان‌بی‌سی گفت که انویدیا حدود ۱۰ میلیارد دلار صرف تحقیق و توسعه برای معماری بلک‌ول کرده است. مهندس کهنه‌کار نیمه‌هادی، جیم کلر، که بر روی معماری‌های K7 [ح]،K12[خ] و زِن (Zen)[د] شرکت AMD کار کرده بود، با انتقاد از این رقم (و اشاره به سیستم شبکه اختصاصی انویدیا)، مدعی شد که همین نتیجه را می‌توان با استفاده از اترنت اولترا[r] به جای سیستم اختصاصی ان‌وی‌لینک، با ۱ میلیارد دلار به دست آورد.[۴۴] دو دای GB100 متصل‌شده می‌توانند مانند یک قطعه سیلیکونی یکپارچه[s] بزرگ با انسجام کامل حافظه کش بین هر دو دای عمل کنند.[۴۵] این بسته دو-دای مجموعاً ۲۰۸ میلیارد ترانزیستور دارد.[۳۳] این دو دای GB100 بر روی یک اینترپوزر[t] سیلیکونی قرار گرفته‌اند که با استفاده از تکنیک بسته‌بندی CoWoS-L 2.5D تی‌اس‌ام‌سی تولید شده است.[۴۶]

در بخش مصرفی، بزرگ‌ترین دای بلک‌ول، GB202، ابعادی برابر با ۷۵۰ میلی‌متر۲ دارد که ۲۰٪ بزرگ‌تر از AD102، بزرگ‌ترین دای ایدا لاولیس است.[۴۷] GB202 در مجموع شامل ۲۴٬۵۷۶ هسته کودا است که ۲۸٫۵٪ بیشتر از ۱۸٬۴۳۲ هسته کودا در AD102 است. GB202 بزرگ‌ترین دای مصرفی طراحی‌شده توسط انویدیا از زمان دای ۷۵۴ میلی‌متر۲ TU102 در سال ۲۰۱۸، مبتنی بر ریزمعماری تورینگ، محسوب می‌شود. شکاف بین GB202 و GB203 نیز در مقایسه با نسل‌های قبلی بسیار گسترده‌تر شده است. GB202 بیش از دو برابر تعداد هسته‌های کودا نسبت به GB203 دارد که در مورد AD102 نسبت به AD103 این‌گونه نبود.

پردازنده جریانی چندگانه

هسته‌های کودا[ذ]

توانایی محاسباتی کودا ۱۰٫۰ با بلک‌ول اضافه شده است.[۵۰]

هسته‌های تنسور[ر]

معماری بلک‌ول، هسته‌های تنسور نسل پنجم را برای محاسبات هوش مصنوعی و انجام محاسبات ممیز شناور معرفی می‌کند. در مرکز داده، بلک‌ول پشتیبانی بومی[u] از انواع داده‌های زیر-۸-بیت، از جمله فرمت‌های میکرومقیاس‌پذیری[v] MXFP6 و MXFP4 تعریف‌شده توسط جامعه پروژهٔ رایانش باز (OCP)[ز] را اضافه می‌کند تا کارایی و دقت را در محاسبات با دقت پایین بهبود بخشد.[۵۵][۵۶][۵۷][۵۸][۵۹] معماری قبلی هاپر، موتور ترنسفورمر[w] را معرفی کرد، نرم‌افزاری برای تسهیل کوانتیزه‌سازی[x] مدل‌های با دقت بالاتر (مانند FP32) به دقت پایین‌تر، که هاپر برای آن توان عملیاتی[y] بیشتری دارد. نسل دوم موتور ترنسفورمر در بلک‌ول، پشتیبانی از «MXFP4 و MXFP6» را اضافه می‌کند. استفاده از داده‌های ۴-بیتی امکان کارایی و توان عملیاتی بیشتر را برای استنتاج مدل[z] در طول آموزش هوش مصنوعی مولد فراهم می‌کند. انویدیا ادعای ۴۰ پتافلاپس (بدون احتساب ۲ برابر بهره‌وری که این شرکت برای پراکندگی[aa] ادعا می‌کند) توان محاسباتی FP4 را برای ابرتراشه[ab] «جی‌بی۲۰۰» (GB200) دارد (که هر ابرتراشه شامل دو شتاب‌دهنده B200 است).[۶۰]

هسته‌های رهگیری پرتو[ژ]

نسل چهارم هسته‌های رهگیری پرتو در بلک‌ول معرفی شده‌اند و شامل قابلیت «تقاطع خوشه مثلثی»[س][ac] برای «هندسه مگا»[ش][ad] و «کره‌های جاروب‌شده خطی»[ص][ae] برای شتاب‌دهی به رهگیری پرتو در جزئیات ظریف‌تر، مانند مو، هستند.[۱]

پردازنده مدیریت هوش مصنوعی[ض]

بلک‌ول یک پردازنده مدیریت هوش مصنوعی (AMP)،[ط][af] یک تراشه زمان‌بند[ag] اختصاصی بر روی GPU مبتنی بر RISC-V،[ظ] را معرفی می‌کند.[۱] این پردازنده طوری طراحی شده است که زمان‌بندی را به میزان بیشتری نسبت به نسل‌های گذشته از CPU تخلیه[ah] کند و به GPU کمک می‌کند تا منابع خود را بهتر کنترل نماید. این قابلیت از طریق «زمان‌بندی سخت‌افزاری شتاب‌داده‌شده پردازنده گرافیکی» (HAGS)[ع][ai] در ویندوز مورد استفاده قرار می‌گیرد.

دای‌های بلک‌ول

مرکز داده

مصرفی

جستارهای وابسته

پی‌نوشت‌ها

یادداشت‌ها

  1. «انویدیا B100» (NVIDIA B100) و «انویدیا B40» (NVIDIA B40) دو «واحد پردازش گرافیکی» (GPU) «مرکز داده» (Data Center) هستند که بر پایهٔ ریزمعماری «بلک‌ول» (Blackwell) ساخته شده‌اند و جانشینان (H100) (مبتنی بر هاپر) و (L40S) (مبتنی بر ایدا) محسوب می‌شوند. (B100) پردازندهٔ پرچم‌دار و گران‌قیمت برای آموزش (Training) مدل‌های «هوش مصنوعی» (AI) در مقیاس عظیم است؛ این (GPU) از حافظهٔ بسیار پرسرعت (HBM3e) و نسل پنجم (NVLink) بهره می‌برد و معمولاً در فرم فاکتور (SXM) برای سرورهای (DGX) و (HGX) عرضه می‌شود.[۳] در مقابل، (B40) برای بارهای کاری «جریان اصلی» (Mainstream) و «استنتاج» (Inference) هوش مصنوعی، رندرینگ حرفه‌ای و «ایستگاه‌های کاری» (Workstations) رده‌بالا طراحی شده است. (B40) به‌جای (HBM)، از حافظهٔ (GDDR7) استفاده می‌کند و در فرم فاکتور استاندارد «کارت پی‌سی‌آی اکس‌پرس» (PCIe) عرضه می‌شود که امکان استفاده از آن در طیف وسیع‌تری از سرورهای استاندارد صنعتی را فراهم می‌آورد.[۴]
  2. «انویدیا H100» (NVIDIA H100) یک «واحد پردازش گرافیکی» (GPU) مبتنی بر «ریزمعماری» (Microarchitecture) «هاپر» (Hopper) است که توسط انویدیا در سال ۲۰۲۲ به‌عنوان جانشین (A100) (مبتنی بر معماری اَمپِر) معرفی شد. این (GPU) که بر پایهٔ فرایند سفارشی (4N) شرکت (TSMC) ساخته شده، به‌طور خاص برای تسریع بارهای کاری «محاسبات با کارایی بالا» (HPC) و «هوش مصنوعی» (AI) در «مراکز داده» (Data Center) طراحی شده است.[۸] نوآوری‌های کلیدی معماری (H100) شامل «هسته‌های تنسوری» (Tensor Cores) نسل چهارم و «موتور ترنسفورمر» (Transformer Engine) است که پشتیبانی سخت‌افزاری از فرمت «ممیز شناور» ۸-بیتی (FP8) را برای تسریع چشمگیر آموزش و استنتاج «مدل‌های زبانی بزرگ» (LLMs) فراهم می‌کند. همچنین این تراشه از نسل چهارم (NVLink) برای اتصال پرسرعت (GPU-به-GPU) و نسل دوم «(GPU) چند-نمونه‌ای» (MIG) برای تقسیم منابع (GPU) بهره می‌برد.[۹] «سرورهای مبتنی بر H100» به پلتفرم‌های محاسباتی اطلاق می‌شود که از این (GPU)ها به‌عنوان شتاب‌دهندهٔ اصلی استفاده می‌کنند. شناخته‌شده‌ترین پیکربندی این سرورها، پلتفرم مرجع خود انویدیا، «دی‌جی‌ایکس H100» (DGX H100) است که هشت واحد (H100) را از طریق «ان‌وی‌سوییچ» (NVSwitch) به یکدیگر متصل می‌کند تا یک (GPU) واحد و غول‌پیکر را شبیه‌سازی نماید.[۱۰] تولیدکنندگان تجهیزات اصلی (OEMs) مانند (Dell), (HPE) و (Supermicro) نیز شاسی‌های سرور تخصصی (مانند (Dell PowerEdge XE9680)) را بر پایهٔ همین طرح‌های ۸-گانه یا ۴-گانهٔ (H100) توسعه داده‌اند. این سرورها که اغلب با اتصال (InfiniBand) با تأخیر کم به هم متصل می‌شوند، بلوک‌های ساختمانی اساسی برای ایجاد «اَبَررایانه‌های» (Supercomputers) هوش مصنوعی و «اَبَرپادهای» (SuperPODs) چند-اگزافلاپی محسوب می‌شوند.[۱۱]
  3. «کنفرانس فناوری گرافیک» (GPU Technology Conference یا GTC) یک رویداد جهانی است که انویدیا میزبان آن است. این کنفرانس که در ابتدا (در سال ۲۰۰۹) به‌عنوان یک رویداد تخصصی با تمرکز بر «محاسبات همه‌منظوره روی (GPU)" (GPGPU) و کاربردهای حرفه‌ای «واحد پردازش گرافیکی» (GPU) آغاز شد، به‌سرعت فراتر از گرافیک رایانه‌ای گسترش یافت.[۱۷] امروزه، (GTC) به مهم‌ترین رویداد انویدیا برای رونمایی از «معماری‌های» (Architectures) جدید (GPU) (مانند «بلک‌ول»)، پلتفرم‌های نرم‌افزاری (مانند CUDA) و پیشرفت‌ها در حوزه‌های «هوش مصنوعی» (AI)، «یادگیری عمیق» (Deep Learning)، «مراکز داده» (Data Center)، «رباتیک» (Robotics) و «خودروهای خودران» (Autonomous Vehicles) تبدیل شده است. این کنفرانس، محل گردهمایی توسعه‌دهندگان، پژوهشگران و رهبران صنعت برای ارائهٔ سخنرانی‌های کلیدی (Keynotes) و جلسات فنی عمیق است.[۱۸]
  4. «بی۲۰۰» (NVIDIA B200) یک «مدل» (SKU) محصول «شتاب‌دهندهٔ (GPU)» «مرکز داده» (Data Center) است که بر پایهٔ «دای» (Die) «جی‌بی۱۰۰» (GB100) ساخته شده. (B200) نشان‌دهندهٔ نسخهٔ کاملاً «فعال‌شده» (Fully Enabled) معماری بلک‌ول است که هر دو چیپلت (DCP) آن به‌طور کامل عملیاتی هستند. این محصول در «فرم فاکتور» (SXM) (ماژول سوکت‌دار) عرضه می‌شود که برای استفاده در سرورهای «محاسبات با کارایی بالا» (HPC) با تراکم بالا، مانند پلتفرم‌های (HGX) و (DGX)، طراحی شده است.[۱۹] (B200) با مشخصات فنی رده‌بالای خود، شامل ۱۹۲ گیگابایت حافظهٔ (HBM3e) با پهنای باند ۸ ترابایت بر ثانیه و «توان طراحی حرارتی» (TDP) تا ۱۰۰۰ وات (و قابل‌تنظیم تا ۱۲۰۰ وات)، برای سنگین‌ترین بارهای کاری آموزش «هوش مصنوعی» (AI) بهینه‌سازی شده است. هر «اَبَرچیپ جی‌بی۲۰۰» (GB200 Superchip)، که واحد محاسباتی سیستم NVL72 است، از دو «(GPU) بی۲۰۰» و یک «(CPU) گریس» (Grace) تشکیل شده است.[۲۰]
  5. «جی‌بی۱۰۰» (GB100) نام رمز «دای» (Die) «واحد پردازش گرافیکی» (GPU) پرچم‌دار انویدیا و مبتنی بر ریزمعماری «بلک‌ول» (Blackwell) است که به‌عنوان جانشین (GH100) (معماری هاپر) در سال ۲۰۲۴ معرفی شد. (GB100) یک طراحی «ماژول چند-تراشه‌ای» (MCM) یا «چیپلت» (Chiplet) بسیار پیچیده است؛ این (GPU) در واقع از دو «دای» (Die) کاملاً یکسان تشکیل شده که بر روی یک «میان‌نهاد» (Interposer) سیلیکونی (CoWoS-L) قرار گرفته‌اند.[۲۹] این دو دای، از طریق یک اتصال داخلی بسیار پرسرعت ۱۰ ترابایت بر ثانیه به نام «رابط پهنای باند بالای ان‌وی» (NV-HBI) به یکدیگر متصل شده‌اند که به آن‌ها اجازه می‌دهد تا به‌عنوان یک (GPU) واحد، یکپارچه و غول‌پیکر عمل کنند. این (GPU) که بر پایهٔ فرایند سفارشی (4NP) شرکت (TSMC) ساخته شده، مجهز به نسل پنجم «هسته‌های تنسوری» (Tensor Cores) و حافظهٔ (HBM3e) است و نیروبخش محصولاتی مانند (B100)، (B200) و «اَبَرچیپ» (GB200) می‌باشد.[۳۰]
  6. «رابط پهنای باند بالای ان‌وی» (NVIDIA High-Bandwidth Interface یا NV-HBI) یک «اتصال داخلی» (Interconnect) انحصاری، «تراشه-به-تراشه» (Chip-to-Chip) و با انرژی بسیار بهینه است که توسط انویدیا توسعه یافته. این پروتکل بر پایهٔ فناوری (NVLink-C2C) (تراشه-به-تراشه) ساخته شده و وظیفهٔ آن اتصال مستقیم «دای» (Die) «واحد پردازش مرکزی» (CPU) به «دای» «واحد پردازش گرافیکی» (GPU) در پلتفرم‌های «اَبَرچیپ» (Superchip) این شرکت است.[۳۴] این فناوری، ستون فقرات «اَبَرچیپ گریس بلک‌ول» (Grace Blackwell Superchip) مدل (GB200) را تشکیل می‌دهد و «(CPU) گریس» را با حافظهٔ (LPDDR5X) آن، به «(GPU) بلک‌ول» با حافظهٔ (HBM3e) آن متصل می‌کند. (NV-HBI) یک «پهنای باند» (Bandwidth) مجموع ۹۰۰ گیگابایت بر ثانیه (۴۵۰ گیگابایت بر ثانیه در هر جهت) فراهم می‌آورد و یک «فضای حافظهٔ منسجم» (Coherent Memory Space) واحد ایجاد می‌کند که به (CPU) و (GPU) اجازه می‌دهد با «تأخیر» (Latency) بسیار پایین به حافظهٔ یکدیگر دسترسی داشته باشند.[۳۵]
  7. «اِن‌وی‌لینک» (NVLink) یک پروتکل «اتصال داخلی» (Interconnect) انحصاری و پرسرعت است که توسط انویدیا برای ایجاد یک «بافت» (Fabric) حافظهٔ منسجم و با پهنای باند بسیار بالا، مستقیماً بین «واحدهای پردازش گرافیکی» (GPUs) و همچنین بین (GPU) و (CPU) در سرورهای «محاسبات با کارایی بالا» (HPC) و «هوش مصنوعی» (AI) طراحی شده است. «نسل پنجم NVLink» که همزمان با معماری «بلک‌وِل» (Blackwell) (مانند (GPU)های B100 و B200) در سال ۲۰۲۴ معرفی شد، یک جهش فنی بزرگ محسوب می‌شود.[۳۶] هر (GPU) بلک‌ول مجهز به ۱۸ پیوند (Link) نسل پنجم (NVLink) است که هر پیوند قادر به ارائهٔ پهنای باند ۱۰۰ گیگابایت بر ثانیه به‌صورت دوطرفه (Bidirectional) می‌باشد. این امر، مجموع پهنای باند «(GPU)-به-(GPU)» را برای هر تراشه به ۱٫۸ ترابایت بر ثانیه می‌رساند. این پهنای باند عظیم برای حفظ «انسجام حافظه» (Memory Coherency) در «اَبَرچیپ» (Superchip)هایی مانند (GB200) (که یک (CPU) گریس را به دو (GPU) بلک‌ول متصل می‌کند) و همچنین در ساخت خوشه‌های (Clusters) غول‌پیکر (NVL72) برای آموزش «مدل‌های زبانی بزرگ» (LLMs) تریلیون-پارامتری، حیاتی است.[۳۷]
  8. «کی۱۲» (K12) نام رمز یک ریزمعماری «پردازندهٔ مرکزی» (CPU) سفارشی مبتنی بر مجموعه دستورالعمل «(ARMv8-A) ۶۴-بیتی» بود که توسط ای‌ام‌دی (AMD) تحت رهبری «جیم کِلِر» (Jim Keller) توسعه می‌یافت. این پروژه در سال ۲۰۱۴، همزمان با معماری «زِن» (Zen) (مبتنی بر x86)، به‌عنوان بخشی از استراتژی «دوسوارگی» (Ambidrous) ای‌ام‌دی برای رقابت همزمان در بازارهای (x86) و (ARM) معرفی شد.[۳۸] هدف (K12) ایجاد یک هستهٔ (ARM) با کارایی بالا (High-Performance) بود که برای استفاده در سرورهای «مرکز داده» (Data Center)، سیستم‌های «نهفته» (Embedded) و لپ‌تاپ‌های کم‌مصرف در نظر گرفته شده بود. با این حال، علی‌رغم تکمیل طراحی، ای‌ام‌دی عرضهٔ (K12) را به نفع تمرکز کامل منابع خود بر موفقیت چشمگیر و اولویت‌بندی معماری «زِن» در بازارهای پرسود (x86) (دسکتاپ و سرور)، به تعویق انداخت و در نهایت این پروژه را پیش از عرضه به بازار، به‌طور کامل کنار گذاشت.[۳۹]
  9. «کی۷» (K7) نام رمز ریزمعماری «پردازندهٔ مرکزی» (CPU) است که توسط ای‌ام‌دی (AMD) توسعه یافت و در سال ۱۹۹۹ با عرضهٔ پردازنده‌های «اَتلون» (Athlon) رسماً معرفی شد. این معماری یک نقطهٔ عطف حیاتی برای ای‌ام‌دی بود، زیرا اولین طراحی کاملاً جدید این شرکت پس از (K6) و رقیب مستقیم و توانمند معماری (P6) اینتل (پردازنده‌های پنتیوم III) محسوب می‌شد.[۴۰] معماری (K7) از نظر فنی بسیار پیشرفته بود و شامل یک «خط لولهٔ» (Pipeline) «اَبَرپیمانه‌ای» (Superscalar) و «خارج از نوبت» (Out-of-Order) با قابلیت اجرای ۹ دستورالعمل در هر چرخه بود. همچنین از یک «واحد ممیز شناور» (FPU) قدرتمند و یک «گذرگاه سامانه» (System Bus) جدید به نام (EV6) (که از پروتکل (Alpha 21264) اقتباس شده بود) با فرکانس «نرخ دادهٔ دوگانه» (DDR) ۲۰۰ مگاهرتز بهره می‌برد که پهنای باند بسیار بالاتری نسبت به گذرگاه (GTL+) اینتل ارائه می‌داد. مدل‌های اولیهٔ (K7) از «حافظهٔ نهان» (Cache) سطح دوم (L2) «خارج از دای» (Off-die) بر روی یک ماژول کارتریج-مانند به نام (Slot A) استفاده می‌کردند، اما نسل‌های بعدی آن (مانند Thunderbird) حافظهٔ (L2) را مستقیماً بر روی «دای» (On-die) یکپارچه کردند.[۴۱]
  10. «زِن» (Zen) نام رمز خانوادهٔ ریزمعماری‌های «پردازندهٔ مرکزی» (CPU) مبتنی بر (x86-64) است که توسط ای‌ام‌دی (AMD) طراحی و در سال ۲۰۱۷ با عرضهٔ پردازنده‌های «رایزن» (Ryzen) رسماً معرفی شد. این معماری، که توسعهٔ آن تحت رهبری «جیم کِلِر» (Jim Keller) آغاز شد، یک بازطراحی کامل (Clean-Sheet Design) و فاصله گرفتن بنیادی از معماری‌های پیشین مبتنی بر «بولدوزر» (Bulldozer) بود.[۴۲] هدف اصلی «زِن»، افزایش چشمگیر «دستورالعمل‌ها در هر چرخه» (IPC) (که در نسل اول بیش از ۵۲٪ نسبت به نسل قبل بهبود یافت) و بهبود قابل توجه «بهره‌وری انرژی» (Power Efficiency) بود. معماری «زِن» برای اولین بار «چندنخی همزمان» (Simultaneous Multithreading یا SMT) (مشابه هایپر-تردینگ اینتل) را به پردازنده‌های ای‌ام‌دی آورد. همچنین ساختار «مجتمع هسته» (Core Complex یا CCX) و «بافت بی‌نهایت» (Infinity Fabric) را به‌عنوان اتصال داخلی (Interconnect) پرسرعت برای اتصال (CCX)ها به یکدیگر و (در نسل‌های بعدی) اتصال «چیپلت» (Chiplet)های هسته به «دای» ورودی/خروجی (I/O Die) معرفی کرد.[۴۳]
  11. «هسته‌های کودا» (CUDA Cores) نام تجاری انویدیا برای واحدهای اجرایی (Execution Units) همه‌منظوره و پایه‌ای در «پردازنده‌های جریانی چندگانه» (Streaming Multiprocessors یا SM) است. این هسته‌ها، سنگ بنای مدل برنامه‌نویسی «کودا» (CUDA) و مسئول اجرای بخش عمدهٔ محاسبات گرافیکی (مانند «سایه‌زن‌ها») و وظایف «محاسبات همه‌منظوره» (GPGPU) هستند.[۴۸] هر هستهٔ کودا اساساً یک «واحد منطق و حساب» (ALU) است که برای عملیات «ممیز شناور» با دقت واحد (FP32) و «عدد صحیح» (Integer) بهینه‌سازی شده است. تعداد این هسته‌ها (که در «(GPU)» های مدرن به ده‌ها هزار می‌رسد) مستقیماً با توان محاسباتی خام (Raw Compute Power) پردازنده در بارهای کاری سنتی و شطرنجی‌سازی (Rasterization) ارتباط دارد.[۴۹]
  12. «هسته‌های تنسوری» (Tensor Cores) واحدهای پردازشی بسیار تخصصی («مدار مجتمع با کاربرد خاص» یا ASIC) هستند که انویدیا از زمان معماری «وُلتا» (Volta) در «پردازنده‌های جریانی چندگانه» (SMs) خود ادغام کرده است. وظیفهٔ انحصاری این هسته‌ها، شتاب‌دهی سخت‌افزاری به عملیات «جبر خطی» (Linear Algebra)، به‌ویژه «ضرب-انباشت ماتریسی» (Matrix Multiply-Accumulate یا MMA)، است.[۵۱] برخلاف هسته‌های (CUDA) که همه‌منظوره هستند، هسته‌های تنسوری برای اجرای بسیار سریع این عملیات در «دقت ترکیبی» (Mixed Precision) (مانند FP16, FP8, INT8) بهینه‌سازی شده‌اند. این قابلیت، سنگ بنای اصلی فناوری‌های مبتنی بر «هوش مصنوعی» (AI) انویدیا، مانند «اَبَرنمونه‌گیری با یادگیری عمیق» (DLSS)، «حذف نویز» (Denoising) و آموزش شبکه‌های عصبی در مراکز داده است.[۵۲]
  13. «پروژهٔ محاسبات باز» (Open Compute Project یا OCP) یک سازمان و «کنسرسیوم» (Consortium) صنعتی است که با هدف به‌کارگیری اصول «متن‌باز» (Open Source) در طراحی سخت‌افزار «مراکز داده» (Data Center) فعالیت می‌کند. این بنیاد در سال ۲۰۱۱ توسط «فیس‌بوک» (اکنون مِتا)، اینتل و رَک‌اِسپِیس (Rackspace) رسماً پایه‌گذاری شد. ریشهٔ این پروژه به یک طرح داخلی در فیس‌بوک در سال ۲۰۰۹ بازمی‌گردد که هدف آن طراحی و ساخت بهینه‌ترین مرکز دادهٔ جهان (واقع در پرینویل، اورگن) از ابتدا تا انتها بود؛ این طرح منجر به سخت‌افزاری شد که ۳۸٪ بهینه‌تر از نظر مصرف انرژی و ۲۴٪ ارزان‌تر برای ساخت بود.[۵۳] مأموریت اصلی (OCP)، «تجزیه» (Disaggregation) سخت‌افزارهای یکپارچه و انحصاری (Proprietary) رایج در بازار (مانند سرورها، ذخیره‌سازها و تجهیزات شبکه) و بازطراحی آن‌ها به‌صورت «ماژولار» (Modular)، کارآمد و مبتنی بر استانداردهای باز است. این کار، «قفل شدن در یک فروشنده» (Vendor Lock-in) را از بین می‌برد و به «اَبَرمقیاس‌ها» (Hyperscalers) و سایر شرکت‌ها اجازه می‌دهد تا زیرساخت خود را دقیقاً مطابق با نیازهای بار کاری (Workload) خود سفارشی‌سازی کنند. این پروژه بر طراحی‌های کلیدی مانند «قفسه‌های باز» (Open Rack) (که استاندارد ۱۹ اینچی سنتی را با طراحی عریض‌تر ۲۱ اینچی برای بهبود جریان هوا و مدیریت توان جایگزین کرد)، سرورهای ماژولار، ماژول‌های شتاب‌دهندهٔ (OAM) برای هوش مصنوعی و راه‌حل‌های «سرمایش مایع» (Liquid Cooling) تمرکز دارد.[۵۴]
  14. «هسته‌های رهگیری پرتو» (Ray Tracing Cores یا RT Cores) واحدهای سخت‌افزاری اختصاصی (ASICs) هستند که انویدیا برای اولین بار در معماری «تورینگ» (Turing) (سری RTX 20) معرفی کرد. وظیفهٔ این هسته‌ها، شتاب‌دهی به محاسبات بسیار سنگین و پرتکرار مورد نیاز برای «رهگیری پرتو بی‌درنگ» (Real-time Ray Tracing) است.[۶۱] به‌طور خاص، هسته‌های (RT) دو عملیات کلیدی را از دوش «سایه‌زن‌ها» (Shaders) برمی‌دارند: ۱. «پیمایش ساختار سلسله‌مراتبی حجم محدودکننده» (BVH Traversal)، برای یافتن سریع تقاطع‌های احتمالی پرتو در صحنه؛ و ۲. «آزمون تقاطع پرتو-مثلث» (Ray-Triangle Intersection Testing)، برای تأیید برخورد دقیق پرتو. بدون این شتاب‌دهی سخت‌افزاری، اجرای رهگیری پرتو بی‌درنگ با نرخ فریم قابل‌قبول در بازی‌ها، غیرممکن خواهد بود.[۶۲]
  15. «تقاطع خوشهٔ مثلثی» (Triangle Cluster Intersection) یک قابلیت سخت‌افزاری است که در نسل سوم «هسته‌های رهگیری پرتو» (RT Cores) انویدیا (موجود در معماری «اِیدا لاولیس») معرفی شد. در معماری‌های قبلی (مانند تورینگ و اَمپِر)، هستهٔ (RT) می‌توانست تنها تقاطع یک «پرتو» (Ray) را با یک «مثلث» (Triangle) واحد در هر چرخهٔ ساعت ارزیابی کند. این امر هنگام برخورد پرتو با بخش‌های متراکم صحنه که از «ریز-مِش» (Micromesh) (مانند شاخ و برگ درختان یا فنس‌ها) تشکیل شده‌اند، ناکارآمد بود.[۶۳] معماری «اِیدا» واحدهای جدیدی را معرفی کرد که می‌توانند تقاطع پرتو را همزمان با یک «خوشه» (Cluster) کامل از مثلث‌ها (که به‌صورت دسته‌ای در ساختار (BVH) ذخیره شده‌اند) آزمایش کنند. این قابلیت، سرعت پیمایش (BVH) و تست تقاطع را در صحنه‌هایی با هندسهٔ بسیار پیچیده و متراکم، به‌طور چشمگیری (تا دو برابر) افزایش می‌دهد.[۶۴]
  16. «هندسهٔ مگا» (Mega Geometry) یک اصطلاح بازاریابی نیست، بلکه احتمالاً اشاره‌ای به توانایی «واحد پردازش گرافیکی» (GPU) معماری «بلک‌ول» (Blackwell) انویدیا در مدیریت و رندر کردن صحنه‌هایی با پیچیدگی هندسی بسیار بالا (در مقیاس تریلیون‌ها مثلث) است. این قابلیت، نتیجهٔ ترکیبی از پیشرفت‌ها در «پردازنده‌های جریانی چندگانه» (SMs) جدید و به‌ویژه، نسل چهارم «هسته‌های رهگیری پرتو» (RT Cores) است.[۶۵] هسته‌های (RT) نسل چهارم، توانایی (GPU) در «پیمایش» (Traversal) ساختارهای (BVH) و «آزمون تقاطع» (Intersection Testing) را به شکل قابل توجهی افزایش داده‌اند. این پیشرفت‌ها به (GPU) اجازه می‌دهد تا صحنه‌هایی با جزئیات هندسی بی‌سابقه، مانند مدل‌های کامل «همزاد دیجیتال» (Digital Twin) کارخانه‌ها یا شهرها را به‌صورت «بی‌درنگ» (Real-time) و با «رهگیری پرتو» (Ray Tracing) کامل، پردازش و رندر کند.[۶۶]
  17. «کُره‌های جاروب‌شدهٔ خطی» (Linearly Swept Spheres یا LSS) یک قابلیت سخت‌افزاری جدید در نسل چهارم «هسته‌های رهگیری پرتو» (RT Cores) (معماری «بلک‌ول») است که برای تسریع رندرینگ «مو» (Hair)، «خز» (Fur) و «علف» (Grass) طراحی شده است. در معماری‌های قبلی، رندر کردن این عناصر نیازمند نمایش هر تار مو به‌وسیلهٔ زنجیره‌ای از مثلث‌های بسیار باریک یا «نوارهای دوربین-محور» (Camera-facing Ribbons) بود که هم از نظر حافظه ناکارآمد و هم از نظر محاسبات تقاطع پرتو، بسیار پرهزینه بود.[۶۷] هستهٔ (RT) نسل پنجم اکنون می‌تواند مستقیماً تقاطع پرتو را با یک «اَبتدایی» (Primitive) هندسی جدید به نام (LSS) آزمایش کند. (LSS) یک تار مو را به‌صورت یک «کُره» (Sphere) که در طول یک خط مستقیم «جاروب» (Swept) شده (حرکت کرده) و دارای شعاع متغیر (برای نوک‌تیز شدن) است، نمایش می‌دهد. این روش، نمایش هندسی مو را تا ۱۴ برابر فشرده‌تر کرده و با حذف کامل نیاز به مثلث‌سازی، عملکرد رهگیری پرتو برای این عناصر را به شدت بهبود می‌بخشد.[۶۸]
  18. اگرچه «پردازندهٔ مدیریت هوش مصنوعی» یک اصطلاح رسمی در معماری انویدیا نیست، اما نزدیک‌ترین معادل فنی برای این مفهوم، «موتور ترنسفورمر» (Transformer Engine) است که در معماری‌های «هاپر» (Hopper) و «بلک‌ول» (Blackwell) معرفی شد. این موتور، یک واحد سخت‌افزاری-نرم‌افزاری است که وظیفهٔ «مدیریت» و بهینه‌سازی عملیات «هسته‌های تنسوری» (Tensor Cores) را بر عهده دارد.[۶۹] موتور ترنسفورمر به‌طور هوشمند و پویا، «دقت» (Precision) محاسبات (مانند جابجایی بین فرمت‌های FP8 و FP16) را برای هر لایه از یک مدل «ترنسفورمر» (مانند مدل‌های زبانی بزرگ) مدیریت می‌کند. این کار به «(GPU)» اجازه می‌دهد تا ضمن حفظ «دقت» (Accuracy) مورد نیاز مدل، از حداکثر سرعت محاسباتی (Throughput) هسته‌های تنسوری، به‌ویژه با استفاده از فرمت‌های کم‌دقت (FP8)، بهره ببرد.[۷۰]
  19. «پردازندهٔ مدیریت هوش مصنوعی» (AI Management Processor یا AMP) یک «پردازندهٔ مرکزی» (CPU) سفارشی مبتنی بر معماری (ARM) است که در «واحد پردازش گرافیکی» (GPU) «بلک‌ول» (Blackwell) انویدیا تعبیه شده است. وظیفهٔ این پردازنده، «تخلیه» (Offload) کردن کامل وظایف مدیریت زیرساخت (Infrastructure Management) و امنیت از (CPU) میزبان (Host CPU) است.[۷۱] در نسل‌های گذشته (مانند هاپر)، (CPU) میزبان همچنان مسئول مدیریت وظایف سطح پایین (GPU) مانند راه‌اندازی، نظارت بر وضعیت (Health Monitoring)، مدیریت خطا و امنیت بود. در معماری بلک‌ول، (AMP) این مسئولیت‌ها را مستقیماً بر عهده می‌گیرد. این امر نه‌تنها (CPU) میزبان را برای تمرکز کامل بر روی بار کاری اصلی (مانند آموزش مدل هوش مصنوعی) آزاد می‌سازد، بلکه پایداری (Reliability) و «زمان فعال بودن» (Uptime) سیستم را با فراهم کردن قابلیت‌های مدیریتی «خارج از باند» (Out-of-Band) و پیش‌بینی خطاهای سخت‌افزاری (Predictive Maintenance) به شکل چشمگیری افزایش می‌دهد.[۷۲]
  20. «ریسک-فایو» (RISC-V) یک «معماری مجموعه دستورالعمل» (ISA) استاندارد و باز است که بر پایهٔ اصول «رایانش با مجموعه دستورالعمل‌های کاهش‌یافته» (RISC) توسعه یافته است. برخلاف اکثر معماری‌های (ISA) رایج مانند (x86) یا (ARM) که «انحصاری» (Proprietary) هستند و استفاده از آن‌ها مستلزم پرداخت «حق امتیاز» (Royalty) و هزینه‌های صدور مجوز (Licensing) سنگین است، (RISC-V) به‌صورت کاملاً باز و رایگان (Royalty-Free) در دسترس همگان قرار دارد.[۷۳] این معماری که ریشه در پروژه‌های آکادمیک «دانشگاه کالیفرنیا، برکلی» (UC Berkeley) دارد، اکنون توسط «بنیاد بین‌المللی ریسک-فایو» (RISC-V International)، یک کنسرسیوم صنعتی غیرانتفاعی، مدیریت و استانداردسازی می‌شود. ویژگی بنیادین (RISC-V) «ماژولار بودن» (Modularity) آن است؛ این (ISA) از یک مجموعه دستورالعمل پایهٔ الزامی (مانند RV32I) و مجموعه‌ای گسترده از «توسعه‌دهنده‌های» (Extensions) استاندارد و اختیاری (مانند 'M' برای ضرب، 'F' برای ممیز شناور، یا 'V' برای پردازش برداری) تشکیل شده است. این طراحی به شرکت‌ها اجازه می‌دهد تا پردازنده‌هایی را دقیقاً متناسب با نیازهای خاص خود—از میکروکنترلرهای «نهفته» (Embedded) کم‌مصرف گرفته تا پردازنده‌های شتاب‌دهندهٔ هوش مصنوعی و «اَبَررایانه‌ها» (Supercomputers)—طراحی و تولید کنند.[۷۴]
  21. «زمان‌بندی سخت‌افزاری شتاب‌داده‌شده پردازنده گرافیکی» (Hardware-accelerated GPU scheduling یا HAGS) قابلیتی است که با «مدل درایور نمایش ویندوز» (WDDM) نسخهٔ ۲٫۷ و به‌عنوان بخشی از به‌روزرسانی مه ۲۰۲۰ ویندوز ۱۰ معرفی شد. در مدل زمان‌بندی سنتی (نرم‌افزاری)، «واحد پردازش مرکزی» (CPU) مسئولیت مدیریت و اولویت‌بندی «دسته‌فرمان‌ها» (Command Buffers) و کارهایی را که باید توسط (GPU) اجرا شوند، بر عهده داشت. این فرایند می‌توانست منجر به «سربار» (Overhead) پردازشی و افزایش «تأخیر» (Latency) شود.[۷۵] با فعال‌سازی (HAGS)، این وظیفهٔ زمان‌بندی با اولویت بالا، از (CPU) «تخلیه» (Offload) شده و مستقیماً به یک «پردازندهٔ زمان‌بندی» (Scheduling Processor) اختصاصی در سخت‌افزار (GPU) سپرده می‌شود. این کار با کاهش سربار (CPU) و مدیریت مستقیم‌تر حافظهٔ (GPU)، به کاهش تأخیر ورودی (Input Lag) و بهبود پاسخ‌دهی سیستم، به‌ویژه در سناریوهایی که (CPU) دچار «گلوگاه» (Bottleneck) است، کمک می‌کند.[۷۶]
  22. «تی‌ام‌یوها» (TMUs) سرواژهٔ «واحدهای نگاشت بافت» (Texture Mapping Units) هستند. این واحدها، اجزای سخت‌افزاری تخصصی در «واحد پردازش گرافیکی» (GPU) محسوب می‌شوند که مسئولیت اجرای عملیات «نمونه‌برداری بافت» (Texture Sampling) را بر عهده دارند. هنگامی که یک «سایه‌زن» (Shader) نیاز به اعمال یک «بافت» (Texture) بر روی یک مدل سه‌بعدی دارد، (TMU)ها وارد عمل می‌شوند.[۷۷] وظیفهٔ اصلی (TMU) دریافت «مختصات بافت» (UV Coordinates)، واکشی (Fetch) «تِکسِل» (Texels) (عناصر بافت) مربوطه از «حافظهٔ ویدئویی» (VRAM) و اعمال «فیلترینگ» (Filtering) (مانند فیلترهای دونقطه‌ای، سه‌نقطه‌ای یا ناهمسان‌گرد) بر روی آن‌ها برای جلوگیری از «دندانه‌زدگی» (Aliasing) یا تاری بافت‌ها است. تعداد (TMU)ها در یک (GPU) مستقیماً «نرخ پُرکردن بافت» (Texture Fillrate) آن را تعیین می‌کند و بر توانایی (GPU) در مدیریت بافت‌های با وضوح بالا تأثیر می‌گذارد.[۷۸]
  23. «آراوپی‌ها» (ROPs) سرواژهٔ «واحدهای خروجی رندر» (Render Output Units) هستند که به‌عنوان یکی از آخرین مراحل در «خط لولهٔ رندرینگ» (Rendering Pipeline) «واحد پردازش گرافیکی» (GPU) عمل می‌کنند. این واحدها مسئولیت نهایی‌سازی «قطعه» (Fragments)هایی را که توسط «سایه‌زن‌ها» (Shaders) پردازش شده‌اند، پیش از نوشتن آن‌ها در «بافر فریم» (Framebuffer) (حافظهٔ ویدئویی) بر عهده دارند.[۷۹] وظایای کلیدی (ROP)ها شامل اجرای «آزمون عمق» (Depth Test) و «آزمون استنسیل» (Stencil Test) (برای مدیریت اینکه کدام پیکسل‌ها قابل مشاهده هستند)، «ترکیب آلفا» (Alpha Blending) (برای مدیریت شفافیت) و اجرای عملیات «پس‌هموارسازی» (Anti-Aliasing) (مانند ترکیب نمونه‌های (MSAA)) است. تعداد (ROP)ها در یک (GPU) مستقیماً «نرخ پُرکردن پیکسل» (Pixel Fillrate) آن را تعیین می‌کند و بر عملکرد (GPU) در «وضوح» (Resolution) بالا تأثیر مستقیم دارد.[۸۰]
  24. «پردازنده‌های جریانی چندگانه» (Streaming Multiprocessors یا SMs) واحدهای محاسباتی بنیادی، مستقل و همه‌کاره در «ریزمعماری» (Microarchitecture) «واحدهای پردازش گرافیکی» (GPU) انویدیا هستند. یک (GPU) کامل، از آرایه‌ای از این (SM)ها تشکیل شده است. هر (SM) به‌مثابه یک «هستهٔ» (Core) پردازندهٔ موازی عمل می‌کند و تمام واحدهای اجرایی لازم برای اجرای «نخ» (Threads)های «کودا» (CUDA) را در خود جای داده است.[۸۱] این واحدهای اجرایی معمولاً شامل مجموعه‌ای از «هسته‌های کودا» (برای محاسبات FP32 و INT32)، «هسته‌های تنسوری» (Tensor Cores) (برای عملیات ماتریسی هوش مصنوعی)، «هسته‌های رهگیری پرتو» (RT Cores) (در (GPU)های (RTX))، یک «زمان‌بند» (Scheduler) مستقل، یک «فایل ثبات» (Register File) حجیم، «حافظهٔ نهان» (Cache) سطح اول (L1) و «حافظهٔ مشترک» (Shared Memory) است. معماری و تعداد واحدهای اجرایی درون هر (SM) در هر نسل (GPU) (مانند اَمپِر، ایدا یا بلک‌ول) تکامل می‌یابد و مستقیماً بر کارایی و قابلیت‌های کلی آن (GPU) تأثیر می‌گذارد.[۸۲]

واژه‌نامه

  1. Die
  2. Multi-chip Module
  3. roadmap
  4. AI hype
  5. lead time
  6. release cadence
  7. rack-scale system
  8. functional
  9. yields
  10. Black Forest Labs
  11. workstation
  12. metal layers
  13. power efficiency
  14. reticle limit
  15. semiconductor fabrication
  16. lithography machines
  17. package
  18. Ultra Ethernet
  19. monolithic piece of silicon
  20. interposer
  21. native support
  22. microscaling formats
  23. Transformer Engine
  24. quantization
  25. throughput
  26. model inference
  27. sparsity
  28. superchip
  29. Triangle Cluster Intersection Engine
  30. Mega Geometry
  31. Linear Swept Spheres
  32. AI Management Processor (AMP)
  33. scheduler chip
  34. offload
  35. Hardware-Accelerated GPU Scheduling (HAGS)

یادکردها

  1. 1 2 3 «NVIDIA RTX BLACKWELL GPU ARCHITECTURE» (PDF). انویدیا. دریافت‌شده در ۲ فوریه ۲۰۲۵.
  2. «NVIDIA Blackwell Architecture Technical Brief». انویدیا. دریافت‌شده در ۲ فوریه ۲۰۲۵.
  3. "NVIDIA B100 Data Sheet" (به انگلیسی). NVIDIA Corporation. مارس 2024.
  4. Kennedy, Patrick (19 مارس 2024). "NVIDIA B40 and B100 Get PCIe Versions". ServeTheHome (STH) (به انگلیسی).
  5. "Nvidia Corporation - Nvidia Investor Presentation October 2023". Nvidia (به انگلیسی). Retrieved March 19, 2024.
  6. "Nvidia Blackwell Platform Arrives to Power a New Era of Computing". Nvidia Newsroom (به انگلیسی). Retrieved 2024-03-19.
  7. Szewczyk, Chris (August 18, 2023). "The AI hype means Nvidia is making shiploads of cash". Tom's Hardware (به انگلیسی). Retrieved March 24, 2024.
  8. "NVIDIA H100 Tensor Core GPU Architecture" (به انگلیسی). NVIDIA Corporation. 2022.
  9. Smith, Ryan (22 مارس 2022). "NVIDIA Hopper Architecture and H100 GPU: Powering the AI Frontier". AnandTech (به انگلیسی).
  10. "NVIDIA DGX H100 System Architecture" (به انگلیسی). NVIDIA Corporation. 2022.
  11. Kennedy, Patrick (10 ژانویه 2023). "Dell PowerEdge XE9680 8x NVIDIA H100 GPU Server Overview". ServeTheHome (STH) (به انگلیسی).
  12. 1 2 Shilov, Anton (November 28, 2023). "Nvidia sold half a million H100 AI GPUs in Q3 thanks to Meta, Facebook — lead times stretch up to 52 weeks: Report". Tom's Hardware (به انگلیسی). Retrieved March 24, 2024.
  13. King, Ian (March 19, 2024). "Nvidia Looks to Extend AI Dominance With New Blackwell Chips". Yahoo! Finance (به انگلیسی). Retrieved March 24, 2024.
  14. Lee, Jane Lanhee (March 19, 2024). "Why Nvidia's New Blackwell Chip Is Key to the Next Stage of AI". Bloomberg (به انگلیسی). Retrieved March 24, 2024.
  15. "Investor Presentation" (PDF). Nvidia (به انگلیسی). October 2023. Retrieved March 24, 2024.
  16. Garreffa, Anthony (October 10, 2023). "Nvidia's next-gen GB200 'Blackwell' GPU listed on its 2024 data center roadmap". TweakTown (به انگلیسی). Retrieved March 24, 2024.
  17. Kanter, David (1 اکتبر 2009). "NVIDIA's GTC '09: The Rise of the GPU". Real World Tech (به انگلیسی).
  18. "About GTC". NVIDIA (به انگلیسی).
  19. "NVIDIA B200 SXM 192 GB Specs". TechPowerUp (به انگلیسی).
  20. "nvidia-blackwell-b200-datasheet.pdf" (PDF) (به انگلیسی). NVIDIA Corporation (via Primeline Solutions).
  21. "Nvidia GB200 NVL72". Nvidia (به انگلیسی). Retrieved July 4, 2024.
  22. Leswing, Kif (March 18, 2024). "Nvidia CEO Jensen Huang announces new AI chips: 'We need bigger GPUs'". CNBC (به انگلیسی). Retrieved March 24, 2024.
  23. 1 2 Caulfield, Brian (March 18, 2024). "'We Created a Processor for the Generative AI Era,' Nvidia CEO Says". Nvidia (به انگلیسی). Retrieved March 24, 2024.
  24. Gronholt-Pedersen, Jacob; Mukherjee, Supantha (October 23, 2024). "Nvidia's design flaw with Blackwell AI chips now fixed, CEO says". Reuters (به انگلیسی). Retrieved December 17, 2024.
  25. Shilov, Anton (October 23, 2024). "Nvidia's Jensen Huang admits AI chip design flaw was '100% Nvidia's fault' — TSMC not to blame, now-fixed Blackwell chips are in production". Tom's Hardware (به انگلیسی). Retrieved December 17, 2024.
  26. Kahn, Jeremy (November 12, 2024). "60 direct reports, but no 1-on-1 meetings: How an unconventional leadership style helped Jensen Huang of Nvidia become one of the most powerful people in business". Fortune. Retrieved November 16, 2024.
  27. Takahashi, Dean (2025-01-07). "Nvidia unveils AI foundation models running on RTX AI PCs". VentureBeat (به انگلیسی). Retrieved 2025-01-19.
  28. Byrne, Joseph (March 28, 2024). "Monster Nvidia Blackwell GPU Promises 30× Speedup, but Expect 3×". XPU.pub (به انگلیسی). Retrieved July 4, 2024.
  29. "NVIDIA Blackwell Architecture Technical Brief" (PDF) (به انگلیسی). NVIDIA Corporation. مارس 2024.
  30. Kennedy, Patrick (18 مارس 2024). "NVIDIA Blackwell Brings 1.8TB/s of GPU Bandwidth with NVLink 5". ServeTheHome (STH) (به انگلیسی).
  31. Smith, Ryan (March 18, 2024). "Nvidia Blackwell Architecture and B200/B100 Accelerators Announced: Going Bigger With Smaller Data". AnandTech (به انگلیسی). Archived from the original on March 18, 2024. Retrieved March 24, 2024.
  32. Prickett Morgan, Timothy (March 18, 2024). "With Blackwell GPUs, AI Gets Cheaper and Easier, Competing with Nvidia Gets Harder". The Next Platform (به انگلیسی). Retrieved March 24, 2024.
  33. 1 2 "Nvidia Blackwell Platform Arrives to Power a New Era of Computing". Nvidia Newsroom (به انگلیسی). March 18, 2024. Retrieved March 24, 2024.
  34. "NVIDIA Blackwell Architecture Whitepaper" (به انگلیسی). NVIDIA Corporation. مارس 2024.
  35. Kennedy, Patrick (18 مارس 2024). "NVIDIA GB200 NVL72 Grace Blackwell Superchip and More". ServeTheHome (STH) (به انگلیسی).
  36. "NVIDIA Blackwell Architecture Whitepaper" (به انگلیسی). NVIDIA Corporation. مارس 2024.
  37. Kennedy, Patrick (18 مارس 2024). "NVIDIA Blackwell Brings 1.8TB/s of GPU Bandwidth with NVLink 5". ServeTheHome (STH) (به انگلیسی).
  38. Lal Shimpi, Anand (5 مه 2014). "AMD Announces K12 Core: Custom 64-bit ARM Core in 2016". AnandTech (به انگلیسی).
  39. Hachman, Mark (18 آوریل 2016). "AMD's K12, a custom ARM chip, is 'still on the roadmap' but trails Zen". PCWorld (به انگلیسی).
  40. Lal Shimpi, Anand (9 اوت 1999). "AMD K7 Athlon 600 MHz". AnandTech (به انگلیسی).
  41. Cunningham, Andrew (1 نوامبر 2017). "A history of AMD's x86 processors". Ars Technica (به انگلیسی).
  42. Lal Shimpi, Anand; Cutress, Ian (2 مارس 2017). "The AMD Zen and Ryzen 7 Review: A Deep Dive on 1800X, 1700X and 1700". AnandTech (به انگلیسی).
  43. Clark, Mike (22 اوت 2017). "AMD Zen Microarchitecture". ارائه در Hot Chips 29 (به انگلیسی). AMD (via IEEE). doi:10.1109/HOTCHIPS.2017.8525091.
  44. Garreffa, Anthony (April 14, 2024). "Jim Keller laughs at $10B R&D cost for Nvidia Blackwell, should've used ethernet for $1B". TweakTown (به انگلیسی). Retrieved April 16, 2024.
  45. Hagedoom, Hilbert (March 18, 2024). "Nvidia B200 and GB200 AI GPUs Technical Overview: Unveiled at GTC 2024". Guru3D (به انگلیسی). Retrieved April 7, 2024.
  46. "Nvidia Blackwell "B100" to feature 2 dies and 192GB of HBM3e memory, B200 with 288GB". VideoCardz (به انگلیسی). March 17, 2024. Retrieved March 24, 2024.
  47. "Nvidia GeForce RTX 5090 GB202 GPU die reportedly measures 744 mm2, 20% larger than AD102". VideoCardz (به انگلیسی). November 22, 2024. Retrieved January 7, 2025.
  48. "What Is a CUDA Core?". NVIDIA (Glossary) (به انگلیسی).
  49. Tyson, Mark (10 مه 2024). "What Are CUDA Cores? A Basic Definition". Tom's Hardware (به انگلیسی).
  50. "CUDA C Programming Guide". Nvidia. Retrieved 28 January 2025.
  51. "NVIDIA Tensor Cores: AI and HPC Acceleration". NVIDIA Developer (به انگلیسی).
  52. Paul, Ian (21 مه 2024). "What are tensor cores in an Nvidia GPU?". PCWorld (به انگلیسی).
  53. "About OCP". Open Compute Project (به انگلیسی).
  54. K, B (15 اوت 2024). "What is the Open Compute Project (OCP)?". Stackscale (به انگلیسی).
  55. Edwards, Benj (March 18, 2024). "Nvidia unveils Blackwell B200, the "world's most powerful chip" designed for AI". Ars Technica (به انگلیسی). Retrieved March 24, 2024.
  56. "Blackwell Architecture". Nvidia (به انگلیسی). Retrieved February 5, 2025.
  57. Rouhani, Bita Darvish; Zhao, Ritchie; More, Ankit; Hall, Mathew; Khodamoradi, Alireza; Deng, Summer; Choudhary, Dhruv; Cornea, Marius; Dellinger, Eric; Denolf, Kristof (2023). "Microscaling Data Formats for Deep Learning". arXiv:2310.10537 [cs.LG].
  58. "OCP Microscaling Formats (MX) v1.0 Specification". Open Compute Project. 2024. Retrieved 2025-02-05.
  59. "OpenAI Triton on NVIDIA Blackwell Boosts AI Performance and Programmability". NVIDIA Developer Blog. NVIDIA. 2024. Retrieved 2025-02-05.
  60. "Nvidia GB200 NVL72". Nvidia (به انگلیسی). Retrieved July 4, 2024.
  61. "Ray Tracing Cores". NVIDIA (Glossary) (به انگلیسی).
  62. Hill, Brandon (15 ژوئن 2021). "What Is Nvidia RTX and Ray Tracing? (RT Cores Explained)". How-To Geek (به انگلیسی).
  63. "NVIDIA Ada Lovelace Architecture Whitepaper" (PDF) (به انگلیسی). NVIDIA Corporation. سپتامبر 2022.
  64. Walton, Jarred (18 اکتبر 2022). "Nvidia's Ada Lovelace GPU Architecture: Deeper Dive". Tom's Hardware (به انگلیسی).
  65. "NVIDIA Blackwell Architecture Whitepaper" (به انگلیسی). NVIDIA Corporation. مارس 2024.
  66. Edwards, Benj (18 مارس 2024). "Nvidia unveils Blackwell B200, the "world's most powerful chip" for AI". Ars Technica (به انگلیسی).
  67. "NVIDIA Blackwell Architecture Whitepaper" (به انگلیسی). NVIDIA Corporation. مارس 2024.
  68. Walton, Jarred (9 اکتبر 2024). "Nvidia's Blackwell GPU Architecture: A Deep Dive". Tom's Hardware (به انگلیسی).
  69. "NVIDIA Hopper Architecture Whitepaper" (به انگلیسی). NVIDIA Corporation. مارس 2022.
  70. Kennedy, Patrick (22 مارس 2022). "NVIDIA H100 GPU is a Transformer Engine for AI". ServeTheHome (STH) (به انگلیسی).
  71. "NVIDIA Blackwell Architecture Whitepaper" (به انگلیسی). NVIDIA Corporation. مارس 2024.
  72. Kennedy, Patrick (18 مارس 2024). "NVIDIA Blackwell Brings 1.8TB/s of GPU Bandwidth with NVLink 5". ServeTheHome (STH) (به انگلیسی).
  73. "About RISC-V". RISC-V International (به انگلیسی).
  74. Cunningham, Andrew (18 اوت 2021). "RISC-V explained: What it is, and why it's a big deal". Ars Technica (به انگلیسی).
  75. Sandy, William (15 ژوئیه 2020). "Hardware-Accelerated GPU Scheduling". Microsoft DirectX Developer Blog (به انگلیسی).
  76. Leather, Antony (31 ژوئیه 2024). "What Is Hardware-Accelerated GPU Scheduling In Windows 11?". How-To Geek (به انگلیسی).
  77. "Definition of TMU (Texture Mapping Unit)". TechTerms (به انگلیسی).
  78. Sinha, A. (11 مه 2020). "GPU 101: What are Shader Cores, TMUs, and ROPs?". Hardware Times (به انگلیسی).
  79. Perry, Alex (18 فوریه 2022). "What Are ROPs (Render Output Units) on a GPU?". Lifewire (به انگلیسی).
  80. "ROP (Render Output Unit)". PCMag Encyclopedia (به انگلیسی).
  81. "NVIDIA Ampere GA102 GPU Architecture Whitepaper" (PDF) (به انگلیسی). NVIDIA Corporation. 2020.
  82. Smith, Ryan (1 سپتامبر 2020). "The NVIDIA GeForce RTX 3080 & 3090 Review: Ampere, Deep-Dive". AnandTech (به انگلیسی).

منابع

پیوند به بیرون

  1. "Blackwell (microarchitecture)". Wikipedia (به انگلیسی). 10 November 2025.