نرمال‌سازی (یادگیری ماشین)

در یادگیری ماشین، نرمال‌سازی^[الف] یک تکنیک آماری با کاربردهای گوناگون است. نرمال‌سازی دو شکل اصلی دارد، یعنی نرمال‌سازی داده و نرمال‌سازی فعال‌سازی. نرمال‌سازی داده (یا تغییر مقیاس ویژگی) شامل روش‌هایی است که داده‌های ورودی را به‌گونه‌ای بازمقیاس می‌کنند که ویژگی‌ها دارای بازه، میانگین، واریانس یا دیگر خواص آماری یکسان بشوند. برای مثال، یکی از روش‌های پرکاربرد تغییر مقیاس ویژگی، نرمال‌سازی کمینه-بیشینه است که در آن هر ویژگی طوری تغییر داده می‌شود که دارای بازه یکسان (معمولاً [۰، ۱] یا [-۱، ۱]) باشد. این کار مشکل تفاوت بسیار زیاد مقیاس بین ویژگی‌های مختلف را حل می‌کند. برای نمونه فرض کنیم که یک ویژگی بر حسب کیلومتر و ویژگی دیگر بر حسب نانومتر اندازه‌گیری شده باشد.

از سوی دیگر، نرمال‌سازی فعال‌سازی فقط مختص یادگیری عمیق است و شامل روش‌هایی می‌شود که فعال‌سازی نورون‌های پنهان درون شبکه عصبی مصنوعی را بازمقیاس می‌کنند.

نرمال‌سازی معمولاً برای موارد زیر استفاده می‌شود:

افزایش سرعت همگرایی آموزش،
کاهش حساسیت به تغییرات و مقیاس ویژگی‌ها در داده‌های ورودی،
کاهش بیش‌برازش،
ایجاد تعمیم بهتر مدل به داده‌های دیده‌نشده.

تکنیک‌های نرمال‌سازی اغلب از نظر نظری به عنوان روشی برای کاهش تغییر هم‌پراکندگی، هموارسازی چشم‌انداز بهینه‌سازی و افزایش منظم‌سازی توجیه می‌شوند، هرچند که عمدتاً موفقیت تجربی آن‌ها دلیل اصلی استفاده از آن‌هاست.^[۱]

نرمال‌سازی دسته‌ای

مقالهٔ اصلی: نرمال‌سازی دسته‌ای

نرمال‌سازی دسته‌ای^[ب] (کوته‌نوشت: BatchNorm)^[۲] به جای اعمال نرمال‌سازی بر روی تمامی ورودی‌ها، روی فعال‌سازی‌های یک لایه برای هر ریز-دسته^[پ] عمل می‌کند.

یک شبکه پیش‌خور ساده را در نظر بگیرید که با زنجیره کردن ماژول‌ها تعریف شده است: $x^{(0)}\mapsto x^{(1)}\mapsto x^{(2)}\mapsto \cdots$ که در آن هر ماژول شبکه می‌تواند یک تبدیل خطی، یک تابع فعال‌سازی غیرخطی، یک هم‌نهشتی و غیره باشد. $x^{(0)}$ بردار ورودی، $x^{(1)}$ بردار خروجی از ماژول اول، و به همین ترتیب است.

بَچ‌نُرم یک ماژول است که می‌تواند در هر نقطه‌ای از شبکه پیش‌خور درج شود. برای مثال، اگر درست پس از $x^{(l)}$ در میانه زنجره قرار داده شود، آنگاه شبکه به صورت زیر عمل می‌کند: $\cdots \mapsto x^{(l)}\mapsto \mathrm {BN} (x^{(l)})\mapsto x^{(l+1)}\mapsto \cdots$ ماژول بَچ‌نُرم روی تمامی ورودی‌های به طور یکجا عمل نمی‌کند، بلکه باید هر بار روی یک دسته از ورودی‌ها اعمال شود و به همه دسته‌ها به طور همزمان نگاه نمی‌کنیم.

به بیان دقیق‌تر، فرض کنید یک دسته از ورودی‌های $x_{(1)}^{(0)},x_{(2)}^{(0)},\dots ,x_{(B)}^{(0)}$ را به طور هم‌زمان به شبکه وارد می‌کنیم. در میانه شبکه نیز، بردارهایی به صورت زیر وجود خواهد داشت: $x_{(1)}^{(l)},x_{(2)}^{(l)},\dots ,x_{(B)}^{(l)}$ ماژول بَچ‌نُرم، میانگین و واریانس هر دسته از بردارها را محاسبه می‌کند: ${\begin{aligned}\mu _{i}^{(l)}&={\frac {1}{B}}\sum _{b=1}^{B}x_{(b),i}^{(l)}\\(\sigma _{i}^{(l)})^{2}&={\frac {1}{B}}\sum _{b=1}^{B}(x_{(b),i}^{(l)}-\mu _{i}^{(l)})^{2}\end{aligned}}$ که در آن $B$ تعداد ورودی‌ها (بردارها) در دسته فعلی، $i$ اندیس مؤلفه‌ها در هر بردار (ویژگی) و $b$ اندیس یا نشانگر هر بردار در داخل دسته (بَچ) است. به بیان دیگر، در فرمول بالا مؤلفه $i$ -ام (ویژگی $i$ -ام) هر بردار در دسته در نظر گرفته می‌شود و میانگین و واریانس این مقادیر محاسبه می‌گردد.

سپس هر مؤلفه طوری نرمال‌سازی می‌شود که میانگین صفر و واریانس یک داشته باشد: ${\hat {x}}^{(l)}{(b),i}={\frac {x^{(l)}{(b),i}-\mu _{i}^{(l)}}{\sqrt {(\sigma _{i}^{(l)})^{2}+\epsilon }}}$ در این‌جا $\epsilon$ یک ثابت مثبت کوچک مانند $10^{-9}$ است که برای پایداری عددی به واریانس افزوده می‌شود تا از تقسیم بر صفر جلوگیری شود.

در نهایت، یک تبدیل خطی اعمال می‌شود: $y^{(l)}{(b),i}=\gamma _{i}{\hat {x}}^{(l)}{(b),i}+\beta _{i}$ در این رابطه، $\gamma$ و $\beta$ پارامترهای درون ماژول بَچ‌نُرم هستند. این پارامترها قابل یادگیری‌اند و معمولاً با استفاده از گرادیان کاهشی آموزش داده می‌شوند.

در ادامه، یک پیاده‌سازی پایتون از بَچ‌نُرم آورده شده است:

import numpy as np

def batchnorm(x, gamma, beta, epsilon=1e-9):
    # Mean and variance of each feature
    mu = np.mean(x, axis=0)  # shape (N,)
    var = np.var(x, axis=0)  # shape (N,)

    # Normalize the activations
    x_hat = (x - mu) / np.sqrt(var + epsilon)  # shape (B, N)

    # Apply the linear transform
    y = gamma * x_hat + beta  # shape (B, N)

    return y

تفسیر

شبکه به مرور یاد میگیرد که در صورت نیاز با استفاده از پارامترهای $\gamma$ و $\beta$ نرمال‌سازی را «خنثی» کند.^[۳] بَچ‌نُرم را می‌توان اینگونه تفسیر کرد: در مسیر آموزش، بَچ‌نُرم روشی است که بار عملکرد صرفاً خطی را به دوش می‌کشد، تا لایه‌ها فقط بر مدل‌سازی جنبه‌های غیرخطی داده تمرکز کنند. این موضوع می‌تواند مفید باشد، زیرا همواره به سادگی می‌توان یک لایه تبدیل خطی بعد از لایه‌های شبکه عصبی اضافه کرد.^[۴]^[۳]

در مقاله اصلی ادعا شده است که عملکرد بَچ‌نُرم،^[۵] کاهش لغزش کوواریانس (هم‌پراکندگی) درونی است، هرچند این ادعا هم طرفداران ^[۶]^[۷] و هم منتقدانی دارد.^[۸]^[۹]

موارد خاص

مقاله اصلی^[۲] توصیه می‌کند که بَچ‌نُرم فقط پس از یک تبدیل خطی استفاده شود و نه پس از یک فعال‌سازی غیرخطی. یعنی $\phi (\mathrm {BN} (Wx+b))$ و نه $\mathrm {BN} (\phi (Wx+b))$ . همچنین، جمله بایاس $b$ اهمیتی ندارد، زیرا با کم کردن میانگین در مراحل بعدی حذف می‌شود، بنابراین فرم کلی به صورت $\mathrm {BN} (Wx)$ خواهد بود. یعنی اگر بَچ‌نُرم پیش از یک تبدیل خطی قرار گیرد، جمله بایاس آن تبدیل خطی صفر در نظر گرفته می‌شود.^[۲]

برای شبکه‌های عصبی پیچشی (کوته‌نوشت: CNN)، بَچ‌نُرم باید ناوردایی نسبت به تبدیل را حفظ کند. به این معنا که باید تمام خروجی‌های یک هسته یکسان را به عنوان نقاط داده متفاوتی درون یک دسته در نظر بگیرد.^[۲] به این حالت گاهی نرمال‌سازی دسته‌ای مکانی^[ت]، بَچ‌نُرم2D^[ث] یا بَچ‌نُرم به‌ازای هر کانال^[ج] گفته می‌شود.^[۱۰]^[۱۱]

به‌طور مشخص، فرض کنید یک لایه کانولوشنی دوبعدی به صورت زیر تعریف شده باشد:

$x_{h,w,c}^{(l)}=\sum _{h',w',c'}K_{h'-h,w'-w,c,c'}^{(l)}x_{h',w',c'}^{(l-1)}+b_{c}^{(l)}$ که در آن:

$x_{h,w,c}^{(l)}$ فعال‌سازی نورون در موقعیت $(h,w)$ در کانال $c$ -ام از لایه $l$ -ام است.

$K_{\Delta h,\Delta w,c,c'}^{(l)}$ یک تنسور کرنل است. هر کانال $c$ متناظر با یک کرنل $K^{(l)}{h'-h,w'-w,c,c'}$ با اندیس‌های $\Delta h,\Delta w,c'$ است.

$b_{c}^{(l)}$ جمله بایاس برای کانال $c$ -ام از لایه $l$ -ام است.

برای حفظ ناوردایی انتقالی، بَچ‌نُرم تمام خروجی‌های حاصل از یک کرنل یکسان در یک دسته را به عنوان داده‌های بیشتری در همان دسته در نظر می‌گیرد. به عبارت دیگر، این نرمال‌سازی برای هر «کرنل» $c$ (یا به‌طور معادل، برای هر کانال $c$ ) تنها یک مرتبه اعمال می‌شود، نه برای هر «فعال‌سازی» $x_{h,w,c}^{(l+1)}$ به صورت جداگانه:

${\begin{aligned}\mu _{c}^{(l)}&={\frac {1}{BHW}}\sum _{b=1}^{B}\sum _{h=1}^{H}\sum _{w=1}^{W}x_{(b),h,w,c}^{(l)}\\(\sigma _{c}^{(l)})^{2}&={\frac {1}{BHW}}\sum _{b=1}^{B}\sum _{h=1}^{H}\sum _{w=1}^{W}(x_{(b),h,w,c}^{(l)}-\mu _{c}^{(l)})^{2}\end{aligned}}$

که در آن $B$ اندازه دسته، $H$ ارتفاع نگاشت ویژگی و $W$ عرض نگاشت ویژگی است.

یعنی با وجود آنکه تنها $B$ نقطه داده در یک دسته وجود دارد، تمام $BHW$ خروجی حاصل از کرنل در این دسته بطور یکسان در نظر گرفته می‌شوند.^[۲]

در ادامه، نرمال‌سازی و تبدیل خطی نیز به صورت «به‌ازای هر کرنل» انجام می‌شود:

${\begin{aligned}{\hat {x}}_{(b),h,w,c}^{(l)}&={\frac {x_{(b),h,w,c}^{(l)}-\mu _{c}^{(l)}}{\sqrt {(\sigma _{c}^{(l)})^{2}+\epsilon }}}\\y_{(b),h,w,c}^{(l)}&=\gamma _{c}{\hat {x}}_{(b),h,w,c}^{(l)}+\beta _{c}\end{aligned}}$

ملاحظات مشابهی برای نرمال‌سازی دسته‌ای در کانولوشن‌های با بعد $n$ نیز برقرار است.

در ادامه، یک پیاده‌سازی پایتونی از نرمال‌سازی دسته‌ای برای کانولوشن‌های دوبعدی آورده شده است:

import numpy as np

def batchnorm_cnn(x, gamma, beta, epsilon=1e-9):
    # Calculate the mean and variance for each channel.
    mean = np.mean(x, axis=(0, 1, 2), keepdims=True)
    var = np.var(x, axis=(0, 1, 2), keepdims=True)

    # Normalize the input tensor.
    x_hat = (x - mean) / np.sqrt(var + epsilon)

    # Scale and shift the normalized tensor.
    y = gamma * x_hat + beta

    return y

برای شبکه‌های عصبی بازگشتی (کوته‌نوشت: RNN) چندلایه، نرمال‌سازی دسته‌ای معمولاً فقط برای بخش ورودی به حالت پنهان اعمال می‌شود و نه برای بخش حالت پنهان به حالت پنهان.^[۱۲] فرض کنید حالت پنهان لایه $l$ -ام در زمان $t$ برابر $h_{t}^{(l)}$ باشد. شبکه عصبی بازگشتی استاندارد، بدون نرمال‌سازی، رابطه زیر را ارضا می‌کند: $h^{(l)}t=\phi (W^{(l)}h_{t}^{l-1}+U^{(l)}h{t-1}^{l}+b^{(l)})$ که در آن $W^{(l)},U^{(l)},b^{(l)}$ به‌ترتیب وزن‌ها و بایاس‌ها هستند و $\phi$ تابع فعال‌سازی است. با اعمال نرمال‌سازی دسته‌ای، این رابطه به شکل زیر در می‌آید: $h^{(l)}t=\phi (\mathrm {BN} (W^{(l)}h_{t}^{l-1})+U^{(l)}h{t-1}^{l})$ دو روش ممکن برای تعریف «دسته» در نرمال‌سازی دسته‌ای برای آراِن‌اِن‌ها وجود دارد: «فریم‌به‌فریم» و «دنباله‌محور». به‌طور مشخص، پردازش یک دسته از جمله‌ها توسط یک آراِن‌اِن را در نظر بگیرید. فرض کنید $h_{b,t}^{(l)}$ حالت پنهان لایه $l$ -ام برای توکن $t$ -ام از جمله ورودی $b$ -ام باشد. در این صورت، نرمال‌سازی دسته‌ای فریم‌به‌فریم به معنای نرمال‌سازی روی $b$ است: ${\begin{aligned}\mu _{t}^{(l)}&={\frac {1}{B}}\sum _{b=1}^{B}h_{i,t}^{(l)}\\(\sigma _{t}^{(l)})^{2}&={\frac {1}{B}}\sum _{b=1}^{B}(h_{t}^{(l)}-\mu _{t}^{(l)})^{2}\end{aligned}}$ و نرمال‌سازی دنباله‌محور به معنای نرمال‌سازی روی $(b,t)$ است: ${\begin{aligned}\mu ^{(l)}&={\frac {1}{BT}}\sum _{b=1}^{B}\sum _{t=1}^{T}h_{i,t}^{(l)}\\(\sigma ^{(l)})^{2}&={\frac {1}{BT}}\sum _{b=1}^{B}\sum _{t=1}^{T}(h_{t}^{(l)}-\mu ^{(l)})^{2}\end{aligned}}$ نرمال‌سازی دسته‌ای فریم‌به‌فریم برای وظایف علّی مانند پیش‌بینی نویسه بعدی مناسب است، جایی که فریم‌های آینده در دسترس نیستند و این موضوع نرمال‌سازی به ازای هر فریم را الزامی می‌کند. نرمال‌سازی دسته‌ای دنباله‌محور برای وظایفی مانند بازشناسی گفتار مناسب است، که در آن کل دنباله‌ها در دسترس هستند، اما طول‌های متغیر دارند. در یک دسته، دنباله‌های کوتاه‌تر با صفر پُر می‌شوند تا با طول بلندترین دنباله دسته یکسان شوند. در چنین تنظیماتی، روش فریم‌به‌فریم توصیه نمی‌شود، زیرا تعداد فریم‌های بدون پَدشدگی در امتداد محور زمان کاهش می‌یابد و این امر به برآوردهای آماری هرچه ضعیف‌تر منجر می‌شود.^[۱۲]

همچنین امکان اعمال نرمال‌سازی دسته‌ای بر حافظه‌های طولانی کوتاه مدت (کوته‌نوشت: LSTM) نیز وجود دارد.^[۱۳]

بهبودها

تاکنون نرمال‌سازی دسته‌ای (بَچ‌نُرم) بسیار محبوب بوده است و تلاش‌های متعددی برای بهبود آن انجام شده است. برخی از این نمونه‌ها عبارت‌اند از:^[۱۴]

بچینگ شبح‌گونه^[چ]: تقسیم تصادفی یک دسته به زیردسته‌ها و اعمال نرمال‌سازی دسته‌ای به صورت جداگانه روی هر زیردسته
افت وزن^[ح] روی $\gamma$ و $\beta$ ؛
و ترکیب نرمال‌سازی دسته‌ای با نرمال‌سازی گروهی.

یکی از مشکلات خاص نرمال‌سازی دسته‌ای این است که در طول آموزش، میانگین و واریانس برای هر دسته به صورت برخط محاسبه می‌شوند (معمولاً بصورت یک میانگین متحرک نمایی)، اما در مرحله استنتاج، میانگین و واریانس روی مقادیری که در طول آموزش محاسبه شده‌اند ثابت (فریز) می‌شوند. این نابرابری میان آموزش و آزمون باعث افت عملکرد می‌شود. این نابرابری را می‌توان با شبیه‌سازی میانگین متحرک در زمان استنتاج کاهش داد:^[۱۴] ${\begin{aligned}\mu &=\alpha E[x]+(1-\alpha )\mu _{x,{\text{ train}}}\\\sigma ^{2}&=(\alpha E[x]^{2}+(1-\alpha )\mu _{x^{2},{\text{ train}}})-\mu ^{2}\end{aligned}}$ که در آن $\alpha$ یک ابرپارامتر است که باید روی یک مجموعه اعتبارسنجی بهینه‌سازی شود.

راهکارهای دیگر تلاش می‌کنند نرمال‌سازی دسته‌ای را به‌طور کامل حذف کنند، مانند رزنت بدون نرمال‌ساز.^[۱۵]

نرمال‌سازی لایه‌ای

نرمال‌سازی لایه‌ای^[خ] (کوته‌نوشت: LayerNorm)^[۱۶] یک جایگزین پرکاربرد برای نرمال‌سازی دسته‌ای (بَچ‌نُرم) است. برخلاف بَچ‌نُرم که فعال‌سازی‌ها را در امتداد بُعد دسته برای یک ویژگی معین نرمال‌سازی می‌کند، لِیرنُرم، نرمال‌سازی را راستای تمام ویژگی‌ها درون یک نمونه داده (ورودی) منفرد انجام می‌دهد نه ما بین ورودی‌ها. در مقایسه با بَچ‌نُرم، عملکرد لِیرنُرم تحت تأثیر اندازه دسته قرار نمی‌گیرد. این روش یکی از اجزای کلیدی مدل‌های ترنسفورمر به‌شمار می‌رود.

برای یک ورودی داده و یک لایه معین، لِیرنُرم میانگین $\mu$ و واریانس $\sigma ^{2}$ را بر روی تمام نورون‌های آن لایه محاسبه می‌کند. مشابه بَچ‌نُرم، پارامترهای قابل یادگیری $\gamma$ (مقیاس) و $\beta$ (انتقال) اعمال می‌شوند. این نرمال‌سازی به صورت زیر تعریف می‌شود: ${\hat {x_{i}}}={\frac {x_{i}-\mu }{\sqrt {\sigma ^{2}+\epsilon }}},\quad y_{i}=\gamma _{i}{\hat {x_{i}}}+\beta _{i}$ که در آن: $\mu ={\frac {1}{D}}\sum _{i=1}^{D}x_{i},\quad \sigma ^{2}={\frac {1}{D}}\sum _{i=1}^{D}(x_{i}-\mu )^{2}$ و اندیس $i$ بر روی نورون‌های موجود در آن لایه تغییر می‌کند.

مثال‌ها

برای مثال، در شبکه‌های عصبی کانولوشنی (کوته‌نوشت: CNN)، نرمال‌سازی لایه‌ای بر روی تمام فعال‌سازی‌های یک لایه اعمال می‌شود. با توجه به نمادگذاری پیشین، خواهیم داشت: ${\begin{aligned}\mu ^{(l)}&={\frac {1}{HWC}}\sum _{h=1}^{H}\sum _{w=1}^{W}\sum _{c=1}^{C}x_{h,w,c}^{(l)}\\(\sigma ^{(l)})^{2}&={\frac {1}{HWC}}\sum _{h=1}^{H}\sum _{w=1}^{W}\sum _{c=1}^{C}(x_{h,w,c}^{(l)}-\mu ^{(l)})^{2}\\{\hat {x}}_{h,w,c}^{(l)}&={\frac {{\hat {x}}_{h,w,c}^{(l)}-\mu ^{(l)}}{\sqrt {(\sigma ^{(l)})^{2}+\epsilon }}}\\y_{h,w,c}^{(l)}&=\gamma ^{(l)}{\hat {x}}_{h,w,c}^{(l)}+\beta ^{(l)}\end{aligned}}$ توجه کنید که اندیس دسته $b$ حذف شده است، در حالی که اندیس کانال $c$ اضافه شده است.

در شبکه‌های عصبی بازگشتی^[۱۶] و ترنسفورمرها^[۱۷]، نرمال‌سازی لایه‌ای به صورت مجزا برای هر گام زمانی اعمال می‌شود. برای مثال، اگر بردار پنهان در یک شبکه عصبی بازگشتی در گام زمانی $t$ برابر با $x^{(t)}\in \mathbb {R} ^{D}$ باشد، که در آن $D$ بُعد بردار پنهان است، آنگاه لِیرنُرم به صورت زیر اعمال می‌شود: ${\hat {x_{i}}}^{(t)}={\frac {x_{i}^{(t)}-\mu ^{(t)}}{\sqrt {(\sigma ^{(t)})^{2}+\epsilon }}},\quad y_{i}^{(t)}=\gamma _{i}{\hat {x_{i}}}^{(t)}+\beta _{i}$ که در آن: $\mu ^{(t)}={\frac {1}{D}}\sum _{i=1}^{D}x_{i}^{(t)},\quad (\sigma ^{(t)})^{2}={\frac {1}{D}}\sum _{i=1}^{D}(x_{i}^{(t)}-\mu ^{(t)})^{2}$

نرمال‌سازی لایه‌ای با میانگین مربعات ریشه‌ای

نرمال‌سازی لایه‌ای با میانگین مربعات ریشه‌ای^[د] (کوته‌نوشت: RMSNorm):^[۱۸] ${\hat {x_{i}}}={\frac {x_{i}}{\sqrt {{\frac {1}{D}}\sum _{i=1}^{D}x_{i}^{2}}}},\quad y_{i}=\gamma {\hat {x_{i}}}+\beta$ در اصل، این روش نوعی لِیرنُرم است که در آن $\mu$ و $\epsilon$ برابر با صفر در نظر گرفته می‌شوند. به این روش همچنین نرمال‌سازی L2 نیز گفته می‌شود. این حالت یک مورد خاص از نرمال‌سازی Lp یا نرمال‌سازی توانی است: ${\hat {x_{i}}}={\frac {x_{i}}{\left({\frac {1}{D}}\sum _{i=1}^{D}|x_{i}|^{p}\right)^{1/p}}},\quad y_{i}=\gamma {\hat {x_{i}}}+\beta$ که در آن $p>0$ یک ثابت است.

نرمال‌سازی لایه‌ای تطبیقی

نرمال‌سازی لایه‌ای تطبیقی^[ذ] (کوته‌نوشت: adaLN) مقادیر $\gamma$ و $\beta$ را در لِیرنُرم نه از روی فعال‌سازی‌های خود لایه، بلکه از داده‌های دیگر محاسبه می‌کند. این روش نخستین بار برای شبکه‌های عصبی کانولوشنی پیشنهاد شد،^[۱۹] و به طور مؤثری در ترنسفورمرهای مبتنی بر مدل‌های انتشاری (کوته‌نوشت: DiT) به کار رفته است.^[۲۰] برای مثال، در یک DiT، اطلاعات شرطی (مانند یک بردار کدگذاری متن) توسط یک پرسپترون چندلایه به مقادیر $\gamma$ و $\beta$ تبدیل می‌شود و سپس این مقادیر در ماژول لِیرنُرم یک ترنسفورمر اعمال می‌گردند.

نرمال‌سازی وزنی

نرمال‌سازی وزنی^[ر] (کوته‌نوشت: WeightNorm)^[۲۱] روشی است الهام‌گرفته از نرمال‌سازی دسته‌ای که به جای نرمال‌سازی فعال‌سازی‌ها، ماتریس‌های وزن را در یک شبکه عصبی نرمال‌سازی می‌کند.

یکی نمونه از این موارد نرمال‌سازی طیفی^[ز] است که ماتریس‌های وزن را بر نُرم طیفی آن‌ها تقسیم می‌کند. نرمال‌سازی طیفی در شبکه‌های مولد تخاصمی‌ (کوته‌نوشت: GAN) مانند شبکه مولد تخاصمی واسرشتاین مورد استفاده قرار می‌گیرد.^[۲۲] شعاع طیفی را می‌توان به صورت کارآمد با الگوریتم زیر محاسبه کرد:

INPUT matrix $W$ and initial guess $x$

Iterate $x\mapsto {\frac {1}{\|Wx\|_{2}}}Wx$ to convergence $x^{*}$ . This is the eigenvector of $W$ with eigenvalue $\|W\|_{s}$ .

RETURN $x^{*},\|Wx^{*}\|_{2}$

با بازانتساب $W_{i}\leftarrow {\frac {W_{i}}{\|W_{i}\|_{s}}}$ پس از هر به‌روزرسانی متمایزکننده^[ژ]، می‌توان کران بالایی $\|W_{i}\|_{s}\leq 1$ و در نتیجه کران بالایی برای $\|D\|_{L}$ را بدست آورد.

این الگوریتم را می‌توان با استفاده از به‌خاطرسپاری^[س] بیش از پیش تسریع کرد: در گام $t$ ، مقدار $x_{i}^{*}(t)$ ذخیره می‌شود. سپس در گام $t+1$ ، از $x_{i}^{*}(t)$ به عنوان حدس اولیه الگوریتم استفاده می‌شود. از آنجا که $W_{i}(t+1)$ بسیار به $W_{i}(t)$ نزدیک است، $x_{i}^{*}(t)$ نیز به $x_{i}^{*}(t+1)$ نزدیک خواهد بود و این امر امکان همگرایی سریع را فراهم می‌کند.

نرمال‌سازی‌های ویژه شبکه‌های عصبی پیچشی

برخی از روش‌های نرمال‌سازی فعال‌سازی وجود دارند که فقط برای شبکه‌های عصبی پیچشی (کوته‌نوشت: سی‌ان‌ان) به‌کار می‌روند.

نرمال‌سازی پاسخ

نرمال‌سازی پاسخ محلی^[ش] ^[۲۳] در الکس‌نت مورد استفاده قرار گرفت. این روش در یک لایه کانولوشنی، بلافاصله پس از یک تابع فعال‌سازی غیرخطی اعمال می‌شد و به صورت زیر تعریف می‌گردید:

$b_{x,y}^{i}={\frac {a_{x,y}^{i}}{\left(k+\alpha \sum _{j=\max(0,i-n/2)}^{\min(N-1,i+n/2)}\left(a_{x,y}^{j}\right)^{2}\right)^{\beta }}}$

که در آن $a_{x,y}^{i}$ فعال‌سازی نورون در مکان $(x,y)$ و کانال $i$ است. به‌عبارت دیگر، هر پیکسل در یک کانال تحت تأثیر (سرکوب) فعال‌سازی‌های همان پیکسل در کانال‌های مجاور خود قرار می‌گیرد.

پارامترهای $k,n,\alpha ,\beta$ ابرپارامترهایی هستند که با استفاده از یک مجموعه اعتبارسنجی انتخاب می‌شوند.

این روش گونه‌ای از روش قدیمی‌تر نرمال‌سازی کنتراست محلی^[ص] بود.

$b_{x,y}^{i}={\frac {a_{x,y}^{i}}{\left(k+\alpha \sum _{j=\max(0,i-n/2)}^{\min(N-1,i+n/2)}\left(a_{x,y}^{j}-{\bar {a}}_{x,y}^{j}\right)^{2}\right)^{\beta }}}$

که در آن ${\bar {a}}_{x,y}^{j}$ میانگین فعال‌سازی در یک پنجره کوچکِ متمرکز بر مکان $(x,y)$ و کانال $i$ است. ابرپارامترهای $k,n,\alpha ,\beta$ و همچنین اندازه این پنجره کوچک، با استفاده از یک مجموعه اعتبارسنجی انتخاب می‌شوند.

روش‌های مشابه با عنوان نرمال‌سازی تقسیمی شناخته می‌شدند، زیرا فعال‌سازی‌ها را بر مقداری وابسته به خودِ فعال‌سازی‌ها تقسیم می‌کردند. این روش‌ها در اصل از زیست‌شناسی الهام گرفته شده بودند، جایی که برای توضیح پاسخ‌های غیرخطی نورون‌های قشری مغز و پدیده پوشانندگی غیرخطی در ادراک بینایی به‌کار می‌رفتند.^[۲۴]

هر دو نوع نرمال‌سازی محلی، بعدها با نرمال‌سازی دسته‌ای جایگزین شدند، که شکلی جهانی‌تر از نرمال‌سازی محسوب می‌شود.^[۲۵]

نرمال‌سازی پاسخ بعدها در ConvNeXT-2 با عنوان نرمال‌سازی پاسخ سراسری^[ض] دوباره مطرح شد.^[۲۶]

نرمال‌سازی گروهی

نرمال‌سازی گروهی^[ط] (کوته‌نوشت: GroupNorm)^[۲۷] روشی است که آن هم صرفاً برای شبکه‌های عصبی کانولوشنی (سی‌ان‌ان‌ها) به‌کار می‌رود. این روش را می‌توان به صورت نرمال‌سازی لایه‌ای (لِیرنُرم) برای سی‌ان‌ان‌ها در نظر گرفت که به‌ازای هر گروه از کانال‌ها یک مرتبه اعمال می‌شود.

فرض کنید در یک لایه $l$ ، کانال‌هایی با اندیس‌های $1,2,\dots ,C$ وجود داشته باشند. این کانال‌ها به گروه‌هایی به صورت $g_{1},g_{2},\dots ,g_{G}$ تقسیم می‌شوند. سپس نرمال‌سازی لایه‌ای به‌طور جداگانه روی هر گروه اعمال می‌شود.

نرمال‌سازی نمونه‌ای

نرمال‌سازی نمونه‌ای^[ظ] (کوته‌نوشت: InstanceNorm) یا نرمال‌سازی کنتراست، روشی است که نخستین بار برای انتقال سبک با شبکه‌های عصبی توسعه داده شد و آن نیز فقط برای سی‌ان‌ان‌ها استفاده می‌شود.^[۲۸] این روش را می‌توان به صورت نرمال‌سازی لایه‌ای برای سی‌ان‌ان‌ها در نظر گرفت که به‌ازای هر کانال یک‌بار اعمال می‌شود، یا به‌طور معادل، به عنوان نرمال‌سازی گروهی که در آن هر گروه تنها شامل یک کانال است: ${\begin{aligned}\mu _{c}^{(l)}&={\frac {1}{HW}}\sum _{h=1}^{H}\sum _{w=1}^{W}x_{h,w,c}^{(l)}\\(\sigma _{c}^{(l)})^{2}&={\frac {1}{HW}}\sum _{h=1}^{H}\sum _{w=1}^{W}(x_{h,w,c}^{(l)}-\mu _{c}^{(l)})^{2}\\{\hat {x}}_{h,w,c}^{(l)}&={\frac {{\hat {x}}_{h,w,c}^{(l)}-\mu _{c}^{(l)}}{\sqrt {(\sigma _{c}^{(l)})^{2}+\epsilon }}}\\y_{h,w,c}^{(l)}&=\gamma _{c}^{(l)}{\hat {x}}_{h,w,c}^{(l)}+\beta _{c}^{(l)}\end{aligned}}$

نرمال‌سازی نمونه‌ای تطبیقی

نرمال‌سازی نمونه‌ای تطبیقی^[ع] (کوته‌نوشت: AdaIN) گونه‌ای از نرمال‌سازی نمونه‌ای است که به‌طور ویژه برای انتقال سبک عصبی با استفاده از سی‌ان‌ان‌ها طراحی شده است، و نه صرفاً برای سی‌ان‌ان‌ها به‌طور کلی.^[۲۹]

در روش انتقال سبک AdaIN، یک سی‌ان‌ان و دو تصویر ورودی در نظر گرفته می‌شود: یکی برای محتوا و دیگری برای سبک. هر دو تصویر از طریق همان سی‌ان‌ان پردازش می‌شوند و در یک لایه مشخص $l$ ، نرمال‌سازی نمونه‌ای تطبیقی اعمال می‌شود.

فرض کنید $x^{(l),{\text{ content}}}$ فعال‌سازی مربوط به تصویر محتوا و $x^{(l),{\text{ style}}}$ فعال‌سازی مربوط به تصویر سبک باشد. در این حالت، AdaIN ابتدا میانگین و واریانس فعال‌سازی‌های تصویر سبک $x'^{(l)}$ را محاسبه می‌کند و سپس از آن‌ها به عنوان پارامترهای $\gamma ,\beta$ برای نرمال‌سازی نمونه‌ای روی $x^{(l),{\text{ content}}}$ استفاده می‌کند. توجه داشته باشید که خود $x^{(l),{\text{ style}}}$ بدون تغییر باقی می‌ماند. به‌طور صریح، رابطه زیر برقرار است:

ترنسفورمرها

برخی روش‌های نرمال‌سازی به‌طور ویژه برای استفاده در ترنسفورمرها طراحی شده‌اند.

ترنسفورمر اولیه سال ۲۰۱۷ از پیکربندی «post-LN» برای نرمال‌سازی لایه‌ای (لِیرنُرم) استفاده می‌کرد. آموزش این پیکربندی دشوار بود و به بهینه‌سازی ابرپارامتر دقیق و نیز یک مرحله «گرم‌کردن» در نرخ یادگیری نیاز داشت؛ به این صورت که نرخ یادگیری از مقدار کوچکی آغاز می‌شد و به تدریج افزایش می‌یافت. قرارداد «pre-LN» که چندین بار در سال ۲۰۱۸ پیشنهاد شد،برای آموزش آسان‌تر تشخیص داده شد،^[۳۰] به گرم‌کردن نیاز نداشت و به همگرایی سریع‌تری منجر می‌شد.^[۳۱]

فیکس‌نُرم^[غ]^[۳۲] و اسکِیل‌نُرم^[ف]^[۳۳] هر دو بردارهای فعال‌سازی را در یک ترنسفورمر نرمال‌سازی می‌کنند. روش فیکس‌نرم بردارهای خروجی ترنسفورمر را بر نُرم L2 آن‌ها تقسیم می‌کند و سپس در یک پارامتر یادگرفتنی $g$ ضرب می‌نماید. روش اسکیل‌نرم تمام لِیرنُرم‌های درون ترنسفورمر را با تقسیم بر نُرم L2 جایگزین می‌کند و سپس نتیجه را در یک پارامتر یادگرفتنی $g'$ ضرب می‌کند (که بین تمام ماژول‌های اسکیل‌نرم یک ترنسفورمر مشترک است). نرمال‌سازی پرس‌وجو–کلید^[ق] (کوته‌نوشت: QKNorm)^[۳۴] بردارهای پرس‌وجو^[ک] و کلید^[گ] را طوری نرمال‌سازی می‌کند که نُرم L2 واحد داشته باشند.

در nGPT، بسیاری از بردارها به‌گونه‌ای نرمال‌سازی می‌شوند که نُرم L2 واحد داشته باشند:^[۳۵] از جمله بردارهای حالت پنهان، بردارهای تعبیه ورودی و خروجی، ستون‌های ماتریس وزن، و بردارهای پرس‌وجو و کلید.

متفرقه

نرمال‌سازی گرادیان^[ل]^[۳۶] (کوته‌نوشت: GradNorm) بردارهای گرادیان را در طول پس‌انتشار نرمال‌سازی می‌کند.

جستارهای وابسته

یادداشت‌ها

↑ Normalization
↑ Batch normalization
↑ mini-batch
↑ Spatial BatchNorm
↑ BatchNorm2D
↑ per-channel BatchNorm
↑ ghost batching
↑ weight decay
↑ Layer Normalization
↑ Adaptive layer norm (adaLN)
↑ Adaptive layer norm (adaLN)
↑ Adaptive layer norm (adaLN)
↑ spectral normalization
↑ discriminator
↑ memoization
↑ memoization
↑ memoization
↑ global response normalization
↑ Group normalization (GroupNorm)
↑ Instance normalization (InstanceNorm)
↑ Adaptive instance normalization (AdaIN)
↑ FixNorm
↑ ScaleNorm
↑ Query-Key normalization (QKNorm)
↑ query
↑ key
↑ Gradient normalization (GradNorm)

مراجع

↑ Huang, Lei (2022). Normalization Techniques in Deep Learning. Synthesis Lectures on Computer Vision (به انگلیسی). Cham: Springer International Publishing. doi:10.1007/978-3-031-14595-7. ISBN 978-3-031-14594-0.
1 2 3 4 5 Ioffe, Sergey; Szegedy, Christian (2015-06-01). "Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift". Proceedings of the 32nd International Conference on Machine Learning (به انگلیسی). PMLR: 448–456. arXiv:1502.03167.
1 2 Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron (2016). "8.7.1. Batch Normalization". Deep learning. Adaptive computation and machine learning. Cambridge, Massachusetts: The MIT Press. ISBN 978-0-262-03561-3.
↑ Desjardins, Guillaume; Simonyan, Karen; Pascanu, Razvan; kavukcuoglu, koray (2015). "Natural Neural Networks". Advances in Neural Information Processing Systems. Curran Associates, Inc. 28.
↑ Xu, Jingjing; Sun, Xu; Zhang, Zhiyuan; Zhao, Guangxiang; Lin, Junyang (2019). "Understanding and Improving Layer Normalization". Advances in Neural Information Processing Systems. Curran Associates, Inc. 32. arXiv:1911.07013.
↑ Xu, Jingjing; Sun, Xu; Zhang, Zhiyuan; Zhao, Guangxiang; Lin, Junyang (2019). "Understanding and Improving Layer Normalization". Advances in Neural Information Processing Systems. Curran Associates, Inc. 32. arXiv:1911.07013.
↑ Awais, Muhammad; Bin Iqbal, Md. Tauhid; Bae, Sung-Ho (November 2021). "Revisiting Internal Covariate Shift for Batch Normalization". IEEE Transactions on Neural Networks and Learning Systems. 32 (11): 5082–5092. Bibcode:2021ITNNL..32.5082A. doi:10.1109/TNNLS.2020.3026784. ISSN 2162-237X. PMID 33095717.
↑ Bjorck, Nils; Gomes, Carla P; Selman, Bart; Weinberger, Kilian Q (2018). "Understanding Batch Normalization". Advances in Neural Information Processing Systems. Curran Associates, Inc. 31. arXiv:1806.02375.
↑ Santurkar, Shibani; Tsipras, Dimitris; Ilyas, Andrew; Madry, Aleksander (2018). "How Does Batch Normalization Help Optimization?". Advances in Neural Information Processing Systems. Curran Associates, Inc. 31.
↑ Xu, Jingjing; Sun, Xu; Zhang, Zhiyuan; Zhao, Guangxiang; Lin, Junyang (2019). "Understanding and Improving Layer Normalization". Advances in Neural Information Processing Systems. Curran Associates, Inc. 32. arXiv:1911.07013.
↑ Zhang, Aston; Lipton, Zachary; Li, Mu; Smola, Alexander J. (2024). "8.5. Batch Normalization". Dive into deep learning. Cambridge New York Port Melbourne New Delhi Singapore: Cambridge University Press. ISBN 978-1-009-38943-3.
1 2 Laurent, Cesar; Pereyra, Gabriel; Brakel, Philemon; Zhang, Ying; Bengio, Yoshua (March 2016). "Batch normalized recurrent neural networks". 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE. pp. 2657–2661. arXiv:1510.01378. doi:10.1109/ICASSP.2016.7472159. ISBN 978-1-4799-9988-0.
↑ Cooijmans, Tim; Ballas, Nicolas; Laurent, César; Gülçehre, Çağlar; Courville, Aaron (2016). "Recurrent Batch Normalization". arXiv:1603.09025 [cs.LG].
1 2 Summers, Cecilia; Dinneen, Michael J. (2019). "Four Things Everyone Should Know to Improve Batch Normalization". arXiv:1906.03548 [cs.LG].
↑ Brock, Andrew; De, Soham; Smith, Samuel L.; Simonyan, Karen (2021). "High-Performance Large-Scale Image Recognition Without Normalization". arXiv:2102.06171 [cs.CV].
1 2 Ba, Jimmy Lei; Kiros, Jamie Ryan; Hinton, Geoffrey E. (2016). "Layer Normalization". arXiv:1607.06450 [stat.ML].
↑ Brock, Andrew; De, Soham; Smith, Samuel L.; Simonyan, Karen (2021). "High-Performance Large-Scale Image Recognition Without Normalization". arXiv:2102.06171 [cs.CV].
↑ Brock, Andrew; De, Soham; Smith, Samuel L.; Simonyan, Karen (2021). "High-Performance Large-Scale Image Recognition Without Normalization". arXiv:2102.06171 [cs.CV].
↑ Perez, Ethan; Strub, Florian; De Vries, Harm; Dumoulin, Vincent; Courville, Aaron (2018-04-29). "FiLM: Visual Reasoning with a General Conditioning Layer". Proceedings of the AAAI Conference on Artificial Intelligence. 32 (1). arXiv:1709.07871. doi:10.1609/aaai.v32i1.11671. ISSN 2374-3468.
↑ Peebles, William; Xie, Saining (2023). "Scalable Diffusion Models with Transformers" (به انگلیسی): 4195–4205. arXiv:2212.09748. {{cite journal}}: Cite journal requires |journal= (help)
↑ Salimans, Tim; Kingma, Diederik P. (2016-06-03). "Weight Normalization: A Simple Reparameterization to Accelerate Training of Deep Neural Networks". arXiv:1602.07868 [cs.LG].
↑ Miyato, Takeru; Kataoka, Toshiki; Koyama, Masanori; Yoshida, Yuichi (2018-02-16). "Spectral Normalization for Generative Adversarial Networks". arXiv:1802.05957 [cs.LG].
↑ Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E (2012). "ImageNet Classification with Deep Convolutional Neural Networks". Advances in Neural Information Processing Systems. Curran Associates, Inc. 25.
↑ Lyu, Siwei; Simoncelli, Eero P. (2008). "Nonlinear image representation using divisive normalization". 2008 IEEE Conference on Computer Vision and Pattern Recognition. Vol. 2008. pp. 1–8. doi:10.1109/CVPR.2008.4587821. ISBN 978-1-4244-2242-5. ISSN 1063-6919. PMC 4207373. PMID 25346590.
↑ Ortiz, Anthony; Robinson, Caleb; Morris, Dan; Fuentes, Olac; Kiekintveld, Christopher; Hassan, Md Mahmudulla; Jojic, Nebojsa (2020). "Local Context Normalization: Revisiting Local Normalization": 11276–11285. arXiv:1912.05845. {{cite journal}}: Cite journal requires |journal= (help)
↑ Woo, Sanghyun; Debnath, Shoubhik; Hu, Ronghang; Chen, Xinlei; Liu, Zhuang; Kweon, In So; Xie, Saining (2023). "ConvNeXt V2: Co-Designing and Scaling ConvNets With Masked Autoencoders" (به انگلیسی): 16133–16142. arXiv:2301.00808. {{cite journal}}: Cite journal requires |journal= (help)
↑ Wu, Yuxin; He, Kaiming (2018). "Group Normalization": 3–19. {{cite journal}}: Cite journal requires |journal= (help)
↑ Ulyanov, Dmitry; Vedaldi, Andrea; Lempitsky, Victor (2017-11-06). "Instance Normalization: The Missing Ingredient for Fast Stylization". arXiv:1607.08022 [cs.CV].
↑ Huang, Xun; Belongie, Serge (2017). "Arbitrary Style Transfer in Real-Time With Adaptive Instance Normalization": 1501–1510. arXiv:1703.06868. {{cite journal}}: Cite journal requires |journal= (help)
↑ Wang, Qiang; Li, Bei; Xiao, Tong; Zhu, Jingbo; Li, Changliang; Wong, Derek F.; Chao, Lidia S. (2019). "Learning Deep Transformer Models for Machine Translation". arXiv:1906.01787 [cs.CL].
↑ Xiong, Ruibin; Yang, Yunchang; He, Di; Zheng, Kai; Zheng, Shuxin; Xing, Chen; Zhang, Huishuai; Lan, Yanyan; Wang, Liwei; Liu, Tie-Yan (2020-06-29). "On Layer Normalization in the Transformer Architecture". arXiv:2002.04745 [cs.LG].
↑ Nguyen, Toan Q.; Chiang, David (2017). "Improving Lexical Choice in Neural Machine Translation". arXiv:1710.01329 [cs.CL].
↑ Nguyen, Toan Q.; Salazar, Julian (2019-11-02). "Transformers without Tears: Improving the Normalization of Self-Attention". arXiv:1910.05895. doi:10.5281/zenodo.3525484. {{cite journal}}: Cite journal requires |journal= (help)
↑ Henry, Alex; Dachapally, Prudhvi Raj; Pawar, Shubham Shantaram; Chen, Yuxuan (November 2020). Cohn, Trevor; He, Yulan; Liu, Yang (eds.). "Query-Key Normalization for Transformers". Findings of the Association for Computational Linguistics: EMNLP 2020. Online: Association for Computational Linguistics: 4246–4253. arXiv:2010.04245. doi:10.18653/v1/2020.findings-emnlp.379.
↑ Loshchilov, Ilya; Hsieh, Cheng-Ping; Sun, Simeng; Ginsburg, Boris (2024). "NGPT: Normalized Transformer with Representation Learning on the Hypersphere". arXiv:2410.01131 [cs.LG].
↑ Chen, Zhao; Badrinarayanan, Vijay; Lee, Chen-Yu; Rabinovich, Andrew (2018-07-03). "GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks". Proceedings of the 35th International Conference on Machine Learning (به انگلیسی). PMLR: 794–803. arXiv:1711.02257.

[1] Normalization

[3] Batch normalization

[5] -batch

[13] Spatial BatchNorm

[14] BatchNorm2D

[15] r-channel BatchNorm

[21] st batching

[22] weight decay

[24] Layer Normalization

[27] Adaptive layer norm (adaLN)

[29] Adaptive layer norm (adaLN)

[32] Adaptive layer norm (adaLN)

[34] spectral normalization

[36] scriminator

[37] zation

[38] zation

[40] zation

[43] response normalization

[45] Group normalization (GroupNorm)

[47] Instance normalization (InstanceNorm)

[49] Adaptive instance normalization (AdaIN)

[53] FixNorm

[55] ScaleNorm

[57] Query-Key normalization (QKNorm)

[59] query

[60] y

[62] Gradient normalization (GradNorm)

[2] Huang, Lei (2022). Normalization Techniques in Deep Learning. Synthesis Lectures on Computer Vision (به انگلیسی). Cham: Springer International Publishing. doi:10.1007/978-3-031-14595-7. ISBN 978-3-031-14594-0.

[:0-4] 1 2 3 4 5 Ioffe, Sergey; Szegedy, Christian (2015-06-01). "Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift". Proceedings of the 32nd International Conference on Machine Learning (به انگلیسی). PMLR: 448–456. arXiv:1502.03167.

[:1-6] 1 2 Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron (2016). "8.7.1. Batch Normalization". Deep learning. Adaptive computation and machine learning. Cambridge, Massachusetts: The MIT Press. ISBN 978-0-262-03561-3.

[7] Desjardins, Guillaume; Simonyan, Karen; Pascanu, Razvan; kavukcuoglu, koray (2015). "Natural Neural Networks". Advances in Neural Information Processing Systems. Curran Associates, Inc. 28.

[8] Xu, Jingjing; Sun, Xu; Zhang, Zhiyuan; Zhao, Guangxiang; Lin, Junyang (2019). "Understanding and Improving Layer Normalization". Advances in Neural Information Processing Systems. Curran Associates, Inc. 32. arXiv:1911.07013.

[9] Xu, Jingjing; Sun, Xu; Zhang, Zhiyuan; Zhao, Guangxiang; Lin, Junyang (2019). "Understanding and Improving Layer Normalization". Advances in Neural Information Processing Systems. Curran Associates, Inc. 32. arXiv:1911.07013.

[10] Awais, Muhammad; Bin Iqbal, Md. Tauhid; Bae, Sung-Ho (November 2021). "Revisiting Internal Covariate Shift for Batch Normalization". IEEE Transactions on Neural Networks and Learning Systems. 32 (11): 5082–5092. Bibcode:2021ITNNL..32.5082A. doi:10.1109/TNNLS.2020.3026784. ISSN 2162-237X. PMID 33095717.

[11] Bjorck, Nils; Gomes, Carla P; Selman, Bart; Weinberger, Kilian Q (2018). "Understanding Batch Normalization". Advances in Neural Information Processing Systems. Curran Associates, Inc. 31. arXiv:1806.02375.

[12] Santurkar, Shibani; Tsipras, Dimitris; Ilyas, Andrew; Madry, Aleksander (2018). "How Does Batch Normalization Help Optimization?". Advances in Neural Information Processing Systems. Curran Associates, Inc. 31.

[16] Xu, Jingjing; Sun, Xu; Zhang, Zhiyuan; Zhao, Guangxiang; Lin, Junyang (2019). "Understanding and Improving Layer Normalization". Advances in Neural Information Processing Systems. Curran Associates, Inc. 32. arXiv:1911.07013.

[17] Zhang, Aston; Lipton, Zachary; Li, Mu; Smola, Alexander J. (2024). "8.5. Batch Normalization". Dive into deep learning. Cambridge New York Port Melbourne New Delhi Singapore: Cambridge University Press. ISBN 978-1-009-38943-3.

[:4-18] 1 2 Laurent, Cesar; Pereyra, Gabriel; Brakel, Philemon; Zhang, Ying; Bengio, Yoshua (March 2016). "Batch normalized recurrent neural networks". 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE. pp. 2657–2661. arXiv:1510.01378. doi:10.1109/ICASSP.2016.7472159. ISBN 978-1-4799-9988-0.

[19] Cooijmans, Tim; Ballas, Nicolas; Laurent, César; Gülçehre, Çağlar; Courville, Aaron (2016). "Recurrent Batch Normalization". arXiv:1603.09025 [cs.LG].

[:3-20] 1 2 Summers, Cecilia; Dinneen, Michael J. (2019). "Four Things Everyone Should Know to Improve Batch Normalization". arXiv:1906.03548 [cs.LG].

[23] Brock, Andrew; De, Soham; Smith, Samuel L.; Simonyan, Karen (2021). "High-Performance Large-Scale Image Recognition Without Normalization". arXiv:2102.06171 [cs.CV].

[:2-25] 1 2 Ba, Jimmy Lei; Kiros, Jamie Ryan; Hinton, Geoffrey E. (2016). "Layer Normalization". arXiv:1607.06450 [stat.ML].

[26] Brock, Andrew; De, Soham; Smith, Samuel L.; Simonyan, Karen (2021). "High-Performance Large-Scale Image Recognition Without Normalization". arXiv:2102.06171 [cs.CV].

[28] Brock, Andrew; De, Soham; Smith, Samuel L.; Simonyan, Karen (2021). "High-Performance Large-Scale Image Recognition Without Normalization". arXiv:2102.06171 [cs.CV].

[30] Perez, Ethan; Strub, Florian; De Vries, Harm; Dumoulin, Vincent; Courville, Aaron (2018-04-29). "FiLM: Visual Reasoning with a General Conditioning Layer". Proceedings of the AAAI Conference on Artificial Intelligence. 32 (1). arXiv:1709.07871. doi:10.1609/aaai.v32i1.11671. ISSN 2374-3468.

[31] Peebles, William; Xie, Saining (2023). "Scalable Diffusion Models with Transformers" (به انگلیسی): 4195–4205. arXiv:2212.09748. {{cite journal}}: Cite journal requires |journal= (help)

[33] Salimans, Tim; Kingma, Diederik P. (2016-06-03). "Weight Normalization: A Simple Reparameterization to Accelerate Training of Deep Neural Networks". arXiv:1602.07868 [cs.LG].

[35] Miyato, Takeru; Kataoka, Toshiki; Koyama, Masanori; Yoshida, Yuichi (2018-02-16). "Spectral Normalization for Generative Adversarial Networks". arXiv:1802.05957 [cs.LG].

[39] Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E (2012). "ImageNet Classification with Deep Convolutional Neural Networks". Advances in Neural Information Processing Systems. Curran Associates, Inc. 25.

[41] Lyu, Siwei; Simoncelli, Eero P. (2008). "Nonlinear image representation using divisive normalization". 2008 IEEE Conference on Computer Vision and Pattern Recognition. Vol. 2008. pp. 1–8. doi:10.1109/CVPR.2008.4587821. ISBN 978-1-4244-2242-5. ISSN 1063-6919. PMC 4207373. PMID 25346590.

[42] Ortiz, Anthony; Robinson, Caleb; Morris, Dan; Fuentes, Olac; Kiekintveld, Christopher; Hassan, Md Mahmudulla; Jojic, Nebojsa (2020). "Local Context Normalization: Revisiting Local Normalization": 11276–11285. arXiv:1912.05845. {{cite journal}}: Cite journal requires |journal= (help)

[44] Woo, Sanghyun; Debnath, Shoubhik; Hu, Ronghang; Chen, Xinlei; Liu, Zhuang; Kweon, In So; Xie, Saining (2023). "ConvNeXt V2: Co-Designing and Scaling ConvNets With Masked Autoencoders" (به انگلیسی): 16133–16142. arXiv:2301.00808. {{cite journal}}: Cite journal requires |journal= (help)

[46] Wu, Yuxin; He, Kaiming (2018). "Group Normalization": 3–19. {{cite journal}}: Cite journal requires |journal= (help)

[48] Ulyanov, Dmitry; Vedaldi, Andrea; Lempitsky, Victor (2017-11-06). "Instance Normalization: The Missing Ingredient for Fast Stylization". arXiv:1607.08022 [cs.CV].

[50] Huang, Xun; Belongie, Serge (2017). "Arbitrary Style Transfer in Real-Time With Adaptive Instance Normalization": 1501–1510. arXiv:1703.06868. {{cite journal}}: Cite journal requires |journal= (help)

[51] Wang, Qiang; Li, Bei; Xiao, Tong; Zhu, Jingbo; Li, Changliang; Wong, Derek F.; Chao, Lidia S. (2019). "Learning Deep Transformer Models for Machine Translation". arXiv:1906.01787 [cs.CL].

[auto1-52] Xiong, Ruibin; Yang, Yunchang; He, Di; Zheng, Kai; Zheng, Shuxin; Xing, Chen; Zhang, Huishuai; Lan, Yanyan; Wang, Liwei; Liu, Tie-Yan (2020-06-29). "On Layer Normalization in the Transformer Architecture". arXiv:2002.04745 [cs.LG].

[54] Nguyen, Toan Q.; Chiang, David (2017). "Improving Lexical Choice in Neural Machine Translation". arXiv:1710.01329 [cs.CL].

[56] Nguyen, Toan Q.; Salazar, Julian (2019-11-02). "Transformers without Tears: Improving the Normalization of Self-Attention". arXiv:1910.05895. doi:10.5281/zenodo.3525484. {{cite journal}}: Cite journal requires |journal= (help)

[58] Henry, Alex; Dachapally, Prudhvi Raj; Pawar, Shubham Shantaram; Chen, Yuxuan (November 2020). Cohn, Trevor; He, Yulan; Liu, Yang (eds.). "Query-Key Normalization for Transformers". Findings of the Association for Computational Linguistics: EMNLP 2020. Online: Association for Computational Linguistics: 4246–4253. arXiv:2010.04245. doi:10.18653/v1/2020.findings-emnlp.379.

[61] Loshchilov, Ilya; Hsieh, Cheng-Ping; Sun, Simeng; Ginsburg, Boris (2024). "NGPT: Normalized Transformer with Representation Learning on the Hypersphere". arXiv:2410.01131 [cs.LG].

[63] Chen, Zhao; Badrinarayanan, Vijay; Lee, Chen-Yu; Rabinovich, Andrew (2018-07-03). "GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks". Proceedings of the 35th International Conference on Machine Learning (به انگلیسی). PMLR: 794–803. arXiv:1711.02257.

[الف]

[۱]

[ب]

[۲]

[پ]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

[ت]

[ث]

[ج]

[۱۰]

[۱۱]

[۱۲]

[۱۳]

[۱۴]

[چ]

[ح]

[۱۵]

[خ]

[۱۶]

[۱۷]

[د]

[۱۸]

[ذ]

[۱۹]

[۲۰]

[ر]

[۲۱]

[ز]

[۲۲]

[ژ]

[س]

[ش]

[۲۳]

[ص]

[۲۴]

[۲۵]

[ض]

[۲۶]

[ط]

[۲۷]

[ظ]

[۲۸]

[ع]

[۲۹]

[۳۰]

[۳۱]

[غ]

[۳۲]

[ف]

[۳۳]

[ق]

[۳۴]

[ک]

[گ]

[۳۵]

[ل]

[۳۶]