آمار محاسباتی

آمار محاسباتی یا محاسبات آماری شاخه‌ای از مطالعه در تقاطع آمار و علوم رایانه است که به روش‌های آماری‌ای می‌پردازد که به کمک روش‌های محاسباتی قابل اجرا شده‌اند. این حوزه بخشی از علم محاسباتی (یا محاسبات علمی) است که به علم ریاضی آمار اختصاص دارد. این حوزه به‌سرعت در حال توسعه است. دیدگاهی که بر آموزش گسترده‌تر مفاهیم رایانشی به‌عنوان بخشی از آموزش آماری عمومی تأکید دارد، در حال گسترش است.[۱]

درست مانند آمار سنتی که هدف آن تبدیل داده‌های خام به دانش است، در آمار محاسباتی نیز همین هدف دنبال می‌شود؛ اما تمرکز بر روش‌های آماری‌ای است که وابسته به توان پردازشی رایانه هستند، مانند مواردی با اندازه نمونه بسیار بزرگ یا مجموعه‌داده‌های ناهمگن.[۱]

اصطلاحات آمار محاسباتی و محاسبات آماری اغلب به‌صورت مترادف به‌کار می‌روند؛ هرچند کارلو لائورو (رئیس پیشین انجمن بین‌المللی آمار محاسباتی) پیشنهاد کرده است که میان آن‌ها تفاوت قائل شویم: محاسبات آماری به‌عنوان «کاربرد علوم رایانه در آمار» و آمار محاسباتی به‌عنوان «طراحی الگوریتم‌هایی برای پیاده‌سازی روش‌های آماری روی رایانه‌ها — شامل روش‌هایی که پیش از عصر رایانه تصورناپذیر بودند (مانند بوت‌استرپ و شبیه‌سازی)، یا روش‌هایی برای حل مسائل تحلیلی غیرقابل حل» تعریف می‌شود.[۲]

اصطلاح «آمار محاسباتی» همچنین ممکن است برای اشاره به روش‌های آماری محاسبه‌محور مانند روش‌های بازنمونه‌گیری، زنجیره مارکوف مونت کارلو، رگرسیون محلی، برآورد چگالی هسته‌ای، شبکه عصبی مصنوعی و مدل‌های افزایشی تعمیم‌یافته به‌کار رود.

تاریخچه

اگرچه آمار محاسباتی امروزه کاربرد گسترده‌ای دارد، اما در واقع تاریخ نسبتاً کوتاهی از پذیرش در جامعه آماری دارد. در بیشتر موارد، بنیان‌گذاران این حوزه بر ریاضیات و تقریب‌های حدی در توسعهٔ روش‌های آماری محاسباتی تکیه داشتند.[۳]

در سال ۱۹۰۸، ویلیام سیلی گاستت شبیه‌سازی‌ای به روش مونت‌کارلو انجام داد که به کشف توزیع تی-استیودنت منجر شد.[۴] با کمک روش‌های محاسباتی، او نمودارهای توزیع تجربی را نیز بر توزیع‌های نظری مربوطه ترسیم کرد. رایانه‌ها شبیه‌سازی را متحول کرده‌اند و بازتولید آزمایش گاستت اکنون تقریباً یک تمرین ساده محسوب می‌شود.[۵][۶]

سپس دانشمندان روش‌هایی برای تولید اعداد شبه‌تصادفی پیشنهاد کردند و از تکنیک‌هایی مانند تابع توزیع معکوس یا روش پذیرش-رد برای تبدیل توزیع یکنواخت به سایر توزیع‌ها بهره گرفتند. آن‌ها همچنین روش‌های فضای حالت را برای زنجیره مارکوف مونت‌کارلو توسعه دادند.[۷]

یکی از نخستین تلاش‌ها برای تولید خودکار اعداد تصادفی توسط شرکت RAND در سال ۱۹۴۷ صورت گرفت. این جدول‌ها در سال ۱۹۵۵ به‌صورت کتاب و همچنین به‌صورت کارت پانچ منتشر شدند.[۸]

تا اواسط دههٔ ۱۹۵۰، مقالات و اختراعات متعددی برای تولیدکننده‌های اعداد تصادفی ارائه شد که هدف آن‌ها استفاده از اعداد تصادفی در شبیه‌سازی و تحلیل‌های آماری بود. یکی از شناخته‌شده‌ترین این ابزارها، ERNIE است که برای انتخاب برندگان اوراق قرضه ممتاز در بریتانیا استفاده می‌شود. در سال ۱۹۵۸، جان تاکی روش جک‌نایف را معرفی کرد که برای کاهش تورش در برآورد پارامترها در شرایط غیرمعمول به کار می‌رود.[۹]

رایانه‌ها اجرای عملی بسیاری از این مطالعات آماری پرزحمت را ممکن کرده‌اند.[۱۰][۱۱]

روش‌ها

برآورد درست‌نمایی بیشینه

برآورد درست‌نمایی بیشینه (Maximum likelihood estimation) برای تخمین پارامترهای یک توزیع احتمال فرض‌شده، با استفاده از داده‌های مشاهده‌شده به‌کار می‌رود. این کار با بیشینه‌سازی یک تابع درست‌نمایی انجام می‌شود تا داده‌های مشاهده‌شده تحت مدل آماری مفروض، بیشترین احتمال را داشته باشند.

روش مونت‌کارلو

روش مونت‌کارلو (Monte Carlo method) یک روش آماری است که بر نمونه‌گیری تصادفی مکرر برای دستیابی به نتایج عددی تکیه دارد. ایده این روش استفاده از تصادفی‌بودن برای حل مسائلی است که در اصل ممکن است قطعی باشند. این روش‌ها معمولاً در مسائل فیزیکی و ریاضی به‌کار می‌روند، به‌ویژه زمانی که استفاده از روش‌های تحلیلی دیگر دشوار است. روش‌های مونت‌کارلو عمدتاً در سه دسته از مسائل استفاده می‌شوند: بهینه‌سازی، انتگرال‌گیری عددی، و نمونه‌گیری از توزیع‌های احتمال.

زنجیره مارکوف مونت‌کارلو

روش زنجیره مارکوف مونت کارلو (Markov chain Monte Carlo) یا MCMC برای تولید نمونه‌هایی از یک متغیر تصادفی پیوسته استفاده می‌شود، به‌گونه‌ای که چگالی احتمال آن با یک تابع مشخص متناسب است. این نمونه‌ها می‌توانند برای برآورد انتگرال‌هایی از آن متغیر، مانند مقدار میانگین یا واریانس، به‌کار روند. هرچه تعداد گام‌ها بیشتر باشد، توزیع نمونه‌های به‌دست‌آمده بیشتر به توزیع واقعی مطلوب نزدیک خواهد شد.

بوت‌استرپ

بوت‌استرپ (Bootstrapping) یک تکنیک بازنمونه‌گیری است که برای تولید نمونه‌ها از یک توزیع احتمال تجربی تعریف‌شده توسط نمونهٔ اصلی جمعیت به‌کار می‌رود. این روش می‌تواند برای یافتن یک برآورد بوت‌استرپی از یک پارامتر جمعیتی، تخمین خطای معیار یک برآوردگر، و همچنین ساخت فاصله اطمینان بوت‌استرپ استفاده شود. جک‌نایف (Jackknife) یک روش مشابه و مرتبط است.[۱۲]

کاربردها

جستارهای وابسته

  • الگوریتم‌های طبقه‌بندی آماری (Algorithms for statistical classification)
  • علم داده (Data science)
  • روش‌های آماری در هوش مصنوعی (Statistical methods in artificial intelligence)
  • نرم‌افزارهای آماری رایگان (Free statistical software)
  • فهرست الگوریتم‌های آماری (List of statistical algorithms)
  • فهرست بسته‌های آماری (List of statistical packages)
  • یادگیری ماشین (Machine learning)

منابع

  1. 1 2 Gentle, James E. (2002). Elements of Computational Statistics. Springer. ISBN 978-0-387-95439-9. {{cite book}}: Check |isbn= value: checksum (help)
  2. Lauro, Carlo (2003). Greenacre, Michael; Blasius, Jörg (eds.). Data Analysis and Classification. Springer. pp. 281–289.
  3. Watnik, Mitchell (2011). "Early Computational Statistics". Journal of Computational and Graphical Statistics. 20 (4): 811–817. doi:10.1198/jcgs.2011.204b.
  4. "Student" [William Sealy Gosset] (1908). "The probable error of a mean" (PDF). Biometrika. 6 (1): 1–25. doi:10.1093/biomet/6.1.1.
  5. Trahan, Travis John (2019). Recent Advances in Monte Carlo Methods at Los Alamos National Laboratory (Report). doi:10.2172/1569710.
  6. Metropolis, Nicholas; Ulam, S. (1949). "The Monte Carlo Method". Journal of the American Statistical Association. 44 (247): 335–341. doi:10.1080/01621459.1949.10483310.
  7. Robert, Christian; Casella, George (2011). "A Short History of Markov Chain Monte Carlo". Statistical Science. 26 (1). doi:10.1214/10-sts351.
  8. L'Ecuyer, Pierre (2017). "History of uniform random number generation". 2017 Winter Simulation Conference (WSC). pp. 202–230. doi:10.1109/WSC.2017.8247790.
  9. QUENOUILLE, M. H. (1956). "Notes on Bias in Estimation". Biometrika. 43 (3–4): 353–360. doi:10.1093/biomet/43.3-4.353.
  10. Teichroew, Daniel (1965). "A History of Distribution Sampling Prior to the Era of the Computer". Journal of the American Statistical Association. 60 (309): 27–49. doi:10.1080/01621459.1965.10480773.
  11. Rizzo, Maria (2007). Statistical Computing with R. CRC Press. ISBN 9781420010718.
  12. Rizzo, Maria (2007). Statistical Computing with R. CRC Press. ISBN 9781420010718.