آمار محاسباتی
آمار محاسباتی یا محاسبات آماری شاخهای از مطالعه در تقاطع آمار و علوم رایانه است که به روشهای آماریای میپردازد که به کمک روشهای محاسباتی قابل اجرا شدهاند. این حوزه بخشی از علم محاسباتی (یا محاسبات علمی) است که به علم ریاضی آمار اختصاص دارد. این حوزه بهسرعت در حال توسعه است. دیدگاهی که بر آموزش گستردهتر مفاهیم رایانشی بهعنوان بخشی از آموزش آماری عمومی تأکید دارد، در حال گسترش است.[۱]
درست مانند آمار سنتی که هدف آن تبدیل دادههای خام به دانش است، در آمار محاسباتی نیز همین هدف دنبال میشود؛ اما تمرکز بر روشهای آماریای است که وابسته به توان پردازشی رایانه هستند، مانند مواردی با اندازه نمونه بسیار بزرگ یا مجموعهدادههای ناهمگن.[۱]
اصطلاحات آمار محاسباتی و محاسبات آماری اغلب بهصورت مترادف بهکار میروند؛ هرچند کارلو لائورو (رئیس پیشین انجمن بینالمللی آمار محاسباتی) پیشنهاد کرده است که میان آنها تفاوت قائل شویم: محاسبات آماری بهعنوان «کاربرد علوم رایانه در آمار» و آمار محاسباتی بهعنوان «طراحی الگوریتمهایی برای پیادهسازی روشهای آماری روی رایانهها — شامل روشهایی که پیش از عصر رایانه تصورناپذیر بودند (مانند بوتاسترپ و شبیهسازی)، یا روشهایی برای حل مسائل تحلیلی غیرقابل حل» تعریف میشود.[۲]
اصطلاح «آمار محاسباتی» همچنین ممکن است برای اشاره به روشهای آماری محاسبهمحور مانند روشهای بازنمونهگیری، زنجیره مارکوف مونت کارلو، رگرسیون محلی، برآورد چگالی هستهای، شبکه عصبی مصنوعی و مدلهای افزایشی تعمیمیافته بهکار رود.
تاریخچه
اگرچه آمار محاسباتی امروزه کاربرد گستردهای دارد، اما در واقع تاریخ نسبتاً کوتاهی از پذیرش در جامعه آماری دارد. در بیشتر موارد، بنیانگذاران این حوزه بر ریاضیات و تقریبهای حدی در توسعهٔ روشهای آماری محاسباتی تکیه داشتند.[۳]
در سال ۱۹۰۸، ویلیام سیلی گاستت شبیهسازیای به روش مونتکارلو انجام داد که به کشف توزیع تی-استیودنت منجر شد.[۴] با کمک روشهای محاسباتی، او نمودارهای توزیع تجربی را نیز بر توزیعهای نظری مربوطه ترسیم کرد. رایانهها شبیهسازی را متحول کردهاند و بازتولید آزمایش گاستت اکنون تقریباً یک تمرین ساده محسوب میشود.[۵][۶]
سپس دانشمندان روشهایی برای تولید اعداد شبهتصادفی پیشنهاد کردند و از تکنیکهایی مانند تابع توزیع معکوس یا روش پذیرش-رد برای تبدیل توزیع یکنواخت به سایر توزیعها بهره گرفتند. آنها همچنین روشهای فضای حالت را برای زنجیره مارکوف مونتکارلو توسعه دادند.[۷]
یکی از نخستین تلاشها برای تولید خودکار اعداد تصادفی توسط شرکت RAND در سال ۱۹۴۷ صورت گرفت. این جدولها در سال ۱۹۵۵ بهصورت کتاب و همچنین بهصورت کارت پانچ منتشر شدند.[۸]
تا اواسط دههٔ ۱۹۵۰، مقالات و اختراعات متعددی برای تولیدکنندههای اعداد تصادفی ارائه شد که هدف آنها استفاده از اعداد تصادفی در شبیهسازی و تحلیلهای آماری بود. یکی از شناختهشدهترین این ابزارها، ERNIE است که برای انتخاب برندگان اوراق قرضه ممتاز در بریتانیا استفاده میشود. در سال ۱۹۵۸، جان تاکی روش جکنایف را معرفی کرد که برای کاهش تورش در برآورد پارامترها در شرایط غیرمعمول به کار میرود.[۹]
رایانهها اجرای عملی بسیاری از این مطالعات آماری پرزحمت را ممکن کردهاند.[۱۰][۱۱]
روشها
برآورد درستنمایی بیشینه
برآورد درستنمایی بیشینه (Maximum likelihood estimation) برای تخمین پارامترهای یک توزیع احتمال فرضشده، با استفاده از دادههای مشاهدهشده بهکار میرود. این کار با بیشینهسازی یک تابع درستنمایی انجام میشود تا دادههای مشاهدهشده تحت مدل آماری مفروض، بیشترین احتمال را داشته باشند.
روش مونتکارلو
روش مونتکارلو (Monte Carlo method) یک روش آماری است که بر نمونهگیری تصادفی مکرر برای دستیابی به نتایج عددی تکیه دارد. ایده این روش استفاده از تصادفیبودن برای حل مسائلی است که در اصل ممکن است قطعی باشند. این روشها معمولاً در مسائل فیزیکی و ریاضی بهکار میروند، بهویژه زمانی که استفاده از روشهای تحلیلی دیگر دشوار است. روشهای مونتکارلو عمدتاً در سه دسته از مسائل استفاده میشوند: بهینهسازی، انتگرالگیری عددی، و نمونهگیری از توزیعهای احتمال.
زنجیره مارکوف مونتکارلو
روش زنجیره مارکوف مونت کارلو (Markov chain Monte Carlo) یا MCMC برای تولید نمونههایی از یک متغیر تصادفی پیوسته استفاده میشود، بهگونهای که چگالی احتمال آن با یک تابع مشخص متناسب است. این نمونهها میتوانند برای برآورد انتگرالهایی از آن متغیر، مانند مقدار میانگین یا واریانس، بهکار روند. هرچه تعداد گامها بیشتر باشد، توزیع نمونههای بهدستآمده بیشتر به توزیع واقعی مطلوب نزدیک خواهد شد.
بوتاسترپ
بوتاسترپ (Bootstrapping) یک تکنیک بازنمونهگیری است که برای تولید نمونهها از یک توزیع احتمال تجربی تعریفشده توسط نمونهٔ اصلی جمعیت بهکار میرود. این روش میتواند برای یافتن یک برآورد بوتاسترپی از یک پارامتر جمعیتی، تخمین خطای معیار یک برآوردگر، و همچنین ساخت فاصله اطمینان بوتاسترپ استفاده شود. جکنایف (Jackknife) یک روش مشابه و مرتبط است.[۱۲]
کاربردها
- زیستشناسی محاسباتی (Computational biology)
- زبانشناسی رایانشی (Computational linguistics)
- ریاضیات محاسباتی (Computational mathematics)
- علم مواد محاسباتی (Computational materials science)
- فیزیک محاسباتی (Computational physics)
- روانسنجی محاسباتی (Computational psychometrics)
- علوم اجتماعی محاسباتی (Computational social science)
- جامعهشناسی محاسباتی (Computational sociology)
- روزنامهنگاری دادهمحور (Data journalism)
- اقتصادسنجی (Econometrics)
- یادگیری ماشین (Machine Learning)
جستارهای وابسته
- الگوریتمهای طبقهبندی آماری (Algorithms for statistical classification)
- علم داده (Data science)
- روشهای آماری در هوش مصنوعی (Statistical methods in artificial intelligence)
- نرمافزارهای آماری رایگان (Free statistical software)
- فهرست الگوریتمهای آماری (List of statistical algorithms)
- فهرست بستههای آماری (List of statistical packages)
- یادگیری ماشین (Machine learning)
منابع
- 1 2 Gentle, James E. (2002). Elements of Computational Statistics. Springer. ISBN 978-0-387-95439-9.
{{cite book}}: Check|isbn=value: checksum (help) - ↑ Lauro, Carlo (2003). Greenacre, Michael; Blasius, Jörg (eds.). Data Analysis and Classification. Springer. pp. 281–289.
- ↑ Watnik, Mitchell (2011). "Early Computational Statistics". Journal of Computational and Graphical Statistics. 20 (4): 811–817. doi:10.1198/jcgs.2011.204b.
- ↑ "Student" [William Sealy Gosset] (1908). "The probable error of a mean" (PDF). Biometrika. 6 (1): 1–25. doi:10.1093/biomet/6.1.1.
- ↑ Trahan, Travis John (2019). Recent Advances in Monte Carlo Methods at Los Alamos National Laboratory (Report). doi:10.2172/1569710.
- ↑ Metropolis, Nicholas; Ulam, S. (1949). "The Monte Carlo Method". Journal of the American Statistical Association. 44 (247): 335–341. doi:10.1080/01621459.1949.10483310.
- ↑ Robert, Christian; Casella, George (2011). "A Short History of Markov Chain Monte Carlo". Statistical Science. 26 (1). doi:10.1214/10-sts351.
- ↑ L'Ecuyer, Pierre (2017). "History of uniform random number generation". 2017 Winter Simulation Conference (WSC). pp. 202–230. doi:10.1109/WSC.2017.8247790.
- ↑ QUENOUILLE, M. H. (1956). "Notes on Bias in Estimation". Biometrika. 43 (3–4): 353–360. doi:10.1093/biomet/43.3-4.353.
- ↑ Teichroew, Daniel (1965). "A History of Distribution Sampling Prior to the Era of the Computer". Journal of the American Statistical Association. 60 (309): 27–49. doi:10.1080/01621459.1965.10480773.
- ↑ Rizzo, Maria (2007). Statistical Computing with R. CRC Press. ISBN 9781420010718.
- ↑ Rizzo, Maria (2007). Statistical Computing with R. CRC Press. ISBN 9781420010718.