بوککورپوس
بوککورپوس (گاهی با نام تورنتو بوککورپوس نیز شناخته میشود) یک مجموعه داده متشکل از متن حدود ۷٬۰۰۰ کتاب است که از وبسایت انتشار کتابهای الکترونیکی مستقل اسمشوردز تراشیده شدهاند.[۱] این مجموعه، پیکره متنی[الف] اصلی برای آموزش اولیه مدل جیپیتی توسط اوپنایآی بود[۲] و همچنین بهعنوان دادههای آموزشی در دیگر مدل زبانی بزرگ اولیه از جمله برت گوگل به کار رفته است.[۳] این مجموعه حدود ۹۸۵ میلیون واژه را در بر میگیرد و کتابهای تشکیل دهنده آن گستره متنوعی از ژانرها مانند عاشقانه، علمی-تخیلی و فانتزی را شامل میشوند.[۳]
این پیکره در یک مقاله سال ۲۰۱۵ توسط پژوهشگرانی از دانشگاه تورنتو و MIT با عنوان «همتزاری کتبها و فیلمها: به سوی توصیفات شبهداستانی با استفاده از دیدن فیلم و خواندن کتاب»[ب] معرفی شد. نویسندگان این اثر آن را متشکل از «کتابهای رایگانی که توسط نویسندگانی چاپنشده نوشته شدهاند» توصیف کردند، اما این توصیف از نظر واقعیت نادرست است. این کتابها در واقع توسط نویسندگان خودمنتشر[پ] منتشر شده بودند که کتابهایشان را به رایگان ارائه کرده بودند. کتابها بدون رضایت یا اجازه اسمشوردز یا نویسندگان اسمشوردز دانلود شده بودند و ناقض شرایط خدمات[ت] اسمشوردز بودند.[۴] این مجموعه داده در ابتدا بر روی یک صفحه وب در وبسایت دانشگاه تورنتو میزبانی میشد.[۴] نسخه رسمیِ این مجموعه دیگر بهصورت عمومی در دسترس نیست، اگرچه دستکم یک جایگزین با نام «BookCorpusOpen» ایجاد شدهاست.[۱] اگرچه در مقاله اصلی سال ۲۰۱۵ صراحتاً ذکر نشده بود، ولی اکنون مشخص است که سایتی که کتابهای این مجموعه از آن اسکرپ شده بود، اسمشوردز است.[۱][۴]
یادداشتها
منابع
- 1 2 3 Bandy, Jack; Vincent, Nicholas (2021). "Addressing "Documentation Debt" in Machine Learning Research: A Retrospective Datasheet for BookCorpus". NeurIPS.
- ↑ "Improving Language Understanding by Generative Pre-Training" (PDF). Archived (PDF) from the original on January 26, 2021. Retrieved June 9, 2020.
- 1 2 Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 October 2018). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805v2 [cs.CL].
- 1 2 3 Lea, Richard (28 September 2016). "Google swallows 11,000 novels to improve AI's conversation". The Guardian.