بوک‌کورپوس

بوک‌کورپوس (گاهی با نام تورنتو بوک‌کورپوس نیز شناخته می‌شود) یک مجموعه داده متشکل از متن حدود ۷٬۰۰۰ کتاب است که از وب‌سایت انتشار کتاب‌های الکترونیکی مستقل اسمش‌وردز تراشیده شده‌اند.[۱] این مجموعه، پیکره متنی[الف] اصلی برای آموزش اولیه مدل جی‌پی‌تی توسط اوپن‌ای‌آی بود[۲] و همچنین به‌عنوان داده‌های آموزشی در دیگر مدل زبانی بزرگ اولیه از جمله برت گوگل به کار رفته است.[۳] این مجموعه حدود ۹۸۵ میلیون واژه را در بر می‌گیرد و کتاب‌های تشکیل دهنده آن گستره متنوعی از ژانرها مانند عاشقانه، علمی-تخیلی و فانتزی را شامل می‌شوند.[۳]

این پیکره در یک مقاله سال ۲۰۱۵ توسط پژوهشگرانی از دانشگاه تورنتو و MIT با عنوان «هم‌تزاری کتب‌ها و فیلم‌ها: به سوی توصیفات شبه‌داستانی با استفاده از دیدن فیلم و خواندن کتاب»[ب] معرفی شد. نویسندگان این اثر آن را متشکل از «کتاب‌های رایگانی که توسط نویسندگانی چاپ‌نشده نوشته شده‌اند» توصیف کردند، اما این توصیف از نظر واقعیت نادرست است. این کتاب‌ها در واقع توسط نویسندگان خودمنتشر[پ] منتشر شده بودند که کتاب‌هایشان را به رایگان ارائه کرده بودند. کتاب‌ها بدون رضایت یا اجازه اسمش‌وردز یا نویسندگان اسمش‌وردز دانلود شده بودند و ناقض شرایط خدمات[ت] اسمش‌وردز بودند.[۴] این مجموعه داده در ابتدا بر روی یک صفحه وب در وب‌سایت دانشگاه تورنتو میزبانی می‌شد.[۴] نسخه رسمیِ این مجموعه دیگر به‌صورت عمومی در دسترس نیست، اگرچه دست‌کم یک جایگزین با نام «BookCorpusOpen» ایجاد شده‌است.[۱] اگرچه در مقاله اصلی سال ۲۰۱۵ صراحتاً ذکر نشده بود، ولی اکنون مشخص است که سایتی که کتاب‌های این مجموعه از آن اسکرپ شده بود، اسمش‌وردز است.[۱][۴]

یادداشت‌ها

  1. corpus
  2. Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books
  3. indie
  4. Terms of Service

منابع

  1. 1 2 3 Bandy, Jack; Vincent, Nicholas (2021). "Addressing "Documentation Debt" in Machine Learning Research: A Retrospective Datasheet for BookCorpus". NeurIPS.
  2. "Improving Language Understanding by Generative Pre-Training" (PDF). Archived (PDF) from the original on January 26, 2021. Retrieved June 9, 2020.
  3. 1 2 Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 October 2018). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805v2 [cs.CL].
  4. 1 2 3 Lea, Richard (28 September 2016). "Google swallows 11,000 novels to improve AI's conversation". The Guardian.