کامن کرال

کامن کرال (به انگلیسی: Common Crawl) یک سازمان غیرانتفاعی ۵۰۱ (سی)(۳) است که خزیدن وب را انجام می‌دهد و بایگانی‌ها و مجموعه داده‌های خود را به‌صورت آزاد در اختیار عموم قرار می‌دهد.[۱][۲] آرشیو وب این شرکت شامل چندین پتابایت داده است که از سال ۲۰۰۸ جمع‌آوری شده‌اند.[۳] این سازمان تقریباً ماهی یک‌بار فرایند خزیدن وب را تکمیل می‌کند.[۴]

کامن کرال توسط گیل اِلباز بنیان‌گذاری شد.[۵] پیتر نورویگ و جوی ایتو نیز از مشاوران این سازمان غیرانتفاعی هستند.[۶] خزنده‌های این سازمان به قوانین nofollow و robots.txt پایبند هستند. همچنین کد متن‌باز برای پردازش مجموعه داده‌های کامن کرال به‌صورت عمومی در دسترس است.

مجموعه داده‌های کامن کرال شامل آثار دارای حق تکثیر نیز می‌شود و از ایالات متحده تحت ادعای استفاده منصفانه توزیع می‌گردد. پژوهشگران در سایر کشورها گاهی با روش‌هایی نظیر مخلوط کردن تصادفی جملات یا اشاره دادن به مجموعه داده کامن کرال، تلاش می‌کنند از قوانین حق تکثیر در دیگر حوزه‌های قضایی عبور کنند.[۷]

بر اساس نسخه مارس ۲۰۲۳ مجموعه داده این شرکت، زبان اصلی ۴۶٪ اسناد انگلیسی است. پس از آن آلمانی، روسی، ژاپنی، فرانسوی، اسپانیایی و چینی قرار دارند که هر کدام کمتر از ۶٪ اسناد را تشکیل می‌دهند.[۸]

تاریخچه

خدمات وب آمازون در سال ۲۰۱۲ میزبانی بایگانی کامن کرال را از طریق برنامه "مجموعه داده‌های عمومی"[الف] خود آغاز کرد.[۹] این سازمان در ژوئیه ۲۰۱۲ انتشار فایل‌های فراداده و خروجی متنی خزنده‌های خود را در کنار فایل‌های .arc آغاز کرد.[۱۰] پیش از آن، بایگانی کامن کرال تنها شامل فایل‌های .arc بود.[۱۰]

در دسامبر ۲۰۱۲، blekko فراداده‌های موتور جستجویی را که از خزیدن‌های بین فوریه تا اکتبر ۲۰۱۲ گردآوری کرده بود، به کامن کرال اهدا کرد.[۱۱] این داده اهدایی کمک کرد کامن کرال «خزیدن خود را بهبود بخشد و در عین حال از هرزنامه، محتوای نامناسب و تأثیر بیش‌ازحد سئو دور بماند.»[۱۱]

در سال ۲۰۱۳، کامن کرال به‌جای استفاده از خزنده سفارشی، از خزنده وب ناچ متعلق به آپاچی استفاده کرد.[۱۲] همچنین کامن کرال در خزش نوامبر ۲۰۱۳ خود از فایل‌های .warc به‌جای .arc استفاده نمود.[۱۳]

نسخه پالایش‌شده‌ای از کامن کرال برای آموزش مدل زبانی جی‌پی‌تی ۳ که در سال ۲۰۲۰ معرفی شد، مورد استفاده قرار گرفت.[۱۴]

مرور زمانی داده‌های کامن کرال

زیر داده‌های زیر از وبلاگ رسمی کامن کرال[۱۵] و API مربوط به کامن کرال[۱۶] گردآوری شده‌اند:

تاریخ خزیدن اندازه بر حسب TiB بیلیون صفحه توضیحات
آوریل ۲۰۲۴ ۳۸۶ ۲.۷ خزش از ۱۲ آوریل تا ۲۴ آوریل ۲۰۲۴ انجام شد
فوریه/مارس ۲۰۲۴ ۴۲۵ ۳.۱۶ خزش از ۲۰ فوریه تا ۵ مارس ۲۰۲۴ انجام شد
دسامبر ۲۰۲۳ ۴۵۴ ۳.۳۵ خزش از ۲۸ نوامبر تا ۱۲ دسامبر ۲۰۲۳ انجام شد
جوئن ۲۰۲۳ ۳۹۰ ۳.۱ خزش از ۲۷ مه تا ۱۱ جوئن ۲۰۲۳ انجام شد
آوریل ۲۰۲۳ ۴۰۰ ۳.۱ خزش از ۲۰ مارس تا ۲ آوریل ۲۰۲۳ انجام شد
فوریه ۲۰۲۳ ۴۰۰ ۳.۱۵ خزش از ۲۶ ژانویه تا ۹ فوریه ۲۰۲۳ انجام شد
دسامبر ۲۰۲۲ ۴۲۰ ۳.۳۵ خزش از ۲۶ نوامبر تا ۱۰ دسامبر ۲۰۲۲ انجام شد
اکتبر ۲۰۲۲ ۳۸۰ ۳.۱۵ خزش در سپتامبر و اکتبر ۲۰۲۲ انجام شد
آوریل ۲۰۲۱ ۳۲۰ ۳.۱
نوامبر ۲۰۱۸ ۲۲۰ ۲.۶
اکتبر ۲۰۱۸ ۲۴۰ ۳.۰
سپتامبر ۲۰۱۸ ۲۲۰ ۲.۸
اوت ۲۰۱۸ ۲۲۰ ۲.۶۵
جولای ۲۰۱۸ ۲۵۵ ۳.۲۵
جوئن ۲۰۱۸ ۲۳۵ ۳.۰۵
مه ۲۰۱۸ ۲۱۵ ۲.۷۵
آوریل ۲۰۱۸ ۲۳۰ ۳.۱
مارس ۲۰۱۸ ۲۵۰ ۳.۲
فوریه ۲۰۱۸ ۲۷۰ ۳.۴
ژانویه ۲۰۱۸ ۲۷۰ ۳.۴
دسامبر ۲۰۱۷ ۲۴۰ ۲.۹
نوامبر ۲۰۱۷ ۲۶۰ ۳.۲
اکتبر ۲۰۱۷ ۳۰۰ ۳.۶۵
سپتامبر ۲۰۱۷ ۲۵۰ ۳.۰۱
اوت ۲۰۱۷ ۲۸۰ ۳.۲۸
جولای ۲۰۱۷ ۲۴۰ ۲.۸۹
جوئن ۲۰۱۷ ۲۶۰ ۳.۱۶
مه ۲۰۱۷ ۲۵۰ ۲.۹۶
آوریل ۲۰۱۷ ۲۵۰ ۲.۹۴
مارس ۲۰۱۷ ۲۵۰ ۳.۰۷
فوریه ۲۰۱۷ ۲۵۰ ۳.۰۸
ژانویه ۲۰۱۷ ۲۵۰ ۳.۱۴
دسامبر ۲۰۱۶ ۲.۸۵
اکتبر ۲۰۱۶ ۳.۲۵
سپتامبر ۲۰۱۶ ۱.۷۲
اوت ۲۰۱۶ ۱.۶۱
جولای ۲۰۱۶ ۱.۷۳
جوئن ۲۰۱۶ ۱.۲۳
مه ۲۰۱۶ ۱.۴۶
آوریل ۲۰۱۶ ۱.۳۳
فوریه ۲۰۱۶ ۱.۷۳
نوامبر ۲۰۱۵ ۱۵۱ ۱.۸۲
سپتامبر ۲۰۱۵ ۱۰۶ ۱.۳۲
اوت ۲۰۱۵ ۱۴۹ ۱.۸۴
جولای ۲۰۱۵ ۱۴۵ ۱.۸۱
جوئن ۲۰۱۵ ۱۳۱ ۱.۶۷
مه ۲۰۱۵ ۱۵۹ ۲.۰۵
آوریل ۲۰۱۵ ۱۶۸ ۲.۱۱
مارس ۲۰۱۵ ۱۲۴ ۱.۶۴
فوریه ۲۰۱۵ ۱۴۵ ۱.۹
ژانویه ۲۰۱۵ ۱۳۹ ۱.۸۲
دسامبر ۲۰۱۴ ۱۶۰ ۲.۰۸
نوامبر ۲۰۱۴ ۱۳۵ ۱.۹۵
اکتبر ۲۰۱۴ ۲۵۴ ۳.۷
سپتامبر ۲۰۱۴ ۲۲۰ ۲.۸
اوت ۲۰۱۴ ۲۰۰ ۲.۸
جولای ۲۰۱۴ ۲۶۶ ۳.۶
آوریل ۲۰۱۴ ۱۸۳ ۲.۶
مارس ۲۰۱۴ ۲۲۳ ۲.۸ اولین خزش با ناچ
زمستان ۲۰۱۳ ۱۴۸ ۲.۳ خزش از ۴ تا ۲۲ دسامبر ۲۰۱۳ انجام شد
تابستان ۲۰۱۳ ? ? اولین خزش با .WARC از مه تا جوئن ۲۰۱۳
۲۰۱۲ ? ? اولین خزش با .ARC از ژانویه تا جوئن ۲۰۱۲
۲۰۰۹-۲۰۱۰ ? ? خزش از جولای ۲۰۰۹ تا سپتامبر ۲۰۱۰
۲۰۰۸-۲۰۰۹ ? ? خزش از مه ۲۰۰۸ تا ژانویه ۲۰۰۹

جایزه دانشمند داده وب نورویگ

کامن کرال به همراهی سرف‌سارا[ب] حامی جایزه «Norvig Web Data Science» است که برای دانشجویان و پژوهشگران در بنلوکس برگزار می‌شود.[۱۷][۱۸] این جایزه به نام پیتر نورویگ نام‌گذاری شده است که رئیس کمیته داوری این جایزه نیز محسوب می‌شود.[۱۷]

پیکره متنی خزیده شده و تمیز‌شده عظیم

نسخه گوگل از کامن کرال، با نام «Colossal Clean Crawled Corpus» یا به اختصار C۴ شناخته می‌شود. این نسخه در سال ۲۰۱۹ برای آموزش مدل زبانی T۵ ساخته شد.[۱۹] برخی نگرانی‌ها پیرامون محتوای دارای حق تکثیر در C۴ وجود دارد.[۲۰]

یادداشت‌ها

  1. Public Data Sets
  2. SURFsara

منابع

  1. Rosanna Xia (February 5, 2012). "Tech entrepreneur Gil Elbaz made it big in L.A." Los Angeles Times. Retrieved July 31, 2014.
  2. "Gil Elbaz and Common Crawl". NBC News. April 4, 2013. Retrieved July 31, 2014.
  3. "So you're ready to get started". Common Crawl. Retrieved 9 June 2023.
  4. Lisa Green (January 8, 2014). "Winter 2013 Crawl Data Now Available". Retrieved June 2, 2018.
  5. "Startups - Gil Elbaz and Nova Spivack of Common Crawl - TWiST #222". This Week In Startups. January 10, 2012.
  6. Tom Simonite (January 23, 2013). "A Free Database of the Entire Web May Spawn the Next Google". MIT Technology Review. Archived from the original on June 26, 2014. Retrieved July 31, 2014.
  7. Schäfer, Roland (May 2016). "CommonCOW: Massively Huge Web Corpora from CommonCrawl Data and a Method to Distribute them Freely under Restrictive EU Copyright Laws". Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16). Portorož, Slovenia: European Language Resources Association (ELRA): 4501.
  8. "Statistics of Common Crawl Monthly Archives by commoncrawl". commoncrawl.github.io. Retrieved 2023-04-02.
  9. Jennifer Zaino (March 13, 2012). "Common Crawl to Add New Data in Amazon Web Services Bucket". Semantic Web. Archived from the original on July 1, 2014. Retrieved July 31, 2014.
  10. 1 2 Jennifer Zaino (July 16, 2012). "Common Crawl Corpus Update Makes Web Crawl Data More Efficient, Approachable for Users to Explore". Semantic Web. Archived from the original on August 12, 2014. Retrieved July 31, 2014.
  11. 1 2 Jennifer Zaino (December 18, 2012). "Blekko Data Donation Is s Big Benefit to Common Crawl". Semantic Web. Archived from the original on August 12, 2014. Retrieved July 31, 2014.
  12. Jordan Mendelson (February 20, 2014). "Common Crawl's Move to Nutch". Common Crawl. Retrieved July 31, 2014.
  13. Jordan Mendelson (November 27, 2013). "New Crawl Data Available!". Common Crawl. Retrieved July 31, 2014.
  14. Brown, Tom; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini (2020-06-01). "Language Models Are Few-Shot Learners". p. 14. arXiv:2005.14165 [cs.CL]. the majority of our data is derived from raw Common Crawl with only quality-based filtering.
  15. "Blog – Common Crawl".
  16. "Collection info - Common Crawl".
  17. 1 2 Lisa Green (November 15, 2012). "The Norvig Web Data Science Award". Common Crawl. Retrieved July 31, 2014.
  18. "Norvig Web Data Science Award 2014". Dutch Techcentre for Life Sciences. Archived from the original on August 15, 2014. Retrieved July 31, 2014.
  19. Raffel, Colin; Shazeer, Noam; Roberts, Adam; Lee, Katherine; Narang, Sharan; Matena, Michael; Zhou, Yanqi; Li, Wei; Liu, Peter J. (2020). "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer". Journal of Machine Learning Research. 21 (140): 1–67. arXiv:1910.10683. ISSN 1533-7928.
  20. Hern, Alex (2023-04-20). "Fresh concerns raised over sources of training material for AI systems". The Guardian (به انگلیسی). ISSN 0261-3077. Retrieved 2023-04-21.

پیوند به بیرون

en:Category:Web archiving initiatives