کامن کرال
کامن کرال (به انگلیسی: Common Crawl) یک سازمان غیرانتفاعی ۵۰۱ (سی)(۳) است که خزیدن وب را انجام میدهد و بایگانیها و مجموعه دادههای خود را بهصورت آزاد در اختیار عموم قرار میدهد.[۱][۲] آرشیو وب این شرکت شامل چندین پتابایت داده است که از سال ۲۰۰۸ جمعآوری شدهاند.[۳] این سازمان تقریباً ماهی یکبار فرایند خزیدن وب را تکمیل میکند.[۴]
کامن کرال توسط گیل اِلباز بنیانگذاری شد.[۵] پیتر نورویگ و جوی ایتو نیز از مشاوران این سازمان غیرانتفاعی هستند.[۶] خزندههای این سازمان به قوانین nofollow و robots.txt پایبند هستند. همچنین کد متنباز برای پردازش مجموعه دادههای کامن کرال بهصورت عمومی در دسترس است.
مجموعه دادههای کامن کرال شامل آثار دارای حق تکثیر نیز میشود و از ایالات متحده تحت ادعای استفاده منصفانه توزیع میگردد. پژوهشگران در سایر کشورها گاهی با روشهایی نظیر مخلوط کردن تصادفی جملات یا اشاره دادن به مجموعه داده کامن کرال، تلاش میکنند از قوانین حق تکثیر در دیگر حوزههای قضایی عبور کنند.[۷]
بر اساس نسخه مارس ۲۰۲۳ مجموعه داده این شرکت، زبان اصلی ۴۶٪ اسناد انگلیسی است. پس از آن آلمانی، روسی، ژاپنی، فرانسوی، اسپانیایی و چینی قرار دارند که هر کدام کمتر از ۶٪ اسناد را تشکیل میدهند.[۸]
تاریخچه
خدمات وب آمازون در سال ۲۰۱۲ میزبانی بایگانی کامن کرال را از طریق برنامه "مجموعه دادههای عمومی"[الف] خود آغاز کرد.[۹] این سازمان در ژوئیه ۲۰۱۲ انتشار فایلهای فراداده و خروجی متنی خزندههای خود را در کنار فایلهای .arc آغاز کرد.[۱۰] پیش از آن، بایگانی کامن کرال تنها شامل فایلهای .arc بود.[۱۰]
در دسامبر ۲۰۱۲، blekko فرادادههای موتور جستجویی را که از خزیدنهای بین فوریه تا اکتبر ۲۰۱۲ گردآوری کرده بود، به کامن کرال اهدا کرد.[۱۱] این داده اهدایی کمک کرد کامن کرال «خزیدن خود را بهبود بخشد و در عین حال از هرزنامه، محتوای نامناسب و تأثیر بیشازحد سئو دور بماند.»[۱۱]
در سال ۲۰۱۳، کامن کرال بهجای استفاده از خزنده سفارشی، از خزنده وب ناچ متعلق به آپاچی استفاده کرد.[۱۲] همچنین کامن کرال در خزش نوامبر ۲۰۱۳ خود از فایلهای .warc بهجای .arc استفاده نمود.[۱۳]
نسخه پالایششدهای از کامن کرال برای آموزش مدل زبانی جیپیتی ۳ که در سال ۲۰۲۰ معرفی شد، مورد استفاده قرار گرفت.[۱۴]
مرور زمانی دادههای کامن کرال
زیر دادههای زیر از وبلاگ رسمی کامن کرال[۱۵] و API مربوط به کامن کرال[۱۶] گردآوری شدهاند:
| تاریخ خزیدن | اندازه بر حسب TiB | بیلیون صفحه | توضیحات |
|---|---|---|---|
| آوریل ۲۰۲۴ | ۳۸۶ | ۲.۷ | خزش از ۱۲ آوریل تا ۲۴ آوریل ۲۰۲۴ انجام شد |
| فوریه/مارس ۲۰۲۴ | ۴۲۵ | ۳.۱۶ | خزش از ۲۰ فوریه تا ۵ مارس ۲۰۲۴ انجام شد |
| دسامبر ۲۰۲۳ | ۴۵۴ | ۳.۳۵ | خزش از ۲۸ نوامبر تا ۱۲ دسامبر ۲۰۲۳ انجام شد |
| جوئن ۲۰۲۳ | ۳۹۰ | ۳.۱ | خزش از ۲۷ مه تا ۱۱ جوئن ۲۰۲۳ انجام شد |
| آوریل ۲۰۲۳ | ۴۰۰ | ۳.۱ | خزش از ۲۰ مارس تا ۲ آوریل ۲۰۲۳ انجام شد |
| فوریه ۲۰۲۳ | ۴۰۰ | ۳.۱۵ | خزش از ۲۶ ژانویه تا ۹ فوریه ۲۰۲۳ انجام شد |
| دسامبر ۲۰۲۲ | ۴۲۰ | ۳.۳۵ | خزش از ۲۶ نوامبر تا ۱۰ دسامبر ۲۰۲۲ انجام شد |
| اکتبر ۲۰۲۲ | ۳۸۰ | ۳.۱۵ | خزش در سپتامبر و اکتبر ۲۰۲۲ انجام شد |
| آوریل ۲۰۲۱ | ۳۲۰ | ۳.۱ | |
| نوامبر ۲۰۱۸ | ۲۲۰ | ۲.۶ | |
| اکتبر ۲۰۱۸ | ۲۴۰ | ۳.۰ | |
| سپتامبر ۲۰۱۸ | ۲۲۰ | ۲.۸ | |
| اوت ۲۰۱۸ | ۲۲۰ | ۲.۶۵ | |
| جولای ۲۰۱۸ | ۲۵۵ | ۳.۲۵ | |
| جوئن ۲۰۱۸ | ۲۳۵ | ۳.۰۵ | |
| مه ۲۰۱۸ | ۲۱۵ | ۲.۷۵ | |
| آوریل ۲۰۱۸ | ۲۳۰ | ۳.۱ | |
| مارس ۲۰۱۸ | ۲۵۰ | ۳.۲ | |
| فوریه ۲۰۱۸ | ۲۷۰ | ۳.۴ | |
| ژانویه ۲۰۱۸ | ۲۷۰ | ۳.۴ | |
| دسامبر ۲۰۱۷ | ۲۴۰ | ۲.۹ | |
| نوامبر ۲۰۱۷ | ۲۶۰ | ۳.۲ | |
| اکتبر ۲۰۱۷ | ۳۰۰ | ۳.۶۵ | |
| سپتامبر ۲۰۱۷ | ۲۵۰ | ۳.۰۱ | |
| اوت ۲۰۱۷ | ۲۸۰ | ۳.۲۸ | |
| جولای ۲۰۱۷ | ۲۴۰ | ۲.۸۹ | |
| جوئن ۲۰۱۷ | ۲۶۰ | ۳.۱۶ | |
| مه ۲۰۱۷ | ۲۵۰ | ۲.۹۶ | |
| آوریل ۲۰۱۷ | ۲۵۰ | ۲.۹۴ | |
| مارس ۲۰۱۷ | ۲۵۰ | ۳.۰۷ | |
| فوریه ۲۰۱۷ | ۲۵۰ | ۳.۰۸ | |
| ژانویه ۲۰۱۷ | ۲۵۰ | ۳.۱۴ | |
| دسامبر ۲۰۱۶ | — | ۲.۸۵ | |
| اکتبر ۲۰۱۶ | — | ۳.۲۵ | |
| سپتامبر ۲۰۱۶ | — | ۱.۷۲ | |
| اوت ۲۰۱۶ | — | ۱.۶۱ | |
| جولای ۲۰۱۶ | — | ۱.۷۳ | |
| جوئن ۲۰۱۶ | — | ۱.۲۳ | |
| مه ۲۰۱۶ | — | ۱.۴۶ | |
| آوریل ۲۰۱۶ | — | ۱.۳۳ | |
| فوریه ۲۰۱۶ | — | ۱.۷۳ | |
| نوامبر ۲۰۱۵ | ۱۵۱ | ۱.۸۲ | |
| سپتامبر ۲۰۱۵ | ۱۰۶ | ۱.۳۲ | |
| اوت ۲۰۱۵ | ۱۴۹ | ۱.۸۴ | |
| جولای ۲۰۱۵ | ۱۴۵ | ۱.۸۱ | |
| جوئن ۲۰۱۵ | ۱۳۱ | ۱.۶۷ | |
| مه ۲۰۱۵ | ۱۵۹ | ۲.۰۵ | |
| آوریل ۲۰۱۵ | ۱۶۸ | ۲.۱۱ | |
| مارس ۲۰۱۵ | ۱۲۴ | ۱.۶۴ | |
| فوریه ۲۰۱۵ | ۱۴۵ | ۱.۹ | |
| ژانویه ۲۰۱۵ | ۱۳۹ | ۱.۸۲ | |
| دسامبر ۲۰۱۴ | ۱۶۰ | ۲.۰۸ | |
| نوامبر ۲۰۱۴ | ۱۳۵ | ۱.۹۵ | |
| اکتبر ۲۰۱۴ | ۲۵۴ | ۳.۷ | |
| سپتامبر ۲۰۱۴ | ۲۲۰ | ۲.۸ | |
| اوت ۲۰۱۴ | ۲۰۰ | ۲.۸ | |
| جولای ۲۰۱۴ | ۲۶۶ | ۳.۶ | |
| آوریل ۲۰۱۴ | ۱۸۳ | ۲.۶ | |
| مارس ۲۰۱۴ | ۲۲۳ | ۲.۸ | اولین خزش با ناچ |
| زمستان ۲۰۱۳ | ۱۴۸ | ۲.۳ | خزش از ۴ تا ۲۲ دسامبر ۲۰۱۳ انجام شد |
| تابستان ۲۰۱۳ | ? | ? | اولین خزش با .WARC از مه تا جوئن ۲۰۱۳ |
| ۲۰۱۲ | ? | ? | اولین خزش با .ARC از ژانویه تا جوئن ۲۰۱۲ |
| ۲۰۰۹-۲۰۱۰ | ? | ? | خزش از جولای ۲۰۰۹ تا سپتامبر ۲۰۱۰ |
| ۲۰۰۸-۲۰۰۹ | ? | ? | خزش از مه ۲۰۰۸ تا ژانویه ۲۰۰۹ |
جایزه دانشمند داده وب نورویگ
کامن کرال به همراهی سرفسارا[ب] حامی جایزه «Norvig Web Data Science» است که برای دانشجویان و پژوهشگران در بنلوکس برگزار میشود.[۱۷][۱۸] این جایزه به نام پیتر نورویگ نامگذاری شده است که رئیس کمیته داوری این جایزه نیز محسوب میشود.[۱۷]
پیکره متنی خزیده شده و تمیزشده عظیم
نسخه گوگل از کامن کرال، با نام «Colossal Clean Crawled Corpus» یا به اختصار C۴ شناخته میشود. این نسخه در سال ۲۰۱۹ برای آموزش مدل زبانی T۵ ساخته شد.[۱۹] برخی نگرانیها پیرامون محتوای دارای حق تکثیر در C۴ وجود دارد.[۲۰]
یادداشتها
منابع
- ↑ Rosanna Xia (February 5, 2012). "Tech entrepreneur Gil Elbaz made it big in L.A." Los Angeles Times. Retrieved July 31, 2014.
- ↑ "Gil Elbaz and Common Crawl". NBC News. April 4, 2013. Retrieved July 31, 2014.
- ↑ "So you're ready to get started". Common Crawl. Retrieved 9 June 2023.
- ↑ Lisa Green (January 8, 2014). "Winter 2013 Crawl Data Now Available". Retrieved June 2, 2018.
- ↑ "Startups - Gil Elbaz and Nova Spivack of Common Crawl - TWiST #222". This Week In Startups. January 10, 2012.
- ↑ Tom Simonite (January 23, 2013). "A Free Database of the Entire Web May Spawn the Next Google". MIT Technology Review. Archived from the original on June 26, 2014. Retrieved July 31, 2014.
- ↑ Schäfer, Roland (May 2016). "CommonCOW: Massively Huge Web Corpora from CommonCrawl Data and a Method to Distribute them Freely under Restrictive EU Copyright Laws". Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16). Portorož, Slovenia: European Language Resources Association (ELRA): 4501.
- ↑ "Statistics of Common Crawl Monthly Archives by commoncrawl". commoncrawl.github.io. Retrieved 2023-04-02.
- ↑ Jennifer Zaino (March 13, 2012). "Common Crawl to Add New Data in Amazon Web Services Bucket". Semantic Web. Archived from the original on July 1, 2014. Retrieved July 31, 2014.
- 1 2 Jennifer Zaino (July 16, 2012). "Common Crawl Corpus Update Makes Web Crawl Data More Efficient, Approachable for Users to Explore". Semantic Web. Archived from the original on August 12, 2014. Retrieved July 31, 2014.
- 1 2 Jennifer Zaino (December 18, 2012). "Blekko Data Donation Is s Big Benefit to Common Crawl". Semantic Web. Archived from the original on August 12, 2014. Retrieved July 31, 2014.
- ↑ Jordan Mendelson (February 20, 2014). "Common Crawl's Move to Nutch". Common Crawl. Retrieved July 31, 2014.
- ↑ Jordan Mendelson (November 27, 2013). "New Crawl Data Available!". Common Crawl. Retrieved July 31, 2014.
- ↑ Brown, Tom; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini (2020-06-01). "Language Models Are Few-Shot Learners". p. 14. arXiv:2005.14165 [cs.CL].
the majority of our data is derived from raw Common Crawl with only quality-based filtering.
- ↑ "Blog – Common Crawl".
- ↑ "Collection info - Common Crawl".
- 1 2 Lisa Green (November 15, 2012). "The Norvig Web Data Science Award". Common Crawl. Retrieved July 31, 2014.
- ↑ "Norvig Web Data Science Award 2014". Dutch Techcentre for Life Sciences. Archived from the original on August 15, 2014. Retrieved July 31, 2014.
- ↑ Raffel, Colin; Shazeer, Noam; Roberts, Adam; Lee, Katherine; Narang, Sharan; Matena, Michael; Zhou, Yanqi; Li, Wei; Liu, Peter J. (2020). "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer". Journal of Machine Learning Research. 21 (140): 1–67. arXiv:1910.10683. ISSN 1533-7928.
- ↑ Hern, Alex (2023-04-20). "Fresh concerns raised over sources of training material for AI systems". The Guardian (به انگلیسی). ISSN 0261-3077. Retrieved 2023-04-21.
پیوند به بیرون
- وبسایت کامن کرال در کالیفرنیا، ایالات متحده
- مخزن GitHub مربوط به کامن کرال که شامل خزنده، کتابخانهها و کد نمونه است
- گروه گفتوگوی کامن کرال
- وبلاگ کامن کرال