ข้ามไปเนื้อหา

คอมมอนครอวล์

จากวิกิพีเดีย สารานุกรมเสรี
คอมมอนครอวล์
ประเภทไม่แสวงผลกำไร
เว็บไซต์commoncrawl.org
ภาษาที่มีอังกฤษ

คอมมอนครอวล์ (Common Crawl) เป็นองค์การไม่แสวงหาผลกำไรตามมาตรา 501(c) ที่ดำเนินธุรกิจเว็บครอว์เลอร์ และให้บริการชุดข้อมูลและ จดหมายเหตุอย่างอิสระ[1][2] หน่วยเก็บถาวรบนเว็บของคอมมอนครอวล์ประกอบไปด้วยข้อมูลหลายเพตะไบต์ที่รวบรวมมาตั้งแต่ปี 2011[3] โดยปกติแล้ว การรวบรวมข้อมูลจะดำเนินการทุกเดือน[4]

คอมมอนครอวล์ได้รับการก่อตั้งโดยจิล เอลบาซ[5] มีที่ปรึกษา ได้แก่ ปีเตอร์ นอร์วิก และ โจอิจิ อิโต[6] เคารพนโยบาย Nofollow และ robots.txt ในการทำการรวบรวมข้อมูล ซอร์สโค้ดสำหรับการประมวลผลชุดข้อมูลนั้นได้มีเผยแพร่ต่อสาธารณะเช่นกัน

ชุดข้อมูลประกอบด้วยผลงานที่มีลิขสิทธิ์ซึ่งจัดทำโดยทางสหรัฐอเมริกา ภายใต้การใช้ลิขสิทธิ์ของผู้อื่นโดยชอบ ได้มีนักวิจัยจากประเทศอื่น ๆ หลีกเลี่ยงกฎหมายลิขสิทธิ์ในประเทศอื่น ๆ โดยการสลับเปลี่ยนข้อความหรืออ้างอิงชุดข้อมูลทั่วไป[7]

อ้างอิง

[แก้]
  1. Rosanna Xia (February 5, 2012). "Tech entrepreneur Gil Elbaz made it big in L.A." Los Angeles Times. สืบค้นเมื่อ July 31, 2014.
  2. "Gil Elbaz and Common Crawl". NBC News. April 4, 2013. คลังข้อมูลเก่าเก็บจากแหล่งเดิมเมื่อ 2014-08-08. สืบค้นเมื่อ July 31, 2014.
  3. "So you're ready to get started". สืบค้นเมื่อ 2018-06-02.
  4. Lisa Green (January 8, 2014). "Winter 2013 Crawl Data Now Available". สืบค้นเมื่อ June 2, 2018.
  5. "Startups - Gil Elbaz and Nova Spivack of Common Crawl - TWiST #222". This Week In Startups. January 10, 2012.
  6. Tom Simonite (January 23, 2013). "A Free Database of the Entire Web May Spawn the Next Google". MIT Technology Review. สืบค้นเมื่อ July 31, 2014.
  7. Schäfer, Roland. "CommonCOW: Massively Huge Web Corpora from CommonCrawl Data and a Method to Distribute them Freely under Restrictive EU Copyright Laws". Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16). Portorož, Slovenia: European Language Resources Association (ELRA): 4501.