คอมมอนครอวล์

คอมมอนครอวล์
ประเภท	ไม่แสวงผลกำไร
เว็บไซต์	commoncrawl.org
ภาษาที่มี	อังกฤษ

คอมมอนครอวล์ (Common Crawl) เป็นองค์การไม่แสวงหาผลกำไรตามมาตรา 501(c) ที่ดำเนินธุรกิจเว็บครอว์เลอร์ และให้บริการชุดข้อมูลและ จดหมายเหตุอย่างอิสระ^[1]^[2] หน่วยเก็บถาวรบนเว็บของคอมมอนครอวล์ประกอบไปด้วยข้อมูลหลายเพตะไบต์ที่รวบรวมมาตั้งแต่ปี 2011^[3] โดยปกติแล้ว การรวบรวมข้อมูลจะดำเนินการทุกเดือน^[4]

คอมมอนครอวล์ได้รับการก่อตั้งโดยจิล เอลบาซ^[5] มีที่ปรึกษา ได้แก่ ปีเตอร์ นอร์วิก และ โจอิจิ อิโต^[6] เคารพนโยบาย Nofollow และ robots.txt ในการทำการรวบรวมข้อมูล ซอร์สโค้ดสำหรับการประมวลผลชุดข้อมูลนั้นได้มีเผยแพร่ต่อสาธารณะเช่นกัน

ชุดข้อมูลประกอบด้วยผลงานที่มีลิขสิทธิ์ซึ่งจัดทำโดยทางสหรัฐอเมริกา ภายใต้การใช้ลิขสิทธิ์ของผู้อื่นโดยชอบ ได้มีนักวิจัยจากประเทศอื่น ๆ หลีกเลี่ยงกฎหมายลิขสิทธิ์ในประเทศอื่น ๆ โดยการสลับเปลี่ยนข้อความหรืออ้างอิงชุดข้อมูลทั่วไป^[7]

อ้างอิง

↑ Rosanna Xia (February 5, 2012). "Tech entrepreneur Gil Elbaz made it big in L.A." Los Angeles Times. สืบค้นเมื่อ July 31, 2014.
↑ "Gil Elbaz and Common Crawl". NBC News. April 4, 2013. คลังข้อมูลเก่าเก็บจากแหล่งเดิมเมื่อ 2014-08-08. สืบค้นเมื่อ July 31, 2014.
↑ "So you're ready to get started". สืบค้นเมื่อ 2018-06-02.
↑ Lisa Green (January 8, 2014). "Winter 2013 Crawl Data Now Available". สืบค้นเมื่อ June 2, 2018.
↑ "Startups - Gil Elbaz and Nova Spivack of Common Crawl - TWiST #222". This Week In Startups. January 10, 2012.
↑ Tom Simonite (January 23, 2013). "A Free Database of the Entire Web May Spawn the Next Google". MIT Technology Review. สืบค้นเมื่อ July 31, 2014.
↑ Schäfer, Roland. "CommonCOW: Massively Huge Web Corpora from CommonCrawl Data and a Method to Distribute them Freely under Restrictive EU Copyright Laws". Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16). Portorož, Slovenia: European Language Resources Association (ELRA): 4501.

[latimes-1] Rosanna Xia (February 5, 2012). "Tech entrepreneur Gil Elbaz made it big in L.A." Los Angeles Times. สืบค้นเมื่อ July 31, 2014.

[pressheretv-2] "Gil Elbaz and Common Crawl". NBC News. April 4, 2013. คลังข้อมูลเก่าเก็บจากแหล่งเดิมเมื่อ 2014-08-08. สืบค้นเมื่อ July 31, 2014.

[3] "So you're ready to get started". สืบค้นเมื่อ 2018-06-02.

[theverge-4] Lisa Green (January 8, 2014). "Winter 2013 Crawl Data Now Available". สืบค้นเมื่อ June 2, 2018.

[twist-5] "Startups - Gil Elbaz and Nova Spivack of Common Crawl - TWiST #222". This Week In Startups. January 10, 2012.

[technologyreview-6] Tom Simonite (January 23, 2013). "A Free Database of the Entire Web May Spawn the Next Google". MIT Technology Review. สืบค้นเมื่อ July 31, 2014.

[7] Schäfer, Roland. "CommonCOW: Massively Huge Web Corpora from CommonCrawl Data and a Method to Distribute them Freely under Restrictive EU Copyright Laws". Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16). Portorož, Slovenia: European Language Resources Association (ELRA): 4501.

[1]

[2]

[3]

[4]

[5]

[6]

[7]