คอมมอนครอวล์
หน้าตา
ประเภท | ไม่แสวงผลกำไร |
---|---|
เว็บไซต์ | commoncrawl |
ภาษาที่มี | อังกฤษ |
คอมมอนครอวล์ (Common Crawl) เป็นองค์การไม่แสวงหาผลกำไรตามมาตรา 501(c) ที่ดำเนินธุรกิจเว็บครอว์เลอร์ และให้บริการชุดข้อมูลและ จดหมายเหตุอย่างอิสระ[1][2] หน่วยเก็บถาวรบนเว็บของคอมมอนครอวล์ประกอบไปด้วยข้อมูลหลายเพตะไบต์ที่รวบรวมมาตั้งแต่ปี 2011[3] โดยปกติแล้ว การรวบรวมข้อมูลจะดำเนินการทุกเดือน[4]
คอมมอนครอวล์ได้รับการก่อตั้งโดยจิล เอลบาซ[5] มีที่ปรึกษา ได้แก่ ปีเตอร์ นอร์วิก และ โจอิจิ อิโต[6] เคารพนโยบาย Nofollow และ robots.txt ในการทำการรวบรวมข้อมูล ซอร์สโค้ดสำหรับการประมวลผลชุดข้อมูลนั้นได้มีเผยแพร่ต่อสาธารณะเช่นกัน
ชุดข้อมูลประกอบด้วยผลงานที่มีลิขสิทธิ์ซึ่งจัดทำโดยทางสหรัฐอเมริกา ภายใต้การใช้ลิขสิทธิ์ของผู้อื่นโดยชอบ ได้มีนักวิจัยจากประเทศอื่น ๆ หลีกเลี่ยงกฎหมายลิขสิทธิ์ในประเทศอื่น ๆ โดยการสลับเปลี่ยนข้อความหรืออ้างอิงชุดข้อมูลทั่วไป[7]
อ้างอิง
[แก้]- ↑ Rosanna Xia (February 5, 2012). "Tech entrepreneur Gil Elbaz made it big in L.A." Los Angeles Times. สืบค้นเมื่อ July 31, 2014.
- ↑ "Gil Elbaz and Common Crawl". NBC News. April 4, 2013. คลังข้อมูลเก่าเก็บจากแหล่งเดิมเมื่อ 2014-08-08. สืบค้นเมื่อ July 31, 2014.
- ↑ "So you're ready to get started". สืบค้นเมื่อ 2018-06-02.
- ↑ Lisa Green (January 8, 2014). "Winter 2013 Crawl Data Now Available". สืบค้นเมื่อ June 2, 2018.
- ↑ "Startups - Gil Elbaz and Nova Spivack of Common Crawl - TWiST #222". This Week In Startups. January 10, 2012.
- ↑ Tom Simonite (January 23, 2013). "A Free Database of the Entire Web May Spawn the Next Google". MIT Technology Review. สืบค้นเมื่อ July 31, 2014.
- ↑ Schäfer, Roland. "CommonCOW: Massively Huge Web Corpora from CommonCrawl Data and a Method to Distribute them Freely under Restrictive EU Copyright Laws". Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16). Portorož, Slovenia: European Language Resources Association (ELRA): 4501.