ความคล้ายคลึงโคไซน์
ความคล้ายคลึงโคไซน์ (cosine similarity) ในด้านการวิเคราะห์ข้อมูล เป็นมาตรวัดความคล้ายคลึงระหว่างเวกเตอร์ที่ไม่เป็นศูนย์ 2 ตัวที่นิยามภายในปริภูมิผลคูณภายใน
คำอธิบาย
[แก้]ความคล้ายคลึงโคไซน์เป็นค่าโคไซน์ของมุมระหว่างเวกเตอร์ 2 ตัว กล่าวคือ เป็นผลคูณจุดของเวกเตอร์ 2 ตัวหารด้วยผลคูณของขนาด ทำให้ความคล้ายคลึงโคไซน์ไม่ได้ขึ้นอยู่กับขนาดของเวกเตอร์ แต่ขึ้นอยู่กับมุมที่เวกเตอร์ 2 ตัวนั้นทำต่อกันเท่านั้น ความคล้ายคลึงโคไซน์จะมีค่าอยู่ระหว่าง ตัวอย่างเช่น ความคล้ายคลึงโคไซน์ของเวกเตอร์ 2 ตัวที่แปรตามกันจะมีค่าเป็น 1 ในขณะที่ความคล้ายคลึงกันของเวกเตอร์ที่ตั้งฉากกันจะเป็น 0 และความคล้ายคลึงกันของเวกเตอร์ทิศตรงข้ามกันจะเป็น -1 ในกรณีที่องค์ประกอบเวกเตอร์ไม่เป็นลบ ค่าความคล้ายคลึงโคไซน์จะอยู่ในช่วง
ในบริบทของ การค้นคืนสารสนเทศ และ การทำเหมืองข้อความ แต่ละคำจะได้รับการกำหนดพิกัดที่แตกต่างกัน และเอกสารจะแสดงด้วยเวกเตอร์แสดงจำนวนครั้งที่แต่ละคำปรากฏในเอกสาร ความคล้ายคลึงโคไซน์เป็นการวัดที่ใช้งานได้ดีในการระบุว่าเนื้อหาในเอกสาร 2 ฉบับมีความคล้ายคลึงกันอย่างไร โดยไม่คำนึงถึงความยาว[1]
เทคนิคนี้ยังใช้ในด้านการทำเหมืองข้อมูล เพื่อวัดการทำงานร่วมกันภายในคลัสเตอร์[2]
ข้อดีประการหนึ่งของความคล้ายคลึงโคไซน์คือ มีความซับซ้อนในการคำนวณต่ำ และสามารถพิจารณาเฉพาะแค่องค์ประกอบที่ไม่เป็นศูนย์เท่านั้น โดยเฉพาะอย่างยิ่งสำหรับเมทริกซ์มากเลขศูนย์
อ้างอิง
[แก้]- ↑ Singhal, Amit (2001). "Modern Information Retrieval: A Brief Overview". Bulletin of the IEEE Computer Society Technical Committee on Data Engineering 24 (4): 35–43.
- ↑ P.-N. Tan, M. Steinbach & V. Kumar, Introduction to Data Mining, Addison-Wesley (2005), ISBN 0-321-32136-7, chapter 8; page 500.