ข้ามไปเนื้อหา

การจำแนกเชิงสถิติ

จากวิกิพีเดีย สารานุกรมเสรี
(เปลี่ยนทางจาก การแบ่งประเภทข้อมูล)

ในวิทยาการคอมพิวเตอร์ การจำแนกเชิงสถิติ (อังกฤษ: statistical classification) เป็นปัญหาพื้นฐานของการเรียนรู้แบบมีผู้สอน โดยปัญหาคือการทำนายประเภทของวัตถุจากสมบัติต่าง ๆ ของวัตถุ ซึ่งการเรียนรู้แบบมีผู้สอนจะสร้างฟังก์ชันเชื่อมโยง ระหว่างสมบัติของวัตถุ กับประเภทของวัตถุจากตัวอย่างข้อมูลสำหรับฝึกสอน แล้วจึงใช้ฟังก์ชันนี้ทำนายประเภทของวัตถุที่ไม่เคยพบ เครื่องมือหรือขั้นตอนวิธีที่ใช้สำหรับการจำแนกประเภทของข้อมูลในเชิงสถิติ ได้แก่ โครงข่ายประสาทเทียม ต้นไม้ตัดสินใจ

นิยามของปัญหา

[แก้]

กำหนดตัวอย่างสอน ให้ เป็นเวกเตอร์แสดงคุณสมบัติของวัตถุ ซึ่ง โดยที่ เป็นเซตจำกัดระบุคุณสมบัติ และ เป็นประเภทของวัตถุ ซึ่งกำหนดไว้ในเซตจำกัด ต้องการหาฟังก์ชัน ซึ่งให้ค่า จากเวกเตอร์ ที่กำหนด โดยที่ความผิดพลาดของการทำนายตัวอย่างสอนมีค่าน้อยที่สุด หรือมีค่า น้อยที่สุด โดยกำหนด ซึ่ง