ฟังก์ชันซอฟต์แมกซ์
ฟังก์ชันซอฟต์แมกซ์ (softmax function) หรือ ฟังก์ชันเลขชี้กำลังที่ทำให้เป็นปกติ (normalized exponential function)[1] เป็นส่วนขยายแบบหลายมิติของฟังก์ชันซิกมอยด์ มักใช้เป็นฟังก์ชันกระตุ้นสำหรับขั้นสุดท้ายในปัญหาการจำแนกประเภทเป็นหลายประเภท เนื่องจากสามารถแปลงค่าขาออกของ โครงข่ายประสาทเทียมให้เป็นการการแจกแจงความน่าจะเป็นได้
ชื่อฟังก์ชันซอฟต์แมกซ์เป็นคำที่ใช้ในสาขาปัญญาประดิษฐ์ เดิมทีฟังก์ชันนี้มีต้นกำเนิดมาจาก การแจกแจงบ็อลทซ์มัน ในทางกลศาสตร์เชิงสถิติ จัดพิมพ์โดยลูทวิช บ็อลทซ์มัน ในปี 1868[2] แม้ว่ามักจะใช้ร่วมกับเอนโทรปีไขว้ แต่แนวคิดในการรวมการแจกแจงบ็อลทซ์มันและเอนโทรปี ก็มีต้นกำเนิดมาจากกลศาสตร์ทางสถิติ นอกจากนี้ยังใช้ในเครื่องบ็อลทซ์มันด้วย แต่ในปี 1989 จอห์น เอส. บริเดิล ได้ตั้งชื่อว่าซอฟต์แมกซืนี้ให้[3][4]
คำนิยาม
[แก้]ฟังก์ชันซอฟต์แมกซ์รับค่าป้อนเข้าเป็นเวกเตอร์ ของจำนวนจริง K ตัว และทำการปรับให้เป็นปรกติเพื่อแสดงการแจกแจงความน่าจะเป็น ซึ่งประกอบด้วยความน่าจะเป็น K ที่เป็นสัดส่วนกับเลขชี้กำลังของข้อมูลป้อนเข้า กล่าวอีกนัยหนึ่ง เมื่อใช้ฟังก์ชันซอฟต์แมกซ์ แต่ละองค์ประกอบจะมีค่าอยู่ภายในช่วง (0, 1) และผลรวมขององค์ประกอบทั้งหมดจะกลายเป็น 1 ดังนั้นจึงตีความได้ว่าเป็น ความน่าจะเป็น ยิ่งค่าป้อนเข้ามีค่ามากเท่าใด ความน่าจะเป็น ก็จะยิ่งมากขึ้นเท่านั้น
สำหรับฟังก์ชันซอฟต์แมกซ์มาตรฐาน (หน่วย) โดยที่ นิยามได้ดังนี้
นั่นคือแต่ละองค์ประกอบของ ของเวกเตอร์ป้อนเข้า จะถูกทำให้ค่าเป็นปรกติโดยใช้ฟังก์ชันเลขชี้กำลังฐานธรรมชาติ และหารด้วยผลรวมของค่ากำลังเหล่านี้ทั้งหมด การทำให้เป็นปรกตินี้ส่งผลให้เกิดเวกเตอร์เอาท์พุต รับประกันว่าผลรวมของส่วนประกอบคือ 1
ความสัมพันธ์กับฟังก์ชันซิกมอยด์
[แก้]ในปัญหาการจำแนกเป็น 2 ประเภทซึ่ง K=2 นั้นถ้าให้ จะได้เป็นฟังก์ชันซิกมอยด์มาตรฐาน[5]
อ้างอิง
[แก้]- ↑ パターン認識と機械学習 上. 丸善出版. 2012. p. 196. ISBN 4621061224.
- ↑ Boltzmann, Ludwig (1868). "Studien über das Gleichgewicht der lebendigen Kraft zwischen bewegten materiellen Punkten" [Studies on the balance of living force between moving material points]. Wiener Berichte. 58: 517–560.
- ↑ Bridle, John S. (1990). Soulié F.F.; Hérault J. (บ.ก.). Probabilistic Interpretation of Feedforward Classification Network Outputs, with Relationships to Statistical Pattern Recognition. Neurocomputing: Algorithms, Architectures and Applications (1989). NATO ASI Series (Series F: Computer and Systems Sciences). Vol. 68. Berlin, Heidelberg: Springer. pp. 227–236. doi:10.1007/978-3-642-76153-9_28.
- ↑ "Training Stochastic Model Recognition Algorithms as Networks can Lead to Maximum Mutual Information Estimation of Parameters". proceedings.neurips.cc. สืบค้นเมื่อ 4 June 2024.
- ↑ "ソフトマックス関数 | 高校数学の美しい物語". 高校数学の美しい物語 (ภาษาญี่ปุ่น). สืบค้นเมื่อ 2 June 2024.