กฎการปรับมาตราประสาท
ในการเรียนรู้ของเครื่อง กฎการปรับมาตราประสาท (neural scaling law) คือกฎการปรับมาตราสำหรับพารามิเตอร์ของโครงข่ายประสาทเทียม[1][2]
ภาพรวม
[แก้]โดยทั่วไป สมบัติของแบบจำลองโครงข่ายประสาทเทียม จะวัดด้วยตัวบ่งชี้ 4 ตัว ได้แก่ ขนาดแบบจำลอง, ขนาดชุดข้อมูลฝึก, ทรัพยากรในการฝึก และ สมรรถภาพหลังการฝึก ค่าทั้งสี่สามารถกำหนดได้อย่างแน่นอนด้วยจำนวนจริง และเป็นที่ทราบกันดีว่าเชิงประจักษ์เป็นไปตามกฎทางสถิติง่าย โดยทั่วไปแล้วพารามิเตอร์เหล่านี้จะเขียนแทนด้วย (จำนวนพารามิเตอร์, ขนาดของชุดข้อมูล, ทรัพยากรการคำนวณ, ค่าการสูญเสีย)
ขนาดแบบจำลอง
[แก้]ในกรณีส่วนใหญ่ ขนาดของแบบจำลองหมายถึงจำนวนพารามิเตอร์ เพราะแบบจำลองโครงข่ายประสาทเทียมส่วนใหญ่ (เช่นทรานส์ฟอร์เมอร์) จะใช้พารามิเตอร์ทั้งหมดสำหรับการอนุมานเสมอ
อย่างไรก็ตาม ในกรณีแบบจำลองแบบมากเลขศูนย์เช่น Mixture-of-Expert อาจไม่เป็นเช่นนั้นเสมอไป[3] เนื่องจากการอนุมานแบบจำลองแบบมากเลขศูนย์ จะใช้เพียงส่วนหนึ่งของพารามิเตอร์ทั้งหมดเท่านั้น
ขนาดชุดข้อมูลฝึก
[แก้]โดยทั่วไปขนาดของชุดข้อมูลการฝึกอบรมจะวัดตามจำนวนจุดข้อมูลที่มีอยู่ เป็นการดีที่จะใช้ชุดข้อมูลการฝึกที่ใหญ่กว่า เนื่องจากการฝึกแบบจำลองต้องใช้แหล่งข้อมูลที่หลากหลายและหลากหลาย จำนวนชุดข้อมูลช่วยปรับปรุงประสิทธิภาพการวางนัยทั่วไปเมื่อใช้แบบจำลองกับข้อมูลที่ไม่รู้จัก[4] อย่างไรก็ตาม การเพิ่มขนาดของชุดข้อมูลการฝึกยังหมายถึงการเพิ่มทรัพยากรในการคำนวณและเวลาที่ต้องใช้ในการฝึกแบบจำลองอีกด้วย
วิธี "ฝึกล่วงหน้าและปรับละเอียด" ที่ใช้กับ แบบจำลองภาษาขนาดใหญ่ส่วนใหญ่ ใช้ชุดข้อมูลการฝึก 2 ประเภท เรียกว่าชุดข้อมูลก่อนการฝึก และชุดข้อมูลปรับละเอียด ขนาดของข้อมูลเหล่านี้มีผลกระทบต่อประสิทธิภาพของแบบจำลองที่แตกต่างกัน โดยทั่วไปแล้ว การปรับละเอียดจะใช้ชุดข้อมูลที่มีขนาดใหญ่กว่าชุดก่อนการฝึกน้อยกว่า 1%[5]
ข้อมูลคุณภาพสูงจำนวนเล็กน้อยก็เพียงพอสำหรับการปรับละเอียด อย่างไรก็ตาม บางครั้งการใช้ข้อมูลมากขึ้นก็อาจไม่ช่วยปรับปรุงประสิทธิภาพ[5]
ทรัพยากรการฝึก
[แก้]โดยทั่วไปทรัพยากรที่ใช้ในการฝึกจะวัดกันในแง่ของเวลาที่ใช้ฝึก (ต้องใช้เวลาในการฝึกนานเท่าใด) และทรัพยากรในการคำนวณ (ต้องใช้พลังงานในการคำนวณและหน่วยความจำเท่าใดในการฝึก) โดยเฉพาะอย่างยิ่ง ค่าใช้จ่ายในการฝึกอบรมสามารถลดลงได้อย่างมากด้วยระเบียบวิธีการฝึกที่มีประสิทธิภาพ ซอฟต์แวร์ที่ได้รับการปรับปรุง และ การคำนวณแบบคู่ขนาน บน GPU และ TPU
ทรัพยากรในการฝึกแบบจำลองโครงข่ายประสาทเทียมอาจแสดงเป็นฟังก์ชันของปัจจัยต่าง ๆ เช่น ขนาดแบบจำลอง ขนาดชุดข้อมูลการฝึก ความซับซ้อนของขั้นตอนวิธีการฝึก และทรัพยากรการคำนวณที่มีอยู่[4]
การเพิ่มชุดข้อมูลการฝึกเป็น 2 เท่าไม่ได้หมายความว่าจะเพิ่มค่าใช้จ่ายในการฝึกอบรมเป็น 2 เท่าเสมอไป เนื่องจากแบบจำลองอาจได้รับการฝึกหลายครั้งโดยชุดข้อมูลที่กำหนด
สมรรถภาพ
[แก้]ประสิทธิภาพของแบบจำลองโครงข่ายประสาทเทียมได้รับการประเมินโดยความแม่นยำของแบบจำลองที่สามารถทำนายผลลัพธ์ที่ได้รับจากค่าป้อนเข้าได้ ตัวชี้วัดการประเมินทั่วไป ได้แก่: [4]
- อัตราความแม่นยำ, ความเที่ยง, การเรียกคืน, คะแนน F1 ในงานจำแนก
- ค่าคลาดเคลื่อนกำลังสองเฉลี่ย (MSE) และ ค่าคลาดเคลื่อนสัมบูรณ์เฉลี่ย (MAE) ในงานการถดถอย
- ค่าลบล็อกภาวะน่าจะเป็น (log perplexity) ต่อโทเค็นในแบบจำลองภาษา
- การจัดอันดับเอโลสำหรับแบบจำลองอื่น ๆ (เช่น หมากรุกคอมพิวเตอร์[6] และ การประเมินโดยมนุษย์[7])
ประสิทธิภาพของแบบจำลองสามารถปรับปรุงได้ด้วยการใช้ข้อมูลที่มากขึ้น, การใช้แบบจำลองที่ใหญ่ขึ้น, การใช้ร่วมกับขั้นตอนวิธีการฝึกที่แตกต่างกัน, การป้องกันการเรียนรู้เกิน และ การหยุดก่อนกำหนดด้วยชุดข้อมูลการตรวจสอบความถูกต้อง เป็นต้น
อ้างอิง
[แก้]- ↑ Bahri, Yasaman; Dyer, Ethan (2021-02-12). "Explaining Neural Scaling Laws". arXiv:2102.06701 [cs.LG].
- ↑ Hestness, Joel; Narang, Sharan (2017-12-01). "Deep Learning Scaling is Predictable, Empirically". arXiv:1712.00409 [cs.LG].
- ↑ Rajbhandari, Samyam; Li, Conglong; Yao, Zhewei; Zhang, Minjia; Aminabadi, Reza Yazdani; Awan, Ammar Ahmad; Rasley, Jeff; He, Yuxiong (2022-06-28). "DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale". Proceedings of the 39th International Conference on Machine Learning (ภาษาอังกฤษ). PMLR: 18332–18346.
- ↑ 4.0 4.1 4.2 Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
- ↑ 5.0 5.1 Zhou, Chunting; Liu, Pengfei; Xu, Puxin; Iyer, Srini; Sun, Jiao; Mao, Yuning; Ma, Xuezhe; Efrat, Avia; Yu, Ping (2023-05-01). "LIMA: Less Is More for Alignment".
{{cite journal}}
: Cite journal ต้องการ|journal=
(help) - ↑ Andy L. Jones, Scaling Scaling Laws with Board Games
- ↑ LMSYS Chatbot leaderboard