ข้ามไปเนื้อหา

กฎการปรับมาตราประสาท

จากวิกิพีเดีย สารานุกรมเสรี
สมรรถภาพของปัญญาประดิษฐ์สำหรับแบบจำลองต่าง ๆ ในช่วงปี 1998 ถึง 2024

ในการเรียนรู้ของเครื่อง กฎการปรับมาตราประสาท (neural scaling law) คือกฎการปรับมาตราสำหรับพารามิเตอร์ของโครงข่ายประสาทเทียม[1][2]

ภาพรวม

[แก้]

โดยทั่วไป สมบัติของแบบจำลองโครงข่ายประสาทเทียม จะวัดด้วยตัวบ่งชี้ 4 ตัว ได้แก่ ขนาดแบบจำลอง, ขนาดชุดข้อมูลฝึก, ทรัพยากรในการฝึก และ สมรรถภาพหลังการฝึก ค่าทั้งสี่สามารถกำหนดได้อย่างแน่นอนด้วยจำนวนจริง และเป็นที่ทราบกันดีว่าเชิงประจักษ์เป็นไปตามกฎทางสถิติง่าย โดยทั่วไปแล้วพารามิเตอร์เหล่านี้จะเขียนแทนด้วย (จำนวนพารามิเตอร์, ขนาดของชุดข้อมูล, ทรัพยากรการคำนวณ, ค่าการสูญเสีย)

ขนาดแบบจำลอง

[แก้]

ในกรณีส่วนใหญ่ ขนาดของแบบจำลองหมายถึงจำนวนพารามิเตอร์ เพราะแบบจำลองโครงข่ายประสาทเทียมส่วนใหญ่ (เช่นทรานส์ฟอร์เมอร์) จะใช้พารามิเตอร์ทั้งหมดสำหรับการอนุมานเสมอ

อย่างไรก็ตาม ในกรณีแบบจำลองแบบมากเลขศูนย์เช่น Mixture-of-Expert อาจไม่เป็นเช่นนั้นเสมอไป[3] เนื่องจากการอนุมานแบบจำลองแบบมากเลขศูนย์ จะใช้เพียงส่วนหนึ่งของพารามิเตอร์ทั้งหมดเท่านั้น

ขนาดชุดข้อมูลฝึก

[แก้]

โดยทั่วไปขนาดของชุดข้อมูลการฝึกอบรมจะวัดตามจำนวนจุดข้อมูลที่มีอยู่ เป็นการดีที่จะใช้ชุดข้อมูลการฝึกที่ใหญ่กว่า เนื่องจากการฝึกแบบจำลองต้องใช้แหล่งข้อมูลที่หลากหลายและหลากหลาย จำนวนชุดข้อมูลช่วยปรับปรุงประสิทธิภาพการวางนัยทั่วไปเมื่อใช้แบบจำลองกับข้อมูลที่ไม่รู้จัก[4] อย่างไรก็ตาม การเพิ่มขนาดของชุดข้อมูลการฝึกยังหมายถึงการเพิ่มทรัพยากรในการคำนวณและเวลาที่ต้องใช้ในการฝึกแบบจำลองอีกด้วย

วิธี "ฝึกล่วงหน้าและปรับละเอียด" ที่ใช้กับ แบบจำลองภาษาขนาดใหญ่ส่วนใหญ่ ใช้ชุดข้อมูลการฝึก 2 ประเภท เรียกว่าชุดข้อมูลก่อนการฝึก และชุดข้อมูลปรับละเอียด ขนาดของข้อมูลเหล่านี้มีผลกระทบต่อประสิทธิภาพของแบบจำลองที่แตกต่างกัน โดยทั่วไปแล้ว การปรับละเอียดจะใช้ชุดข้อมูลที่มีขนาดใหญ่กว่าชุดก่อนการฝึกน้อยกว่า 1%[5]

ข้อมูลคุณภาพสูงจำนวนเล็กน้อยก็เพียงพอสำหรับการปรับละเอียด อย่างไรก็ตาม บางครั้งการใช้ข้อมูลมากขึ้นก็อาจไม่ช่วยปรับปรุงประสิทธิภาพ[5]

ทรัพยากรการฝึก

[แก้]

โดยทั่วไปทรัพยากรที่ใช้ในการฝึกจะวัดกันในแง่ของเวลาที่ใช้ฝึก (ต้องใช้เวลาในการฝึกนานเท่าใด) และทรัพยากรในการคำนวณ (ต้องใช้พลังงานในการคำนวณและหน่วยความจำเท่าใดในการฝึก) โดยเฉพาะอย่างยิ่ง ค่าใช้จ่ายในการฝึกอบรมสามารถลดลงได้อย่างมากด้วยระเบียบวิธีการฝึกที่มีประสิทธิภาพ ซอฟต์แวร์ที่ได้รับการปรับปรุง และ การคำนวณแบบคู่ขนาน บน GPU และ TPU

ทรัพยากรในการฝึกแบบจำลองโครงข่ายประสาทเทียมอาจแสดงเป็นฟังก์ชันของปัจจัยต่าง ๆ เช่น ขนาดแบบจำลอง ขนาดชุดข้อมูลการฝึก ความซับซ้อนของขั้นตอนวิธีการฝึก และทรัพยากรการคำนวณที่มีอยู่[4]

การเพิ่มชุดข้อมูลการฝึกเป็น 2 เท่าไม่ได้หมายความว่าจะเพิ่มค่าใช้จ่ายในการฝึกอบรมเป็น 2 เท่าเสมอไป เนื่องจากแบบจำลองอาจได้รับการฝึกหลายครั้งโดยชุดข้อมูลที่กำหนด

สมรรถภาพ

[แก้]

ประสิทธิภาพของแบบจำลองโครงข่ายประสาทเทียมได้รับการประเมินโดยความแม่นยำของแบบจำลองที่สามารถทำนายผลลัพธ์ที่ได้รับจากค่าป้อนเข้าได้ ตัวชี้วัดการประเมินทั่วไป ได้แก่: [4]

ประสิทธิภาพของแบบจำลองสามารถปรับปรุงได้ด้วยการใช้ข้อมูลที่มากขึ้น, การใช้แบบจำลองที่ใหญ่ขึ้น, การใช้ร่วมกับขั้นตอนวิธีการฝึกที่แตกต่างกัน, การป้องกันการเรียนรู้เกิน และ การหยุดก่อนกำหนดด้วยชุดข้อมูลการตรวจสอบความถูกต้อง เป็นต้น

อ้างอิง

[แก้]
  1. Bahri, Yasaman; Dyer, Ethan (2021-02-12). "Explaining Neural Scaling Laws". arXiv:2102.06701 [cs.LG].
  2. Hestness, Joel; Narang, Sharan (2017-12-01). "Deep Learning Scaling is Predictable, Empirically". arXiv:1712.00409 [cs.LG].
  3. Rajbhandari, Samyam; Li, Conglong; Yao, Zhewei; Zhang, Minjia; Aminabadi, Reza Yazdani; Awan, Ammar Ahmad; Rasley, Jeff; He, Yuxiong (2022-06-28). "DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale". Proceedings of the 39th International Conference on Machine Learning (ภาษาอังกฤษ). PMLR: 18332–18346.
  4. 4.0 4.1 4.2 Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
  5. 5.0 5.1 Zhou, Chunting; Liu, Pengfei; Xu, Puxin; Iyer, Srini; Sun, Jiao; Mao, Yuning; Ma, Xuezhe; Efrat, Avia; Yu, Ping (2023-05-01). "LIMA: Less Is More for Alignment". {{cite journal}}: Cite journal ต้องการ |journal= (help)
  6. Andy L. Jones, Scaling Scaling Laws with Board Games
  7. LMSYS Chatbot leaderboard