ข้ามไปเนื้อหา

ทรานส์ฟอร์เมอร์ฝึกล่วงหน้าก่อกำเนิด

จากวิกิพีเดีย สารานุกรมเสรี
โครงสร้าง GPT รุ่นแรกสุด

ทรานส์ฟอร์เมอร์ฝึกล่วงหน้าก่อกำเนิด (generative pre-trained transformer, GPT) เป็นชุดของแบบจำลองภาษาขนาดใหญ่[1][2][3] และยังเป็นเฟรมเวิร์กสำหรับปัญญาประดิษฐ์ช่วยสร้าง[4][5] พัฒนาโดย OpenAI ได้รับการฝึกโดยใช้คลังข้อความขนาดใหญ่เพื่อให้สามารถสร้างประโยคที่เหมือนข้อความของมนุษย์

GPT ใช้เฉพาะส่วนถอดรหัสของสถาปัตยกรรมทรานส์ฟอร์เมอร์ และใช้แนวทางแบบจำลองภาษาเดียวกันกับ Universal Language Model Fine-tuning (ULMFiT)[6] สามารถทำการปรับละเอียด เพื่อใช้ในงานการประมวลผลภาษาธรรมชาติต่าง ๆ เช่น การสร้างข้อความ การแปล และ การจำแนกเอกสาร คำว่า "ฝึกล่วงหน้า" (pre-trained) ในชื่อ หมายถึงกระบวนการฝึกเบื้องต้นโดยคลังข้อความขนาดใหญ่ ในระหว่างที่แบบจำลองเรียนรู้ที่จะคาดเดาคำที่ตามหลังแต่ละประโยค นี่เป็นรากฐานที่มั่นคงซึ่งช่วยให้แบบจำลองทำงานได้อย่างถูกต้องแม้จะมีข้อมูลจำนวนจำกัดสำหรับกระบวนแยกเฉพาะ

ประวัติศาสตร์

[แก้]

เมื่อวันที่ 11 มิถุนายน 2018 บริษัท OpenAI ได้เผยแพร่บทความ "Improving Language Understanding by Generative Pre-Training" ซึ่งเป็นบทความแรกที่เพยแพร่เนื้อหาเกี่ยวกับ GPT[7]

ณ เวลานั้น แบบการประมวลผลภาษาธรรมชาติของระบบประสาทที่มีประสิทธิภาพดีที่สุดใช้การเรียนรู้แบบมีผู้สอนเป็นหลักจากข้อมูลที่มีการติดฉลากกำกับด้วยตนเองจำนวนมาก การพึ่งพาการเรียนรู้แบบมีผู้สอนไม่เพียงแต่มีข้อจำกัดตรงที่ต้องการใช้ชุดข้อมูลที่มีคำอธิบายประกอบที่ทำมาอย่างดีพอเท่านั้น แต่ยังทำให้การฝึกแบบจำลองขนาดใหญ่มากมีราคาแพงและใช้เวลานานมาก[7][8] ในหลายภาษา (เช่น ภาษาสวาฮีลี และ ภาษาครีโอลเฮติ) เป็นเรื่องยากที่จะแปลและตีความโดยใช้แบบจำลองดังกล่าว เนื่องจากไม่มีข้อความสำหรับการสร้างคลังข้อมูล[8] ในขณะที่แนวทางการเรียนรู้แบบกึ่งมีผู้สอนของ GPT ช่วยให้สามารถทำได้ โดยการฝึกประกอบด้วย 2 ขั้นตอน คือ การฝึกแบบจำลองก่อกำเนิดแบบไม่มีผู้สอนเพื่อให้ได้พารามิเตอร์น้ำหนักสำหรับแบบจำลองภาษาตั้งต้น จากนั้นจึงใช้แบบจำลองจำแนกแบบมีผู้สอนทำการปรับละเอียดให้เข้ากับงานที่ต้องการใช้[7]

การฝึกใช้ NVIDIA Quadro P600 ทั้งหมด 8 แผ่น ใช้เวลา 30 และประสิทธิภาพการดำเนินการอยู่ที่ 33% เท่ากับ 0.96 petaFLOPS / วัน[9]

แบบจำลองรากฐาน

[แก้]
ซีรีส์ GPT-n
แบบจำลอง จำนวนพารามิเตอร์ ข้อมูลที่ใช้ฝึก วันที่ปล่อย จำนวนวันและทรัพยากรในการฝึก
GPT-1 117 ล้าน BookCorpus:[10] ข้อความ 4.5 GB จากหนังสือที่ไม่ตีพิมพ์ 7000 เล่มในหลากหลายหมวด 11 มิถุนายน 2018[11] 30 วันที่ 8 P600 GPUs หรือ 1 petaFLOP/s-day.[11]
GPT-2 1.5 พันล้าน WebText: ข้อความ 40 GB เอกสาร 8 ล้านฉบับจากเว็บเพจ 45 หน้าบน Reddit 14 กุมภาพันธ์ 2019 (แบบจำกัด) และ 5 พฤศจิกายน 2019 (แบบเต็ม)[12] เปนสิบ petaflop/s-day,[13] หรือ 1.5e21 FLOP.[14]
GPT-3 175 พันล้าน[15] 499 ล้านโทเค็นจากคอมมอนครอวล์ (570 GB) 28 พฤษภาคม 2020[13] 3640 petaflop/s-day (Table D.1[13]) หรือ 3.1e23 FLOP[14]
GPT-3.5 175 พันล้าน[15] ไม่เปิดเผย 15 มีนาคม 2022 ไม่เปิดเผย
GPT-4 ไม่เปิดเผย แต่ประมาณกันว่า 1.7 ล้านล้าน[16] ไม่เปิดเผย 14 มีนาคม 2023 ไม่เปิดเผย ประมาณ 2.1 × 1025 FLOP[14]

อ้างอิง

[แก้]
  1. Haddad, Mohammed. "How does GPT-4 work and how can you start using it in ChatGPT?". www.aljazeera.com.
  2. "Generative AI: a game-changer society needs to be ready for". World Economic Forum. 9 January 2023.
  3. "The A to Z of Artificial Intelligence". Time. April 13, 2023.
  4. Hu, Luhui (November 15, 2022). "Generative AI and Future". Medium.
  5. "CSDL | IEEE Computer Society". www.computer.org.
  6. Lewis Tunstall; Leandro von Werra; Thomas Wolf (2022-08-03). 機械学習エンジニアのためのTransformers ―最先端の自然言語処理ライブラリによるモデル開発. แปลโดย 中山光樹. 東京都新宿区四谷坂町: オライリー・ジャパン. p. 9. ISBN 978-4-87311-995-3.
  7. 7.0 7.1 7.2 Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 June 2018). "Improving Language Understanding by Generative Pre-Training" (PDF). OpenAI. p. 12. เก็บ (PDF)จากแหล่งเดิมเมื่อ 26 January 2021. สืบค้นเมื่อ 23 January 2021.
  8. 8.0 8.1 Tsvetkov, Yulia (22 June 2017). "Opportunities and Challenges in Working with Low-Resource Languages" (PDF). Carnegie Mellon University. เก็บ (PDF)จากแหล่งเดิมเมื่อ 31 March 2020. สืบค้นเมื่อ 23 January 2021.
  9. "Improving language understanding with unsupervised learning". openai.com (ภาษาอังกฤษแบบอเมริกัน). สืบค้นเมื่อ 2023-03-18.
  10. Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. IEEE International Conference on Computer Vision (ICCV) 2015. pp. 19–27. arXiv:1506.06724. เก็บจากแหล่งเดิมเมื่อ 2023-02-05. สืบค้นเมื่อ 2023-02-07.
  11. 11.0 11.1 "Improving language understanding with unsupervised learning". openai.com (ภาษาอังกฤษแบบอเมริกัน). June 11, 2018. เก็บจากแหล่งเดิมเมื่อ 2023-03-18. สืบค้นเมื่อ 2023-03-18.
  12. Vincent, James (November 7, 2019). "OpenAI has published the text-generating AI it said was too dangerous to share". The Verge.
  13. 13.0 13.1 13.2 Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (May 28, 2020). "Language Models are Few-Shot Learners". NeurIPS. arXiv:2005.14165v4.
  14. 14.0 14.1 14.2 "ML input trends visualization". Epoch (ภาษาอังกฤษ). สืบค้นเมื่อ 2023-05-02.
  15. 15.0 15.1 Ver Meer, Dave (June 1, 2023). "ChatGPT Statistics". NamePepper (ภาษาอังกฤษ). สืบค้นเมื่อ 2023-06-09.
  16. "GPT-4 has more than a trillion parameters – Report". March 25, 2023.