ทรานส์ฟอร์เมอร์ฝึกล่วงหน้าก่อกำเนิด
ทรานส์ฟอร์เมอร์ฝึกล่วงหน้าก่อกำเนิด (generative pre-trained transformer, GPT) เป็นชุดของแบบจำลองภาษาขนาดใหญ่[1][2][3] และยังเป็นเฟรมเวิร์กสำหรับปัญญาประดิษฐ์ช่วยสร้าง[4][5] พัฒนาโดย OpenAI ได้รับการฝึกโดยใช้คลังข้อความขนาดใหญ่เพื่อให้สามารถสร้างประโยคที่เหมือนข้อความของมนุษย์
GPT ใช้เฉพาะส่วนถอดรหัสของสถาปัตยกรรมทรานส์ฟอร์เมอร์ และใช้แนวทางแบบจำลองภาษาเดียวกันกับ Universal Language Model Fine-tuning (ULMFiT)[6] สามารถทำการปรับละเอียด เพื่อใช้ในงานการประมวลผลภาษาธรรมชาติต่าง ๆ เช่น การสร้างข้อความ การแปล และ การจำแนกเอกสาร คำว่า "ฝึกล่วงหน้า" (pre-trained) ในชื่อ หมายถึงกระบวนการฝึกเบื้องต้นโดยคลังข้อความขนาดใหญ่ ในระหว่างที่แบบจำลองเรียนรู้ที่จะคาดเดาคำที่ตามหลังแต่ละประโยค นี่เป็นรากฐานที่มั่นคงซึ่งช่วยให้แบบจำลองทำงานได้อย่างถูกต้องแม้จะมีข้อมูลจำนวนจำกัดสำหรับกระบวนแยกเฉพาะ
ประวัติศาสตร์
[แก้]เมื่อวันที่ 11 มิถุนายน 2018 บริษัท OpenAI ได้เผยแพร่บทความ "Improving Language Understanding by Generative Pre-Training" ซึ่งเป็นบทความแรกที่เพยแพร่เนื้อหาเกี่ยวกับ GPT[7]
ณ เวลานั้น แบบการประมวลผลภาษาธรรมชาติของระบบประสาทที่มีประสิทธิภาพดีที่สุดใช้การเรียนรู้แบบมีผู้สอนเป็นหลักจากข้อมูลที่มีการติดฉลากกำกับด้วยตนเองจำนวนมาก การพึ่งพาการเรียนรู้แบบมีผู้สอนไม่เพียงแต่มีข้อจำกัดตรงที่ต้องการใช้ชุดข้อมูลที่มีคำอธิบายประกอบที่ทำมาอย่างดีพอเท่านั้น แต่ยังทำให้การฝึกแบบจำลองขนาดใหญ่มากมีราคาแพงและใช้เวลานานมาก[7][8] ในหลายภาษา (เช่น ภาษาสวาฮีลี และ ภาษาครีโอลเฮติ) เป็นเรื่องยากที่จะแปลและตีความโดยใช้แบบจำลองดังกล่าว เนื่องจากไม่มีข้อความสำหรับการสร้างคลังข้อมูล[8] ในขณะที่แนวทางการเรียนรู้แบบกึ่งมีผู้สอนของ GPT ช่วยให้สามารถทำได้ โดยการฝึกประกอบด้วย 2 ขั้นตอน คือ การฝึกแบบจำลองก่อกำเนิดแบบไม่มีผู้สอนเพื่อให้ได้พารามิเตอร์น้ำหนักสำหรับแบบจำลองภาษาตั้งต้น จากนั้นจึงใช้แบบจำลองจำแนกแบบมีผู้สอนทำการปรับละเอียดให้เข้ากับงานที่ต้องการใช้[7]
การฝึกใช้ NVIDIA Quadro P600 ทั้งหมด 8 แผ่น ใช้เวลา 30 และประสิทธิภาพการดำเนินการอยู่ที่ 33% เท่ากับ 0.96 petaFLOPS / วัน[9]
แบบจำลองรากฐาน
[แก้]แบบจำลอง | จำนวนพารามิเตอร์ | ข้อมูลที่ใช้ฝึก | วันที่ปล่อย | จำนวนวันและทรัพยากรในการฝึก |
---|---|---|---|---|
GPT-1 | 117 ล้าน | BookCorpus:[10] ข้อความ 4.5 GB จากหนังสือที่ไม่ตีพิมพ์ 7000 เล่มในหลากหลายหมวด | 11 มิถุนายน 2018[11] | 30 วันที่ 8 P600 GPUs หรือ 1 petaFLOP/s-day.[11] |
GPT-2 | 1.5 พันล้าน | WebText: ข้อความ 40 GB เอกสาร 8 ล้านฉบับจากเว็บเพจ 45 หน้าบน Reddit | 14 กุมภาพันธ์ 2019 (แบบจำกัด) และ 5 พฤศจิกายน 2019 (แบบเต็ม)[12] | เปนสิบ petaflop/s-day,[13] หรือ 1.5e21 FLOP.[14] |
GPT-3 | 175 พันล้าน[15] | 499 ล้านโทเค็นจากคอมมอนครอวล์ (570 GB) | 28 พฤษภาคม 2020[13] | 3640 petaflop/s-day (Table D.1[13]) หรือ 3.1e23 FLOP[14] |
GPT-3.5 | 175 พันล้าน[15] | ไม่เปิดเผย | 15 มีนาคม 2022 | ไม่เปิดเผย |
GPT-4 | ไม่เปิดเผย แต่ประมาณกันว่า 1.7 ล้านล้าน[16] | ไม่เปิดเผย | 14 มีนาคม 2023 | ไม่เปิดเผย ประมาณ 2.1 × 1025 FLOP[14] |
อ้างอิง
[แก้]- ↑ Haddad, Mohammed. "How does GPT-4 work and how can you start using it in ChatGPT?". www.aljazeera.com.
- ↑ "Generative AI: a game-changer society needs to be ready for". World Economic Forum. 9 January 2023.
- ↑ "The A to Z of Artificial Intelligence". Time. April 13, 2023.
- ↑ Hu, Luhui (November 15, 2022). "Generative AI and Future". Medium.
- ↑ "CSDL | IEEE Computer Society". www.computer.org.
- ↑ Lewis Tunstall; Leandro von Werra; Thomas Wolf (2022-08-03). 機械学習エンジニアのためのTransformers ―最先端の自然言語処理ライブラリによるモデル開発. แปลโดย 中山光樹. 東京都新宿区四谷坂町: オライリー・ジャパン. p. 9. ISBN 978-4-87311-995-3.
- ↑ 7.0 7.1 7.2 Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 June 2018). "Improving Language Understanding by Generative Pre-Training" (PDF). OpenAI. p. 12. เก็บ (PDF)จากแหล่งเดิมเมื่อ 26 January 2021. สืบค้นเมื่อ 23 January 2021.
- ↑ 8.0 8.1 Tsvetkov, Yulia (22 June 2017). "Opportunities and Challenges in Working with Low-Resource Languages" (PDF). Carnegie Mellon University. เก็บ (PDF)จากแหล่งเดิมเมื่อ 31 March 2020. สืบค้นเมื่อ 23 January 2021.
- ↑ "Improving language understanding with unsupervised learning". openai.com (ภาษาอังกฤษแบบอเมริกัน). สืบค้นเมื่อ 2023-03-18.
- ↑ Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. IEEE International Conference on Computer Vision (ICCV) 2015. pp. 19–27. arXiv:1506.06724. เก็บจากแหล่งเดิมเมื่อ 2023-02-05. สืบค้นเมื่อ 2023-02-07.
- ↑ 11.0 11.1 "Improving language understanding with unsupervised learning". openai.com (ภาษาอังกฤษแบบอเมริกัน). June 11, 2018. เก็บจากแหล่งเดิมเมื่อ 2023-03-18. สืบค้นเมื่อ 2023-03-18.
- ↑ Vincent, James (November 7, 2019). "OpenAI has published the text-generating AI it said was too dangerous to share". The Verge.
- ↑ 13.0 13.1 13.2 Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (May 28, 2020). "Language Models are Few-Shot Learners". NeurIPS. arXiv:2005.14165v4.
- ↑ 14.0 14.1 14.2 "ML input trends visualization". Epoch (ภาษาอังกฤษ). สืบค้นเมื่อ 2023-05-02.
- ↑ 15.0 15.1 Ver Meer, Dave (June 1, 2023). "ChatGPT Statistics". NamePepper (ภาษาอังกฤษ). สืบค้นเมื่อ 2023-06-09.
- ↑ "GPT-4 has more than a trillion parameters – Report". March 25, 2023.