ผู้ใช้:Noktonissian/ทดลองเขียน/ลำดับการป้อนอักขระของอักษรไทธรรม
Tai Tham | |
---|---|
ช่วง | U+1A20..U+1AAF (144 กล่อง) |
Plane | BMP |
อักษร | Tai Tham |
อักษรหลัก | Tai Tham |
ใช้ | 127 กล่อง |
ไม่ใช้ | 17 กล่องสำรอง |
ประวัติรุ่นยูนิโคด | |
5.2 | 127 (+127) |
หมายเหตุ: [1][2] |
Tai Tham is a Unicode block containing characters of the Lanna script used for writing the Northern Thai (Kam Mu'ang), Tai Lü, and Khün languages.
Tai Tham[1][2] Official Unicode Consortium code chart (PDF) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
U+1A2x | ᨠ | ᨡ | ᨢ | ᨣ | ᨤ | ᨥ | ᨦ | ᨧ | ᨨ | ᨩ | ᨪ | ᨫ | ᨬ | ᨭ | ᨮ | ᨯ |
U+1A3x | ᨰ | ᨱ | ᨲ | ᨳ | ᨴ | ᨵ | ᨶ | ᨷ | ᨸ | ᨹ | ᨺ | ᨻ | ᨼ | ᨽ | ᨾ | ᨿ |
U+1A4x | ᩀ | ᩁ | ᩂ | ᩃ | ᩄ | ᩅ | ᩆ | ᩇ | ᩈ | ᩉ | ᩊ | ᩋ | ᩌ | ᩍ | ᩎ | ᩏ |
U+1A5x | ᩐ | ᩑ | ᩒ | ᩓ | ᩔ | ᩕ | ᩖ | ᩗ | ᩘ | ᩙ | ᩚ | ᩛ | ᩜ | ᩝ | ᩞ | |
U+1A6x | ᩠ | ᩡ | ᩢ | ᩣ | ᩤ | ᩥ | ᩦ | ᩧ | ᩨ | ᩩ | ᩪ | ᩫ | ᩬ | ᩭ | ᩮ | ᩯ |
U+1A7x | ᩰ | ᩱ | ᩲ | ᩳ | ᩴ | ᩵ | ᩶ | ᩷ | ᩸ | ᩹ | ᩺ | ᩻ | ᩼ | ᩿ | ||
U+1A8x | ᪀ | ᪁ | ᪂ | ᪃ | ᪄ | ᪅ | ᪆ | ᪇ | ᪈ | ᪉ | ||||||
U+1A9x | ᪐ | ᪑ | ᪒ | ᪓ | ᪔ | ᪕ | ᪖ | ᪗ | ᪘ | ᪙ | ||||||
U+1AAx | ᪠ | ᪡ | ᪢ | ᪣ | ᪤ | ᪥ | ᪦ | ᪧ | ᪨ | ᪩ | ᪪ | ᪫ | ᪬ | ᪭ | ||
หมายเหตุ
|
ประวัติการพัฒนา
[แก้]123 of the 127 code points initially encoded were proposed in L2/07-007R,[3] two more (U+1A5C and U+1A7C) in L2/08-037R2[4] and a final pair (U+1A5D and U+1A5E) in L2/08-073.[5] The last of these three documents modified the definitions of U+1A37 and U+1A38 given in the first of the three.
The following Unicode-related documents record the purpose and process of defining specific characters in the Tai Tham block:
รุ่น | ช่วงจุดรหัส[a] | จำนวนช่อง | L2 ID | WG2 ID | เอกสารประกอบ |
---|---|---|---|---|---|
5.2[b] | U+1A20..1A5E, 1A60..1A7C, 1A7F..1A89, 1A90..1A99, 1AA0..1AAD | 127 | L2/99-245 | N2042 | Everson, Michael; McGowan, Rick (1999-07-20), Unicode Technical Report #3: Early Aramaic, Balti, Kirat (Limbu), Manipuri (Meitei) and Tai Lü scripts |
X3L2/94-088 | N1013 | The Motion on the Coding of the Old Xishuang Banna Dai Writing, Entering into BMP of ISO/IEC 10646, 1994-04-18 | |||
N1099 (pdf, doc) | The motion on coding of the Old Xishuang Banna Dai Writing Entering into BMP of ISO/IEC 10646, 1994-10-10 | ||||
L2/04-351 | Hosken, Martin (2004-06-28), Lanna Unicode: A Draft Proposal | ||||
L2/05-095R | Hosken, Martin (2005-04-25), Lanna Unicode: A Proposal | ||||
L2/05-166 | Kourilsky, G.; Berment, V. (2005-07-15), Towards a Computerization of the Lao Tham System of Writing | ||||
L2/05-188 | Hosken, Martin (2005-08-02), Lao Tham in Terms of Lanna: a response to L2/05-166 from L2/05-095 | ||||
L2/06-258R | N3121R | Everson, Michael; Hosken, Martin (2006-09-09), Proposal for encoding the Lanna script in the BMP of the UCS | |||
L2/06-311 | N3159 | Tun, Ngwe (2006-09-20), Response to N3121R: Proposal for encoding the Lanna script in the BMP of the UCS | |||
L2/06-319 | N3161 | Opinions on N3121-Lanna script, 2006-09-22 | |||
L2/06-320 | N3169R | Chen, Zhuang; Everson, Michael; Hosken, Martin; Wei, Lin-Mei (2006-09-26), Lanna ad-hoc report | |||
N3153 (pdf, doc) | Umamaheswaran, V. S. (2007-02-16), "M49.17", Unconfirmed minutes of WG 2 meeting 49 AIST, Akihabara, Tokyo, Japan; 2006-09-25/29 | ||||
L2/07-015 | Moore, Lisa (2007-02-08), "Lanna (C.17)", UTC #110 Minutes | ||||
L2/07-007R | N3207 | Everson, Michael; Hosken, Martin; Constable, Peter (2007-03-21), Revised proposal for encoding the Lanna script in the BMP of the UCS | |||
L2/07-101 | N3238 | Proposing on Encoding Old Tai Lue, 2007-04-03 | |||
L2/07-098 | N3239 | Response to Chinese contribution N3238, "Proposing on Encoding Old Tai Lue", 2007-04-11 | |||
N3353 (pdf, doc) | Umamaheswaran, V. S. (2007-10-10), "M51.2", Unconfirmed minutes of WG 2 meeting 51 Hanzhou, China; 2007-04-24/27 | ||||
L2/07-118R2 | Moore, Lisa (2007-05-23), "111-C17", UTC #111 Minutes | ||||
L2/07-268 | N3253 (pdf, doc) | Umamaheswaran, V. S. (2007-07-26), "M50.10", Unconfirmed minutes of WG 2 meeting 50, Frankfurt-am-Main, Germany; 2007-04-24/27 | |||
L2/07-307 | N3313 | Comments on Lanna encoding in FPDAM4, 2007-09-06 | |||
L2/07-316 | N3342 | Hosken, Martin (2007-09-10), Response to N3313 | |||
L2/07-319 | N3346 | Ad hoc report on Lanna, 2007-09-19 | |||
L2/07-322 | N3349R | Everson, Michael (2007-09-28), "Tai Tham", Summary of repertoire for FPDAM 5 of ISO/IEC 10646:2003 and future amendments | |||
L2/07-345 | Moore, Lisa (2007-10-25), "Consensus 113-C10", UTC #113 Minutes | ||||
L2/07-353 | Whistler, Ken (2007-10-10), "A. Lanna (FDAM 4 and FPDAM 5)", WG2 Consent Docket | ||||
L2/08-037R2 | N3379R2 | Constable, Peter (2008-04-18), Tai Tham Ad-hoc Meeting Report | |||
L2/08-073 | N3384 | Hosken, Martin (2008-01-28), Tai Tham Subjoined Variants | |||
L2/08-003 | Moore, Lisa (2008-02-14), "Tai Tham", UTC #114 Minutes | ||||
L2/08-318 | N3453 (pdf, doc) | Umamaheswaran, V. S. (2008-08-13), "M52.2a", Unconfirmed minutes of WG 2 meeting 52 | |||
L2/14-126 + appendices | Pournader, Roozbeh (2014-05-02), Improvements requested for Unicode Indic properties (two text file appendices HERE) [affected U+1A55, 1A60, 1A80-1A89, 1A90-1A99] | ||||
L2/14-177 | Moore, Lisa (2014-08-21), "B.14.5", UTC #140 Minutes [affected U+1A56-1A5E, 1A75-1A7C, 1A7F] | ||||
L2/17-120 | Wordingham, Richard (2017-05-01), Corrections to the Indic Syllabic Category for the Tai Tham Script [affected U+1A57, 1A5A-1A5E, 1A74, 1A7A] | ||||
L2/17-169 | Pournader, Roozbeh (2017-05-12), Proposed Indic Syllabic Category changes for Tai Tham for Unicode 10 [affected U+1A57, 1A5A-1A5E, 1A74, 1A7A] | ||||
L2/17-103 | Moore, Lisa (2017-05-18), "B.14.9", UTC #151 Minutes [affected U+1A57, 1A5A-1A5E, 1A74, 1A7A] | ||||
L2/18-053 | Pournader, Roozbeh (2018-01-24), New Indic Syllabic Category Consonant_Initial_Postfixed [affected U+1A5A] | ||||
L2/18-007 | Moore, Lisa (2018-03-19), "B.14.7", UTC #154 Minutes [affected U+1A5A] | ||||
L2/18-171 | Wordingham, Richard (2018-04-29), Positioning of Tai Tham Vowels Below [documented U+1A69 & U+1A6A] | ||||
L2/18-241 | Anderson, Deborah; และคณะ (2018-07-25), "15. Tai Tham", Recommendations to UTC # 156 July 2018 on Script Proposals [documented U+1A69 & U+1A6A] | ||||
L2/18-183 | Moore, Lisa (2018-11-20), "D.12 Positioning of Tai Tham vowels below", UTC #156 Minutes [documented U+1A69 & U+1A6A] | ||||
การเข้ารหัสอักขระพยัญชนะตัวเชิง
[แก้]อักษรไทธรรมจะมีพยัญชนะสองแบบคือ พยัญชนะตัวเต็ม (Base character) ซึ่งจะเป็นพยัญชนะปกติที่อยู่บนบรรทัด และพยัญชนะตัวเชิง (Subjoined character) ซึ่งก็สามารถแบ่งได้อีกเป็นสองแบบคือ (1) พยัญชนะหาง (Below base subjoined form) ซึ่งจะอยู่ด้านล่างของพยัญชนะตัวเต็ม และ (2) พยัญชนะตัวเสียบ (Post base subjoined form) ซึ่งจะเป็นตัวเชิงที่มีหางยาวขึ้นแทรกขึ้นมาบนบรรทัด พยัญชนะตัวเชิง มีหน้าทีหลายประการ แต่หน้าที่หลักคือเป็นพยัญชนะตัวสะกดและพยัญชนะควบกล้ำ การเปลี่ยนอักขระพยัญชนะตัวเต็มให้เป็นตัวเชิงทำได้โดยป้อนอักขระสัญลักษณ์ สะกด (᩠) (รหัส U+1A60) แล้วตามด้วยอักขระพยัญชนะตัวเต็มที่ต้องการเปลี่ยนเป็นตัวเชิง[3]: Section 2 ตัวอย่างเช่น
ᨠᩥ᩠ᨶ (กิน) มีลำดับการป้อนอักขระดังนี้ <U+1A20 ตัวกะ, U+1A65 ไม้กิ, U+1A60 สะกด, U+1A36 นะ>
พยัญชนะบางตัวอาจมีรูปตัวเชิงหลายแบบ มีรูปซ้ำกัน หรือทำหน้าที่ได้หลายอย่าง ในการณ์นี้ ระบบยูนิโคดได้กำหนดจุดรหัสของอักขระเหล่านี้เป็นเอกเทศโดยเฉพาะ โดยไม่จำเป็นต้องป้อนอักขระสัญลักษณ์ สะกด (᩠) ดังปรากฏในตารางต่อไปนี้
พยัญชนะตัวเต็ม | ตัวเชิงเมื่อป้อน สะกด (᩠) | ตัวเชิงพิเศษ | ||||
---|---|---|---|---|---|---|
อักขระ | หน้าที่ | การเข้ารหัส | อักขระ | หน้าที่ | การเข้ารหัส | |
ᩁ (ระ) | ᩠ᩁ (หางระ) | ตัวสะกด | <U+1A60, U+1A41> | ᩕ (ระโรง) | ควบกล้ำ | <U+1A55> |
ᩃ (ละ) | ᩠ᩃ (ละเสียบ) | ตัวสะกด/
ควบกล้ำ |
<U+1A60, U+1A43> | ᩖ (ละหน้อย) | ควบกล้ำ | <U+1A56> |
ᩗ (ละทังหลาย) | พิเศษ | <U+1A57> | ||||
ᨻ (พะ) | ᩠ᨻ (หางพะ) | ตัวสะกด | <U+1A60, U+1A3B> | ᩛ (หางพะหลวง/
หางระฐะ/ หางถะ) |
ตัวสะกด | <U+1A5B> |
ᨮ (ระฐะ) | ᩠ᨮ (หางระฐะ) | ตัวสะกด | <U+1A60, U+1A2E> | |||
ᨳ (ถะ) | ᩠ᨳ (หางถะ) | ตัวสะกด | <U+1A60, U+1A33> | |||
ᨾ (มะ) | ᩠ᨾ (หางมะ) | ตัวสะกด | <U+1A60, U+1A3E> | ᩜ (มะหน้อย) | ตัวสะกด | <U+1A5C> |
ᨷ (บะ/ปะ) | ᩠ᨷ (ปะเสียบ) | ตัวสะกด | <U+1A60, U+1A37> | ᩝ (ปะหน้อย) | พิเศษ | <U+1A5D> |
ᩈ (สะ) | ᩠ᩈ (สะเสียบ) | ตัวสะกด | <U+1A60, U+1A48> | ᩞ (สะหน้อย) | ตัวสะกด | <U+1A5E> |
ᩋ (อะ) | ไม่มี | ᩬ (ไม้กอน้ำบวย) | สระ | <U+1A6C> | ||
ᩀ (อยะ) | ไม่มี | ᩭ (ไม้กอย) | สระ | <U+1A6D> |
ตัวอย่างการป้อนตัวเชิงพิเศษ เทียบตัวเชิงปกติ
พยัญชนะตัวเต็ม | ตัวเชิงเมื่อป้อน สะกด (᩠) | ตัวเชิงพิเศษ | ||||
---|---|---|---|---|---|---|
ตัวอย่าง | ลำดับการป้อน | อ้างอิง | ตัวอย่าง | ลำดับการป้อน | อ้างอิง | |
ᩁ (ระ) | ᨠᩣ᩠ᩁ (การ) | <U+1A20 ตัวกะ, U+1A63 ไม้กา,
U+1A60 สะกด, U+1A41 ตัวระ> |
[3]: Section 4 | ᨣᩕᩪ (ครู) | <U+1A23 คะ, U+1A55 ระโรง,
U+1A6A ไม้กู> |
[3]: Section 4 |
ᩃ (ละ) | ᩆᩦ᩠ᩃ (ศีล) | <U+1A46 ศะ, U+1A66 ไม้กี,
U+1A60 สะกด, U+1A43 ละ> |
[6]: Section 14.5 | ᨸᩖᩦ (ปลี) | <U+1A38 ปะ, U+1A56 ละหน้อย,
U+1A66 ไม้กี> |
[3]: Section 4 |
ᨴᩢ᩵ᩗᩣ (ทังหลาย) | [7] | |||||
ᨻ (พะ) | ||||||
ᨮ (ระฐะ) | ||||||
ᨳ (ถะ) | ||||||
ᨾ (มะ) | ᨵᨾ᩠ᨾ᩼ (ธัมม์) | <U+1A35 ธะ, U+1A3E มะ,
U+1A60 สะกด, U+1A3E มะ, U+1A7C ระห้ามขืน> |
ᨵᨾᩜ᩼ (ธัมม์) | <U+1A35 ธะ, U+1A3E มะ,
U+1A5C มะหน้อย, U+1A7C ระห้ามขืน> |
||
ᨷ (บะ/ปะ) | ᨠᩢ᩠ᨷ (กับ) | <U+1A20 กะ, U+1A62 ไม้ซัด,
U+1A60 สะกด, U+1A37 บะ> |
ᨣᩝᩴ (ก็บ่) | <U+1A23 คะ, U+1A5D บะหน้อย,
U+1A74 ไม้กังมน> |
||
ᨠᩢᨷ᩠ᨷ᩺ (กัปป์) | <U+1A20 ตัวกะ, U+1A62 ไม้ซัด,
U+1A37 ตัวบะ, U+1A60 สะกด, U+1A37 บะ, U+1A7A ระห้าม> |
|||||
ᩈ (สะ) | ᩃᩮ᩠ᩈ (เลส) | <U+1A43 ละ, U+1A6E ไม้เก,
U+1A60 สะกด, U+1A48 ตัวสะ>. |
ᩃᩮᩞ (เลส) | <U+1A43 ละ, U+1A6E ไม้เก,
U+1A5E สะหน้อย> |
||
ᩋ (อะ) |
ᨣᩕᩪ (ครู) มีลำดับการป้อนอักขระดังนี้ <U+1A23 คะ, U+1A55 ระโรง, U+1A6A ไม้กู> ขณะที่ ᨠᩣ᩠ᩁ (การ) จะเข้ารหัสอักขระได้ดังนี้ <U+1A20 ตัวกะ, U+1A63 ไม้กา, U+1A60 สะกด, U+1A41 ตัวระ>[3]: Section 4
ᩆᩦ᩠ᩃ (ศีล) เข้ารหัสอักขระได้ดังนี้ <U+1A46 ศะ, U+1A66 ไม้กี, U+1A60 สะกด, U+1A43 ละ>[3]: Section 14.5 ขณะที่ ᨸᩖᩦ (ปลี) จะเข้ารหัสอักขระได้ดังนี้ <U+1A38 ปะ, U+1A56 ละหน้อย, U+1A66 ไม้กี>.[3]: Section 4 (สำหรับการใช้อักษร ᩃ (ละ) เป็นตัวสะกด เทียบกับคำว่า ᩁᨭᩛᨷᩣ᩠ᩃ[3]: Section 4 (รฏฺฐปาล).
อักขระ U+1A57 ละทังหลาย แม้จะมีลักษณะคล้าย <U+1A60 สะกด, U+1A43 อักษรละ> หากแต่ว่าแท้จริงแล้ว อักขระนี้เป็นรูปอักขระผสาน (ligature) ระหว่าง <U+1A60 สะกด, U+1A26 งะ> การเขียนแบบไทขืนจะใช้ละทังหลายเป็นอักขระพิเศษสำหรับเขียนเขียนคำว่า "ทังหลาย" ᨴᩢ᩵ᩗᩣ (ทังหลาย).[7]
ᨣᩝᩴ (ก็บ่) เข้ารหัสอักขระได้ดังนี้ <U+1A23 คะ, U+1A5D บะหน้อย, U+1A74 ไม้กังมน> ขณะที่ ᨠᩢ᩠ᨷ (กับ) จะเข้าระหัสอักขระได้ดังนี้ <U+1A20 กะ, U+1A62 ไม้ซัด, U+1A60 สะกด, U+1A37 บะ> และ ᨠᩢᨷ᩠ᨷ᩺ (กัปป์) จะเข้ารหัสได้ดังนี้ <U+1A20 ตัวกะ, U+1A62 ไม้ซัด, U+1A37 ตัวบะ, U+1A60 สะกด, U+1A37 บะ, U+1A7A ระห้าม>
- In the final proposal,[3]: 1 which the Unicode Consortium accepted that what is now SIGN BA (as in ᨣᩝᩴ) would be encoded as <SAKOT, BA> and what is now <SAKOT, BA> (as in ᨠᩢ᩠ᨷ) should be encoded as <SAKOT, HIGH PA>, but during the ISO process the meaning of <SAKOT, BA> changed[5] and SIGN BA was added. However, the original meaning of <SAKOT, HIGH PA> remains for words from Thai that have ป as a syllable-final consonant. (This proposal mistakenly calls <SAKOT, HIGH PA> <SAKOT, HIGH PHA>.)
Pali uses HIGH PA instead of BA in Laos and northeast Thailand. One should therefore be prepared to find <SAKOT, BA> encoded as <U+1A60 SAKOT, U+1A38 HIGH PA> in Pali.
ไทขืนมีวิธีการใช้รูปเชิงของตัวสะสองแบบคือ สะเสียบ และ สะหน้อย โดยทั้งสองอักขระนี้จะใช้แทนกันไม่ได้ เช่นคำว่า เลส การสะกดที่ถูกต้องจะต้องใช้ตัว สะหน้อย ᩃᩮᩞ หากใช้ตัว สะเสียบ เช่น ᩃᩮ᩠ᩈ จะถือว่าผิด[5] เช่นเดียวกันกับคำว่า สันนิวาส ซึ่งการสะกดโดยใช้ตัว สะเสียบ เช่น ᩈᨶ᩠ᨶᩥᩅᩤ᩠ᩈ ถือว่าถูก หากใช้ตัว สะหน้อย เช่น ᩈᨶ᩠ᨶᩥᩅᩤᩞ จะถือว่าผิด อนึ่ง ᩃᩮᩞ (เลส) สามารถเข้ารหัสได้ดังนี้ <U+1A43 ละ, U+1A6E ไม้เก, U+1A5E สะหน้อย> ขณะที่ ᩃᩮ᩠ᩈ (เลส) ซึ่งเป็นการสะกดที่ผิดรูปแบบของไทขืน จะเข้ารหัสได้ดังนี้ <U+1A43 ละ, U+1A6E ไม้เก, U+1A60 สะกด, U+1A48 ตัวสะ>.
ไทยขืนมีการเขียนรูปเชิงมะอีกแบบคือการใช้ตัว มะหน้อย ซึ่งมีจุดรหัสอักขระเฉพาะให้[4]: Item 9 เช่นคำว่า ธัมม์ ซึ่งการเขียนแบบล้านนาจะสะกดดังนี้ ᨵᨾ᩠ᨾ᩺ ขณะเดียวกันในการเขียนแบบไทขืนสามารถเขียนได้สองแบบคือ ᨵᨾ᩠ᨾ᩼ ซึ่งสามารถเข้ารหัสได้ดังนี้ <U+1A35 ธะ, U+1A3E มะ, U+1A60 สะกด, U+1A3E มะ, U+1A7C ระห้ามขืน> และอีกแบบคือ ᨵᨾᩜ᩼ ซึ่งสามารถเข้ารหัสได้ดังนี้ <U+1A35 ธะ, U+1A3E มะ, U+1A5C มะหน้อย, U+1A7C ระห้ามขืน>.
There are two ways of writing the subscript for both HIGH RATHA and LOW PA. ᨶᩥᨣᨱᩛ[8]: 368 is encoded as <U+1A36 NA, U+1A65 SIGN I, U+1A23 LOW KA, U+1A31 RANA, U+1A5B SIGN HIGH RATHA OR LOW PA>: ᩁᩣᨩᨽᩢ᩠ᨮ[3]: 3 is encoded <U+1A41 RA, U+1A63 SIGN AA, U+1A29 LOW CA, U+1A3D LOW PHA, U+1A62 MAI SAT, U+1A60 SAKOT, U+1A2E HIGH RATHA>. ᨶᩥᨻᩛᩣᨶ is encoded as <U+1A36 NA, U+1A65 SIGN I, U+1A3B LOW PA, U+1A5B SIGN HIGH RATHA OR LOW PA, U+1A63 SIGN AA, U+1A36 NA>: ᨴᩮ᩠ᨻ is encoded as <U+1A34 LOW TA, U+1A6E SIGN E, U+1A60 SAKOT, U+1A3B LOW PA>. The latter word is also written as ᨴᩮ᩠ᨷ. The Lao-style consonant conjunct ᨲ᩠ᨳ (encoded as <U+1A32 HIGH TA, U+1A60 SAKOT, U+1A33 HIGH THA>) looks as though it is ᨲᩛ encoded as <U+1A32 HIGH TA, U+1A5B SIGN HIGH RATHA OR LOW PA>. The shape of U+1A5B depends upon the consonant it is subscript to.
The dependent vowel of words like ᨯᩬᨠ 'flower' is encoded by the special vowel <U+1A6C SIGN OA BELOW>; one should not use the sequence <U+1A60 SAKOT, U+1A4B LETTER A> There is also an encoded dependent vowel for words like Tai Khuen, Tai Lue and Lao words such as ᨶ᩶ᩭ, namely U+1A6D SIGN OY. This vowel is not encoded as <U+1A6C SIGN OA BELOW, U+1A60 SAKOT, U+1A3F LOW YA> (which is what Northern Thai uses for the corresponding words; nor is it the sequence <U+1A60 SAKOT, U+1A40 HIGH YA>[3]: Section 5
การเข้ารหัสอักขระพยัญชนะตัวยก
[แก้]Superscript consonants are encoded independently of the base consonants. Some characters serve both as superscript consonants and in other roles, and are therefore discussed further in this section. Niggahita and is encoded as U+1A74 MAI KANG. Superscript WA is not encoded separately. It is encoded as MAI KANG. For example, Tai Khuen ᨯ᩠ᨿᩴ (สัทอักษรสากล: [deu]) is encoded as <U+1A2, DA, U+1A60 SAKOT, U+1A3F LOW YA, U+1A74 MAI KANG>. For the purposes of character sequencing, it is generally treated as a vowel.
Superscript cluster-initial NGA is encoded as U+1A58 MAI KANG LAI. Note that Lao generally uses the same glyph for MAI KANG LAI and U+1A59 SIGN FINAL NGA.
U+1A62 MAI SAT serves three roles - it is a vowel, a final consonant, and a vowel shortener.
Choosing the encoding of the superscript form of RA and the vowel killers was difficult. In the 1940s the Tai Khuen wrote the consonant and the vowel killer the same way. The proposers of the encoding made enquiries and were told that the glyphs were still the same and therefore encoded them both as U+1A7A RA HAAM. It was then learnt that the Tai Khuen had changed the glyphs of the vowel killer, and a new character U+1A7C KARAN was added for the Tai Khuen style of the vowel killer. Some Northern Thai writers prefer to use U+1A7C as the vowel killer, and indeed the use of its glyph is not unknown in Northern Thai handwriting.
การเข้ารหัสอักขระพยัญชนะพิเศษ
[แก้]The special forms ᩓ and ᩕ are encoded by the code points U+1A53 and U+1A55 respectively.
If the glyphs of U+1A36 NA and U+1A63 SIGN AA would be side by side they are written as the ligature ᨶᩣ rather than as two separate glyphs ᨶᩣ. They are written as a ligature even if the NA has a subscript consonant or a non-following mark attached. Examples: ᨾᨶ᩠ᨲᩣ (สัทอักษรสากล: [man taː], encoding <U+1A3E MA, U+1A36 NA, U+1A60 SAKOT, U+1A32 HIGH TA, U+1A63 SIGN AA>) and ᨶᩮᩢᩣ (สัทอักษรสากล: [nau], encoding <U+1A36 NA, 1A6E SIGN E, U+1A62 MAI SAT, U+1A63 SIGN AA>). Subscript NA and SIGN AA do not similarly ligate, e.g. ᩉ᩠ᨶᩣ ((สัทอักษรสากล: [naː]), encoded <U+1A49 HIGH HA, U+1A60 SAKOT, 1A36 NA, U+1A63 SIGN AA>)
The geminate consonant ᩔ is encoded separately because the word ᩅᩥᩈᩮ᩠ᩈ (เสียงอ่านภาษาคำเมือง: [wiseːt], encoding <U+1A45 WA, U+1A65 SIGN I, U+1A48 HIGH SA, U+1A6E SIGN E, U+1A60 SAKOT, U+1A48 HIGH SA>) has an appearance very different from ᩅᩥᩔᩮ, but one may have occasion to fold the final syllable to <HIGH SA, SAKOT, HIGH SA, SIGN E>. Indeed, in 2019 to 2020 there was a campaign to establish the latter as its standard spelling.
By contrast, the geminate consonant ᨬ᩠ᨬ is encoded as the conjunct <U+1A2C NYA, U+1A60 SAKOT, U+1A2C NYA>, even though some of its glyphs may resemble the hypothetical conjunct ᨱ᩠ᨬ <U+1A31 RANA, U+1A60 SAKOT, U+1A2C NYA>.
การเข้ารหัสอักขระสระลอย
[แก้]The independent vowel ᩋ and the consonant ᩋ are the same character, U+1A4B.
The independent vowel ᩋᩣ and the sequence of the consonant ᩋ and dependent vowel ᩣ have the same appearance ᩋᩣ and are therefore both encoded <U+1A20 LETTER A, U+1A63 SIGN AA>.
Northern Thai uses 5 independent vowels with their own code points, namely ᩍ, ᩎ, ᩏ, ᩐ and ᩑ.[3]: Section 3
In Northern Thai the 8th independent vowel is no different from the sequence of the consonant ᩋ and dependent vowel ᩰ, i.e. ᩋᩰ, and they are therefore both encoded <U+1A4B LETTER A, U+1A70 SIGN OO>. Other languages use a distinct character ᩒ U+1A52 LETTER OO for the independent vowel.
ลำดับการป้อนอักขระ
[แก้]ลำดับการป้อนอักขระยูนิโคด มีการนิยามไว้ในเอกสารข้อเสนอในการเข้ารหัสอักขระอักษรธรรมล้านนา[3] โดยอักขระแต่ละตัวจะถูกจัดเป็นกลุ่ม ซึ่งต้องป้อนตามลำดับดังนี้
- พยัญชนะต้น คือ อักขระในช่วง U+1A20 ถึง U+1A57, U+1A5F, U+1A80 ถึง U+1A89, U+1A90 ถึง U+1A99
- สัญลักษณ์ สะกด U+1A60 กับ พยัญชนะเชิง, ไม้ซ้ำ คือ U+1A7D ในกรณีที่ใช้กับอักษรนำ
- พยัญชนะหาง
- พยัญชนะควบ
- สระควบ
- สระหน้า
- สระล่าง
- สระบน
- วรรณยุกต์
- สระตาม
- กะปูยาด (ประวิสรรชณีย์)
- พยัญชนะสะกด
- สัญลักษณ์อื่นที่อยู่ด้านบน
- ระห้าม (การันต์)
ในทำนองเดียวกับการป้อนอักขระของอักษรพม่า อักษรเขมร และอักษรของภาษาตระกูลอินเดียต่าง ๆ ลำดับการป้อนอักขระยูนิโคดจะเรียงตามลำดับตรรกะในการออกเสียง กล่าวคือเป็นลำดับของการออกเสียงพยัญชนะ สระ และวรรณยุกต์ เป็นสำคัญ โดยอาจมีกฏพิเศษสำหรับการป้อนในบางกรณี ดังนี้
- (1) ลำดับการป้อนสระ
- (2) ลำดับการป้อนไม้เกี๋ย
- (3) ลำดับการป้อนไม้กั๋ว
- (4) ลำดับการป้อนไม้ก๋ำ
- (5) ลำดับการป้อนวรรณยุกต์
Like the way of writing Burmese, Khmer, and Indian languages, Unicode characters are ordered according to the order of the sounds except in special cases[10] or if 2 sounds combine into a single sound and then one uses the old order. This order is usually as in Siamese. If the sound does not have an order then one uses the visual order or a special alternative order.
There are special rules for:
- (a) The ordering of vowels
- (b) The writing of mai kia in all its variants
- (c) Th writing of mai kua in all its variants
- (d) The writing of mai kam
- (e) The writing of tone marks
The ordering of Unicode characters for consonants and vowels is: onset letters, true vowel marks, coda consonants, onset letters, true vowel marks, coda consonants.[3]: Section 14 For convenience, one reckons that symbols killing vowels are vowels.
The 'onset letters' are consonants, independent vowels or special symbols. The consonants in a group are ordered according to the order in which they are sounded or used to be sounded.
Example: ᨻᩩᨴ᩠ᨵ (เสียงอ่านภาษาคำเมือง: [put thaʔ])
- onset letter: ᨻ
- pure vowel: ᩩ
- final 'consonant': ᨴ
- onset letter: ᨵ
- pure vowel: no symbol
- final consonant: none
The encoding is <U+1A3B LOW PA, U+1A69 SIGN U, U+1A34 LOW TA, U+1A60 SAKOT, U+1A35 LOW THA>
Example: ᨻᩕ has a single consonant sound เสียงอ่านภาษาคำเมือง: [pʰ], but formerly had 2 sounds, namely those of ᨻ and then ᩁ as in central Thai. This word is encoded as <LOW PA, MEDIAL RA>.
Apart from MEDIAL RA, the order of the consonant glyphs is the same as the order of the sounds. In most cases MEDIAL RA is the last consonant but the WA of /ua/ and the LOW YA of /ia/ follow MEDIAL RA.
Examples:
- ᩆᩣᩈ᩠ᨲᩕ᩺ is encoded <U+1A46 HIGH SHA, U+1A63 SIGN AA, U+1A48 HIGH SA, U+1A60 SAKOT, U+1A32 HIGH TA, U+1A55 MEDIAL RA, U+1A7A RA HAAM>.
- ᨠᩕᩈᩢ᩠ᨲ is encoded <U+1A20 HIGH KA, U+1A55 MEDIAL RA, U+1A48 HIGH SA, U+1A62 MAI SAT, U+1A60 SAKOT, U+1A32 HIGH TA>.
- ᩈᩕ᩠ᩅᨾ is encoded <U+1A48 HIGH SA, U+1A55 MEDIAL RA, U+1A60 SAKOT, U+1A45 WA, U+1A3E MA>.
- But ᨲᩕ᩠ᨶᩬᨾ (เสียงอ่านภาษาคำเมือง: [tʰa nɔːm])[8]: 269 is encoded <U+1A32 HIGH TA, U+1A55 MEDIAL RA, U+1A60 SAKOT, U+1A36 NA, U+1A6C SIGN OA BELOW, U+1A3E MA>
For words like ᨧᩮᩢ᩶ᩣ there is the rule that symbols for vowels and tones have the order:[3]: Section 5 first part, 5.3 and 13
- (1) สระหน้าพยัญชนะ
- (2) สระใต้พยัญชนะ (จากบนลงล่าง)
- (3) สระบนพยัญชนะ (จากล่างขึ้นบน)
- (4) วรรณยุกต์ (จากซ้ายไปขวา)
- (5) สระหลังพยัญชนะ (จากซ้ายไปขวา)
In the application of these rules, MAI KANG is reckoned as a vowel even though it function as niggahita or as a consonant. The Unicode character MAI SAT is reckoned as a vowel even though it function as a consonant, i.e as mai kak, i.e. as a final consonant or function as a vowel shortener as in ᨸᩮᩢ᩠ᨯ.
The relative ordering of the marks above and below should follow Thai and Lao as in เจ้า เกี่ว ชุํ and ບິ່.
Examples:
- ᨧᩮᩢ᩶ᩣ is encoded as <U+1A27 HIGH CA, U+1A6E SIGN E, U+1A62 MAI SAT, U+1A76 TONE-2, U+1A63 SIGN AA>[3]: Section 5 no. 29
- ᨾᩢᩣ (สัทอักษรสากล: [maːk]) is encoded as <U+1A3E MA, U+1A62 MAI SAT, U+1A63 SIGN AA>
- ᩃᩪᩢ (สัทอักษรสากล: [luːk]) is encoded as <U+1A43 LA, U+1A6A SIGN UU, U+1A62 MAI SAT>
- ᨶᩮᩢᩣ is encoded as <U+1A36 NA, U+1A6E SIGN E, U+1A62 MAI SAT, U+1A63 SIGN AA>
- ᩋᩫᨶ᩠ᨲᩕᩣ᩠ᨿ (เสียงอ่านภาษาคำเมือง: [on thaʔ laːi]) is encoded as <U+1A4B LETTER A, U+1A6B SIGN O, U+1A36 NA, U+1A60 SAKOT, U+1A32 HIGH TA, U+1A55 MEDIAL RA, U+1A63 SIGN AA, U+1A60 SAKOT, U+1A3F LOW YA>
For /ia/ and /ua/ in all their forms, subscript LOW YA and WA are reckoned as onset consonants.[3]: Section 14.3
Examples:
- ᩈ᩠ᨿᩮ is actually encoded <U+1A48 HIGH SA, U+1A60 SAKOT, U+1A3F LOW YA, U+1A6E SIGN E>[3]: Section 5 No. 33
- ᨸ᩠ᩃ᩠ᨿ᩵ᩁ is actually encoded <U+1A38 HIGH PA, U+1A60 SAKOT, U+1A43 LA, U+1A60 SAKOT, U+1A3F LOW YA, U+1A75 TONE-1, U+1A41 RA>[3]: Section 14.9
- ᨲ᩠ᩅᩫ is actually encoded <U+1A32 HIGH TA, U+1A60 SAKOT, U+1A45 WA, U+1A6B SIGN O>[3]: Section 14.3
- ᩈ᩠ᩅ᩵ᩁ is actually encoded <U+1A48 HIGH SA, U+1A60 SAKOT, U+1A45 WA, U+1A75 TONE-1, U+1A41 RA>
- ᨠᩖ᩠ᩅ᩠᩶ᨿ is actually encoded as <U+1A20 KA, U+1A56 MEDIAL LA, U+1A60 SAKOT, U+1A45 WA, U+1A60 SAKOT, U+1A76 TONE-2, U+1A3F LOW YA>
- (<U+1A60, U+1A76> is canonically equivalent to <U+1A76, U+1A60>)
Outside Northern Thailand, the MAI KANG in the symbol for /am/ is written on the SIGN AA component. In Northern Thailand, it is positioned variously – on the consonant, on the SIGN AA and between them. The Unicode Consortium refused a special character for the combination. The word ᨷᩴ᩠᩵ᨾᩣ (เสียงอ่านภาษาคำเมือง: [bɔːmaː]) should not appear to have the same vowel as ᨲ᩵ᩣᩴ (สัทอักษรสากล: [tam]). The combination for /am/ is therefore encoded as <U+1A63 SIGN AA, U+1A74 MAI KANG>. The word ᨷᩴ᩠᩵ᨾᩣ is encoded as <U+1A37 BA, U+1A74 MAI KANG, U+1A75 TONE-1, U+1A60 SAKOT, U+1A3E MA, U+1A63 SIGN AA>. The word ᨲ᩵ᩣᩴ is encoded as <U+1A32 HIGH TA, U+1A75 TONE-1, U+1A63 SIGN AA, U+1A74 MAI KANG>. The combination for /am/ with SIGN TALL AA is encoded as <U+1A64 SIGN TALL AA, U+1A74 MAI KANG>.
U+1A5A SIGN LOW PA is a special case; the Tai Lue word ᨣᨽᩚ (แม่แบบ:IPA-khb) is encoded as <U+1A23 LOW KA, U+1A3D LOW PHA, U+1A5A SIGN LOW PA>.[3]: Section 4
Examples showing mai kang lai and la tang lai:
- Pali word ᩈᩘᨥᩮᩣ (saṅgho) is encoded <U+1A48 SA, U+1A58 MAI KANG LAI, U+1A25 LOW KHA, U+1A6E SIGN E, U+1A63 SIGN AA>.
- Northern Thai word ᨴᩘ᩠ᩃᩣ᩠ᨿ (เสียงอ่านภาษาคำเมือง: [taŋ laːi]) is encoded <U+1A34 LOW TA, U+1A58 MAI KANG LAI, U+1A60 SAKOT, U+1A43 LA, U+1A63 SIGN AA, U+1A60 SAKOT, U+1A3F LOW YA>.
- Tai Lue word ᨴᩢᩗᩣ (แม่แบบ:IPA-khb) is encoded <U+1A34 LOW TA, U+1A62 MAI SAT, U+1A57 LA TANG LAI, U+1A63 SIGN AA>.
ลิงค์ภายนอก
[แก้]- Chew, P., Saengboon, P., & Wordingham, R. (2015). "Tai Tham: A Hybrid Script that Challenges Current Encoding Models". Presented at the Internationalization and Unicode Conference (IUC 39).
อ้างอิง
[แก้]- ↑ "Unicode character database". The Unicode Standard. สืบค้นเมื่อ 2016-07-09.
- ↑ "Enumerated Versions of The Unicode Standard". The Unicode Standard. สืบค้นเมื่อ 2016-07-09.
- ↑ 3.00 3.01 3.02 3.03 3.04 3.05 3.06 3.07 3.08 3.09 3.10 3.11 3.12 3.13 3.14 3.15 3.16 3.17 3.18 3.19 3.20 3.21 3.22 Everson, Michael; Hosken, Martin; Constable, Peter (21 March 2007). "Revised proposal for encoding the Lanna script in the BMP of the UCS" (PDF). Unicode (ภาษาอังกฤษ).
- ↑ 4.0 4.1 "Tai Tham Ad-hoc Meeting Report (WG2 N3379)" (PDF). Unicode (ภาษาอังกฤษ). 22 January 2008.
- ↑ 5.0 5.1 5.2 Hosken, Martin (28 January 2008). "Tai Tham Subjoined Variants" (PDF). Unicode (ภาษาอังกฤษ).
- ↑ Everson, Michael; Hosken, Martin; Constable, Peter (21 March 2007). "Revised proposal for encoding the Lanna script in the BMP of the UCS" (PDF). Unicode (ภาษาอังกฤษ).
- ↑ 7.0 7.1 Khotsimeuang, Veomany. "Tai Lue: Complex Orthographic Rules: Graphic Blends(I)". SEAsite (ภาษาอังกฤษ). สืบค้นเมื่อ 10 June 2018.
- ↑ 8.0 8.1 Rungruengsi, Udom (January 2004). Lanna-Thai Dictionary: Maefahluang Edition พจนานุกรมล้านนา ~ ไทย: ฉบับแม่ฟ้าหลวง. Chiang Mai: Chiang Mai University. ISBN 974-685-175-6.
- ↑ Read as COENG i.e. U+17D2 KHMER SIGN COENG
- ↑ "The encoding model for Lanna is similar to that for Myanmar and Khmer, using a CEONG[9]-like character plus some combining medial-consonant characters."[3]: Section 14