本期 123 分钟,我们着眼汉字,回望字符集发展简史,一览常见遗留编码,笑看端序内战风云,携手拥抱 Unicode。
「纽伦堡内麦塔狐」,典出《字谈字畅》第二十三期)
各国读写电话号码的习惯);另有 ITU-T 起草的推荐规范 E.123),包含国际电话号码的注记格式
TeX) 指令通常以反斜杠(\)开头
「乱码」在几种外语里的表述:
文字化け)(日语)
Mojibake)(英语,音译自日语)
Zeichensalat)(德语,直译即「符号沙拉」)
JIS X 0201),七位及八位信息交换用编码字符集;前身为制定于 1969 年的 JIS C 6220,是日本最早的编码字符集规范
JIS X 0208),七位及八位双字节信息交换用汉字编码字符集
언문(諺文) / 한글(韩字) / 조선글(朝鲜字)),英语通称 Hangul)
编码),《内核恐慌》第十八期
GB 2312),信息交换用汉字编码字符集·基本集
GBK),汉字内码扩展规范;Windows 系统的代码页 CP936 是它的一个实现
GB 18030),信息技术——中文编码字符集
GB 12345),信息交换用汉字编码字符集·辅助集
单射)
「干 / 乾」这对字具有「一繁对多简」和「一简对多繁」的双重属性)
Big5(大五码)),港澳台较常用的编码及字符集标准
Unicode BMP(Basic Multilingual Plane,基本多语言平面)#Basic_Multilingual_Plane),GB 13000.1) 与 Unicode BMP 的相关标准基本等同
芸(U+82B8)),同时为中文「蕓」、日文「藝」的简化字
KS X 1001),韩国编码字符集标准,前身为 KS C 5601;对同形异音的汉字进行重复编码
日本的「中国地方」)
「支那」源自梵文 चीन (cīna))
Ken Lunde. CJKV Information Processing), 2nd Edition. O’Reilly Media, 2009
当下 Unicode 最常用的三种编码格式:
Rio 撰于 2012 年的 Unicode 编码相关知识的笔记)
Surrogate pair),用于 UTF-16,借以扩展可编码字符集的范围
Endianness(端序)),该术语典出《格列佛游记》小人国内的两个教派)
BOM(byte order mark,字节顺序标记)),对应的字符是 U+FEFF (Zero Width No-break Space))