统一码联盟是一个致力于开发,维护,发展全球通用软件标准和数据格式,特别是维护Unicode编码标准的非牟利机构。统一码联盟制定了一种可以对全球几乎所有语言文字进行编码的标准。
其宗旨为最终以统一码取代现存的字符编码。因为现存编码不能够在多语言计算机环境中使用,而且字符数有局限。同时它也制定了数种统一码转换格式(UTF,Unicode Transformation Format)。
Unicode是为了解决传统的字符编码方案的局限而产生的,例如ISO 8859-1所定义的字符虽然在不同的国家中广泛地使用,可是在不同国家间却经常出现不兼容的情况。
很多传统的编码方式都有一个共同的问题,即容许计算机处理双语环境(通常使用拉丁字母以及其本地语言),但却无法同时支持多语言环境(指可同时处理多种语言混合的情况)。Unicode编码包含了不同写法的字,如“ɑ/a”、“强/强”、“户/户/戸”。然而在汉字方面引起了一字多形的认定争议(详见中日韩统一表意文字主题)。
在文字处理方面,统一码为每一个字符而非字形定义唯一的代码(即一个整数)。换句话说,统一码以一种抽象的方式(即数字)来处理字符,并将视觉上的演绎工作(例如字体大小、外观形状、字体形态、文体等)留给其他软件来处理,例如网页浏览器或是文字处理器。
几乎所有计算机系统都支持基本拉丁字母,并各自支持不同的其他编码方式。Unicode为了和它们相互兼容,其首256字符保留给ISO 8859-1所定义的字符,使既有的西欧语系文字的转换不需特别考量;
并且把大量相同的字符重复编到不同的字符码中去,使得旧有纷杂的编码方式得以和Unicode编码间互相直接转换,而不会丢失任何信息。举例来说,全角格式区段包含了主要的拉丁字母的全角格式,
在中文、日文、以及韩文字形当中,这些字符以全角的方式来呈现,而不以常见的半角形式显示,这对竖排文字和等宽排列文字有重要作用。
在表示一个Unicode的字符时,通常会用“U ”然后紧接着一组十六进制的数字来表示这一个字符。在基本多文种平面(英文:Basic Multilingual Plane,简写BMP。又称为“零号平面”、plane 0)里的所有字符,要用四位十六进制数(例如U 4AE0,共支持六万多个字符);
在零号平面以外的字符则需要使用五位或六位十六进制数了。旧版的Unicode标准使用相近的标记方法,但却有些微小差异:在Unicode 3.0里使用“U-”然后紧接着八位数,而“U ”则必须随后紧接着四位数。
位于美国加州的Unicode组织允许任何愿意支付会费的公司和个人加入,其成员包含了主要的计算机软硬件厂商,例如奥多比系统、苹果公司、惠普、IBM、微软、施乐等。
20世纪80年代末,组成Unicode组织的商业机构,和国际合作的国际标准化组织因为计算机普及和信息国际化的前提下,分别各自成立了Unicode组织和ISO-10646工作小组。
他们不久便发现对方的存在,大家为着相同的目的而工作,于是两个组织便共同合作开发适用于各国语言的通用码,而且“相当有默契地”各自发表Unicode和ISO-10646字集。虽然实际上两者的字集编码相同,但实质上两者确实为两个不同的标准。
统一码联盟在1991年首次发布了The Unicode Standard。Unicode的开发结合了国际标准化组织所制定的ISO/IEC 10646,即通用字符集。Unicode与ISO/IEC 10646在编码的运作原理相同,
但The Unicode Standard包含了更详尽的实现信息、涵盖了更细节的主题,诸如比特编码(bitwise encoding)、校对以及呈现等。The Unicode Standard也枚举了诸多的字符特性,包含了那些必须支持两种阅读方向的文字(由左至右或由右至左的文字阅读方向,例如阿拉伯文是由右至左)。Unicode与ISO/IEC 10646这两个标准在术语上的使用有些微的不同。
2005年,Unicode的第十万个字符被引入成为标准之一,该字符被用于马来亚拉姆语。
2020年,Unicode发布了13.0,共收录143,859个字符。
统一码联盟由世界各地主要的电脑制造商、软件开发商、数据库开发商、政府部门、研究机构、国际机构、各用户组织及个人组成。统一码联盟的领导者及管理人员来自各个组织及行业,代表着最广泛的编码应用。
统一码联盟包含三个技术委员会和一个编辑委员会:Unicode Technical Committee,Unicode CLDR Technical Committee,Unicode Localization Interoperability Technical CommitteeEditorial Committee.
统一码联盟积极与各标准制订机构合作,包括国际标准化组织(ISO)、国际电工委员会(IEC)、万维网联盟(W3C)、互联网工程工作小组(IETF)和欧洲计算机制造协会(ECMA)等。
The Unicode® Standard,Version 13.0 – Core Specification, The Unicode Consortium, Addison-Wesley Professional,ISBN 978-1-936213-26-9
The Unicode Standard, Version 5.0, Fifth Edition, The Unicode Consortium, Addison-Wesley Professional, Oct. 27, 2006.ISBN 978-0-321-48091-0
The Unicode Standard, Version 4.0, The Unicode Consortium, Addison-Wesley Professional, Aug. 27, 2003.ISBN 978-0-321-18578-5
《Unicode标准》(The Unicode Standard)
《字符数字库》(Character Database)
《Unicode技术准备和报告》(Unicode Technical Standards and Reports)
《Unicode技术说明书》(Unicode Technical Notes)等等。
统一码的成功让计算机使用进入了一个新纪元,并应用于很多新技术,如XML、Java编程语言和现今的操作系统。