中文資訊科技應用 | 首頁 | 前頁 | 交流 | 搜尋 | 地圖

中文教學 > 中文資訊科技應用 > 中文編碼 > 中文編碼原理

中文編碼原理


編碼原理

意義 (meaning) 無形無狀、無聲無息,它必須經過編碼 (encode),才能供人際交流。人類最重要的編碼系統是「語言」,意義一旦經語言系統編碼,成為訊息 (message),便能用於傳播。語言是一種多層次的編碼系統,意義同時經語音、文字、語彙、語法、功能等系統編碼,形成極複雜的訊息。

電腦只能處理數碼化的資料--更準確說,是「資訊」(information),因此,訊息必須再經過數碼化編碼(或可稱為電子編 碼),才成為電腦能處理的資料或資訊。

這是 50 年代 Shannon & Weaver 在 The Mathematical Theory of Communication (1949) 提出的過程學派傳播理論,儘管這理論不斷被批評為太過簡化,但二人的理論把意義和訊息變成可以用「位元」(bit) 這數量化單位計算和測量的數碼化資訊,卻是電子傳播得以實現的理論基礎。

對於中文訊息來說,「文字」是最基本、最容易、最必須作數碼化編碼的語言系統。換言之,電腦處理的,是先經語言系統編碼、再把其中的文 字系統數碼化編碼的意義訊息。

問題是,把中文文字數碼化的編碼系統並不統一,由是造成許多混亂的情況。


中文編碼系統

與中文有關的數碼化編碼系統極多,隨便舉出以下幾種:

訊息 電子編碼系統
例字 ASCII BIG5 GB2312 Shift-JIS Unicode(3.0 版) UTF-8
A 41
(65)
41
(65)
41
(65)
41
(65)
00000041
(65)
41
(65)
- A4A4
(42148)
D6D0 9286 U+4E2D
(20013)
4E2D
(20013)
- B0EA - 9AA0 U+570B
(22283)
570B
(22283)
- - B9FA 8D91 U+56FD
(22269)
56FD
(22269)
編收漢字量 只編碼英文字符
沒有漢字
13053 繁體字 6763 簡化字

2000+
日本漢字

27484 漢字 27484 漢字

表中編碼(如「A4A4」)乃是十六進制數字,括號中為轉換成十進制的數字。

上表的意思是,「中」這個漢字在 ASCII 編碼系統中並不存在,在 BIG5 編碼系統中以「A4A4」表示,在 GB2312 編碼系統中以「D6D0」表示,在 Unicode 編碼系統中以「4E2D」表示。

由上表還可以看到,同一語素如果有不同的繁體文字和簡化文字的書寫方式,電腦會視作兩個不同的資訊。


編碼示例

訊息:
編碼:
系統: