| 中文資訊科技應用 | 首頁 | 前頁 | 交流 | 搜尋 | 地圖 |
![]() |
意義 (meaning) 無形無狀、無聲無息,它必須經過編碼 (encode),才能供人際交流。人類最重要的編碼系統是「語言」,意義一旦經語言系統編碼,成為訊息 (message),便能用於傳播。語言是一種多層次的編碼系統,意義同時經語音、文字、語彙、語法、功能等系統編碼,形成極複雜的訊息。
電腦只能處理數碼化的資料--更準確說,是「資訊」(information),因此,訊息必須再經過數碼化編碼(或可稱為電子編 碼),才成為電腦能處理的資料或資訊。
這是 50 年代 Shannon & Weaver 在 The Mathematical Theory of Communication (1949) 提出的過程學派傳播理論,儘管這理論不斷被批評為太過簡化,但二人的理論把意義和訊息變成可以用「位元」(bit) 這數量化單位計算和測量的數碼化資訊,卻是電子傳播得以實現的理論基礎。
對於中文訊息來說,「文字」是最基本、最容易、最必須作數碼化編碼的語言系統。換言之,電腦處理的,是先經語言系統編碼、再把其中的文 字系統數碼化編碼的意義訊息。
問題是,把中文文字數碼化的編碼系統並不統一,由是造成許多混亂的情況。
與中文有關的數碼化編碼系統極多,隨便舉出以下幾種:
| 訊息 | 電子編碼系統 | |||||
| 例字 | ASCII | BIG5 | GB2312 | Shift-JIS | Unicode(3.0 版) | UTF-8 |
| A | 41 (65) |
41 (65) |
41 (65) |
41 (65) |
00000041 (65) |
41 (65) |
| 中 | - | A4A4 (42148) |
D6D0 | 9286 | U+4E2D (20013) |
4E2D (20013) |
| 國 | - | B0EA | - | 9AA0 | U+570B (22283) |
570B (22283) |
| 国 | - | - | B9FA | 8D91 | U+56FD (22269) |
56FD (22269) |
| 編收漢字量 | 只編碼英文字符 沒有漢字 |
13053 繁體字 | 6763 簡化字 |
2000+ |
27484 漢字 | 27484 漢字 |
表中編碼(如「A4A4」)乃是十六進制數字,括號中為轉換成十進制的數字。
上表的意思是,「中」這個漢字在 ASCII 編碼系統中並不存在,在 BIG5 編碼系統中以「A4A4」表示,在 GB2312 編碼系統中以「D6D0」表示,在 Unicode 編碼系統中以「4E2D」表示。
由上表還可以看到,同一語素如果有不同的繁體文字和簡化文字的書寫方式,電腦會視作兩個不同的資訊。