Java編程技術(shù)中漢字問題的分析及解決

字號：小 中 大

在基于 Java 語言的編程中，我們經(jīng)常碰到漢字的處理及顯示的問題。一大堆看不懂的亂碼肯定不是我們愿意看到的顯示效果，怎樣才能夠讓那些漢字正確顯示呢？Java語言默認(rèn)的編碼方式是UNICODE，而我們中國人通常使用的文件和數(shù)據(jù)庫都是基于GB2312或者BIG5等方式編碼的，怎樣才能夠恰當(dāng)?shù)剡x擇漢字編碼方式并正確地處理漢字的編碼呢？本文將從漢字編碼的常識入手，結(jié)合Java編程實例，分析以上兩個問題并提出解決它們的方案。
    現(xiàn)在 Java 編程語言已經(jīng)廣泛應(yīng)用于互聯(lián)網(wǎng)世界，早在 Sun 公司開發(fā) Java 語言的時候，就已經(jīng)考慮到對非英文字符的支持了。Sun 公司公布的 Java 運(yùn)行環(huán)境（JRE）本身就分英文版和國際版，但只有國際版才支持非英文字符。不過在 Java 編程語言的應(yīng)用中，對中文字符的支持并非如同 Java Soft 的標(biāo)準(zhǔn)規(guī)范中所宣稱的那樣完美，因為中文字符集不只一個，而且不同的操作系統(tǒng)對中文字符的支持也不盡相同，所以會有許多和漢字編碼處理有關(guān)的問題在我們進(jìn)行應(yīng)用開發(fā)中困擾著我們。有很多關(guān)于這些問題的解答，但都比較瑣碎，并不能夠滿足大家迫切解決問題的愿望，關(guān)于 Java 中文問題的系統(tǒng)研究并不多，本文從漢字編碼常識出發(fā)，分析 Java 中文問題，希望對大家解決這個問題有所幫助。
    漢字編碼的常識
    我們知道，英文字符一般是以一個字節(jié)來表示的，最常用的編碼方法是 ASCII 。但一個字節(jié)最多只能區(qū)分256個字符，而漢字成千上萬，所以現(xiàn)在都以雙字節(jié)來表示漢字，為了能夠與英文字符分開，每個字節(jié)的位一定為1，這樣雙字節(jié)最多可以表示64K格字符。我們經(jīng)常碰到的編碼方式有 GB2312、BIG5、UNICODE 等。關(guān)于具體編碼方式的詳細(xì)資料，有興趣的讀者可以查閱相關(guān)資料。我膚淺談一下和我們關(guān)系密切的 GB2312 和 UNICODE。GB2312 碼，中華人民共和國國家標(biāo)準(zhǔn)漢字信息交換用編碼，是一個由中華人民共和國國家標(biāo)準(zhǔn)總局發(fā)布的關(guān)于簡化漢字的編碼，通行于中國大陸地區(qū)及新加坡，簡稱國標(biāo)碼。兩個字節(jié)中，第一個字節(jié)（高字節(jié)）的值為區(qū)號值加32（20H），第二個字節(jié)（低字節(jié)）的值為位號值加32（20H），用這兩個值來表示一個漢字的編碼。UNICODE 碼是微軟提出的解決多國字符問題的多字節(jié)等長編碼，它對英文字符采取前面加“0”字節(jié)的策略實現(xiàn)等長兼容。如 “A” 的 ASCII 碼為0x41，UNICODE 就為0x00，0x41。利用特殊的工具各種編碼之間可以互相轉(zhuǎn)換。
    Java 中文問題的初步認(rèn)識
    我們基于 Java 編程語言進(jìn)行應(yīng)用開發(fā)時，不可避免地要處理中文。Java 編程語言默認(rèn)的編碼方式是 UNICODE，而我們通常使用的數(shù)據(jù)庫及文件都是基于 GB2312 編碼的，我們經(jīng)常碰到這樣的情況：瀏覽基于 JSP 技術(shù)的網(wǎng)站看到的是亂碼，文件打開后看到的也是亂碼，被 Java 修改過的數(shù)據(jù)庫的內(nèi)容在別的場合應(yīng)用時無法繼續(xù)正確地提供信息。
    String sEnglish = “apple”;
    String sChinese = “蘋果”;
    String s = “蘋果 apple ”;
    sEnglish 的長度是5，sChinese的長度是4，而 s 默認(rèn)的長度是14。對于 sEnglish來說， Java 中的各個類都支持得非常好，肯定能夠正確顯示。但對于 sChinese 和 s 來說，雖然 Java Soft 聲明 Java 的基本類已經(jīng)考慮到對多國字符的支持（默認(rèn) UNICODE 編碼），但是如果操作系統(tǒng)的默認(rèn)編碼不是 UNICODE ，而是國標(biāo)碼等。從 Java 源代碼到得到正確的結(jié)果，要經(jīng)過 “Java 源代碼-> Java 字節(jié)碼-> ;虛擬機(jī)->操作系統(tǒng)->顯示設(shè)備”的過程。在上述過程中的每一步驟，我們都必須正確地處理漢字的編碼，才能夠使最終的顯示結(jié)果正確

Java編程技術(shù)中漢字問題的分析及解決

字號： 小 中 大

字號：小中大