code 编码 *GB2312,同 gb2312-80,gb2312-1980 等编码 *GBK , 同 MS936,它是 gb2312 的扩充 及其它的编码,如韩文、日文、繁体中文等。同时,我们要注意这些编码间的兼容关体系如下: unicode 和 UTF-8 编码是一一对应的关系 GB2312 可以认为是 GBK 的子集, GBK 编码是在 gb2312 编码是一一对应的关系。 即 上扩展来的。同时,GBK 编码包含了 20902 个汉字,编码范围为:0x8140-0xfefe,所有的字符可以一一对 所有的字符可以一一对 中来。 应到 UNICODE2.0 中来 再次,对于放在操作系统中的 对于放在操作系统中的.java 源程序文件,在编译时,我们可以指定它内容的编码格式 源程序文件,在编译时,我们可以指定它内容的编码格式,具体来 对于放在操作系统中的 说用-encoding 来指定。注意:如果源程序中含有中文字符,而你用-encoding 指定为其它的编码字符,显 然是要出错的。用-encoding 指定源文件的编码方式为 GBK 或 gb2312,无论我们在什么系统上编译含有 用 , 源程序都不会有问题, 文件中。 中文字符的 JAVA 源程序都不会有问题,它都会正确地将中文转化为 UNICODE 存储在 class 文件中
然后,我们必须清楚,几乎所有的 WEB 容器在其内部默认的字符编码格式都是以 ISO-8859-1 为默认 几乎所有的 值的,同时, 的方式来传递参数的。所以,虽然我们 值的,同时,几乎所有的浏览器在传递参数时都是默认以 UTF-8 的方式来传递参数的 虽然我们 源文件在出入口的地方指定了正确的编码方式, 的 Java 源文件在出入口的地方指定了正确的编码方式,但其在容器内部运行时还是以 ISO-8859-1 来处理 的。
4. 中文问题的分类及其建议最优解决办法
了解以上 JAVA 处理文件的原理之后,我们就可以提出了一套建议最优的解决汉字问题的办法。 我们的目标是:我们在中文系统中编辑的含有中文字符串或进行中文处理的 JAVA 源程序经编译
后可 我们在中文系统中编辑的含有中文字符串或进行中文处理的 我们在中文系统中编辑的含有中文字符串或进行 以移值到任何其它的操作系统中正确运行,或拿到其它操作系统中编译后能正确