Java中文问题详解(高手必读)

Java中文问题详解(高手必读)_java代码

源代码 2013-3-3　版权投诉上传论文复制论文网址上传用户：liujian


    我来说一下tomcat如何实现JSP的你就明白了。
    预备知识：
    1.字节和unicode
    Java内核是unicode的，就连class文件也是，但是很多媒体，包括文件/流的保存方式
    是使用字节流的。因此Java要对这些字节流经行转化。char是unicode的，而byte是字节.
    Java中byte/char互转的函数在sun.io的包中间有。其中ByteToCharConverter类是中调度，
    可以用来告诉你，你用的Convertor。其中两个很常用的静态函数是
     public static ByteToCharConverter getDefault() ;
     public static ByteToCharConverter getConverter(String encoding);
    如果你不指定converter，则系统会自动使用当前的Encoding,GB平台上用GBK,EN平台上用
    8859_1

    我们来就一个简单的例子：
    "你"的gb码是：0xC4E3 ,unicode是0x4F60
    你用:
    --encoding="gb2312";
    --byte b[]={(byte)'\u00c4',(byte)'\u00E3'};
    --convertor=ByteToCharConverter.getConverter(encoding);
    --char [] c=converter.convertAll(b);
    --for(int i=0;i    --{
    -- System.out.println(Integer.toHexString(c[i]));
    --}
    --打印出来是0x4F60
    --但是如果使用8859_1的编码，打印出来是
    --0x00C4,0x00E3
    ----例1
     反过来：
     --encoding="gb2312";
     char c[]={'\u4F60'};
     convertor=ByteToCharConverter.getConverter(encoding);
    --byte [] b=converter.convertAll(c);
    --for(int i=0;i    --{
    -- System.out.println(Integer.toHexString(b[i]));
    --}
    --打印出来是：0xC4,0xE3
    ----例2
    --如果用8859_1就是0x3F，?号，表示无法转化--
     很多中文问题就是从这两个最简单的类派生出来的。而却有很多类
    不直接支持把Encoding输入，这给我们带来诸多不便。很多程序难得用encoding
    了，直接用default的encoding，这就给我们移植带来了很多困难
    --
    2.UTF-8
    --UTF-8是和Unicode一一对应的，其实现很简单
    --
     -- 7位的Unicode: 0 _ _ _ _ _ _ _
    --11位的Unicode: 1 1 0 _ _ _ _ _ 1 0 _ _ _ _ _ _
    --16位的Unicode: 1 1 1 0 _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _
    --21位的Unicode: 1 1 1 1 0 _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _
    --大多数情况是只使用到16位以下的Unicode:
    --"你"的gb码是：0xC4E3 ,unicode是0x4F60
    --我们还是用上面的例子
    ----例1：0xC4E3的二进制：
    ---- 1 1 0 0 0 1 0 0 1 1 1 0 0 0 1 1
    ---- 由于只有两位
    我们按照两位的编码来排，但是我们发现这行不通，
    ---- 因为第7位不是0因此，返回"?"
    ----
    ----例2：0x4F60的二进制：
    ---- 0 1 0 0 1 1 1 1 0 1 1 0 0 0 0 0
    ---- 我们用UTF-8补齐，变成：
    ---- 11100100 10111101 10100000
    ---- E4--BD-- A0
    ---- 于是返回0xE4,0xBD,0xA0
    ----
    3.String和byte[]
    --String其实核心是char[],然而要把byte转化成String，必须经过编码。
    --String.length()其实就是char数组的长度，如果使用不同的编码，很可
    --能会错分，造成散字和乱码。
    --例：
    ----byte [] b={(byte)'\u00c4',(byte)'\u00e3'};
    ----String str=new String(b,encoding);----
    ----如果encoding=8859_1，会有两个字，但是encoding=gb2312只有一个字----
    --这个问题在处理分页是经常发生
    4.Reader,Writer/InputStream,OutputStream
    --Reader和Writer核心是char，InputStream和OutputStream核心是byte。
    --但是Reader和Writer的主要目的是要把Char读/写InputStream/OutputStream
    --一个reader的例子：
    --文件test.txt只有一个"你"字，0xC4,0xE3--
    --String encoding=;
    --InputStreamReader reader=new InputStreamReader(
    ----new FileInputStream("text.txt"),encoding);
    --char []c=new char[10];
    --int length=reader.read(c);
    --for(int i=0;i    ----System.out.println(c[i]);
    --如果encoding是gb2312，则只有一个字符，如果encoding=8859_1，则有两个字符
    --------
    --
    --

     ----
    2.我们要对Java的编译器有所了解：
    --javac -encoding

12 下一页尾页
版权说明

【设为主页】【加入收藏】【打印本文】【回到顶部】【关闭此页】
- 相关文章
  
  ·基于单片机的自行车测速系统设计_(2)w
  ·魔兽外挂代码_vc代码
  ·高斯列主元消元法的VC语言代码_vc代码
  ·预编译头文件的问题解答_vc代码
  ·雕刻加工常见问题解答_vc代码
  ·雅可比、高斯消元法解方程组的VC语言代码
  ·防止ClistCtrl闪烁_vc代码
  ·问题解答资料_vc代码
  ·问题解答汇总一_vc代码
- 最新文件
　

特别推荐

免费论文,原创论文,参考论文,论文源代码-网学

Java中文问题详解(高手必读)_java代码