Java中文问题详解(转)_java代码-免费论文

Java中文问题详解(转)_java代码

源代码 2013-3-3　版权投诉上传论文复制论文网址上传用户：zqx121212


    作者：运气
    email: webmaster@chinaspx
    日期：2001-7-20 15:49:16
    我来说一下tomcat如何实现jsp的你就明白了。
    预备知识：
    1.字节和unicode
    java内核是unicode的，就连class文件也是，但是很多媒体，包括文件/流的保存方式
    是使用字节流的。因此java要对这些字节流经行转化。char是unicode的，而byte是字节.
    java中byte/char互转的函数在sun.io的包中间有。其中bytetocharconverter类是中调度，
    可以用来告诉你，你用的convertor。其中两个很常用的静态函数是
     public static bytetocharconverter getdefault() ;
     public static bytetocharconverter getconverter(string encoding);
    如果你不指定converter，则系统会自动使用当前的encoding,gb平台上用gbk,en平台上用
    8859_1

    我们来就一个简单的例子：
    "你"的gb码是：0xc4e3 ,unicode是0x4f60
    你用:
    --encoding="gb2312";
    --byte b[]={(byte)'\u00c4',(byte)'\u00e3'};
    --convertor=bytetocharconverter.getconverter(encoding);
    --char [] c=converter.convertall(b);
    --for(int i=0;i--{
    -- system.out.println(integer.tohexstring(c[i]));
    --}
    --打印出来是0x4f60
    --但是如果使用8859_1的编码，打印出来是
    --0x00c4,0x00e3
    ----例1
     反过来：
     --encoding="gb2312";
     char c[]={'\u4f60'};
     convertor=bytetocharconverter.getconverter(encoding);
    --byte [] b=converter.convertall(c);
    --for(int i=0;i--{
    -- system.out.println(integer.tohexstring(b[i]));
    --}
    --打印出来是：0xc4,0xe3
    ----例2
    --如果用8859_1就是0x3f，?号，表示无法转化--
     很多中文问题就是从这两个最简单的类派生出来的。而却有很多类
    不直接支持把encoding输入，这给我们带来诸多不便。很多程序难得用encoding
    了，直接用default的encoding，这就给我们移植带来了很多困难
    --
    2.utf-8
    --utf-8是和unicode一一对应的，其实现很简单
    --
     -- 7位的unicode: 0 _ _ _ _ _ _ _
    --11位的unicode: 1 1 0 _ _ _ _ _ 1 0 _ _ _ _ _ _
    --16位的unicode: 1 1 1 0 _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _
    --21位的unicode: 1 1 1 1 0 _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _
    --大多数情况是只使用到16位以下的unicode:
    --"你"的gb码是：0xc4e3 ,unicode是0x4f60
    --我们还是用上面的例子
    ----例1：0xc4e3的二进制：
    --
    -- 1 1 0 0 0 1 0 0 1 1 1 0 0 0 1 1
    ---- 由于只有两位我们按照两位的编码来排，但是我们发现这行不通，
    ---- 因为第7位不是0因此，返回"?"
    ----
    ----例2：0x4f60的二进制：
    ---- 0 1 0 0 1 1 1 1 0 1 1 0 0 0 0 0
    ---- 我们用utf-8补齐，变成：
    ---- 11100100 10111101 10100000
    ---- e4--bd-- a0
    ---- 于是返回0xe4,0xbd,0xa0
    ----
    3.string和byte[]
    --string其实核心是char[],然而要把byte转化成string，必须经过编码。
    --string.length()其实就是char数组的长度，如果使用不同的编码，很可
    --能会错分，造成散字和乱码。
    --例：
    ----byte [] b={(byte)'\u00c4',(byte)'\u00e3'};
    ----string str=new string(b,encoding);----
    ----如果encoding=8859_1，会有两个字，但是encoding=gb2312只有一个字----
    --这个问题在处理分页是经常发生
    4.reader,writer/inputstream,outputstream
    --reader和writer核心是char，inputstream和outputstream核心是byte。
    --但是reader和writer的主要目的是要把char读/写inputstream/outputstream
    --一个reader的例子：
    --文件test.txt只有一个"你"字，0xc4,0xe3--
    --string encoding=;
    --inputstreamreader reader=new inputstreamreader(
    ----new fileinputstream("text.txt"),encoding);
    --char []c=new char[10];
    --int length=reader.read(c);
    --for(int i=0;i----system.out.println(c[i]);
    --如果encoding是gb2312，则只有一个字符，如果encoding=8859_1，则有两个字符
    -------

12 3 下一页尾页
版权说明

【设为主页】【加入收藏】【打印本文】【回到顶部】【关闭此页】
- 相关文章
  
  ·基于单片机的自行车测速系统设计_(2)w
  ·魔兽外挂代码_vc代码
  ·高斯列主元消元法的VC语言代码_vc代码
  ·预编译头文件的问题解答_vc代码
  ·雕刻加工常见问题解答_vc代码
  ·雅可比、高斯消元法解方程组的VC语言代码
  ·防止ClistCtrl闪烁_vc代码
  ·问题解答资料_vc代码
  ·问题解答汇总一_vc代码
- 最新文件
　

特别推荐

免费论文,原创论文,参考论文,论文源代码-网学

Java中文问题详解(转)_java代码