Java常用字符集编码详解
Java常用字符集编码详解
Web开发的时候经常会遇到一些字符编码的错误,如页面乱码等问题,所以有必要需对字符编码有所了解,以下是Ricki收集的一些资料(可能不是很全,但希望对你有所帮助)
Java标准字符集:所谓Java标准字符集,就是Java平台支持的字符集:US-ASCII、ISO-8859-1、UTF-8、UTF-16BE、UTF-16LE、UTF-16。
US-ASCII
US-ASCII,这是一个出现得比较早的字符编码规范;因为它出现比较早,在通用型方面也考虑得比较少,所以也比较简单。一个ASCII字符用一个字节存储,也就是说它可以用来表示256个不同的字符。由于英文大小写字母、阿拉伯数字和标点符号等字符是有限的,所以就把前128个字符作为常用字符,而剩下的高位字符作为扩展字符。这128个字符通常用来表示音标、特殊字符等。
ISO-8859-1
ISO-8859-1也常被称为Latin_1(拉丁1)字符集,像MySQL的默认字符集就是ISO-8859-1,其他它与ASCII编码类似,也是用一个字节表示一个字符,也只用于表示英文字符、数字、符号及特殊字符。它与ASCII唯一的不同在于它是一个国际标准,而ASCII只是一个美国国家标准。
中文字符集
通过对上面两种字符集的了解,如果想用它们来表示中文字符集,显然有些不太现实,因为常用的中文字符都有上千个之多,所以我们需要能表示更多字符的字符集实现中文字符编码。但又为了兼容ASCII编码,中国在ASCII的基础上制定了自己的字符编码规范,也就是我们比较熟悉的GB2312,它的全称是GB2312-80信息交换用汉字编码字符集(基础集)。它能定义了7000多个常用汉字和符号,GB2312的实现是通过使用两个扩展ASCII字符来定义一个中文字符,根据这一特定,我们就可以判断相邻的两个ASCII字符是否为扩展字符,我们就可以确认这两个字符组成一个中文字符,但是在扩展ASCII字符中,也定义了一些其他字符,所以相邻两个ASCII同为扩展字符时,并不能肯定的说它是一个中文字符,处理起来是相当麻烦的。
除了GB2312这个字符集以外,还有几个中文的字符集:Big5、HKSCS、GBK、GB18030。
——> &
相关文档:
import java.util.Date;
class Dog{
private String name;
private Date birthday;
public String getName() {
return name;
}
public void setName(String name) {
this.name = name;
}
public Date getBirthday() {
return b ......
1首先添加修改图片宽度和高度的方法
public static void reduceImg(String imgsrc, int widthdist, int heightdist) {
try {
File srcfile = new File(imgsrc);
if (!srcfile.exists()) {
return;
}
......
《Java程序通过weka调用libsvm的方法》一文阐述了调用LibSVM的简单方法,这里主要补充四点:
1. LibSVM在weka3.5版以后都集成了包装,无须再使用WLSVM,所以上文中的WLSVM相关的内容可以去除,而类型WLSVM可以换成LibSVM,需要添加包
import weka.classifiers.functions.LibSVM;
无 ......
JAVA_HOME:
C:\Java\jdk1.6.0_17
Path:
%JAVA_HOME%\bin
ClassPath:
.;%JAVA_HOME%\lib\tools.jar;%JAVA_HOME%\lib\dt.jar
我们需要设置三个环境变量:JAVA_HOME、PATH 和 CLASSPATH。
JAVA_HOME:该环境变量的值就是 Java 所在的目录,一些 Java 版的软件和一
些 Java 的工具需要用到该变量,设置 PATH 和 CLASSP ......