正在加载...

java常用工具-CharsetUtil

进行网络爬虫下载的时候,可能由于对方的网页做得不规范,使得字符集是错误的。

为了解决这个问题,我们需要对字符集进行一个简单的探测。因为主要抓取的是国内的中文和国外的英文网站。

所以,下面的代码也只能分析出这两种:

ByteBuffer 来自这

import ByteBuffer;

public class CharsetUtil
{
    public static boolean isUtf8(ByteBuffer content)
    {
        double len = (double) content.getUsed();
        byte[] bb = content.array();
        double number = 0D;
        for (int i = 0; i < len; i++)
        {
            if (isUtf8(bb[i]))
                number++;
        }

        if (number / 99 * 100 >= len)
            return true;

        return false;
    }

    public static boolean isUtf8(byte b)
    {
        if ((b & 0x80) == 0)
            return true;
        if ((b & 0xc0) == 0x80)
            return true;
        if ((b & 0xe0) == 0xc0)
            return true;
        if ((b & 0xf0) == 0xe0)
            return true;
        return false;
    }
}