Java自动判断字符编码

最近在做小说的自动推理,下面的这个东西可以自动判断文本的类型


假设,输入是你的文本的名称 file_name

------------------------

File file= new File(file_name);

String content="";

String charset = null;

        try {

            charset=new FileCharsetDetector().guessFileEncoding(file);

            if(charset.contains(","))

            {

                String[] tt=charset.split(",");

                charset=tt[0];

            }

            content=FileUtils.readfile(html_file,charset);

        }

        catch(Exception e)

        {

        ...

        }


注意有时候会输出一系列的编码,所以要用逗号分隔然后去概率最大的那个


上面的那个 FileCharsetDetector 在这里

FileCharsetDetector.java


需要的依赖包在这里

chardet.zip


很不错的东西  好像还可以检测html的编码,自己看看吧

留下您的评论

回复列表:

By王炳宁 on Jan. 17, 2017 | 类别 Java

关于本站