最近在做小说的自动推理,下面的这个东西可以自动判断文本的类型
假设,输入是你的文本的名称 file_name
------------------------
File file= new File(file_name);
String content="";
String charset = null;
try {
charset=new FileCharsetDetector().guessFileEncoding(file);
if(charset.contains(","))
{
String[] tt=charset.split(",");
charset=tt[0];
}
content=FileUtils.readfile(html_file,charset);
}
catch(Exception e)
{
...
}
注意有时候会输出一系列的编码,所以要用逗号分隔然后去概率最大的那个
上面的那个 FileCharsetDetector 在这里
需要的依赖包在这里
很不错的东西 好像还可以检测html的编码,自己看看吧
回复列表: