中文分词封装-TokenizerUtil
Hutool针对常见中文分词库做了统一接口封装,既定义一套规范,隔离各个库的差异,做到一段代码,随意更换。
Hutool现在封装的引擎有:
类似于Java日志门面的思想,Hutool将分词引擎的渲染抽象为三个概念:
- TokenizerEngine 分词引擎,用于封装分词库对象
- Result 分词结果接口定义,用于抽象对文本分词的结果,实现了Iterator和Iterable接口,用于遍历分词
Hutool同时会通过根据用户引入的分词库的jar来自动选择用哪个库实现分词。
也就是说,使用Hutool之后,无论你用任何一种分词库,代码不变。
自定义模板引擎
此处以HanLP为例:
TokenizerEngine engine = new HanLPEngine();
//解析文本
Result result = engine.parse(text);
String resultStr = CollUtil.join((Iterator<Word>)result, " ");