中文分词封装-TokenizerUtil

    Hutool针对常见中文分词库做了统一接口封装,既定义一套规范,隔离各个库的差异,做到一段代码,随意更换。

    Hutool现在封装的引擎有:

    类似于Java日志门面的思想,Hutool将分词引擎的渲染抽象为三个概念:

    • TokenizerEngine 分词引擎,用于封装分词库对象
    • Result 分词结果接口定义,用于抽象对文本分词的结果,实现了Iterator和Iterable接口,用于遍历分词

    Hutool同时会通过根据用户引入的分词库的jar来自动选择用哪个库实现分词

    也就是说,使用Hutool之后,无论你用任何一种分词库,代码不变。

    自定义模板引擎

    此处以HanLP为例:

    1. TokenizerEngine engine = new HanLPEngine();
    2. //解析文本
    3. Result result = engine.parse(text);
    4. String resultStr = CollUtil.join((Iterator<Word>)result, " ");