# 分析
做全文搜索就需要对文档分析、建索引。从文档中提取词元(Token)的算法称为分词器(Tokenizer),在分词前预处理的算法称为字符过滤器(Character Filter),进一步处理词元的算法称为词元过滤器(Token Filter),最后得到词(Term)。这整个分析算法称为分析器(Analyzer)。
文档包含词的数量称为词频(Frequency)。搜索引擎会建立词与文档的索引,称为倒排索引(Inverted Index)。
Analyzer 按顺序做三件事:
- 使用 CharacterFilter 过滤字符
- 使用 Tokenizer 分词
- 使用 TokenFilter 过滤词
每一部分都可以指定多个组件。
剩下的没看懂,晚点在回来
//todo