分词
直接指定 Analyzer
GET
_analyze
standard
默认分词器,按词切分,大写转小写,停用词默认关闭
|
|
|
|
停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词。如 in ,the 等
simple
按非字母切分,且非字母都被去除
小写处理
|
|
|
|
stop
启用停用词的 simple
会把 the , a , is 等修饰性词曲去除
|
|
|
|
相比 simple 分词器少了 2 , in , the 等停用词
whitespace
按照空格进行切分,不转换大小写,不删除 - 等连接符
|
|
keyword
不分词,直接将输入当一个term输出
|
|
pattern
通过正则表达式进行分词
默认是 \W+ , 非字符的符号进行分隔
|
|
国家语言
|
|
|
|
running 分词后变成了 run , foxes -> fox , enening -> even
指定索引字段进行测试
POST
blogs/_analyze
|
|
|
|
自定义分词器
POSt
_analyze
|
|
|
|