之前使用的一个老系统使用了elasticsearch7.x版本,之后又反应es版本存在各种漏洞
无奈只能做版本升级来解决问题,计划是将版本升级到8.x,在网上了解了下两个版本的区别,主要包括以下变化:
那么在基于spring-boot的开发时,我们大概需要做些对应的调整了,要包括以下几点:
借着这个机会,重温下es相关的知识……
PUT localhost:9200/index_novel
{
"settings": {
"index": {
"number_of_shards": 1,
"number_of_replicas": 1
}
},
"mappings": {
"properties": {
"title": {
"type": "text",
"fields": {
"keyword": { "ignore_above": 256, "type": "keyword" }
}
},
"author": { "type": "keyword" },
"category": { "type": "keyword" },
"type": { "type": "keyword" },
"description": { "analyzer": "ik_max_word", "type": "text" },
"content": { "analyzer": "ik_max_word", "type": "text" },
"coverUrl": { "type": "text" },
"insertTime": { "format": "date_time", "type": "date" },
"updateTime": { "format": "date_time", "type": "date" },
"status": { "type": "keyword" }
}
}
}
@Data
@Document(indexName = "index_novel")
public class Novel {
}
public interface NovelDao extends ElasticsearchDao< Novel, String > { }
@EnableElasticsearchRepositories
4主要实现在SimpleElasticsearchRepository中:
public SimpleElasticsearchRepository(ElasticsearchEntityInformation< T, ID > metadata,
ElasticsearchOperations operations) {
this.operations = operations;
Assert.notNull(metadata, "ElasticsearchEntityInformation must not be null!");
this.entityInformation = metadata;
this.entityClass = this.entityInformation.getJavaType();
this.indexOperations = operations.indexOps(this.entityClass);
if (shouldCreateIndexAndMapping() && !indexOperations.exists()) {
indexOperations.createWithMapping();
}
}
Elasticsearch 支持多种字段类型,每种类型都有其独特的作用和功能。其中常见的字段类型包括:
Es中的text类型是一种用于处理长文本的数据类型,适合于全文搜索和分析。当将文本字段映射为text类型时,文本会被分析器分词处理成一个个单词, 然后被存储在倒排索引中,以便后续进行全文搜索。text类型支持多种分析器和过滤器,可以对不同的文本进行不同的分词处理,以达到最佳的搜索效果。此外, text类型还支持词项位置信息和偏移量信息的存储,以便进行精确的搜索和高亮显示。
ES把keyword类型的值作为一整体存在倒排索引中,不进行分词。 keyword适合存结构化数据,如性别、手机号、数据状态、标签HttpCode(404,200,500)等。 字段常用来精确查询、过滤、排序、聚合时,应设为keyword,而不是数值型。 如果某个字段你经常用来做range查询, 你还是设置为数值型(integer,long),ES对数字的range有优化。 还可以把字段设为multi-field,这样又有keyword类型又有数值类型,方便多种方式的使用。 最长支持32766个UTF-8类型的字符,但放入倒排索引时,只截取前一段字符串,长度由ignore_above参数决定,默认"ignore_above" : 256。
在spring中,支持一种auto的数据类型,通过在字段上添加注解实现@Field(type = FieldType.Auto),Auto申明的类型除了生成一个text类型字段外,还会多一个.keyword的keyword类型的字段。
@Field(type = FieldType.Auto)
private String title;
上面对应的mapping:
{
"title": {
"type": "text",
"fields": {
"keyword": {
"ignore_above": 256,
"type": "keyword"
}
}
}
}
fields可以让同一文本有多种不同的索引方式,比如上面text类型的字段title,可以使用text类型做全文检索,使用keyword类型做聚合和排序。
通过这种方式,可以实现一个字段运用于不同的场景。要知道字段类型的使用场景是受限的。在mapping中通过添加fields的扩展字段, 让一个字段拥有多个子字段类型,使得一个字段能够被多个不同的索引方式进行索引。
以下是 Elasticsearch 中所有的查询类型:
Match Query:用于匹配文本类型字段中的文本。
Multi-match Query:用于在多个字段中匹配文本类型字段中的文本。
Term Query:用于匹配非文本类型字段(如数字、布尔值等)中的确切值。
Terms Query:用于匹配非文本类型字段(如数字、布尔值等)中的多个确切值。
Range Query:用于匹配数字、日期等范围内的值。
Exists Query:用于匹配指定字段是否存在值。
Prefix Query:用于匹配以指定前缀开头的文本。
Wildcard Query:用于匹配包含通配符的文本。
Regexp Query:用于使用正则表达式匹配文本。
Fuzzy Query:用于匹配类似但不完全匹配的文本。
Type Query:用于匹配指定类型的文档。
Ids Query:用于根据指定的文档 ID 匹配文档。
Bool Query:用于组合多个查询条件,支持AND、OR、NOT等逻辑操作。
Boosting Query:用于根据指定的查询条件调整文档的权重。
Constant Score Query:用于为所有匹配的文档分配相同的分数。
Function Score Query:用于根据指定的函数为匹配的文档分配自定义分数。
Dis Max Query:用于在多个查询条件中选择最佳匹配的文档。
More Like This Query:用于根据文档内容查找相似的文档。
Nested Query:用于在嵌套对象中查询。
Geo Distance Query:用于查询地理坐标范围内的地点。
Span Term Query:用于匹配指定的单个术语。
Span Multi Term Query:用于匹配指定的多个术语。
Span First Query:用于匹配文档中的首个匹配项。
Span Near Query:用于匹配多个术语之间的近似距离。
Span Or Query:用于匹配任何指定的术语。
Span Not Query:用于匹配不包含指定术语的文档。
Script Query:用于根据指定的脚本匹配文档。
下面看下一些常用的简单查询,后面的复合查询以及聚合查询都是基于这些简单查询来组合嵌套来实现。
URL : POST localhost:9200/index_novel/_search
根据关键字对某个字段进行检索,当然传入的参数会先进行分词,然后进行匹配
{
"_source": ["title","author","type","category","description","status","updateTime"],
"query": {
"match": {
"title": {
"query": "天下",
"minimum_should_match": "30%"
}
}
}
}
词项匹配(查询分词的词项必须完全匹配到索引分词的词项中,并且词项的相对位置position必须一致),分词后的相对位置也必须要精准匹配(slop)
{
"_source": ["title","author","type","category","description","status","updateTime"],
"query": {
"match_phrase": {
"title" : {"query": "天下", "slop": "1"}
}
}
}
根据词条完全匹配,也就是精确查询,搜索前不会对搜索词进行分词解析,直接对搜索词进行查找;
{
"_source": ["title","author","type","category","description","status","updateTime"],
"query": {
"term": { "author": "泪冠哀歌" }
}
}
query和filter两种不同的Context
bool一共支持4中查询,每一种子查询都可以嵌套多个简单查询
{
"query":{
"bool":{
"filter":{
"term":{ "title":"遮天" }
},
"should":[
{
"match": { "title":"遮天" }
}
],
"must":[
{
"match":{ "title":"遮天" }
}
]
}
}
}
查询返回的相似度分与字段上指定boost参数值相同的数据
{
"_source": ["title","author","type","category","description","status","updateTime"],
"query": {
"constant_score": {
"filter": {
"term": {
"description": "天下"
}
},
"boost": 1
}
}
}
最大析取(disjunction max) 返回的文档必须要满足多个查询子句中的一项条件; 若一个文档能匹配多个查询子句时,则dis_max查询将为能匹配上查询子句条件的项增加额外分,即针对多个子句文档有一项满足就针对满足的那一项分配更高分, 这也能打破在多个文档都匹配某一个或多个条件时分数相同的情况;
{
"_source": ["title","author","type","category","description","status","updateTime"],
"query": {
"dis_max": {
"tie_breaker": 0.7,
"queries": [
{
"term": {
"description": "天下"
}
}
]
}
}
}
聚合(aggregations)可以让我们极其方便的实现对数据的统计、分析、运算。例如:
语法:
{
"aggs": {
"自定义聚合名称": {
"聚合类型": {
"聚合参数": "参数值"
}
}
}
}
和关系型数据库一样,对关键属性进行升序或降序返回数据。但是要注意,字段不能是text类型
{
"sort": {
"insertTime": { "order": "desc" }
}
}
我们可能有这样的需求,在检索结果中,将检索关键词进行高亮展示,就像百度搜索的结果,标题和描述中都标记为红色了,elasticsearch同样支持这样的查询, 返回的高亮内容主要是通过`'元素包裹,当然可以通过配置修改。需要注意的是,设置的高亮字段需要和检索字段匹配。
{
"highlight": {
"pre_tags": [
""
],
"post_tags": [
""
],
"fields": {
"description": {
"fragment_size": 100,
"number_of_fragments": 5
}
}
}
}
Elasticsearch与SpringBoot的集成非常简单:
< dependency >
< groupId >org.springframework.boot< /groupId >
< artifactId >spring-boot-starter-web< /artifactId >
< /dependency >
< dependency >
< groupId >org.springframework.boot< /groupId >
< artifactId >spring-boot-starter-data-elasticsearch< /artifactId >
< /dependency >
@Data
@Document(indexName = "index_novel")
public class Novel {
// 省略 ...
@Field(type = FieldType.Auto)
private String title;
@Field(type = FieldType.Keyword)
private String author;
@Field(type = FieldType.Keyword)
private String type;
@Field(type = FieldType.Text, analyzer = "ik_max_word")
private String description;
@Field(type = FieldType.Text, analyzer = "ik_max_word")
private String content;
// 省略...
}
public interface ElasticsearchDao< T, ID > extends ElasticsearchRepository< T, ID >{
}
public class BaseElasticsearchRepository< T,ID > extends SimpleElasticsearchRepository< T,ID > implements ElasticsearchDao< T,ID >{
private ElasticsearchEntityInformation entityInformation;
private ElasticsearchOperations elasticsearchOperations;
public BaseElasticsearchRepository(ElasticsearchEntityInformation metadata, ElasticsearchOperations operations) {
super(metadata, operations);
this.entityInformation = metadata;
this.elasticsearchOperations = operations;
}
}
public interface NovelDao extends ElasticsearchDao< Novel, String > {
}
@SpringBootApplication
@EnableElasticsearchRepositories(basePackages = "com.sucl.springbootelasticsearch8.dao", repositoryBaseClass = BaseElasticsearchRepository.class)
public class SpringbootElasticsearch8Application {
public static void main(String[] args) {
SpringApplication.run(SpringbootElasticsearch8Application.class, args);
}
}
@Service
public class NovelService {
private NovelDao novelDao;
public NovelService(NovelDao novelDao) {
this.novelDao = novelDao;
}
}
基于SpringBoot对Elasticsearch的继承整体比较简单,由于ES的查询种类非常多,在Spring中提供了与DSL QUERY对应的API可以使用,只不过没法通过通用的SimpleElasticsearchRepository中实现。
现在基于ES8做了一个简单的示例,主要包括以下功能:
略
@Service
public class NovelService {
private NovelDao novelDao;
public NovelService(NovelDao novelDao) {
this.novelDao = novelDao;
}
/**
* 批量保存
* @param novels
* @return
*/
public List< Novel > saveNovels(List< Novel > novels) {
List< Novel > savedNovels = new ArrayList< >();
novels.forEach(this::configureNovel);
novelDao.saveAll(novels).forEach(savedNovels::add);
return savedNovels;
}
/**
* 根据关键字在指定字段值检索
* @param keyword
* @param fields
* @return
*/
public List< Novel > searchNovels(String keyword, String[] fields) {
DslQuery dslQuery = DslQuery.of(DslQuery.Type.MULTI_MATCH, String.join(",",fields), keyword);
return novelDao.commonQuery(dslQuery, null);
}
/**
* 根据主键查询单条数据,按指定字段查找相似数据
* @param novel
* @param fields
* @param pageable
* @return
*/
public Page< Novel > getPageSimilarNovel(Novel novel, String[] fields, Pager pager) {
return novelDao.searchSimilar(novel, fields, PageRequest.of(pager.getPageIndex(), pager.getPageSize()));
}
}
示例内容涉及到Elasticsearch DSL QUERY组装过程以及上面说到的SimpleElasticsearchRepository不足以支撑业务查询时的一些扩展方法。 示例使用了起点小说网站加载小说数据,其他网站实现思路一样。由于篇幅原因,具体代码实现可以参考:
https://github.com/sucls/springboot-elasticsearch-8
Elasticsearch版本有7.x升级到8.x时,不仅仅是客户端的变更,运行环境也有较大的改变,Spring版本也做了大版本升级。最后在项目里仅仅是修改了客户端用来匹配与es服务交互时,保证请求响应的过程没有问题。
全部0条评论
快来发表一下你的评论吧 !