elasticsearch优化配置（腾云忆想架构师教你解决Elasticsearch集群负载不均的问题）

elasticsearch优化配置（腾云忆想架构师教你解决Elasticsearch集群负载不均的问题）(1)

导读

腾讯云 Elasticsearch Service（ES）是基于开源搜索引擎 Elasticsearch 打造的高可用、可伸缩的云端全托管的 Elasticsearch 服务，包含 Kibana 及常用插件，并集成了安全、SQL、机器学习、告警、监控等高级特性（X-Pack）。本文描述在实际使用中，经常会遇到的ES集群负载不均的问题，并结合多种场景进行分析、解决，以及如何避免。

作者简介

岳涛

腾云忆想大数据产品架构师，多年分布式、高并发大数据系统的研发、系统架构设计经验，擅长主流大数据架构技术平台的落地和实施。目前专注于大数据架构相关组件的研究推广和最佳实践的沉淀，致力于帮助企业完成数字化转型。

一、背景

ES集群在某些情况下会出现CPU使用率高的现象，具体有两种表现：

1. 个别节点CPU使用率远高于其他节点；

2. 集群中所有节点CPU使用率都很高。

本篇文章我们着重讲解第一种情况。

二、问题现象

elasticsearch优化配置（腾云忆想架构师教你解决Elasticsearch集群负载不均的问题）(2)

集群在某些情况下会个别节点CPU使用率远高于其他节点的现象，从监控中可以明显看到某些节点CPU使用率居高不下。

三、原因

出现这种情况，由于表面上看集群读写都不高，导致很难快速从监控上找到根因。所以需要细心观察，从细节中找答案，下面我们介绍几种可能出现的场景以及排查思路。

原因一

Shard设置不合理

1. 登录Kibana控制台，在开发工具中执行以下命令，查看索引的shard信息，确认索引的shard在负载高的节点上呈现的数量较多，说明shard分配不均；

GET _cat/shards?v

2. 登录Kibana控制台，在开发工具中执行以下命令，查看索引信息。结合集群配置，确认存在节点shard分配不均的现象；

GET _cat/indices?v

1、解决方案

重新分配分片，合理规划shard，确保主shard数与副shard数之和是集群数据节点的整数倍；由于Shard大小和数量是影响Elasticsearch集群稳定性和性能的重要因素之一。Elasticsearch集群中任何一个索引都需要有一个合理的shard规划。合理的shard规划能够防止因业务不明确，导致分片庞大消耗Elasticsearch本身性能的问题。以下是shard规划时的几个建议：

1. 尽量遵循索引单分片20g~50g的设计原则；

2. 索引尽量增加时间后缀，按时间滚动，方便管理：

3. 在遵循单分片设计原则的前提下，预测出索引最终大小，并根据集群节点数设计索引分片数量，使分片尽量平均分布在各个节点。

特别注意

主分片不是越多越好，因为主分片越多，Elasticsearch性能开销也会越大。建议单节点shard总数按照单节点内存*30进行评估，如果shard数量太多，极易引起文件句柄耗尽，导致集群故障。

Elasticsearch在检索过程中也会检索 .del 文件，然后过滤标记有 .del 的文档，这会降低检索效率，耗费规格资源，建议在业务低峰期进行强制合并操作，具体请参见[force merge]1。

原因二

集群存在磁盘高水位节点

这里的高水位是指cluster.routing.allocation.disk.watermark.high ，其默认值为90%。这个参数的作用为：当磁盘水位达到90%的节点，es会把该节点上的部分shard迁移到磁盘水位低的节点上去。在这种场景下，很容易出现个别节点被分配了较多的索引，直接造成请求的热点。

elasticsearch优化配置（腾云忆想架构师教你解决Elasticsearch集群负载不均的问题）(3)