Redis集群部署配置详解

马哥Linux运维 2025-07-17 662

描述

Redis集群架构原理

集群模式概述

Redis集群是一种分布式Redis解决方案，通过数据分片和主从复制实现高可用性和横向扩展。集群将整个数据集分割成16384个哈希槽（hash slots），每个节点负责一部分槽位。

集群拓扑结构

集群节点分布示例：
Master-1 (0-5460)     Master-2 (5461-10922)    Master-3 (10923-16383)
    |                       |                        |
Slave-1              Slave-2                  Slave-3

数据分片原理

Redis使用CRC16算法对键进行哈希运算，然后对16384取模，确定键应该存储在哪个槽位：

HASH_SLOT = CRC16(key) mod 16384

故障检测与转移

集群使用Gossip协议进行节点间通信，当主节点宕机时，其从节点会自动升级为主节点，保证集群的高可用性。

Redis集群部署配置

环境准备

系统要求

• Linux发行版：CentOS 7+、Ubuntu 18.04+

• Redis版本：5.0+（推荐6.2+）

• 最小内存：每节点2GB+

• 网络：节点间网络延迟<1ms

服务器规划

# 6节点集群规划（3主3从）
192.168.1.10:7000  # Master-1
192.168.1.11:7000  # Slave-1
192.168.1.12:7000  # Master-2
192.168.1.13:7000  # Slave-2
192.168.1.14:7000  # Master-3
192.168.1.15:7000  # Slave-3

系统优化配置

内核参数调优

# /etc/sysctl.conf
vm.overcommit_memory = 1
net.core.somaxconn = 65535
net.ipv4.tcp_max_syn_backlog = 65535
vm.swappiness = 0

系统限制配置

# /etc/security/limits.conf
redis soft nofile 65535
redis hard nofile 65535
redis soft nproc 65535
redis hard nproc 65535

透明大页禁用

echo never > /sys/kernel/mm/transparent_hugepage/enabled
echo never > /sys/kernel/mm/transparent_hugepage/defrag

# 永久生效
echo 'echo never > /sys/kernel/mm/transparent_hugepage/enabled' >> /etc/rc.local
echo 'echo never > /sys/kernel/mm/transparent_hugepage/defrag' >> /etc/rc.local

Redis安装与配置

编译安装Redis

# 安装依赖
yum install -y gcc gcc-c++ make

# 下载源码
wget http://download.redis.io/releases/redis-6.2.7.tar.gz
tar xzf redis-6.2.7.tar.gz
cd redis-6.2.7

# 编译安装
make PREFIX=/usr/local/redis install

# 创建用户和目录
useradd -r -s /bin/false redis
mkdir -p /usr/local/redis/{conf,data,logs}
chown -R redis:redis /usr/local/redis

集群配置文件

# /usr/local/redis/conf/redis-7000.conf
# 基础配置
bind 0.0.0.0
port 7000
daemonize yes
pidfile /var/run/redis_7000.pid
logfile /usr/local/redis/logs/redis-7000.log
dir /usr/local/redis/data

# 集群配置
cluster-enabled yes
cluster-config-file nodes-7000.conf
cluster-node-timeout 15000
cluster-announce-ip 192.168.1.10
cluster-announce-port 7000
cluster-announce-bus-port 17000

# 内存配置
maxmemory 2gb
maxmemory-policy allkeys-lru

# 持久化配置
save 900 1
save 300 10
save 60 10000
appendonly yes
appendfilename "appendonly-7000.aof"
appendfsync everysec
auto-aof-rewrite-percentage 100
auto-aof-rewrite-min-size 64mb

# 安全配置
requirepass "your_redis_password"
masterauth "your_redis_password"

# 网络配置
tcp-keepalive 60
timeout 300
tcp-backlog 511

启动脚本配置

# /etc/systemd/system/redis-7000.service
[Unit]
Description=Redis In-Memory Data Store (Port 7000)
After=network.target

[Service]
User=redis
Group=redis
ExecStart=/usr/local/redis/bin/redis-server /usr/local/redis/conf/redis-7000.conf
ExecStop=/usr/local/redis/bin/redis-cli -p 7000 shutdown
Restart=always

[Install]
WantedBy=multi-user.target

集群初始化

启动所有节点

# 在所有节点上启动Redis
systemctl start redis-7000
systemctl enable redis-7000

# 验证启动状态
systemctl status redis-7000

创建集群

# 使用redis-cli创建集群
/usr/local/redis/bin/redis-cli --cluster create 
192.168.1.10:7000 192.168.1.11:7000 192.168.1.12:7000 
192.168.1.13:7000 192.168.1.14:7000 192.168.1.15:7000 
--cluster-replicas 1 -a your_redis_password

# 或使用redis-trib.rb（Redis 5.0之前）
./redis-trib.rb create --replicas 1 
192.168.1.10:7000 192.168.1.11:7000 192.168.1.12:7000 
192.168.1.13:7000 192.168.1.14:7000 192.168.1.15:7000

验证集群状态

# 检查集群信息
redis-cli -c -h 192.168.1.10 -p 7000 -a your_redis_password cluster info
redis-cli -c -h 192.168.1.10 -p 7000 -a your_redis_password cluster nodes

企业级配置管理

配置模板化管理

Ansible配置管理

# redis-cluster-playbook.yml
---
-hosts:redis_cluster
become:yes
vars:
    redis_port:7000
    redis_password:"{{ vault_redis_password }}"
    redis_maxmemory:"{{ ansible_memtotal_mb // 2 }}mb"
    
tasks:
    -name:InstallRedisdependencies
      yum:
        name:"{{ item }}"
        state:present
      loop:
        -gcc
        -gcc-c++
        -make
        
    -name:CreateRedisuser
      user:
        name:redis
        system:yes
        shell:/bin/false
        
    -name:CreateRedisdirectories
      file:
        path:"{{ item }}"
        state:directory
        owner:redis
        group:redis
        mode:'0755'
      loop:
        -/usr/local/redis/conf
        -/usr/local/redis/data
        -/usr/local/redis/logs
        
    -name:DeployRedisconfiguration
      template:
        src:redis.conf.j2
        dest:/usr/local/redis/conf/redis-{{redis_port}}.conf
        owner:redis
        group:redis
        mode:'0640'
      notify:restartredis
      
    -name:Deploysystemdservice
      template:
        src:redis.service.j2
        dest:/etc/systemd/system/redis-{{redis_port}}.service
      notify:reloadsystemd
      
handlers:
    -name:reloadsystemd
      systemd:
        daemon_reload:yes
        
    -name:restartredis
      systemd:
        name:redis-{{redis_port}}
        state: restarted

配置模板

# templates/redis.conf.j2
bind 0.0.0.0
port {{ redis_port }}
daemonize yes
pidfile /var/run/redis_{{ redis_port }}.pid
logfile /usr/local/redis/logs/redis-{{ redis_port }}.log
dir /usr/local/redis/data

# 集群配置
cluster-enabled yes
cluster-config-file nodes-{{ redis_port }}.conf
cluster-node-timeout 15000
cluster-announce-ip {{ ansible_default_ipv4.address }}
cluster-announce-port {{ redis_port }}
cluster-announce-bus-port {{ redis_port | int + 10000 }}

# 内存配置
maxmemory {{ redis_maxmemory }}
maxmemory-policy allkeys-lru

# 持久化配置
save 900 1
save 300 10
save 60 10000
appendonly yes
appendfilename "appendonly-{{ redis_port }}.aof"
appendfsync everysec

# 安全配置
requirepass "{{ redis_password }}"
masterauth "{{ redis_password }}"

# 网络配置
tcp-keepalive 60
timeout 300
tcp-backlog 511

配置版本控制

Git配置管理

# 初始化配置仓库
mkdir /opt/redis-config
cd /opt/redis-config
git init

# 目录结构
mkdir -p {environments/{dev,test,prod},templates,scripts,monitoring}

# 环境配置文件
# environments/prod/group_vars/all.yml
redis_cluster_nodes:
  - host: 192.168.1.10
    port: 7000
    role: master
  - host: 192.168.1.11
    port: 7000
    role: slave

配置变更管理

# 配置变更脚本
#!/bin/bash
# scripts/deploy-config.sh

ENVIRONMENT=$1
CONFIG_VERSION=$2

if [ -z "$ENVIRONMENT" ] || [ -z "$CONFIG_VERSION" ]; then
    echo"Usage: $0  "
    exit 1
fi

# 备份当前配置
ansible-playbook -i environments/$ENVIRONMENT/hosts 
    playbooks/backup-config.yml

# 部署新配置
ansible-playbook -i environments/$ENVIRONMENT/hosts 
    playbooks/deploy-config.yml 
    --extra-vars "config_version=$CONFIG_VERSION"

# 验证配置
ansible-playbook -i environments/$ENVIRONMENT/hosts 
    playbooks/verify-config.yml

配置参数优化

内存配置优化

# 根据服务器内存动态调整
TOTAL_MEM=$(free -m | grep Mem | awk '{print $2}')
REDIS_MEM=$((TOTAL_MEM * 70 / 100))

# 在配置文件中设置
maxmemory ${REDIS_MEM}mb
maxmemory-policy allkeys-lru

# 设置内存过期策略
# volatile-lru: 在设置了过期时间的键中使用LRU
# allkeys-lru: 在所有键中使用LRU
# volatile-random: 在设置了过期时间的键中随机删除
# allkeys-random: 在所有键中随机删除
# volatile-ttl: 删除即将过期的键
# noeviction: 不删除键，返回错误

网络配置优化

# 连接配置
timeout 300
tcp-keepalive 60
tcp-backlog 511

# 客户端连接限制
maxclients 10000

# 输出缓冲区配置
client-output-buffer-limit normal 0 0 0
client-output-buffer-limit replica 256mb 64mb 60
client-output-buffer-limit pubsub 32mb 8mb 60

持久化配置优化

# RDB配置
save 900 1
save 300 10
save 60 10000
stop-writes-on-bgsave-error yes
rdbcompression yes
rdbchecksum yes

# AOF配置
appendonly yes
appendfilename "appendonly.aof"
appendfsync everysec
no-appendfsync-on-rewrite no
auto-aof-rewrite-percentage 100
auto-aof-rewrite-min-size 64mb
aof-load-truncated yes

日志管理与监控

日志配置与分类

日志级别配置

# Redis日志级别
# debug: 大量信息，适用于开发/测试
# verbose: 包含很多不太有用的信息
# notice: 适度冗长，适用于生产环境
# warning: 只记录重要/关键信息

loglevel notice
logfile /usr/local/redis/logs/redis-7000.log
syslog-enabled yes
syslog-ident redis-7000
syslog-facility local0

日志轮转配置

# /etc/logrotate.d/redis
/usr/local/redis/logs/*.log {
    daily
    missingok
    rotate 30
    compress
    delaycompress
    notifempty
    create 640 redis redis
    postrotate
        /bin/kill -USR1 `cat /var/run/redis_7000.pid 2>/dev/null` 2>/dev/null || true
    endscript
}

监控指标收集

Prometheus监控配置

# prometheus.yml
global:
scrape_interval:15s

scrape_configs:
-job_name:'redis-cluster'
    static_configs:
      -targets: ['192.168.1.10:9121', '192.168.1.11:9121', '192.168.1.12:9121']
    scrape_interval:10s
    metrics_path: /metrics

Redis Exporter部署

# 下载Redis Exporter
wget https://github.com/oliver006/redis_exporter/releases/download/v1.45.0/redis_exporter-v1.45.0.linux-amd64.tar.gz
tar xzf redis_exporter-v1.45.0.linux-amd64.tar.gz
cp redis_exporter /usr/local/bin/

# 创建systemd服务
cat > /etc/systemd/system/redis-exporter.service << 'EOF'
[Unit]
Description=Redis Exporter
After=network.target

[Service]
Type=simple
User=redis
ExecStart=/usr/local/bin/redis_exporter 
  -redis.addr=redis://localhost:7000 
  -redis.password=your_redis_password
Restart=always

[Install]
WantedBy=multi-user.target
EOF

systemctl start redis-exporter
systemctl enable redis-exporter

关键监控指标

# 内存使用监控
redis_memory_used_bytes
redis_memory_max_bytes
redis_memory_used_rss_bytes

# 连接数监控
redis_connected_clients
redis_blocked_clients
redis_rejected_connections_total

# 命令统计
redis_commands_processed_total
redis_commands_duration_seconds_total

# 集群状态监控
redis_cluster_enabled
redis_cluster_nodes
redis_cluster_slots_assigned
redis_cluster_slots_ok
redis_cluster_slots_pfail
redis_cluster_slots_fail

# 复制监控
redis_replication_backlog_bytes
redis_replica_lag_seconds
redis_master_repl_offset

日志分析与告警

ELK Stack集成

# filebeat.yml
filebeat.inputs:
-type:log
enabled:true
paths:
    -/usr/local/redis/logs/*.log
fields:
    service:redis
    environment:production
fields_under_root:true

output.logstash:
hosts: ["logstash:5044"]

processors:
-add_host_metadata:
    when.not.contains.tags: forwarded

Logstash配置

# logstash-redis.conf
input {
  beats {
    port => 5044
  }
}

filter {
if [service] == "redis" {
    grok {
      match => { 
        "message" => "%{POSINT:pid}:%{CHAR:role} %{GREEDYDATA:timestamp} %{LOGLEVEL:level} %{GREEDYDATA:message}"
      }
    }
    
    date {
      match => [ "timestamp", "dd MMM yyyy HHss.SSS" ]
    }
    
    if [level] == "WARNING"or [level] == "ERROR" {
      mutate {
        add_tag => [ "alert" ]
      }
    }
  }
}

output {
  elasticsearch {
    hosts => ["elasticsearch:9200"]
    index => "redis-%{+YYYY.MM.dd}"
  }
}

告警规则配置

# alertmanager-rules.yml
groups:
-name:redis.rules
rules:
-alert:RedisDown
    expr:redis_up==0
    for:1m
    labels:
      severity:critical
    annotations:
      summary:"Redis instance is down"
      description:"Redis instance {{ $labels.instance }} is down"
      
-alert:RedisHighMemoryUsage
    expr:redis_memory_used_bytes/redis_memory_max_bytes>0.9
    for:5m
    labels:
      severity:warning
    annotations:
      summary:"Redis memory usage is high"
      description:"Redis memory usage is {{ $value }}%"
      
-alert:RedisHighConnectionCount
    expr:redis_connected_clients>1000
    for:5m
    labels:
      severity:warning
    annotations:
      summary:"Redis connection count is high"
      description:"Redis has {{ $value }} connections"
      
-alert:RedisClusterNodeDown
    expr:redis_cluster_nodes{state="fail"}>0
    for:1m
    labels:
      severity:critical
    annotations:
      summary:"Redis cluster node is down"
      description: "Redis cluster has {{ $value }} failed nodes"

性能监控脚本

实时监控脚本

#!/bin/bash
# redis-monitor.sh

REDIS_CLI="/usr/local/redis/bin/redis-cli"
REDIS_HOST="127.0.0.1"
REDIS_PORT="7000"
REDIS_PASSWORD="your_redis_password"

# 获取Redis信息
get_redis_info() {
    $REDIS_CLI -h $REDIS_HOST -p $REDIS_PORT -a $REDIS_PASSWORD info $1 2>/dev/null
}

# 监控内存使用
monitor_memory() {
    local memory_info=$(get_redis_info memory)
    local used_memory=$(echo"$memory_info" | grep "used_memory:" | cut -d: -f2 | tr -d '
')
    local max_memory=$(echo"$memory_info" | grep "maxmemory:" | cut -d: -f2 | tr -d '
')
    
    if [ "$max_memory" -gt 0 ]; then
        local usage_percent=$((used_memory * 100 / max_memory))
        echo"Memory Usage: $usage_percent% ($used_memory / $max_memory bytes)"
        
        if [ "$usage_percent" -gt 80 ]; then
            echo"WARNING: Memory usage is high!"
        fi
    fi
}

# 监控连接数
monitor_connections() {
    local clients_info=$(get_redis_info clients)
    local connected_clients=$(echo"$clients_info" | grep "connected_clients:" | cut -d: -f2 | tr -d '
')
    
    echo"Connected Clients: $connected_clients"
    
    if [ "$connected_clients" -gt 1000 ]; then
        echo"WARNING: High connection count!"
    fi
}

# 监控集群状态
monitor_cluster() {
    local cluster_info=$($REDIS_CLI -h $REDIS_HOST -p $REDIS_PORT -a $REDIS_PASSWORD cluster info 2>/dev/null)
    local cluster_state=$(echo"$cluster_info" | grep "cluster_state:" | cut -d: -f2 | tr -d '
')
    
    echo"Cluster State: $cluster_state"
    
    if [ "$cluster_state" != "ok" ]; then
        echo"ERROR: Cluster is not healthy!"
    fi
}

# 主监控循环
whiletrue; do
    echo"=== Redis Monitoring $(date) ==="
    monitor_memory
    monitor_connections
    monitor_cluster
    echo""
    sleep 10
done

队列设置与管理

Redis队列模式

List队列实现

# 基于List的简单队列
# 生产者推送消息
LPUSH myqueue "message1"
LPUSH myqueue "message2"

# 消费者获取消息
RPOP myqueue

# 阻塞式消费
BRPOP myqueue 0

Stream队列实现

# 创建Stream
XADD mystream * field1 value1 field2 value2

# 消费者组
XGROUP CREATE mystream mygroup 0 MKSTREAM

# 消费消息
XREADGROUP GROUP mygroup consumer1 COUNT 1 STREAMS mystream >

# 确认消息
XACK mystream mygroup message_id

企业级队列配置

队列配置模板

# Redis队列专用配置
# /usr/local/redis/conf/redis-queue.conf

# 基础配置
port 6379
bind 0.0.0.0
daemonize yes
pidfile /var/run/redis-queue.pid
logfile /usr/local/redis/logs/redis-queue.log
dir /usr/local/redis/data

# 内存配置（队列通常需要更多内存）
maxmemory 4gb
maxmemory-policy allkeys-lru

# 持久化配置（确保消息不丢失）
appendonly yes
appendfilename "appendonly-queue.aof"
appendfsync everysec
auto-aof-rewrite-percentage 100
auto-aof-rewrite-min-size 64mb

# 网络配置
timeout 0
tcp-keepalive 300
tcp-backlog 511

# 客户端配置
maxclients 10000
client-output-buffer-limit normal 0 0 0
client-output-buffer-limit replica 256mb 64mb 60
client-output-buffer-limit pubsub 32mb 8mb 60

# 队列相关配置
list-max-ziplist-size -2
list-compress-depth 0
stream-node-max-bytes 4096
stream-node-max-entries 100

队列监控脚本

#!/usr/bin/env python3
# redis-queue-monitor.py

import redis
import json
import time
import logging
from datetime import datetime

# 配置日志
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s'
)

classRedisQueueMonitor:
    def__init__(self, host='localhost', port=6379, password=None):
        self.redis_client = redis.Redis(
            host=host,
            port=port,
            password=password,
            decode_responses=True
        )
        
    defmonitor_list_queues(self, queue_patterns):
        """监控List类型队列"""
        queue_stats = {}
        
        for pattern in queue_patterns:
            queues = self.redis_client.keys(pattern)
            
            for queue in queues:
                length = self.redis_client.llen(queue)
                queue_stats[queue] = {
                    'type': 'list',
                    'length': length,
                    'timestamp': datetime.now().isoformat()
                }
                
                # 告警检查
                if length > 10000:
                    logging.warning(f"Queue {queue} has {length} items")
                    
        return queue_stats
    
    defmonitor_stream_queues(self, stream_patterns):
        """监控Stream类型队列"""
        stream_stats = {}
        
        for pattern in stream_patterns:
            streams = self.redis_client.keys(pattern)
            
            for stream in streams:
                try:
                    length = self.redis_client.xlen(stream)
                    info = self.redis_client.xinfo_stream(stream)
                    
                    # 获取消费者组信息
                    groups = self.redis_client.xinfo_groups(stream)
                    
                    stream_stats[stream] = {
                        'type': 'stream',
                        'length': length,
                        'first_entry': info['first-entry'],
                        'last_entry': info['last-entry'],
                        'groups': len(groups),
                        'timestamp': datetime.now().isoformat()
                    }
                    
                    # 检查消费者组滞后
                    for group in groups:
                        lag = group['lag']
                        if lag > 1000:
                            logging.warning(
                                f"Stream {stream} group {group['name']} has lag {lag}"
                            )
                            
                except Exception as e:
                    logging.error(f"Error monitoring stream {stream}: {e}")
                    
        return stream_stats
    
    defget_memory_usage(self):
        """获取内存使用情况"""
        info = self.redis_client.info('memory')
        return {
            'used_memory': info['used_memory'],
            'used_memory_human': info['used_memory_human'],
            'used_memory_peak': info['used_memory_peak'],
            'used_memory_peak_human': info['used_memory_peak_human']
        }
    
    defrun_monitoring(self):
        """运行监控"""
        queue_patterns = ['task:*', 'job:*', 'message:*']
        stream_patterns = ['stream:*', 'events:*']
        
        whileTrue:
            try:
                # 监控队列
                list_stats = self.monitor_list_queues(queue_patterns)
                stream_stats = self.monitor_stream_queues(stream_patterns)
                
                # 监控内存
                memory_stats = self.get_memory_usage()
                
                # 输出统计信息
                stats = {
                    'timestamp': datetime.now().isoformat(),
                    'list_queues': list_stats,
                    'stream_queues': stream_stats,
                    'memory': memory_stats
                }
                
                logging.info(f"Queue Stats: {json.dumps(stats, indent=2)}")
                
                # 等待下一次检查
                time.sleep(60)
                
            except Exception as e:
                logging.error(f"Monitoring error: {e}")
                time.sleep(10)

if __name__ == "__main__":
    monitor = RedisQueueMonitor(
        host='localhost',
        port=6379,
        password='your_redis_password'
    )
    monitor.run_monitoring()

队列优化配置

内存优化

# 针对队列的内存优化
# 使用ziplist压缩小列表
list-max-ziplist-size -2
list-compress-depth 1

# Stream优化
stream-node-max-bytes 4096
stream-node-max-entries 100

# 过期策略
maxmemory-policy allkeys-lru

持久化优化

# 队列持久化配置
# 禁用RDB，使用AOF
save ""
appendonly yes
appendfilename "appendonly-queue.aof"
appendfsync everysec

# AOF重写优化
auto-aof-rewrite-percentage 100
auto-aof-rewrite-min-size 64mb
aof-rewrite-incremental-fsync yes

队列管理工具

队列清理脚本

#!/bin/bash
# queue-cleanup.sh

REDIS_CLI="/usr/local/redis/bin/redis-cli"
REDIS_HOST="127.0.0.1"
REDIS_PORT="6379"
REDIS_PASSWORD="your_redis_password"

# 清理空队列
cleanup_empty_queues() {
    echo"Cleaning up empty queues..."
    
    # 获取所有队列
    queues=$($REDIS_CLI -h $REDIS_HOST -p $REDIS_PORT -a $REDIS_PASSWORD keys "queue:*" 2>/dev/null)
    
    for queue in$queues; do
        length=$($REDIS_CLI -h $REDIS_HOST -p $REDIS_PORT -a $REDIS_PASSWORD llen "$queue" 2>/dev/null)
        
        if [ "$length" -eq 0 ]; then
            echo"Deleting empty queue: $queue"
            $REDIS_CLI -h $REDIS_HOST -p $REDIS_PORT -a $REDIS_PASSWORD del "$queue" 2>/dev/null
        fi
    done
}

# 清理过期消息
cleanup_expired_messages() {
    echo"Cleaning up expired messages..."
    
    # 清理超过24小时的消息
    expire_time=$(($(date +%s) - 86400))
    
    streams=$($REDIS_CLI -h $REDIS_HOST -p $REDIS_PORT -a $REDIS_PASSWORD keys "stream:*" 2>/dev/null)
    
    for stream in$streams; do
        $REDIS_CLI -h $REDIS_HOST -p $REDIS_PORT -a $REDIS_PASSWORD 
        XTRIM "$stream" MINID ${expire_time}000 2>/dev/null
    done
}

# 执行清理
cleanup_empty_queues
cleanup_expired_messages

echo "Queue cleanup completed at $(date)"

性能优化与调优

集群性能优化

槽位分布优化

# 检查槽位分布
redis-cli -c -h 192.168.1.10 -p 7000 -a password cluster slots

# 重新分配槽位
redis-cli --cluster reshard 192.168.1.10:7000 
--cluster-from source_node_id 
--cluster-to target_node_id 
--cluster-slots 1000 
--cluster-yes

读写分离配置

# 从节点只读配置
replica-read-only yes

# 客户端读写分离
# 写操作指向主节点
# 读操作指向从节点

故障处理与运维实践

自动故障恢复脚本

#!/bin/bash
# redis-failover.sh

check_cluster_health() {
    local result=$(redis-cli -c -h $1 -p $2 -a $3 cluster info 2>/dev/null | grep "cluster_state:ok")
    if [ -n "$result" ]; then
        return 0
    else
        return 1
    fi
}

# 集群健康检查
if ! check_cluster_health "192.168.1.10""7000""password"; then
    echo"Cluster unhealthy, triggering failover procedures..."
    # 执行故障转移逻辑
fi

数据备份与恢复

# 备份脚本
#!/bin/bash
BACKUP_DIR="/backup/redis/$(date +%Y%m%d)"
mkdir -p $BACKUP_DIR

# 创建RDB快照
redis-cli -h 192.168.1.10 -p 7000 -a password BGSAVE

# 备份AOF文件
cp /usr/local/redis/data/appendonly*.aof $BACKUP_DIR/

# 备份集群配置
redis-cli -h 192.168.1.10 -p 7000 -a password cluster nodes > $BACKUP_DIR/cluster-nodes.txt

总结

本文全面介绍了Linux环境下Redis集群的企业级运维方案，涵盖了从基础架构设计到高级运维实践的各个方面。通过合理的架构设计、标准化的配置管理、完善的监控体系和自动化的运维流程，可以构建一个高可用、高性能的Redis集群系统。

关键要点

1. 架构设计：采用3主3从的标准集群架构，确保高可用性

2. 配置管理：使用模板化和版本控制实现标准化配置

3. 监控体系：建立完善的指标监控和日志分析系统

4. 队列管理：针对不同场景选择合适的队列模式

5. 性能优化：持续监控和调优，保证系统最佳性能

运维建议

• 定期进行集群健康检查和性能评估

• 建立完善的备份和恢复机制

• 制定详细的故障处理流程

• 持续优化配置参数和监控指标

• 保持对Redis新特性的关注和学习

通过遵循本文提供的最佳实践，运维工程师可以构建和维护一个稳定、高效的Redis集群环境，为企业业务提供可靠的数据支撑。

打开APP阅读更多精彩内容