TECS资源池上报存储设备离线的问题处理

描述

某资源池在运行过程中出现存储设备离线告警,通过底层cinder service-list命令查看,确认存储state为down状态。

登录控制节点虚拟机,执行source keystonerc_admin命令进入OpenStack环境,执行cinder service-list命令查看存储状态,如下图所示。

存储管理  

当云平台通过存储管理面无法获取存储设备上报的状态,则上报告警。

当云平台能够正常通过存储管理面获取存储设备上报的状态,则恢复告警。

存储失去控制,磁阵不可用,存在如下3种情况:

存储掉电。

网络不通。

对接问题。

问题分析过程如下:

1.检查存储设备当前状态是否正常。

通过登录存储设备管理页面,检查存储设备告警信息,未发现异常内容。

2.检查存储网和管理网的连通性。

登录控制节点虚拟机,通过Ping操作确认磁阵的管理网和存储网的连通性,网络正常,如下图所示。

存储管理

存储管理

3.检查控制节点虚拟机/var/log/cinder/volume.log日志,分析详细原因。

通过volume.log日志检查,原因为访问的IP地址被锁定,如下图所示。需要登录磁阵做详细的安全日志检查。

存储管理

4.登录磁阵页面,检查存储侧记录的所有事件,记录为连续多次登录失败,IP和账号被锁定5分钟,循环登录失败并持续锁定。

5.通过磁阵管理页面解锁IP和账号锁定。

6.观察5分钟,IP和账号再次被锁定,可能原因是密码错误导致多次登录失败,继而被锁定。

1.登录控制节点虚拟机,检查/etc/cinder/cinder_huawei_conf_file_HW_IPSAN-1. xml配置,获取用户名和密码的密文。 2. 在控制节点虚拟机下,执行如下命令解读密文:

a.执行echo 'dGVjc19zdG9yYWdl'| base64 -d命令,得到对接账号tecs_storage。

b.执行echo 'Z0s5WUltc3k5SmRJQ1JWWmpmSHdfcW5kU2JaQnZCbG0waEZlUUJUSXZFQ2c2NGNlNTAxZGIyMDAwODllY2Q0YzgyOA=='| base64 -dse64 -d命令,得到密文为gK9YImsy9JdICRVZjfHw_qndSbZBvBlm0hFeQBTIvECg64ce501db2308a21fee00089ecd4c828,需要再次解密。

c.执行python /usr/lib/python2.7/site-packages/oslo_config/aes.py decrypt gK9YImsy9JdICRVZjfHw_qndSbZBvBlm0hFeQBTIvECg64ce501db2308a21fee00089ecd4c828命令,得到对接密码为kEYSTONE_2020。

3.登录Daisy界面,在云配置→配置→存储管理→存储设备对接界面,更新磁阵的密码。

4.登录控制节点虚拟机在cinder-volume的服务节点,执行以下命令,重启服务。

systemctl restart openstack-cinder-volume.service

5.执行source keystonerc_admin命令,进入OpenStack环境。

6.执行命令cinder service-list命令,查看存储状态。

7.总结及注意事项:

a.磁阵和平台对接建议使用非admin用户和密码,避免定期修改密码,影响对接。

b.修改磁阵的密码时需要关注TECS侧的影响。

c.由于输入账号的密码是不可见的,需要确认输入密码的正确性,避免大小写,特殊符号等问题。

 





审核编辑:刘清

 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分