PDA

Просмотр полной версии : Замена RedHat Cluster на Pacemaker



apmucm
19.12.2013, 18:34
Всем доброго.

При первом взгляде на VMManager Cloud не заметил проблем с переносом функционала HA сервиса vmmgr с RedHat Cluster на Pacemaker. НО хотелось бы уточнить у разработчиков, имеются ли какие-нибудь скрытые гвозди, которыми прибит Vmmanager Cloud к RedHat Cluster?
И еще вопрос, я так понимаю разница между Cloud и basic версиями только в НА для vmmgr? или в basic vmmgr не отслеживает состояние узлов, на которых виртуалки и не рестартит их автоматом , в случае недоступности ноды?

DimaK
19.12.2013, 23:05
VMmanager Cloud без RedHat Cluster особого смысла не имеет, т.к. все процедуры идут с использованием утилит от RedHat. И сменить их на использование Pacemaker - думаю не реально.
VMmanager Basic совсем не следит за состоянием узлов, за исключением того, что он не будет создавать виртуальные машины на узлах с которыми не может связаться по ssh.

apmucm
19.12.2013, 23:44
ясно спасибо.. в vmmanager я так понял используется rgmanager, поправьте , если не прав, который показывал себя не с лучшей стороны ранее, с постоянными падениями и фризами. давно не крутил redhat cluster, но последнее общение с ним 1,5 года назад оставило ооочень негативное впечатление, и, кстати, не у одного меня.

DimaK
20.12.2013, 19:04
ясно спасибо.. в vmmanager я так понял используется rgmanager, поправьте , если не прав, который показывал себя не с лучшей стороны ранее, с постоянными падениями и фризами. давно не крутил redhat cluster, но последнее общение с ним 1,5 года назад оставило ооочень негативное впечатление, и, кстати, не у одного меня.

rgmanager нами почти не используется. Только для одного сервиса.

apmucm
20.12.2013, 22:17
а если rgmanager зависнет, что произойдет с vmmanager?

apmucm
21.12.2013, 00:29
у меня сейчас стенд из 3х нод с Vmmanger Cloud 5.6.3 и Centos 6.5. Набираю на одной из нод

reboot
и "вот она - рыба моей мечты" (с)

INFO: task rgmanager:6514 blocked for more than 120 seconds.
Not tainted 2.6.32-431.el6.x86_64 #1
"echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.

и так может висеть ооочень долго.. это норм?

DimaK
21.12.2013, 01:01
Кворум при этом был достигнут? rgmanager очень чувствителен к кворуму.

apmucm
21.12.2013, 19:17
делал так

[root@vmmgr02 ~]# reboot
Broadcast message from root@vmmgr02
(/dev/ttyS0) at 7:25 ...

The system is going down for reboot NOW!

Running guests on default URI: no running guests.

Stopping Cluster Service Manager:
далее висяк

проверяю статусы кластера на всех нодах


[root@vmmgr01 etc]# clustat
Cluster Status for vmmgr-ymcC @ Sat Dec 21 07:26:01 2013
Member Status: Quorate

Member Name ID Status
------ ---- ---- ------
172.16.100.11 3 Online, Local, rgmanager
172.16.100.12 5 Online
172.16.100.13 6 Online, rgmanager

Service Name Owner (Last) State
------- ---- ----- ------ -----
service:vmmgr 172.16.100.11 started


[root@vmmgr01 etc]# cman_tool status
Version: 6.2.0
Config Version: 4
Cluster Name: vmmgr-ymcC
Cluster Id: 11994
Cluster Member: Yes
Cluster Generation: 132
Membership state: Cluster-Member
Nodes: 3
Expected votes: 3
Total votes: 3
Node votes: 1
Quorum: 2
Active subsystems: 9
Flags:
Ports Bound: 0 177
Node name: 172.16.100.11
Node ID: 3
Multicast addresses: 239.192.46.9
Node addresses: 172.16.100.11


[root@vmmgr02 ~]# ps aux | grep rg
root 2272 0.0 0.1 36944 6252 ? S<Ls 07:17 0:00 rgmanager
root 2274 0.0 0.0 47768 1792 ? S<l 07:17 0:00 rgmanager
root 2937 0.1 0.0 108564 1976 ? S 07:25 0:00 /bin/bash /etc/rc6.d/K01rgmanager stop


[root@vmmgr02 ~]# clustat
Cluster Status for vmmgr-ymcC @ Sat Dec 21 07:27:33 2013
Member Status: Quorate

Member Name ID Status
------ ---- ---- ------
172.16.100.11 3 Online
172.16.100.12 5 Online, Local
172.16.100.13 6 Online




[root@vmmgr02 ~]# cman_tool status
Version: 6.2.0
Config Version: 4
Cluster Name: vmmgr-ymcC
Cluster Id: 11994
Cluster Member: Yes
Cluster Generation: 132
Membership state: Cluster-Member
Nodes: 3
Expected votes: 3
Total votes: 3
Node votes: 1
Quorum: 2
Active subsystems: 9
Flags:
Ports Bound: 0
Node name: 172.16.100.12
Node ID: 5
Multicast addresses: 239.192.46.9
Node addresses: 172.16.100.12


[root@vmmgr03 ~]# clustat
Cluster Status for vmmgr-ymcC @ Sat Dec 21 07:29:34 2013
Member Status: Quorate

Member Name ID Status
------ ---- ---- ------
172.16.100.11 3 Online, rgmanager
172.16.100.12 5 Online
172.16.100.13 6 Online, Local, rgmanager

Service Name Owner (Last) State
------- ---- ----- ------ -----
service:vmmgr 172.16.100.11 started


[root@vmmgr03 ~]# cman_tool status
Version: 6.2.0
Config Version: 4
Cluster Name: vmmgr-ymcC
Cluster Id: 11994
Cluster Member: Yes
Cluster Generation: 132
Membership state: Cluster-Member
Nodes: 3
Expected votes: 3
Total votes: 3
Node votes: 1
Quorum: 2
Active subsystems: 9
Flags:
Ports Bound: 0 177
Node name: 172.16.100.13
Node ID: 6
Multicast addresses: 239.192.46.9
Node addresses: 172.16.100.13
через некоторое время в логах vmmgr02

Dec 21 08:36:04 corosync [TOTEM ] FAILED TO RECEIVE
Dec 21 08:36:16 corosync [QUORUM] Members[2]: 5 6
Dec 21 08:36:16 corosync [CMAN ] quorum lost, blocking activity
Dec 21 08:36:16 corosync [QUORUM] This node is within the non-primary component and will NOT provide any services.
Dec 21 08:36:16 corosync [QUORUM] Members[1]: 5
Dec 21 08:36:16 corosync [TOTEM ] A processor joined or left the membership and a new membership was formed.
Dec 21 08:36:16 corosync [CPG ] chosen downlist: sender r(0) ip(172.16.100.12) ; members(old:3 left:2)
Dec 21 08:36:16 corosync [MAIN ] Completed service synchronization, ready to provide service.


вообщем ресетнул ноду по жесткому.. что интересно сообщения об ошибке, как в моем предыдущем сообщении, не возникало

DimaK
23.12.2013, 09:43
После того как вы даете команду reboot, при работающем кластере, требуется еще раз вводить эту команду. Либо правильно выйти из кластера.

apmucm
23.12.2013, 15:27
Интересная особенность, но проблема решилась по другому. Подобное поведение было только когда кластерный интерфейс был в бридже. После того как я его удалил и повесил ip на голый интерфейс, все стало Ок. И ребут с одной команды.

DimaK
23.12.2013, 21:22
Но в общем, в планах на следующий год, есть мысль добавить поддержку pacemaker.