Removendo Nodes no Proxmox com Ceph Server


Como remover uma OSD e monitores do Ceph Server além de remover um Node completo no Proxmox

Se você trabalha como Sysadmin e com Proxmox cedo ou tarde irá passar por essa situação.


Todos os passos que irão ser passados a seguir são unica e exclusivamente responsabilidade do administrador do sistema. 

Caso você não saiba o que é um servidor CEPH, como ele funciona, como criá-lo ou do que estamos falando, por favor, pare por aqui. 

RECOMENDAMOS UM BACKUP DO SISTEMA COMPLETO BEM COMO DAS IMAGENS DE DISCOS E LXC QUE ESTEJA SENDO EXECUTADAS NESTE NODE ANTES DE QUALQUER PROCEDIMENTO. TAMBÉM RECOMENDAMOS QUE O SISTEMA CEPH POSSUA UMA BOA DISTRUIBUIÇÃO DE DADOS PARA EVITAR PERDER TEMPO COM SINCRONIZAÇÕES LONGAS


   Proxmox é um sistema de Alta Disponibilidade.

   Para tal usamos um servidor Ceph distribuido com     monitores e OSD. O Ceph distribui a capacidade       de armazenamento do Proxmox em objetos e em       um sistema de arquivo decentralizado. 

   Cedo ou tarde você irá ter problema em um dos seus Nodes e será       necessário remove-lo do Cluster Proxmox. Outras vezes você terá       um problema somente com a sua OSD do Ceph (um unico HD ou um  conjunto deles)

    Visto que estas dificuldades fazem parte do dia-a-dia de um               profissional administrador de sistemas criamos esta documentação  para auxiliar a todos que estejam passando pela mesma dificuldade.


Primeiramente precisamos remover o NODE 4 no nosso caso de nosso Cluster, que possuí 7 NODES. Iremos ficar com 6 Nodes disponíveis o que é perfeitamente normal e o sistema continuará funcionando normalmente.


Para remover um Node do Cluster mesmo após ele estando desligado devemos acessar qualquer um dos Nodes operantes, em nosso caso o Node 1 na CLI do Proxmox digitamos

$pvecm delnode NODE4


Este comando é suficiente para remover a instância NODE4 do Cluster Proxmox, porém temos vários problemas que surgem com isto


  1. Primeiramente precisamos alterar os arquivos de configuração do CEPH e de Storage

  2. Precisamos remover os monitores do CEPH (também nos arquivos de configuração)

  3. Por último vamos remover as OSD que contem nosso armazenamento distribuido


Primeiro vamos apagar a linha o bloco de configuração que define os parametros de host e mon addr do NODE4 que é o que queremos remover SUBLINHADO



$ cat  /etc/ceph/ceph.conf

root@node1:~# cat /etc/pve/ceph.conf [global] auth client required = cephx auth cluster required = cephx auth service required = cephx cluster network = 192.168.1.0/24 fsid = b7cc81ab-9ff2-4bfe-bff2-28315c3c3467 keyring = /etc/pve/priv/$cluster.$name.keyring mon allow pool delete = true osd journal size = 5120 osd pool default min size = 2 osd pool default size = 3 public network = 192.168.1.0/24 [osd] keyring = /var/lib/ceph/osd/ceph-$id/keyring [mon.node5] host = node5 mon addr = 10.10.10.5:6789 [mon.node9] host = node9 mon addr = 10.10.10.9:6789 [mon.node6] host = node6 mon addr = 10.10.10.6:6789
<del>
[mon.node4]
  host = node4 mon addr = 10.10.10.4:6789
</del>
[mon.node1] host = node1 mon addr = 10.10.10.1:6789 [mon.node8] host = node8 mon addr = 10.10.10.8:6789 [mon.node7] host = node7 mon addr = 10.10.10.7:6789    


IREMOS FAZER A MESMA COISA PARA O ARQUIVO /etc/pve/storage.cfg


Verifique que os volumes e pools não poderão ter mais o host de destino NODE 4


Por ultimo devemos destruir as OSD relacionadas ou dentro deste NODE, no caso de nosso NODE 4 temos duas OSD.7 e a OSD.8
Você pode fazer estes passos pela GUI também, porém é possível que exista erro de conexão

# ceph osd out osd.7
# ceph osd crush remove osd.7
# ceph auth del osd.7
# ceph osd rm osd.7

Por ultimo caso obtenhamos a mensagem de que as OSD continuam no CRUSH MAP executar ceph osd crush remove osd.7

Repita para a OSD 8.





1    2    3    4