A história da queda do NewsInside: Game of The Year Edition

OBS: Esse é um post historinha. Se tiver com preguiça de ler vá até o final para o TL;DR.

Como vocês perceberam o NewsInside ficou fora do ar de novo, porém dessa vez o problema durou quase que uma semana. Como várias pessoas vieram me perguntar no Twitter e eu recebi nada mais nada menos que 150 MIL emails (2) perguntando porque o site estava fora do ar, imagino que tenha mais gente curiosa sobre o assunto, então vamos elucida-los sobre o que de fato aconteceu.

Pois bem, no começo de Outubro eu realizei uma espécie de gambiarra no servidor do NI. Estava eu feliz rodando Ubuntu 10.04 (O último LTS) no meu servidor, porém acabei precisando de alguns pacotes maios novos do que os que estavam sendo distribuídos nos canais do 10.04, sendo assim resolvi realizar o upgrade direto pro 11.10 (á última versão do Ubuntu). O problema é que o upgrade só é oficialmente suportado se você vier do 11.04 (ou seja, 10.04 > 11.04 > 11.10) e eu não sabia disso, sendo assim terminei com o meu servidor em um estado "quebrado": Tudo funcionava, porém com certeza alguns scripts (principalmente os de boot e fstab) estavam corrompidos e na próxima vez que tivesse que reiniciar a máquina, com certeza teria problemas.

Avançamos até o fim de Outubro / Meio de Novembro. Meu provedor de VPS (a Bluemile) começou a apresentar alguns problemas misteriosos em algumas partes de sua rede. Durante o tempo que isso aconteceu, o NI ficou fora do ar pela primeira vez. Passada algumas horas, todas as máquinas da rede deles voltaram a responder (incluíndo o NI), dai pensei comigo: "Ah, se já está tudo no ar o problema acabou" e deixei pra lá. Como foi apenas um problema de rede, não tive que reiniciar o meu servidor dessa vez então não tive maiores problemas. Durante a noite, recebi um email (global) da bluemile que dizia mais ou menos o seguinte:

…sua máquina está em um nó de nossa rede que está sofrendo fortes ataques de DDoS (Distributed Denial of Service). Estamos trabalhando para resolver os problemas de intermitência em nossa rede sendo assim pode ser que sua máquina pare de responder nas próximas horas / dias durante alguns minutos…

Pensei "ah beleza, pelo menos o problema não sou eu" e deixei elas por elas. Passados alguns dias, a máquina do NI novamente parou de responder durante algumas horas. Abri um ticket no suporte dos caras e eles falaram que estavam movendo os palitinhos deles lá para resolver os problemas de DDoS (imagino que eles foram desligando os roteadores um por um por alguns minutos para testar alguma coisa) e que era pra eu aguardar. Passaram algumas horas, MUITAS horas, e minha máquina não voltou. Fui falar com os caras e eles falaram que talvez por algum motivo XYZ relacionado ao OpenVZ (que era o sistema de virtualização que meu VPS usava), eu teria que reiniciar o servidor para que ele se reconecta-se a rede. Como esperado, realizei o reboot e a máquina não subiu mais, porém como o OpenVZ não tem console de recuperação, fiquei nas mãos da bluemile para recuperarem meu servidor, coisa que eu meio que já sabia que não iria rolar por causa do problema lá do segundo parágrafo.

Uma questão interessante aqui: A bluemile só trabalha com servidores XEN (outra forma de virtualização de VPS). Minha máquina OpenVZ foi "herdada" de uma empresa antiga que eles acabaram comprando e para não destruir a estrutura que já estava pronta, eles acabaram adotando todos os clientes da empresa antiga sob a asa deles.

Depois de HORAS trocando ideias com os caras do suporte, acabei desencanando de reparar o servidor. Aproveitei a deixa para migrar TUDO de uma vez para um XEN com mais memória, mais disco e mais processador, além da vantagem dele ser putaria-free na hora de realizar updates de distro (os caras não precisam customizar os scripts de boot e fstab no XEN, só no OpenVZ).

flipping-tables-meme
Tipo assim eu fiz

Ai começaram os problemas.

Eu até tinha backup dos dados (pastas home, bancos, etc) de todos os vhosts (entenda-se: sites dentro do servidor), porém tinha N coisas que eu não tinha, como aliases de email, configs do Apache, Mysql, enfim, essas putarias que você não lembra de fazer backup e se fode em um momento como esse. Nesse momento o TAMBOR GIROU: Ou eu upava GIGAS e GIGAS de arquivos de volta pro servidor (os dados dos vhosts) e subia um por um na mão, ou tentava recuperar a outra máquina para poder copiar os arquivos.

Nesse momento os caras da Bluemile foram –OS– Paizões para mim. Como a minha máquina antiga não dava boot de forma nenhuma, eles copiaram meu disco antigo (em forma de tar.gz), subiram outro VPS e botaram esse tar.gz lá para eu fazer o que quiser (como transferir os dados para o meu novo XEN). A vantagem que eu tinha nesse momento era poder aproveitar todos os .conf que eu perdi ali em cima (Mysql, Apache e tal) e de quebra poder fazer SCP de tudo de forma "intranet", já que os servidores estavam na mesma rede.

Como não tinha mais jeito mesmo, subi o meu XEN, atualizei o Ubuntu e sai instalando tudo do chão de novo. Isso levou DOIS dias inteiros praticamente (dias que cheguei do trampo e fiquei mexendo só nisso, indo dormir 6 horas da manhã no outro dia para levantar as 9 pra ir pro trampo). Foi até por isso que eu não pude nem fazer esse post antes porque eu estava totalmente quebrado durante a semana.

Por fim, restaurei todos os sites da rede NewsInside e estamos aqui de volta,  ~soltano fumassa. Ainda tem uns ajustezinhos para eu fazer aqui e ali, mas pelo menos agora saí de uma máquina Core2Duo com 1GB de RAM bursted para 1.5GB para uma Xeon com 2GB de RAM dedicado bursted via swap para 4GB (e com console de recuperação caso eu cague tudo de novo :P).

Ah, e os caras descobriram qual era o problema na redes deles: Um dos dispositivos da rede (provavelmente um roteador ou um hardware de firewall) estava com problema de firmware e alguém aparentemente estava se aproveitando da falha no firmware para ficar tirando as máquinas deles do ar. Deu pra entender que a culpa não era bem deles (eles compraram o barato, atualizaram pra última versão estável e ela está bugada), então vamos ver nas próximas semanas o que eles vão resolver.

TL;DR: O NewsInside apareceu no Jornal Nacional por causa do Cardoso e do Felipe Neto e como estou hospedado no mesmo provedor da PSN, meu servidor ficou fora do ar.

A história da queda do NewsInside: Game of The Year Edition

8 pensou em “A história da queda do NewsInside: Game of The Year Edition

  1. Po Tio pelo menos no final deu tudo certo…já tava começando a pensar que o NI ia fechar as portas logo agora que me interessei por programação, e saber que voce ficou acordado a noite toda por dois dias para resolver o inguiço, me motiva mais ainda a descobrir novidades e compartilhar o que aprendi com os que sabem menos do que eu. Vou mudar de assunto pois curto muito psp, comprei no mercado livre um psp 2000 placa santa cor prata sem quase nenhum risco por 240 mangos, o cara pensava que tinha dado pau, mas pelo papo o cara não manjava nada, no fim foi só rodar pandora e funfou, outra um amigo meu trocou de psp comigo, eu tinha um 3000 e ele tinha comprado um fat de um amigo do trampo dele, depois de eu ter trocado de psp com ele, vi que o fat estava na firmware oficial 4.01 e com 4 umd´s, resumindo a existência do blog me ajudou para compra de bons consoles e a preço de banana, compreender seu funcionamento e o mais importante compartilhar com os outros (menos com aqueles que irão me vender ahuauh)

  2. A história da Queda – Pow Tio esse título é pra matar qualquer um do miocárdio, hein?

  3. Toda vez que cai eu chamo o Tio no msn…

    Dessa última vez nem falei nada, pra não encher o saco pois parecia coisa feia mesmo…

    kkkkkkkkkkkkkkkkkkkkk

    Pelo menos estamos à todo vapor novamente!

  4. A história da Queda – Pow Tio esse título é pra matar qualquer um do miocárdio, hein?

    LA caida de edgar né

  5. Não entendi p… nenhuma que vc falou. Tem algum tutorial disso tudo?

  6. kra que trabalhao voce teve em tava ate pensando que a tia sonya tinha te pegado e retirado seu site do ar
    mas bom demais saber que foi um problema no servidor cara aqui é o unico lugar que fico sabendo das novidades dos vgs
    sem o NI fica complicado ne Tio

  7. Putz que coisa eim?
    uma surpresaa e q nunca q eu ia imaginar que o tio usava ubuntu hehe mas adoro esse sistema operacional.
    ainda bem q deu tudo certo. Ne?
    flw tio bom trabalho.

Comentários estão fechados.

Rolar para o topo