Nº 28 Julho / Agosto Bimestral 21 de Julho 2000
Backup
e Arquivo
Conceitos e fundamentos
Escrito por : Jorge Nolasco e Paulo Bastos
Desde um simples PC aos grandes sistemas ou redes globais, um sistema
eficaz de backup e arquivo
é o principal seguro contra situações que quase sempre caiem no esquecimento
: - falhas de hardware, erros de software, erro humano, desastres naturais,
intrusão ou até roubo.
Existe porém uma diferença entre backup
e arquivo. Backup é, a protecção dinâmica dos sistemas, onde a informação
em backup é regularmente actualizada
segundo estratégias bem definidas que incluem, normalmente, backups incrementais, diferencias, e totais. Arquivo é, simplesmente uma cópia total que é guardada num determinado suporte e aí permanece estática
durante algum tempo.
A implementação de uma
solução de backup tem a mesma lógica
da adjudicação de um contrato de seguros. Fazêmo-la na esperança de nunca ter que recorrer aos seus serviços. Mas,
tal como nos seguros, exigimos dela a reposição do objecto seguro, i.e.,
exigimos fiabilidade.
Os gestores de informação e de sistemas que remetem para último plano
a planificação atempada de métodos e estratégias de backup, certamente que o fazem não por leviandade mas por mera
inconsciência.
Outros, exagerando na precaução, investem em sistemas de grande
disponibilidade com o objectivo de poupar o tempo que leva a concluir um backup.
De notar, porém, que de nada serve o investimento, se os serviços de
recuperação continuarem a ser morosos e a inspirar pouca confiança.
De escalabilidade versátil, uma solução de backup
deverá ser dimensionada à medida da previsão de crescimento dos sistemas e do
ambiente envolvente que, normalmente, é multiplataforma. A arquitectura, estratégias,
tecnologias e métodos de backup,
deverão optimizar as facilidades do sistema numa solução de compromisso entre
vários pontos:
·
Janela de
backup. É bastante frequente ouvir-se falar de backup
window . Esta expressão caracteriza o tempo que demora a completar-se uma
operação de backup, sendo um factor
de avaliação da sua prestação. Pela parte do sistema protegido, a janela
temporal dedicada ao backup é
definida pelo tempo que um sistema fica dedicado exclusivamente à operação de
backup, situação em que é exigida a paragem total ou parcial dos
seus serviços.
·
Recuperação
de ficheiros. Esta operação é normalmente
conhecida pela designação restore, e
refere-se ao serviço primário de um sistema de backup:
repor ficheiros ou versões antigas que eventualmente tenham sido corrompidas ou
apagadas por engano. Esta operação é possível desde que o problema que deu
origem à corrupção de ficheiros não tenha abalado a integridade do sistema
operativo (S.0.) do sistema protegido, até ao ponto de não ser possível a
transferencia de ficheiros.
· Recuperação de sistema. Existem por vezes situações em que o sistema operativo foi de tal modo corrompido, que já não é possível suportar os serviços de restore disponibilizados pelo sistema de backup. Nessa altura torna-se prioritária a recuperação total do sistema, que poderá ser feita recorrendo aos serviços de disaster recovery, que também devem fazer parte integrante do sistema de backup.
Na implementação de uma solução de backup,
não basta garantir a sua eficiência. A escolha e o ajustamento das estratégias
de backup são fundamentais na obtenção de um sistema eficaz. O
delineamento de estratégias implica reflectir seriamente em algumas questões:
¨
Qual
é a informação que realmente necessita de protecção? – Informação
Crítica
¨
Qual
a periodicidade que devem ter as operações de backup? - Periodicidade
¨
Quanto
tempo deve residir a informação em backup? – Prazo de validade
Por vezes, os recursos de armazenamento
guardam informação de pouco interesse, quando encarada sob o ponto de vista da
sua integridade e necessidade de protecção. Em alguns casos, uma percentagem não
desprezável da informação distribuída nos sistemas permanece imutável, com
baixa taxa de consulta e bastante desactualizada. Também é frequente
verificar-se a acumulação de múltiplas cópias do mesmo ficheiro. A informação
estática ou “morta” deverá, sempre que possível, ser endereçada para um
sistema de arquivo, e não para um
sistema de backup, que deve preocupar-se apenas com a informação dinâmica.
A classificação da informação não segue sempre os mesmos padrões mas a optimização da quantidade de tempo para a operação de backup, volume de dados a armazenar, congestionamento da rede, etc., passa pela escolha criteriosa do que deve ser protegido.
A periodicidade das operações de backup
está intimamente ligada com a taxa de crescimento da informação e com o
esforço que é necessário despender para repor a informação, desde a última
operação de backup. Em alguns ambientes, um backup semanal poderá ser suficiente, nomeadamente quando a informação
criada durante uma semana pode ser readquirida ou recriada sem grandes custos. O
mesmo já não se aplica em sistemas de aquisição em tempo real, instituições
financeiras, processamentos de dados correspondentes a eventos únicos,
processos de aquisição de grandes volumes de dados, em que o custo dessa
aquisição é mais significativo que a facilidade de reposição do processo.
Seria então de aconselhar uma estratégia baseada unicamente em backups
diários totais? De modo algum. Uma estratégia eficaz deve envolver também backups
diferenciais ou incrementais, que exigem menos espaço de armazenamento e
reduzem substancialmente a janela de backup.
·
Backup
total, é
um backup que inclui toda a informação
relativa ao sistema que protege. Todos
os esquemas de rotação de tapes iniciam-se com um primeiro backup
total, também designado de Base Line Backup. Como seria de esperar, este é o tipo de backup
que leva mais tempo a concluir-se, e o que requer mais espaço de
armazenamento.
· Backup diferencial. Em cada operação de backup copiam-se todos os ficheiro que foram alterados desde o ultimo backup total
· Backup incremental. Em cada operação copiam-se os ficheiro que foram alterados desde o ultimo backup .
O backup
diferencial é substancialmente mais rápido que o total. Porém, à medida que
o número de operações de backup aumenta,
o volume de dados a gravar também aumenta. Nas vésperas de um novo backup
total, o volume de dados
a gravar no modo diferencial pode ser quase tão grande como no total. Sempre
que se escolher este modelo deverá medir-se bem a janela de tempo disponível e
compatibilizá-la com o volume de dados expectável.
Como se infere, a reposição de ficheiros
através do método diferencial, é muito mais rápida que a utilização do método
incremental : - no caso do diferencial há que recorrer apenas ao último total
e ao último diferencial, enquanto que nos incrementais tem que se recorrer não
apenas ao último total mas a todos os incrementais.
A escolha entre backup
incremental ou diferencial está relacionada com o volume de dados que
diariamente é alterado/acrescentado, o que condiciona a dimensão do sistema de
armazenamento, o seu débito (MB/s) e o tempo disponível para a operação.
O tempo durante o qual se pode guardar um backup está condicionado pela capacidade de armazenamento atribuída
ao sistema de backup. Numa situação
ideal seria praticável guardar todo o histórico por um período infinito. A
operação de reposição de um ficheiro é normalmente a consequência de um
pedido de um utilizador que se recorda que, afinal a versão do mês passado
ainda continha informação que agora é critica. Infelizmente há que
considerar que a capacidade de armazenamento on-line
dum sistema de backup não é
infinita.
Assim sendo, há que definir um prazo de validade e dá-lo a conhecer a
todos os utilizadores do sistema.
Na maioria das situações, os periféricos de armazenamento dedicados
aos sistemas de backup utilizam
bobines de fita magnética.
As tecnologias de gravação mais utilizadas deram origem a vários
modelos, dos quais se destacam as AIT, DLT, VXA, LTO, Magstar.
Num próximo artigo serão desenvolvidas as diferenças entre elas.
· Media Sets. Num esquema rotação de tapes, é normal que, devido à quantidade de armazenamento requerida, uma tape não seja suficiente para uma determinada operação de backup. Nessa altura, são constituídos grupos de tapes, conhecidos por Media Sets.
Existem vários métodos de rotação de media sets. Qualquer deles procura minimizar o número de tapes
envolvidas, em compromisso com a máxima variedade histórica das versões
disponíveis e a periodicidade dos backups.
Um bom esquema de rotação deve garantir, ainda, que distribuição da informação
em backup permita a recuperação
eficaz de ficheiros e de sistemas.
Um dos mais usados é vulgarmente conhecido pelo esquema “Son / Father / Grandfather”, em que se realizam-se backups incrementais ou diferenciais diários (filhos), backups totais semanais (pais) e backups totais mensais (avós).
· Backups diários. Quando a janela de backup assim o permite, estes backups são do tipo diferencial. Neste caso, numa eventual recuperação apenas se recorre ao ultimo backup diferencial e ao ultimo backup total. Este backups são realizados a 2ª , 3ª , 4ª e 5ª feira, no media set relativo ao dia da semana a que correspondem. Pratica-se uma rotação semanal dos media sets diários, garantindo-se assim a guarda de todas as versões diárias durante uma semana.
· Backups semanais. De modo a reflectirem a actualização semanal relativa á informação adicionada aos sistema após a semana laboral, estes backups totais são habitualmente agendados para 6ª feira. Segue-se geralmente um esquema de rotação dos media sets semanais com um período de 4 semanas. Nestes caso, garante-se a guarda das versões de 6ª feira durante as mesmas 4 semanas.
· Backups mensais. Esta operação é efectuada ao fim de um ciclo de 4 semanas. Consiste em retirar do esquema de rotação, as tapes do media set semanal relativo à 4ª semana. (Ao media set semanal da 4ªsemana são atribuídas novas tapes). As tapes retiradas constituem agora um media set mensal que pode ser guardado por tempo indefinido ou poderá ser-lhe atribuído um prazo de validade, expirado o qual ficam disponíveis para reutilização.
O image
e o file-by-file são as metodologias
de backup mais
comuns.
Num backup do tipo file-by-file
a informação é copiada ficheiro a ficheiro. Neste caso, o sistema de backup
vai pedindo ao sistema que protege a copia de cada
ficheiro. Assim, o sistema protegido é obrigando
a dispensar alguma atenção ao sistema de backup na gerência dos pedidos de I/O, ocupando por isso uma
percentagem significativa de recursos e de reserva de processamento.
Devido á fragmentação, a informação
relativa a um ficheiro não se encontra, normalmente, armazenada em regiões
adjacentes do suporte físico de armazenamento. Por este facto, a ordem lógica
de um ficheiro raramente corresponde a uma ordem de posição física
sequencial, e durante a cópia de um ficheiro, as cabeças de leitura de cada
disco duro são constantemente movidas entre regiões espaciais distantes,
executando movimentos descontínuos
e bruscos. A esta perda de eficácia no processo de leitura, corresponde um
fluxo de informação intermitente. Explica- se, assim, a que as taxas transferência
reais muito raramente se aproximam dos débitos disponibilizadas pelos periféricos
de armazenamento dedicados ao backup.
A performance do sistema de backup pode
ser substancialmente melhorada desfragmentando o disco regularmente.
O image backup cria uma copia física exacta do suporte onde
residente a informação, que é normalmente o disco, do sistema que se pretende
proteger. A ordem sequencial de transferência da informação não segue o
sistemas de directórios com que se organiza um volume lógico. Em vez disso, o image
backup opera ao nível físico do disco, transferindo os blocos, segmento a
segmento, cilindro após cilindro. As cabeças de leitura percorrem o disco num
movimento continuo, fornecendo um fluxo de informação constante que maximiza a
taxa de transferencia para o suporte de armazenamento de backup.
O image
backup é particularmente útil quando se pretende fazer a recuperação de
todo um disco. Numa situação de Disaster
Recovery, toda a informação será reposta em disco seguindo a ordem
sequencial física de bloco em bloco igual à sequência da imagem residente em backup.
Assim, mesmo que o acesso ao periférico de armazenamento de backup
seja sequencial, a taxa de transferência é maximizada, proporcionando uma rápida
recuperação do sistema.
Durante uma operação de backup, o local onde reside lógica e fisicamente a informação
protegida, não pode ser modificado. De modo a garantir a consistência da
informação em backup, a maioria dos
sistemas do tipo image backup requerem
que o sistema a proteger esteja off-line.
Qualquer das técnicas tem vantagens e inconvenientes. Vejamos em que situações:
· Backing up. Os frequentes pedidos de I/O e o reposicionamento constante das agulhas do disco do sistema protegido fazem com que as tecnologias baseadas no file-by-file tradicional sejam consideravelmente mais lentas do que as do tipo image backup. Neste ultimo, todos os blocos de um disco são copiados, inclusivamente aqueles que não contêm informação. Desperdiça-se assim, alguma capacidade de armazenamento dedicada ao backup
· Restoring. A recuperação de ficheiros, a partir das copias fragmentadas, residentes num image backup é mais lenta do que a partir de um file-by-file backup. Esta baixa prestação é muito mais evidente quando o suporte dedicado ao backup é do tipo sequencial - fita magnética.
·
Disaster
Recovery. O image
backup está fortemente ligado á geometria do disco que se protege. Uma
imagem só pode ser reposta para um disco que tenha exactamente a mesma organização
física de blocos, segmentos, pistas e cilindros, i.e., a informação só pode
ser reposta para um disco igual àquele que foi a fonte do image
backup. Com o file-by-file backup
também é possível recuperar todo
o sistema. Esta operação é mais complicada e mais lenta do que no caso da
recuperação a partir de uma imagem. Por outro lado, não é necessário que o
disco do sistema a recuperar seja idêntico ao disco fonte.
Existem no mercado vários tipos de Software que permitem reduzir ao mínimo
a intervenção humana na gestão dos sistemas, bem como contornar as principais
dificuldades impostas pelos métodos de backup tradicionais. Nomeadamente, implementam a gestão automática
de media sets em livrarias
robotizadas, possibilitam a criação de uma imagem a partir de um backup
do tipo file-by-file, automatizam as operações de disaster recovery, e utilizam métodos que asseguram a consistência
da informação mesmo quando o operação de backup
é realizada com os sistemas on-line.
Contornando as desvantagens e agregando as
virtudes dos sistemas de backup
tradicionais, surgem então novas formas de abordar o problema da segurança da
informação distribuída em redes.
· Real-Time backup. Sendo uma variante do file-by-file backup, nesta tecnologia de backup, as actualizações da informação em backup são feitas sempre que é adicionada informação ao sistema protegido, eliminando-se a necessidade da janela de backup.
· Object Replication. Esta tecnologia baseia-se no image backup mas permite uma recuperação do tipo file-by-file. Com efeito, no image backup a estrutura da arvore não é gravada, o que obriga a uma recuperação fisicamente igual. O Object Replication memoriza essa estrutura em base de dados, permitindo que, na fase de recuperação, os ficheiros sejam recuperados desfragmentados e seguindo a arvore de directórios do volume, conjuntamente com as propriedades de segurança de cada ficheiro.
Nas redes informáticas das Empresas e Organizações existem muitos
ficheiros e partes de ficheiros comuns a um grande conjunto de clientes. Alem
dos ficheiro do sistema operativo e aplicações, são também exemplo de redundância
os formulários, logos, os templates de cartas, de faxs, de facturas, pedidos de
pagamento, envios de pagamento e muitas outras específicas da actividade das
Empresas. Alguns Softwares de backup, dedicados a garantir a segurança das estações de
trabalho, aplicam novas tecnologias baseadas em novos princípios, de que são
exemplo o Redundant File Elimination
(RFE) e o Redundant Block Elimination
(RBE).
Seguindo esta tecnologia, na operação de backup total ao primeiro cliente, a totalidade dos blocos são
copiados. Ao segundo cliente, porém, já não serão incluídos os blocos que são
redundantes relativamente ao primeiro. Na operação de backup
ao N-éximo cliente já não serão incluídos os ficheiro e blocos que são
redundantes relativamente ao primeiros N-1 clientes.
Em ambientes em que os sistemas operativo
alternam entre Win98/95 e estações de trabalho NT, suportando as aplicações
habituais do pacote Office, será de esperar que depois de concluídos os backups
semente (primeiros clientes) se verifique uma redução drástica nos tempos
estimados para os backups aos clientes
seguintes.
Na grande maioria dos documentos das empresas
e organizações, são ainda comuns expressões como “Exmos Srs”,
“Melhores cumprimentos”, “atentamente”, etc. Os Softwares de backup de ultima geração integram algoritmos de compressão
capazes de gerarem a codificação de termos redundantes, estendendo a política
de eliminação de informação redundante ao nível da palavra.
Por outro lado, um cliente só é sujeito a uma operação total da
primeira vez que esta se efectua. Com efeito, depois de concluído o backup
semente todos seguintes são “backups
incrementais” pois só são copiados os blocos de memória em disco que
mudaram relativamente backup anterior.
Numa segunda fase, da responsabilidade do Servidor de backup,
os blocos novos, ligados por uma base de dados aos ficheiros respectivos a que
pertencem, são acrescentados ao backup
do cliente. Este tipo de backup têm o
nome de Full Virtual Backups, e tem
vindo a proliferar em LANs de baixas prestações revelando resultados
excelentes.
Medições efectuadas, em condições
reais de ethernet a 0.6MB/s, permitiram registar janelas de backup
na ordem dos 3 minutos para concluir um backup
total a clientes, com uma media de 3GB armazenados,.
Havendo necessidade de se recuperar um cliente na totalidade, com base
num full virtual backup, o Software
gera, automaticamente, uma imagem do disco a recuperar bem como um disco de
arranque personalizado, i.e., dedicado a esse cliente.
O cliente a recuperar “arranca” através de um mini sistema
operativo, que garante as comunicações sobre a rede com o servidor de backup onde reside a imagem, que é restaurada automaticamente sem
necessidade de mais intervenção de um operador.