Nº 28 Julho / Agosto Bimestral                                          21 de Julho 2000

   

Backup e Arquivo

Conceitos e fundamentos

Escrito por : Jorge Nolasco e Paulo Bastos

 

I.                    Backup e Arquivo

Desde um simples PC aos grandes sistemas ou redes globais, um sistema eficaz de backup e arquivo é o principal seguro contra situações que quase sempre caiem no esquecimento : - falhas de hardware, erros de software, erro humano, desastres naturais, intrusão ou até roubo.

 

Existe porém uma diferença entre backup e arquivo. Backup é, a protecção dinâmica dos sistemas, onde a informação em backup é regularmente actualizada segundo estratégias bem definidas que incluem, normalmente, backups incrementais, diferencias, e totais. Arquivo é, simplesmente uma cópia total que é guardada num determinado suporte e aí permanece estática durante algum tempo.

 

II.                  Compromissos de um sistema de backup

 

A implementação de  uma solução de backup tem a mesma lógica da adjudicação de um contrato de seguros. Fazêmo-la na  esperança de nunca ter que recorrer aos seus serviços. Mas, tal como nos seguros, exigimos dela a reposição do objecto seguro, i.e., exigimos fiabilidade.

Os gestores de informação e de sistemas que remetem para último plano a planificação atempada de métodos e estratégias de backup, certamente que o fazem não por leviandade mas por mera inconsciência.

Outros, exagerando na precaução, investem em sistemas de grande disponibilidade com o objectivo de poupar o  tempo que leva a concluir um backup. De notar, porém, que de nada serve o investimento, se os serviços de recuperação continuarem a ser morosos e a inspirar pouca confiança.

De escalabilidade versátil, uma solução de backup deverá ser dimensionada à medida da previsão de crescimento dos sistemas e do ambiente envolvente que, normalmente, é multiplataforma. A arquitectura, estratégias, tecnologias e métodos de backup, deverão optimizar as facilidades do sistema numa solução de compromisso entre vários pontos:

 

·         Janela de backup. É bastante frequente ouvir-se falar de backup window . Esta expressão caracteriza o tempo que demora a completar-se uma operação de backup, sendo um factor de avaliação da sua prestação. Pela parte do sistema protegido, a janela temporal dedicada ao backup é definida pelo tempo que um sistema fica dedicado exclusivamente à operação de backup, situação em que é exigida a paragem total ou parcial dos seus serviços.

 

·         Recuperação de ficheiros. Esta operação é normalmente conhecida pela designação restore, e refere-se ao serviço primário de um sistema de backup: repor ficheiros ou versões antigas que eventualmente tenham sido corrompidas ou apagadas por engano. Esta operação é possível desde que o problema que deu origem à corrupção de ficheiros não tenha abalado a integridade do sistema operativo (S.0.) do sistema protegido, até ao ponto de não ser possível a transferencia de ficheiros.

 

·         Recuperação de sistema. Existem por vezes situações em que o sistema operativo  foi de tal modo corrompido, que já não é possível suportar os serviços de restore disponibilizados pelo sistema de backup. Nessa altura torna-se prioritária  a recuperação total do sistema, que poderá ser feita recorrendo aos serviços de disaster recovery, que também devem fazer parte integrante do sistema de backup.

 

 

III.                Estratégias de backup

Na implementação de uma solução de backup, não basta garantir a sua eficiência. A escolha e o ajustamento das estratégias de backup são fundamentais na obtenção de um sistema eficaz. O delineamento de estratégias implica reflectir seriamente em algumas questões:

¨       Qual é a informação que realmente necessita de protecção? – Informação Crítica

¨       Qual a periodicidade que devem ter as operações de backup? - Periodicidade

¨       Quanto tempo deve residir a informação em backup? – Prazo de validade

1)       A informação crítica.

Por vezes, os recursos de armazenamento guardam informação de pouco interesse, quando encarada sob o ponto de vista da sua integridade e necessidade de protecção. Em alguns casos, uma percentagem não desprezável da informação distribuída nos sistemas permanece imutável, com baixa taxa de consulta e bastante desactualizada. Também é frequente verificar-se a acumulação de múltiplas cópias do mesmo ficheiro. A informação estática ou “morta” deverá, sempre que possível, ser endereçada para um sistema de arquivo, e não para um sistema de backup, que  deve preocupar-se apenas com a informação dinâmica.

A classificação da informação não segue sempre os mesmos padrões mas a optimização da quantidade de tempo para a operação de backup, volume de dados a armazenar, congestionamento da rede, etc., passa pela escolha criteriosa do que deve ser protegido.

2)       Periodicidade das operações de backup

A periodicidade das operações de backup está intimamente ligada com a taxa de crescimento da informação e com o esforço que é necessário despender para repor a informação, desde a última operação de backup. Em alguns ambientes, um backup semanal poderá ser suficiente, nomeadamente quando a informação criada durante uma semana pode ser readquirida ou recriada sem grandes custos. O mesmo já não se aplica em sistemas de aquisição em tempo real, instituições financeiras, processamentos de dados correspondentes a eventos únicos, processos de aquisição de grandes volumes de dados, em que o custo dessa aquisição é mais significativo que a facilidade de reposição do processo.

Seria então de aconselhar uma estratégia  baseada unicamente em backups diários totais? De modo algum. Uma estratégia eficaz deve envolver também backups diferenciais ou incrementais, que exigem menos espaço de armazenamento e reduzem substancialmente a janela de backup.

 

·         Backup total, é um backup que inclui toda a informação relativa ao sistema que protege.  Todos os esquemas de rotação de tapes iniciam-se com um primeiro backup total, também  designado de Base Line Backup. Como seria de esperar, este é o tipo de backup que leva mais tempo a concluir-se, e o que requer mais espaço de armazenamento.

 

·          Backup diferencial. Em cada operação de backup copiam-se todos os ficheiro que foram alterados desde o ultimo backup total

 

·         Backup incremental. Em cada operação  copiam-se  os ficheiro que foram alterados desde o ultimo backup .

 

O backup diferencial é substancialmente mais rápido que o total. Porém, à medida que o número de operações de backup aumenta, o volume de dados a gravar também aumenta. Nas vésperas de um novo backup total, o volume de dados a gravar no modo diferencial pode ser quase tão grande como no total. Sempre que se escolher este modelo deverá medir-se bem a janela de tempo disponível e compatibilizá-la com o volume de dados expectável.

Como se infere, a reposição de ficheiros através do método diferencial, é muito mais rápida que a utilização do método incremental : - no caso do diferencial há que recorrer apenas ao último total e ao último diferencial, enquanto que nos incrementais tem que se recorrer não apenas ao último total mas a todos os incrementais.

 A escolha entre backup incremental ou diferencial está relacionada com o volume de dados que diariamente é alterado/acrescentado, o que condiciona a dimensão do sistema de armazenamento, o seu débito (MB/s) e o tempo disponível para a operação.

 

3)       Prazo de validade da informação em backup

O tempo durante o qual se pode guardar um backup está condicionado pela capacidade de armazenamento atribuída ao sistema de backup. Numa situação ideal seria praticável guardar todo o histórico por um período infinito. A operação de reposição de um ficheiro é normalmente a consequência de um pedido de um utilizador que se recorda que, afinal a versão do mês passado ainda continha informação que agora é critica. Infelizmente há que considerar que a capacidade de armazenamento on-line dum sistema de backup não é infinita.

Assim sendo, há que definir um prazo de validade e dá-lo a conhecer a todos os utilizadores  do sistema.

4)       Esquemas de rotação de tapes

Na maioria das situações, os periféricos de armazenamento dedicados aos sistemas de backup utilizam bobines de fita magnética.

As tecnologias de gravação mais utilizadas deram origem a vários modelos, dos quais se destacam as AIT, DLT, VXA, LTO, Magstar.

Num próximo artigo serão desenvolvidas as diferenças entre elas.

 

·         Media Sets. Num esquema rotação de tapes, é normal que, devido à quantidade de armazenamento requerida, uma tape não seja suficiente para uma determinada operação de backup. Nessa altura, são constituídos grupos de tapes, conhecidos por Media Sets.

 

Existem vários métodos de rotação de media sets. Qualquer deles procura minimizar o número de tapes envolvidas, em compromisso com a máxima variedade histórica das versões disponíveis e a periodicidade dos backups. Um bom esquema de rotação deve garantir, ainda, que distribuição da informação em backup permita a recuperação eficaz de ficheiros e de sistemas.

 

Um dos mais usados é vulgarmente conhecido pelo esquema “Son / Father / Grandfather”, em que se realizam-se backups incrementais ou diferenciais diários (filhos), backups totais semanais (pais) e backups totais mensais (avós).

 

·         Backups diários. Quando a janela de backup assim o permite, estes backups são do tipo diferencial. Neste caso, numa eventual  recuperação apenas se recorre ao ultimo backup diferencial e ao ultimo backup total. Este backups são realizados a 2ª , 3ª , 4ª e 5ª feira, no media set relativo ao dia da semana a que correspondem. Pratica-se uma rotação semanal dos media sets diários, garantindo-se assim a guarda de todas as versões diárias durante uma semana.

 

·         Backups semanais. De modo a reflectirem a actualização semanal relativa á informação adicionada aos sistema após a semana laboral, estes backups totais são habitualmente agendados para 6ª feira. Segue-se geralmente um esquema de rotação dos media sets semanais com um período de 4 semanas. Nestes caso, garante-se a guarda  das versões de 6ª feira durante as mesmas 4 semanas.

 

·         Backups mensais. Esta operação é efectuada ao fim de um ciclo de 4 semanas. Consiste em retirar do esquema de rotação, as tapes do media set semanal relativo à 4ª semana. (Ao media set semanal da 4ªsemana são atribuídas novas tapes). As tapes retiradas constituem agora um media set mensal que pode ser guardado por tempo indefinido ou poderá ser-lhe atribuído um prazo de validade, expirado o qual ficam disponíveis para reutilização.

IV.               O File-by-File e Image Backup

O image e o file-by-file são as metodologias de backup mais  comuns.

Num backup do tipo file-by-file a informação é copiada ficheiro a ficheiro. Neste caso, o sistema de backup vai pedindo ao sistema que protege a copia de cada  ficheiro. Assim, o sistema protegido é obrigando  a dispensar alguma atenção ao sistema de backup na gerência dos pedidos de I/O, ocupando por isso uma percentagem significativa de recursos e de reserva de processamento.

Devido á fragmentação, a informação relativa a um ficheiro não se encontra, normalmente, armazenada em regiões adjacentes do suporte físico de armazenamento. Por este facto, a ordem lógica de um ficheiro raramente corresponde a uma ordem de posição física sequencial, e durante a cópia de um ficheiro, as cabeças de leitura de cada disco duro são constantemente movidas entre regiões espaciais distantes, executando  movimentos descontínuos e bruscos. A esta perda de eficácia no processo de leitura, corresponde um fluxo de informação intermitente. Explica- se, assim, a que as taxas transferência reais muito raramente se aproximam dos débitos disponibilizadas pelos periféricos de armazenamento dedicados ao backup. A performance do sistema de backup pode ser substancialmente melhorada desfragmentando o disco regularmente.

 

O image backup cria uma copia física exacta do suporte onde residente a informação, que é normalmente o disco, do sistema que se pretende proteger. A ordem sequencial de transferência da informação não segue o sistemas de directórios com que se organiza um volume lógico. Em vez disso, o image backup opera ao nível físico do disco, transferindo os blocos, segmento a segmento, cilindro após cilindro. As cabeças de leitura percorrem o disco num movimento continuo, fornecendo um fluxo de informação constante que maximiza a taxa de transferencia para o suporte de armazenamento de backup.

O image backup é particularmente útil quando se pretende fazer a recuperação de todo um disco. Numa situação de Disaster Recovery, toda a informação será reposta em disco seguindo a ordem sequencial física de bloco em bloco igual à sequência da imagem residente em backup. Assim, mesmo que o acesso ao periférico de armazenamento de backup seja sequencial, a taxa de transferência é maximizada, proporcionando uma rápida recuperação do sistema.

Durante uma operação de backup, o local onde reside lógica e fisicamente a informação protegida, não pode ser modificado. De modo a garantir a consistência da informação em backup, a maioria dos sistemas do tipo image backup requerem que o sistema a proteger esteja off-line.

Qualquer das técnicas tem vantagens e inconvenientes. Vejamos em que situações:

 

·         Backing up. Os frequentes pedidos de I/O e o reposicionamento constante das agulhas do disco do sistema protegido fazem com que as tecnologias baseadas no file-by-file  tradicional sejam consideravelmente mais lentas do que as do tipo image backup. Neste ultimo, todos os blocos de um disco são copiados, inclusivamente aqueles que não contêm informação. Desperdiça-se assim, alguma capacidade de armazenamento dedicada ao backup

 

·         Restoring. A recuperação de ficheiros, a partir das copias fragmentadas, residentes num image backup é mais lenta do que a partir de um file-by-file backup. Esta baixa prestação é muito mais evidente quando o suporte dedicado ao backup é do tipo sequencial - fita magnética.

 

·         Disaster Recovery. O image backup está fortemente ligado á geometria do disco que se protege. Uma imagem só pode ser reposta para um disco que tenha exactamente a mesma organização física de blocos, segmentos, pistas e cilindros, i.e., a informação só pode ser reposta para um disco igual àquele que foi a fonte do image backup. Com o file-by-file backup também é possível recuperar  todo o sistema. Esta operação é mais complicada e mais lenta do que no caso da recuperação a partir de uma imagem. Por outro lado, não é necessário que o disco do sistema a recuperar seja idêntico ao disco fonte.

 

V.                 Novas tecnologias de Backup

Existem no mercado vários tipos de Software que permitem reduzir ao mínimo a intervenção humana na gestão dos sistemas, bem como contornar as principais dificuldades impostas pelos métodos de backup tradicionais. Nomeadamente, implementam a gestão automática de media sets em livrarias robotizadas, possibilitam a criação de uma imagem a partir de um backup do tipo file-by-file, automatizam as operações de disaster recovery, e utilizam métodos que asseguram a consistência da informação mesmo quando o operação de backup é realizada com os sistemas on-line.

Contornando as desvantagens e agregando as virtudes dos sistemas de backup tradicionais, surgem então novas formas de abordar o problema da segurança da informação distribuída em redes.

 

·         Real-Time backup. Sendo uma variante do file-by-file backup, nesta tecnologia de backup, as actualizações da informação em backup são feitas sempre que é adicionada informação ao sistema protegido, eliminando-se a necessidade da janela de backup.

 

·         Object Replication. Esta tecnologia baseia-se no image backup mas permite uma recuperação do tipo file-by-file. Com efeito, no image backup a estrutura da arvore não é gravada, o que obriga a uma recuperação fisicamente igual. O Object Replication memoriza essa estrutura em base de dados, permitindo que, na fase de recuperação, os ficheiros sejam recuperados desfragmentados e seguindo a arvore de directórios do volume, conjuntamente com as propriedades de segurança de cada ficheiro.

 

Nas redes informáticas das Empresas e Organizações existem muitos ficheiros e partes de ficheiros comuns a um grande conjunto de clientes. Alem dos ficheiro do sistema operativo e aplicações, são também exemplo de redundância os formulários, logos, os templates de cartas, de faxs, de facturas, pedidos de pagamento, envios de pagamento e muitas outras específicas da actividade das Empresas. Alguns Softwares de backup, dedicados a garantir a segurança das estações de trabalho, aplicam novas tecnologias baseadas em novos princípios, de que são exemplo o Redundant File Elimination (RFE) e o Redundant Block Elimination (RBE).

 

Seguindo esta tecnologia, na operação de backup total ao primeiro cliente, a totalidade dos blocos são copiados. Ao segundo cliente, porém, já não serão incluídos os blocos que são redundantes relativamente ao primeiro. Na operação de backup ao N-éximo cliente já não serão incluídos os ficheiro e blocos que são redundantes relativamente ao primeiros N-1 clientes.

Em ambientes em que os sistemas operativo alternam entre Win98/95 e estações de trabalho NT, suportando as aplicações habituais do pacote Office, será de esperar que depois de concluídos os backups semente (primeiros clientes) se verifique uma redução drástica nos tempos estimados para os backups aos clientes seguintes.

Na grande maioria dos documentos das empresas e organizações, são ainda comuns expressões como “Exmos Srs”, “Melhores cumprimentos”, “atentamente”, etc. Os Softwares de backup de ultima geração integram algoritmos de compressão capazes de gerarem a codificação de termos redundantes, estendendo a política de eliminação de informação redundante ao nível da palavra.

Por outro lado, um cliente só é sujeito a uma operação total da primeira vez que esta se efectua. Com efeito, depois de concluído o backup semente todos seguintes são “backups incrementais” pois só são copiados os blocos de memória em disco que mudaram relativamente backup anterior.

Numa segunda fase, da responsabilidade do Servidor de backup, os blocos novos, ligados por uma base de dados aos ficheiros respectivos a que pertencem, são acrescentados ao backup do cliente. Este tipo de backup têm o nome de Full Virtual Backups, e tem vindo a proliferar em LANs de baixas prestações revelando resultados excelentes.

Medições efectuadas, em condições reais de ethernet a 0.6MB/s, permitiram registar janelas de backup na ordem dos 3 minutos para concluir um backup total a clientes, com uma media de 3GB armazenados,.

Havendo necessidade de se recuperar um cliente na totalidade, com base num full virtual backup, o Software gera, automaticamente, uma imagem do disco a recuperar bem como um disco de arranque personalizado, i.e., dedicado a esse cliente.

O cliente a recuperar “arranca” através de um mini sistema operativo, que garante as comunicações sobre a rede com o servidor de backup onde reside a imagem, que é restaurada automaticamente sem necessidade de mais intervenção de um operador.

  VOLTAR À PRIMEIRA PÁGINA DESTA EDIÇÃO