A deduplicação de dados, geralmente chamada de compactação inteligente ou armazenamento de instância única, é um processo que elimina cópias redundantes de dados e reduz a sobrecarga de armazenamento. As técnicas de desduplicação de dados garantem que apenas uma instância exclusiva de dados seja retida na mídia de armazenamento, como disco, flash ou fita.
Os blocos de dados redundantes são substituídos por um ponteiro para a cópia de dados exclusiva. Dessa forma, a deduplicação de dados se alinha com o backup incremental , que copia apenas os dados que foram alterados desde o backup anterior. Por exemplo, um sistema de e-mail típico pode conter 100 instâncias do mesmo anexo de arquivo de 1 MB.
Se for feito backup ou arquivamento da plataforma de e-mail, todas as 100 instâncias serão salvas, exigindo 100 MB de espaço de armazenamento. Com a deduplicação de dados, apenas uma instância do anexo é armazenada; cada instância subsequente é referenciada de volta à cópia salva. Neste exemplo, uma demanda de armazenamento de 100 MB cai para 1 MB.
O software de deduplicação de dados analisa os dados para identificar padrões de bytes duplicados. Dessa forma, o software de deduplicação garante que o padrão de byte único seja correto e válido e, em seguida, usa esse padrão de bytes armazenado como referência. Quaisquer outras solicitações para armazenar o mesmo padrão de bytes resultarão em um ponteiro adicional para o padrão de byte armazenado anteriormente.
A deduplicação de dados permite que os usuários reduzam os dados redundantes e gerenciem com mais eficiência a atividade de backup, além de garantir backups mais eficazes, economia de custos e benefícios de balanceamento de carga.
Existe mais de um tipo de deduplicação de dados. Em sua forma mais básica, o processo acontece no nível de arquivos individuais, eliminando arquivos idênticos. Isso também é chamado de armazenamento de instância única (SIS = Single Instance Storage) ou deduplicação a nível de arquivo. A deduplicação de arquivos elimina arquivos duplicados, mas não é um meio eficiente de deduplicação.
A deduplicação de dados em nível de arquivo compara um arquivo para backup ou arquivamento com cópias que já estão armazenadas. Isso é feito verificando seus atributos em um índice. Se o arquivo for exclusivo, ele será armazenado e o índice atualizado; caso contrário, apenas um ponteiro para o arquivo existente é armazenado. O resultado é que apenas uma instância do arquivo é salva e as cópias subsequentes são substituídas por um esboço que aponta para o arquivo original.
A deduplicação no nível do bloco examina um arquivo e salva iterações exclusivas de cada bloco. Todos os blocos são quebrados em pedaços com o mesmo comprimento fixo. Cada bloco de dados é processado usando um algoritmo de hash, como MD5 ou SHA-1. Esse processo gera um número único para cada peça, que é armazenado em um índice.
Se um arquivo for atualizado, apenas os dados alterados serão salvos, mesmo que apenas alguns bytes do documento ou apresentação tenham sido alterados. As mudanças não constituem um arquivo inteiramente novo. Esse comportamento torna a deduplicação em bloco muito mais eficiente. No entanto, a deduplicação em bloco consome mais poder de processamento e usa um índice muito maior para rastrear as peças individuais.
A deduplicação de comprimento variável é uma alternativa que divide um sistema de arquivos em pedaços de vários tamanhos, permitindo que o esforço de deduplicação obtenha melhores taxas de redução de dados do que os blocos de comprimento fixo. As desvantagens são que ele também produz mais metadados e tende a ser mais lento.
As colisões de hash são um problema potencial de deduplicação. Quando um dado recebe um número hash, esse número é então comparado com o índice de outros números hash existentes. Se esse número hash já estiver no índice, a parte dos dados é considerada uma duplicata e não precisa ser armazenada novamente. Caso contrário, o novo número hash é adicionado ao índice e os novos dados são armazenados.
Em casos raros, o algoritmo de hash pode produzir o mesmo número de hash para dois blocos de dados diferentes. Quando ocorre uma colisão de hash, o sistema não armazena os novos dados porque vê que seu número de hash já existe no índice. Isso é chamado de falso positivo, e isso pode resultar em perda de dados. Alguns fornecedores combinam algoritmos de hash para reduzir a possibilidade de uma colisão de hash.
QUAIS SÃO OS BENEFÍCIOS DA DEDUPLICAÇÃO DE DADOS?
Imagine quantas vezes você faz uma pequena alteração em um documento. Um backup incremental fará o backup de todo o arquivo, mesmo que você tenha alterado apenas um byte. Cada ativo comercial crítico tem o potencial de conter dados duplicados. Em muitas organizações, até 80% dos dados corporativos são duplicados.
Um cliente que usa a deduplicação no destino (também chamada de deduplicação no lado do destino), em que o processo de deduplicação é executado dentro de um sistema de armazenamento depois que os dados nativos são armazenados nele, pode economizar muito dinheiro em armazenamento, resfriamento, espaço físico e manutenção.
Um cliente que usa deduplicação na origem (também chamada deduplicação no lado da origem, ou deduplicação no lado do cliente), em que o redundante é identificado na origem antes de ser enviado pela rede, pode economizar dinheiro em armazenamento e largura de banda da rede. Isso ocorre porque os segmentos redundantes de dados são identificados antes de serem transmitidos.
A deduplicação na origem funciona muito bem com armazenamento em nuvem e pode melhorar notavelmente a velocidade do backup. Ao reduzir a quantidade de dados e a demanda por largura de banda de rede, a deduplicação simplifica o processo de backup e recuperação. Para decidir quando usar a deduplicação, considere se sua empresa pode se beneficiar com essas melhorias.
O QUE É UM EXEMPLO DE DEDUPLICAÇÃO DE DADOS NA VIDA REAL?
Imagine que o gerente de uma empresa envie 500 cópias do mesmo arquivo de 1 MB, um relatório de perspectivas financeiras com gráficos, para toda a equipe. O servidor de e-mail da empresa agora está armazenando todas as 500 cópias desse arquivo. Se todas as caixas de entrada de e-mail usarem um sistema de backup de dados, todas as 500 cópias serão salvas, consumindo 500 MB de espaço no servidor.
Mesmo um sistema básico de duplicação de dados em nível de arquivo salvaria apenas uma instância do relatório. Todas as outras instâncias apenas se referem a essa única cópia armazenada. Isso significa que a largura de banda final e a carga de armazenamento no servidor são de apenas 1 MB dos dados exclusivos.
Outro exemplo é o que acontece quando as empresas realizam backups incrementais de arquivos completos, onde apenas alguns bytes foram alterados, e ocasionalmente realizam backups completos. Um servidor de arquivos de 10 TB criaria 800 TB apenas de oito backups fulls semanais, e provavelmente outros 8 TB ou mais de backups incrementais no mesmo período. Um bom sistema de deduplicação pode reduzir esses 808 TB para menos de 100 TB, sem diminuir a velocidade de restauração.
QUAL É TAXA DE DEDUPLICAÇÃO DE DADOS?
A proporção de deduplicação se refere à proporção da quantidade de dados que seria transmitida ou armazenada sem deduplicação, em relação à quantidade armazenada com deduplicação. A deduplicação pode ter um grande impacto no tamanho do backup, reduzindo-o em até 25 vezes em uma configuração de backup corporativo padrão. Obviamente, isso depende da quantidade de dados duplicados e da eficiência do algoritmo de deduplicação de arquivos.
No entanto, a taxa de deduplicação de um cliente pode representar uma imagem imprecisa da eficácia de um sistema de deduplicação. Se você fizesse backup do mesmo arquivo 400 vezes, obteria uma taxa de deduplicação de 400 por 1, mas isso fala mais sobre a ineficiência do seu sistema de armazenamento do que dizer qualquer coisa sobre a qualidade do seu sistema de deduplicação.
O QUE É DEDUPLICAÇÃO PÓS-PROCESSO?
A deduplicação pós-processo (PPD) caracteriza um sistema no qual o software de deduplicação identifica e exclui dados redundantes somente depois que eles são gravados em um sistema de armazenamento de dados de deduplicação de destino. Essa técnica pode ser necessária se não for viável ou eficiente excluir dados duplicados antes ou durante a transferência.
Às vezes, isso também é conhecido como deduplicação assíncrona, pois o processo de deduplicação geralmente é executado enquanto os backups estão sendo gravados, mas cada segmento só é deduplicado depois de primeiro ser gravado no armazenamento.
COMO FAZER A IMPLEMENTAÇÃO DA DESDUPLICAÇÃO DE DADOS?
A melhor maneira de implementar a tecnologia de deduplicação de dados dependerá das metas de proteção de dados do usuário, dos fornecedores de deduplicação de dados usados e o tipo de aplicativo de deduplicação em questão. Por exemplo, um dispositivo de deduplicação de backup ou solução de armazenamento geralmente inclui tecnologia de deduplicação. E, portanto, tem um processo de implementação muito diferente de uma ferramenta de software de deduplicação independente.
No entanto, a tecnologia de deduplicação de documentos geralmente é implantada no destino ou na origem. As diferenças aqui se referem não apenas a onde, mas quando o processo de deduplicação ocorre, antes do armazenamento no sistema de backup ou depois que os dados já estão lá.
COMO FUNCIONA A CRIPTOGRAFIA DE DESDUPLICAÇÃO DE DADOS?
Existe uma relação íntima entre a deduplicação e a criptografia porque uma ferramenta só pode detectar dados duplicados e excluí-los se puder ler esses dados. Isso significa que qualquer criptografia deve sempre ocorrer após o processo de deduplicação. Se isso acontecesse antes do processo de deduplicação, nenhum dado duplicado seria encontrado.
Independente de sua empresa utilizar deduplicação de dados, os sistemas de armazenamento podem falhar, seja por problemas nos próprios equipamentos ou por erros humanos. Quando isso ocorrer, entre em contato com a E-RECOVERY. Nós podemos ajudá-lo a restaurar seus dados de equipamentos como NAS, Servidores e Storages configurados em arrays RAID.