09 mars 2007

Do De Dup, attention aux collisions...

Un titre comme ça alors que le groupe The Police se reforme, je surfe sur la vague, d'aillleurs, j'ai déja 4 places pour un concert. Revenons à notre sujet.

Les solutions CAS déclinent pour la plupart une méthode de DéDuplication ou de Réduction de Données mettant en jeu un algorithme issu de la cryptographie pour rechercher le motif de données qui se répétent. On parle aussi sur le marché de Single Instance Storage, élimination de la redondance, data coalescence ou factorisation de données et d'autres termes doivent fleurir ici ou là au profit de telle ou telle solution qui se veut innovante.

C'est bien de chercher l'unicité des segments (fichier, bloc, secteur ou octet) de données, encore faut-il retenir un algorithme éprouvé et garantissant aucune collision. L'idée est de calculer une clé unique, souvent appelée clé de hash ou hash tout simplement, pour chaque segment de données d'origine. Par collision, on signifie que 2 segments de données différents doivent fournir, au travers de l'algorithme retenu, 2 clés différentes sinon on rencontre cette fameuse collision et le système introduit alors une perte d'intégrité faisant qu'une clé est maintenant associée à 2 segments ce qui est par définition non voulue et à éviter fortement. Les solutions du marché utilisent donc les fameux algorithmes MD4/5 ou SHA-1/128/192/256 ou 512 plus ou moins enrichis de méacnismes supplémentaires pour adresser le cas de collision éventuelle. Ainsi, Archivas ArC, bientôt sous la coupe d'HDS, EMC Centera, Bycast StorageGrid, HP Riss, Nexsan Assureon et Permabit DIS utilisent tous ce type d'algorithme. On pourrait citer aussi les acteurs de déduplication non-CAS comme Diligent, DataDomain, RenewData, RockSoft passé chez Quantum par Adic, Sepaton, FalconStor, Storage Engine ou de backup comme Asigra, ExaGrid, EMC avec Avamar Axion ou Symantec avec PureDisk. C'est surement l'une des plus importantes avancées récentes en matière de traitement de données, ici associée à une problématique de stockage, qui s'accompagnent d'un fantastique retour sur investissement et relayant la bande aux oubliettes. Le comité régional SNIA France abordera ce sujet lors du séminaire du 24 Avril prochain (http://invit.snia.free.fr).

Aucun commentaire: