Content Addressable|Aware Storage (CAS): Au-delà des offres, définissons le CAS

Le CAS c'est tout un programme et plus que ça car les utilisateurs doivent être persuadés de son rôle clé et incontournable aujourd'hui dans le monde de l'archivage. C'est surement un des axes les plus innovants et excitants de notre secteur.

Le modèle d’architecture retenu est appelé RAIN (Redundant|Reliable|Random

Array of Independant|Inexpensive Nodes) et la plupart des solutions d’aujourd’hui reposent sur ce modèle. Cette architecture a l’immense avantage d’être fortement évolutive et donc au cours du temps de pouvoir permettre de stocker de forts volumes de données sur du matériel standard enrichi de fonctionnalités avancés. On parle ici d’architecture scale-out ou horizontale pour indiquer que le traitement est réparti sur plusieurs systèmes en parallèle (interface réseau multiples, sous-systèmes disques, répartition de la charge sur plusieurs unités de traitement…) garantissant ainsi une capacité de traitement importante qui épouse l’évolution des besoins et le volume de données soumis. Pour mémoire, on retrouve aussi l’architecture RAIN dans des produits de sauvegarde, des serveurs vidéo ou de calcul. Plusieurs générations de CAS sont apparues, la première remonte à 2000-2001, le gros de l’offre est aujourd’hui dit de seconde génération avec un petit dernier qui se distingue et qui demeure le seul à être de 3^ième génération. Je reviendrai sur ces distinctions.

Une solution CAS doit répondre à plusieurs critères :

Indépendance matérielle et surtout pérennité des composants ou éléments de la solution: Ethernet, TCP/IP, les déclinaisons ATA, Linux, Intel ou AMD, protocoles standards de partage ou d’échange… garantissent un investissement sur le long terme à bon prix afin que la solution devienne une vraie commodité.
Capacité massive d’évolutivité pour soutenir les volumes importants stockés et cumulés au cours du temps et pour servir les requêtes utilisateurs potentiellement en plus grand nombre, de même que sa propre mise-à-jour (unité élémentaire, disque...).
Performance en entrées/sorties vis-vis de l’extérieur.
Ouverture pour la migration vers une autre plateforme.
Immuabilité et intégrité de l’information, généralement réalisées grâce aux algorithmes de cryptographie MD5, la famille SHA ou des déclinaisons.
Fonction type WORM (Write Only Read Many).
Efficacité de l’occupation de l’espace grâce à des méthodes avancées de déduplication ou de réduction de données éventuellement couplées à la compression.
Apport éventuel de chiffrement des échanges entre les plateformes et entre le client et l’unité si le protocole d’accès est ouvert.
Capacité d'indexation et recherche avancée comme notamment le full-text.
Auto-configuration surtout dans les phases de reconfiguration, d’ajout d’éléments ou de tâche de maintenance.
Auto-administration car le système risque de vivre plus longtemps que la durée de l’affectation de l’administrateur.
Auto-réparation ou auto-protection en cas de défaillance, le système s’auto-protège et se reconfigure.
Et interface simple avec l’environnement extérieur au travers d’APIs ouvertes ou de protocoles standards comme WebDAV, http, NFS ou CIFS.

Content Addressable|Aware Storage (CAS)

12 février 2007

Au-delà des offres, définissons le CAS

Aucun commentaire: