
Le CAS est l'acronyme de Content Addressable|Aware Storage, on trouve même une déclinaison en Compliance Archiving System. Cette plateforme récente de stockage permet de stocker les données en gardant un accès facile, "dédupliqué", immédiat et en ligne comme le stockage primaire. On parle alors d'Archivage Actif. Ce blog se propose de participer à l'éducation et la vulgarisation de cette technologie promise à un bel avenir. Bien sûr, le contenu de ce blog ne reflète que mon avis personnel.
22 février 2007
Le Grid chez NEC et un accord avec Archivas

19 février 2007
PowerFile, ça fait du bien...



PowerFile se positionne sur le marché de l'Archivage avec une solution assez révolutionnaire à un coût trés faible sur un support trés standard et largement éprouvé. Leur idée est assez simple: batir une architecture stackable de "carroussel" de DVD couplée à un front-end rempli de disque SATA, bientôt SAS, servant de cache et accessible par CIFS, donc quelque chose de super simple et pas cher. Connu pour son produit PSA - Permanent Storage Appliance -, PowerFile prépare une nouvelle offensive avec sa nouvelle génération, le fameux A3 - Active Archive Appliance.

15 février 2007
HDS s'offre son OEM Archivas

Côté HDS, le mouvement est net vers une affirmation de sa stratégie d'Archivage et de Conformité. Le géant de Santa-Clara aurait payé 100M$ pour une super technologie qui va permettre à HDS de s'armer pour les fortes demandes en "Stockage Conforme" lui permettant d'élever et compléter sa gamme mais surtout de reprendre du grip sur une compétition de plus en plus présente et armée.
L'offre Archivas - le pas assez fameux Archivas Cluster (ArC) - est dédiée aux environnements de données non structurées et permet de s'affranchir des approches propriétaires tant sur le plan matériel que logiciel avec notamment un coeur Linux et un moteur distribué développé sur PostgreSQL. ArC est un CAS ouvert et trés avancé qui trouve chez HDS un socle technologique parfait pour son intégration et son adoption large par le marché. Comment va régir la concurrence et notamment EMC avec son Centera vieillissant ?

12 février 2007
Au-delà des offres, définissons le CAS
Le CAS c'est tout un programme et plus que ça car les utilisateurs doivent être persuadés de son rôle clé et incontournable aujourd'hui dans le monde de l'archivage. C'est surement un des axes les plus innovants et excitants de notre secteur.
Le modèle d’architecture retenu est appelé RAIN (Redundant|Reliable|Random
Array of Independant|Inexpensive Nodes) et la plupart des solutions d’aujourd’hui reposent sur ce modèle. Cette architecture a l’immense avantage d’être fortement évolutive et donc au cours du temps de pouvoir permettre de stocker de forts volumes de données sur du matériel standard enrichi de fonctionnalités avancés. On parle ici d’architecture scale-out ou horizontale pour indiquer que le traitement est réparti sur plusieurs systèmes en parallèle (interface réseau multiples, sous-systèmes disques, répartition de la charge sur plusieurs unités de traitement…) garantissant ainsi une capacité de traitement importante qui épouse l’évolution des besoins et le volume de données soumis. Pour mémoire, on retrouve aussi l’architecture RAIN dans des produits de sauvegarde, des serveurs vidéo ou de calcul. Plusieurs générations de CAS sont apparues, la première remonte à 2000-2001, le gros de l’offre est aujourd’hui dit de seconde génération avec un petit dernier qui se distingue et qui demeure le seul à être de 3ième génération. Je reviendrai sur ces distinctions.
Le modèle d’architecture retenu est appelé RAIN (Redundant|Reliable|Random

Une solution CAS doit répondre à plusieurs critères :
- Indépendance matérielle et surtout pérennité des composants ou éléments de la solution: Ethernet, TCP/IP, les déclinaisons ATA, Linux, Intel ou AMD, protocoles standards de partage ou d’échange… garantissent un investissement sur le long terme à bon prix afin que la solution devienne une vraie commodité.
- Capacité massive d’évolutivité pour soutenir les volumes importants stockés et cumulés au cours du temps et pour servir les requêtes utilisateurs potentiellement en plus grand nombre, de même que sa propre mise-à-jour (unité élémentaire, disque...).
- Performance en entrées/sorties vis-vis de l’extérieur.
- Ouverture pour la migration vers une autre plateforme.
- Immuabilité et intégrité de l’information, généralement réalisées grâce aux algorithmes de cryptographie MD5, la famille SHA ou des déclinaisons.
- Fonction type WORM (Write Only Read Many).
- Efficacité de l’occupation de l’espace grâce à des méthodes avancées de déduplication ou de réduction de données éventuellement couplées à la compression.
- Apport éventuel de chiffrement des échanges entre les plateformes et entre le client et l’unité si le protocole d’accès est ouvert.
- Capacité d'indexation et recherche avancée comme notamment le full-text.
- Auto-configuration surtout dans les phases de reconfiguration, d’ajout d’éléments ou de tâche de maintenance.
- Auto-administration car le système risque de vivre plus longtemps que la durée de l’affectation de l’administrateur.
- Auto-réparation ou auto-protection en cas de défaillance, le système s’auto-protège et se reconfigure.
- Et interface simple avec l’environnement extérieur au travers d’APIs ouvertes ou de protocoles standards comme WebDAV, http, NFS ou CIFS.
