Column: Data Deduplicatie - Hype or H(n)ot

In storageland staat de ontwikkeling van nieuwe technieken en technologieën niet stil. Vaak wordt er eerst in de markt een proef ballonnetje los gelaten om te kijken of deze er al rijp voor is. In het begin wordt dit vaak gezien als een Hype. Maar zijn deze technieken voor de toekomst Hot or Not? Goede voorbeelden hiervoor zijn Storage Clouds, Online Backup en Data Deduplicatie. Op dit moment zijn EMC en NetApp in een hevige strijd verwikkeld met elkaar over de overname van de markleider in Data Deduplicatie, DataDomain. Met een laatste bod van $ 2.1 miljard lijkt EMC dit gevecht te gaan winnen. Omdat deze battle op dit moment breeduit in de media wordt besproken, wil ik eens wat dieper in gaan op wat Data Deduplicatie nu precies inhoudt.


Data Deduplicatie of in “goed” Nederlands data ontdubbeling houdt in: het zo efficiënt mogelijk wegschrijven van data, waarbij “dubbele” data middels een techniek maar een enkele keer worden opgeslagen.


Een eerste aanzet tot Data Deduplicatie is Single Instancing. Dit wordt op dit moment voornamelijk gebruikt binnen Microsoft Exchange. Hierbij worden bijvoorbeeld dezelfde attachments welke gelijktijdig naar meerdere gebruikers worden gestuurd maar een enkele keer opgeslagen. Dit wordt ook wel Deduplicatie op bestandsniveau genoemd. Hiermee kan al een aanzienlijke besparing worden gerealiseerd met betrekking tot de benodigde opslag. Maar als er binnen hetzelfde bestand alleen maar een enkele letter wordt gewijzigd zal het volledige bestand weer opnieuw worden opgeslagen.

Een beter rendement kan men halen uit het op “blokniveau” dedupliceren van data. Hierbij wordt niet op fileniveau vergeleken op “dubbelen” maar dieper nog, op blokniveau. Hiervoor is een tweetal technieken ontwikkeld, namelijk Global Source based Deduplicatie en Target based Deduplicatie. Deze technieken worden op dit moment voornamelijk in back-upomgevingen ingezet.


Global Source based Data Deduplicatie (Data Deduplicatie aan de bron) is gebaseerd op 'Global single instance storage'. Hierbij wordt deduplicatie van data aan de bron gedaan. Bijvoorbeeld alle data van externe kantoren en datacentra die op meerdere plaatsen voorkomen, worden slechts éénmaal centraal opgeslagen. Deze technologie voorziet elk bestand van een "vingerafdruk", gebaseerd op de inhoud, om zo unieke bestanden op verschillende clients en locaties nauwkeurig te identificeren. Wanneer de bestandsinhoud verandert, worden alleen de unieke segmenten van gewijzigde gegevens in het bestand geïdentificeerd en wordt vervolgens gecomprimeerd. Hierdoor wordt de grootte van de back-up, de benodigde bandbreedte voor het verplaatsen van gegevens en de vereiste secundaire opslagruimte aanzienlijk gereduceerd.


Bij Target based of Inline Deduplicatie gaat het ook om het opslaan van slechts de unieke data in plaats van de repeterende data. De aard van back-updata is repeterend en juist door enkel de unieke data op te slaan wordt er een enorme efficiencyslag bereikt. In plaats van dezelfde blokken data meerdere malen weg te schrijven worden er pointers aangemaakt welke naar de eerste kopie van de data verwijzen. Vervolgens worden er hashes aangemaakt en opgeslagen om de uniekheid van de data te waarborgen. Uiteraard betekent dit een enorme kostenreductie ten opzichte van traditionele disksystemen waarbij alle data wordt opgeslagen. Het verschil tussen Inline en Source based Deduplicatie is het feit dat bij Inline Deduplicatie dit “on the fly” gebeurt in het storage systeem in plaats van aan de bron, zoals bij Source Based Deduplicatie.


Door gebruik te maken van deduplicatie technologien is het mogelijk om data een zeer lange tijd op te slaan tegen een fractie van de kosten van traditionele disktechnologie. Gezien de huidige economische gesteldheid is op dit moment Data Deduplicatie een HOT item te noemen.
 

 
Abonneer u op deze column