In het huidige digitale tijdperk produceren we wereldwijd, dagelijks het absurde aantal van bijna 2,5 quintiljoen bytes aan gegevens. Zo produceert jouw bedrijf ook een hoop gegevens. Voor efficiëntie, kostenbesparing en voorkoming van het lekken van onnodig veel gevoelige gegevens bij een calamiteit is het regelmatig opschonen van data geen overbodige luxe.1
In deze blog leggen we meer uit waar je je op moet focussen bij het opschonen van gegevens en de rol van de-duplicatie daarin. Maar eerst lichten we aan de hand van praktische voorbeelden het belang van goed datamanagement toe. Bedrijven die dubbele, onnauwkeurige en verouderde informatie verwerken kunnen bijvoorbeeld te maken krijgen met gevolgen zoals:
Daarom is het opschonen van gegevens van vitaal belang voor elke onderneming. Het opschonen van gegevens (data cleansing) is een proces waarbij incorrecte, corrupte, onvolledige of gedupliceerde gegevens worden gewijzigd of verwijderd.
Het opschonen van gegevens bevat de volgende 5 elementen — gegevens standaardisatie, gegevens normalisatie, gegevens analyse, kwaliteitscontrole en gegevens de-duplicatie.
De meeste bedrijven gebruiken gegevens uit meerdere bronnen, zoals een gegevensopslag, cloud-opslag en databases. Maar gegevens uit verschillende bronnen hebben mogelijk geen uniform formaat, wat later tot problemen kan leiden. Dit is waar gegevens standaardisatie uitkomst biedt. Standaardisatie is een proces waarbij gegevens worden omgezet in een gemeenschappelijk formaat, zodat gebruikers ze kunnen verwerken en analyseren.
Normalisatie is het proces van het ordenen van gegevens in een database. Simpel gezegd omvat dit proces het elimineren van ongestructureerde gegevens en overbodige informatie (duplicaten) om een logische gegevensopslag te garanderen. Dit proces is bijvoorbeeld van toepassing op de registratie van namen van contactpersonen, adressen, telefoonnummers en zelfs codes.
Gegevens analyse is een proces waarbij gegevens worden geanalyseerd met behulp van logische en analytische redeneringen om waardevolle inzichten te verkrijgen. De informatie die daaruit voortkomt, helpt bij het nemen van verantwoorde beslissingen.
Bedrijven hebben gegevens van goede kwaliteit nodig om de juiste beslissingen te kunnen nemen. Daarom zijn kwaliteitscontroles essentieel.
Gegevens de-duplicatie (data deduplication) is een belangrijk onderdeel voor het opschonen van gegevens. De-duplicatie een proces waarbij dubbele gegevens of bestanden worden geïdentificeerd en verwijderd.
In dit proces worden gegevens verdeeld in verschillende blokken die met elkaar worden vergeleken. Elk blok krijgt hierbij een unieke hashcode. Als de hashcode van een blok overeenkomt met de hashcode van een ander blok, wordt het beschouwd als een duplicaat en gewist. Dit zorgt ervoor dat alleen een unieke kopie van de gegevens wordt opgeslagen. De-duplicatie kan overbodige kopieën van gegevens in verschillende gegevenstypen, mappen, servers en locaties opsporen.
De lokale opslagcapaciteit van de meeste MKB-bedrijven is vaak beperkt en de kosten van Cloud opslag kunnen behoorlijk oplopen als de basisopslag wordt overschreden. Maar de hoeveelheid gegenereerde, overgedragen en opgeslagen gegevens neemt gestaag toe. Het proces van gegevens de-duplicatie helpt dit probleem aan te pakken door:
De-duplicatie helpt je bedrijf:
Procesdocumentatie kan hier bij helpen, zodat je medewerkers op de hoogte zijn van de de-duplicatie procedures.
Enkele populaire de-duplicatie technieken zijn:
Bron de-duplicatie
Bij bron de-duplicatie worden dubbele gegevens eerst verwijderd voordat ze naar het back-up medium worden verzonden.
Doel de-duplicatie
Dit proces vindt plaats op het back-up medium zelf. In tegenstelling tot bron de-duplicatie worden hierbij eerst de gegevens verzonden en daarna pas de dubbele gegevens verwijderd.
Inline de-duplicatie
Inline de-duplicatie is het verwijderen van dubbele gegevens terwijl ze naar een back-upmedium worden geschreven.
Post process de-duplicatie
Dit proces, ook bekend als asynchrone de-duplicatie, verwijdert dubbele gegevens nadat deze zijn verzonden naar een opslaglocatie.
Hoewel verschillende de-duplicatie technieken dubbele bestanden of gegevens verwijderen door patronen te identificeren presteren ze allemaal anders. Bij de keuze van de oplossing die het beste bij jouw bedrijf past, moet je rekening houden met factoren als kosten en opslagvereisten. Je moet gaan voor een type de-duplicatie dat zinvol is voor je bedrijf in plaats van gewoon de concurrentie te volgen. Vraag bij twijfel advies aan een expert.
De-duplicatie is mogelijk niet erg effectief bij sommige mediabestanden, zoals MP4 en JPEG. Denk er altijd aan om de datatypes die je behandelt te sorteren. Anders wordt de efficiëntie van de de-duplicatie aanzienlijk beïnvloed en kunnen de resultaten tegenvallen.
Staar je niet blind op beloftes waarbij wordt aangegeven dat je datagrootte met 50%-80% wordt verkleind. De werkelijke dalingspercentages hangen af van het type gegevens, back-up en de wijzigingsfrequentie van de gegevens. Het is belangrijk ervoor te zorgen dat je verwachtingen gebaseerd zijn op feiten.
Je hoeft niet op elk opslagmedium een de-duplicatie oplossing te implementeren, want dat zal niet kosteneffectief zijn. In de meeste gevallen is de-duplicatie alleen nodig voor secundaire locaties zoals back-ups, waar de kosten een rol spelen. Daarnaast heeft het toepassen van de-duplicatie in primaire opslag, zoals datacenters, invloed op de opslagprestaties.
Je hoeft niet op elk opslagmedium een de-duplicatie oplossing te implementeren, want dat zal niet kosteneffectief zijn. In de meeste gevallen is de-duplicatie alleen nodig voor secundaire locaties zoals back-ups, waar de kosten een rol spelen. Daarnaast heeft het toepassen van de-duplicatie in primaire opslag, zoals datacenters, invloed op de opslagprestaties.
Om te voorkomen dat je voor verrassingen komt te staan, moet je rekening houden met alle kosten. Denk hierbij aan factoren zoals onderhouds- en beheerskosten, naast de kosten van fysieke opslag.
Wil je graag een strategie voor het opschonen van je gegevens? Begin dan met het implementeren van een de-duplicatie oplossing waarmee je opslagruimte bespaard en sneller herstel mogelijk is na een incident met gegevensverlies. Kies hierbij voor de oplossing die het beste bij je bedrijf past. Kies hierbij voor de oplossing die het beste bij je bedrijf past. Twijfel je over welke oplossing het beste is, neem dan contact met ons op voor een gratis adviesgesprek.
Bronnen: