Data virtualisatie: Haarlemmerolie voor data integratie?

Het creëren van nieuwe, grote geïntegreerde databases is risicovol, tijdrovend en zorgt voor nieuwe uitdagingen in de zin van schaalbaarheid. Data virtualisatie is een mogelijke oplossing om de hoge kwaliteit, noodzakelijke data te leveren. In de praktijk blijkt het steeds weer een uitdaging om de noodzakelijke data met bijbehorende kwaliteit te leveren. In deze blog komen achterliggende uitdagingen aan de orde, waarbij de mogelijkheden van een concept als data virtualisatie aan bod komt als mogelijke oplossing.

 

Oplossing voor data problematiek

Deze blog staat stil bij data virtualisatie als oplossing voor data integratie problematiek. Met dank aan de visie van Danny Greefhorst op dit onderwerp. Data is de basis voor processen en het goed laten verlopen ervan. De kwaliteit van de data moet aansluiten bij de eisen die worden gesteld vanuit het proces.

Alles draait om data. Veelal zit deze data echter gevangen of opgesloten in allerlei bestaande applicaties. Waarbij elke applicatie een eigen datamodel heeft dat geen weet heeft van het datamodel van andere applicaties. Dit zijn, in de basis, de twee grootste maar verschillende uitdagingen voor veel organisaties.

Te beginnen bij het ontsluiten van de data. Daarbij is het van belang om onderscheid te maken tussen het ophalen van gegevens (read) en het wegschrijven van (aangepaste) gegevens (write). Voor het lezen kan een rechtstreekse koppeling met de database voldoen. Voor het schrijven van (aangepaste) data moet gebruik gemaakt worden van een (web)service waarin rekening gehouden wordt met de logica van betreffende applicatie. Voor oudere applicaties kan dit nog wel eens voor een uitdaging zorgen omdat benodigde webservices niet voorhanden zijn.

Data Management

Doordat iedere applicatie zijn eigen data heeft, lopen we er veelal tegenaan dat dezelfde data voor een deel ook in andere applicaties voorkomt (persoons- en adresgegevens als bijvoorbeeld komen in meerdere applicaties terug). Uit de praktijk blijkt dat deze data van elkaar kan verschillen. Dit soort problemen zijn voor een deel af te vangen in het proces. Wie is verantwoordelijk voor welke data en welke data is leidend in het geval van verschillen?

Dit blijkt in de praktijk toch nog wel eens lastig, waardoor het toewijzen van een eigenaar of bronapplicatie niet altijd eenvoudig is. In het verlengde hiervan wordt data om verschillende redenen gekopieerd. Het meest bekende voorbeeld hiervan is het DataWareHouse en het DataLake. Deze dienen als centrale bron voor managementinformatie, maar vragen om een behoorlijke inspanning om de data compleet en actueel te houden in de vorm van ETL processen.

 

data integratie

 

Vanuit de complexiteit en beperkte flexibiliteit ontstaat dan ook een behoefte om rapportages direct op de bron applicaties te kunnen uitvoeren. Dit zorgt voor nieuwe vraagstukken in de zin van het borgen van de performance en het integreren van de benodigde data over de verschillende applicaties heen. Hiermee ontstaat er een behoefte aan een organisatiebrede data-infrastructuur die de data beschikbaar stelt aan processen.

Data virtualisatie voor data integratie

Een gestandaardiseerde gegevensinfrastructuur vergroot de flexibiliteit in de zin van rapportage mogelijkheden. Het creëren van een nieuwe grote geïntegreerde databases is risicovol, tijdrovend en zorgt voor nieuwe uitdagingen in de zin van schaalbaarheid. Het risico bestaat dat ook hier onevenredig veel tijd in gaat zitten, en dat er een monolithisch onbeheersbaar geheel ontstaat. Data virtualisatie is een concept voor data integratie dat hier een oplossing voor biedt.

Data virtualisatie zorgt ervoor dat data die zich in allerlei verschillende applicaties, databases, fileservers en DataLakes bevinden, zich als één geïntegreerde (virtuele) set van data manifesteren. Een dataset die ook als één geheel doorzocht kan worden. Dit is op zich niet nieuw, maar de technologie is verder ontwikkeld waarbij er ook mogelijkheden zijn om wijzigingen aan te brengen in data en deze te pushen naar de bronsystemen. Dit zorgt daarmee voor nieuwe mogelijkheden voor het ontsluiten, integreren en beheren van gegevens.

Denk aan gegevensverzamelingen die overlappen door redundantie in het applicatielandschap, maar die wel als één geïntegreerde gegevensverzameling gebruikt  moeten worden. Ook op het gebied van managementinformatie biedt deze technologie kansen, omdat het creëren van een specifiek datawarehouse (deels) kan worden voorkomen.

Performance

Een belangrijk aandachtspunt daarbij is dat de performance van het opvragen van data uit de bronsystemen. Het tijdelijk bewaren – cachen – van gegevens in deze virtuele laag biedt in veel gevallen een oplossing. Als hoge snelheid van gegevensverwerking erg belangrijk is, dat moet goed gelet worden op de omvang van datasets die opgevraagd worden, het aantal gelijktijdige gebruikers en de mogelijkheden van onderliggende systemen.

Daarmee is Data Virtualisatie een interessant concept om te verkennen en daarbij te kijken naar de mogelijkheden en onmogelijkheden van de verschillende technische implementaties. Ten aanzien van de performance bieden veel leveranciers onafhankelijke rapporten die inzicht geven in de snelheid van de oplossing met specifieke informatie over bandbreedte van het netwerk, specificaties van de server(s), aantal gelijktijdige gebruikers, aantal databronnen en aantal rijen van een dataset die opgevraagd wordt. Deze rapporten kan ik op verzoek toesturen.

Benieuwd hoe DLL call agents 30% productiever zijn met de inzet van Data Virtualisatie?