Data governance

Data Lineage, cos’è, a cosa serve

Questa disciplina rappresenta la pietra miliare per data governance e data quality. Ecco come aiuta a migliorare il processo decisionale e quelli legati al business, spaziando dalle vendite alle risorse umane

Pubblicato il 12 Dic 2022

Talend Data Fabric: come Getlink adotta la strategia Data as a Service

Il Data Lineage è una disciplina che fa parte della data science e permette di approfondire la conoscenza dei dati , l’asset strategico delle aziende data-driven. L’obiettivo è gestire i dati e utilizzarli efficacemente.

Se la data governance è il primo pilastro di una data strategy, il Data Lineage rappresenta la pietra miliare per data governance e data quality. Ecco cos’è e a cosa serve, e come le aziende l’utilizzano per migliorare i propri business insights.

Data Lineage

Cos’è il Data Lineage

Il Data Lineage è il processo di tracciamento del flusso dei dati nel tempo, per fornire un quadro chiaro che aiuti a comprenderne la provenienza. Non solo l’origine stessa dei dati, ma anche come sono cambiati e la destinazione ultima della data pipeline. La data pipeline è quella cosiddetta “conduttura per dati” dove essi fluiscono e al cui interno avvengono azioni volte all’integrazione dei dati. Lo scopo è perfezionare i processi di decision-making e migliorare la competitività.

Gli strumenti per il Data Lineage forniscono una registrazione di dati lungo l’intero ciclo di vita, dalla fonte delle informazioni a ogni data transformation applicata durante i processi ETL o ELT.

Questo tipo di documentazione abilita gli utenti a osservare e tracciare differenti touchpoint lungo il data journey, consentendo alle organizzazioni di verificarne accuratezza e coerenza.

Si tratta di una capacità critica in grado di assicurare la data quality in un’organizzazione. Infatti è comunemente usata per ottenere il contesto riguardo a processi storici come errori di traccia, andando indietro alle radici, fino alle cause originarie.

Perché il Data Lineage è importante

Il Data Lineage serve a fare luce sulla provenienza dei dati e sul loro relativo ciclo di vita. Dunque offre visibilità all’origine e al data lifecycle nell’ambito del flusso di lavoro delle analytics, consentendo alle imprese di impiegare gli insights offerti dagli stessi dati, in modo sicuro e garantendo fiducia.

Questa disciplina, inoltre, permette di controllare i dati a livello granulare con un livello di dettaglio prezioso per effettuare il debugging di ogni errore di dati. Dunque consente ai data engineer di risolvere i problemi con maggiore efficacia e di accelerare l’individuazione di risoluzioni.

Gli strumenti di Data Lineage permettono alle aziende di risparmiare sul tempo e su procedure costose, per esempio, per garantire conformità a legislazioni come il Gdpr.

Data Lineage, cos'è, a cosa serve

I vantaggi

I dati affidabili sono essenziali per migliorare il processo decisionale e tutti i processi legati al business, spaziando dalle vendite alle risorse umane.

Comunque, si tratta di informazioni di valore solo se gli stakeholder nutrono fiducia nella loro accuratezza come insights e nella loro qualità dei dati. Il Data Lineage offre visibilità nei cambiamenti che possono essere frutto di migrazione dei dati, aggiornamento di sistema, errori e oltre, assicurando la data integrity durante il lifecycle.

Il caso dell’analytics

I consumatori di analytics hanno impiegato anni a illustrare i dati alla base di KPI, metriche e calcoli. Ad esasperare la problematica sono intervenuti dati più frammentati e distribuiti, non solo nell’ambito dell’azienda, ma anche al suo esterno.

Anche se i dati fossero tutti archiviati in un solo repository, mancherebbe un’unica versione della verità, perché i dati evolvono in un attimo e intervengono di continuo nuove variabili da considerare attentamente.

L’introduzione di architetture più distribuite di dati ha condotto all’Augmented Data Management per migliorare l’osservabilità dei dati, sotto il profilo di governance, analisi dell’impatto e origine dei dati.

Il mondo interconnesso presenta molteplici versioni della verità, dunque, l’origine dei dati sarà essenziale per triangolare i dati ed assicurarne affidabilità e delucidazioni. Al contempo, permetterà l’interconnessione delle analytics tra fonti di dati e diverse piattaforme hyperscale.

La provenienza dei dati e il loro relativo ciclo di vita, quando ottengono visibilità nell’ambito del flusso di lavoro delle analytics, permettono alle organizzazioni di usare in piena sicurezza e fiducia gli insights offerti dagli stessi dati.

Data Lineage, data provenance e data governance

Questi termini sono fra loro molto vicini, si intersecano uno nell’altro, e tutti insieme assicurano a un’organizzazione di assicurare nel tempo data quality e data security.

La data governance crea strutture all’interno di un’organizzazione per gestire data asset, definendo i data owner, i termini di business, regole, policy e processi lungo il ciclo di vita dei dati. Le soluzioni di Data Lineage aiutano i team di data governance di garantire la conformità dei data agli standard, fornendo visibilità su come i dati cambiano nella pipeline. La data provenance è usata in genere nel contesto del Data Lineage, ma si riferisce in particolar modo alla prima istanza dei dati o alla loro sorgente.

Il Data Lineage offre una sorta di “pista di controllo dei dati” a livello granulare. Questo livello di dettaglio è incredibilmente utile per il debugging di ogni errore di dati, permettendo ai data engineer di risolvere i problemi più efficacemente ed identificare risoluzioni più rapidamente. Invece lo scopo della data governance è rafforzare gli standard dell’organizzazione.

Come creare un Data Lineage

Il Data Lineage documenta il rapporto fra i dati enterprise in varie applicazioni business e IT.

Questi dettagli possono includere:

  • dove i dati si trovano e come sono archiviati in un ambiente, come on premise, in un data warehouse o in un data lake;
  • come è possibile usare i dati e chi è responsabile per l’aggiornamento, usando e alterando i data. Ciò comprende anche ruoli ed applicazioni autorizzate per l’accesso a segmenti specifici di dati sensibili, per esempio Personally identifiable information (PII);
  • tracciando i dati generati, caricati ed alterati da utenti e applicazioni business. Per esempio, può essere l’aggiunta di contatti al customer relationship management (CRM), o una data transformation, come la rimozione di duplicati;
  • i dati creati e integrati da parti differenti dell’organizzazione come hardware di networking e server.

Data Lineage, cos'è, a cosa server

Come funziona il Data Lineage

I metadati permettono agli utenti di strumenti di Data Lineage a capire fino in fondo come i dati fluiscono nella data pipeline. I metadati sono i “dati sui dati”: includono varie informazioni sui data asset, come data type, format, struttura, autore, data di creazione, data di modifica e dimensione del file. I tool di Data Lineage offrono un quadro completo dei metadati per indirizzare gli utenti a determinare quanto utili siano per loro i dati.

In anni recenti, i modi in cui archiviamo e facciamo leva sui dati sono cambiati con l’evoluzione dei big data.

Le aziende stanno investendo più in data science per spingere il processo decisionale e i risultati di business. Comunque, al fine di costruire un’analisi ben fatta, necessitano di utilizzare gli strumenti di Data Lineage e i data catalog per effettuare data discovery e data mapping.

Mentre i tool di Data Lineage mostrano l’evoluzione dei dati nel tempo via metadati, il data catalog utilizza le stesse informazioni per creare un inventario in cui effettuare ricerche di tutti i data asset in un’organizzazione. Insieme, essi abilitano i data citizen a capire l’importanza di differenti elementi di dati a un certo risultato che è fondamentale nello sviluppo di algoritmi di machine learning (ML).

Data Lineage, cos'è, a cosa server

I casi d’uso

Le aziende hanno sempre più bisogno di insights in tempo reale, ma tutto ruota attorno alla necessità di capire i dati e il data journey nella pipeline. Alcuni modi in cui team migliorano i workflows sono il data modeling, la data migration e il meccanismo di conformità. Ecco come.

Data Lineage, cos'è, a cosa server

Data modeling

Per creare le rappresentazioni visuali dei differenti elementi e i loro corrispondenti collegamenti in ambito enterprise, le imprese devono definire la struttura dei dati che li supportano. Il Data Lineage aiuta a modellare le relazioni, illustrando le differenti dipendenze nell’ecosistema dei dati. Poiché i dati evolvono nel tempo, ci sono sempre nuove sorgenti di dati emergenti, nuove integrazioni di dati da fare eccetera. Il modello dei dati che il business usa per gestirli, necessita di adattarsi all’ambiente che cambia. Il Data Lineage agevola a riflettere questi cambiamenti attraverso i diagrammi di data model, evidenziando le connessioni o tavole, nuove o datate. Invece aiuta gli analisti e i data scientist a facilitare analisi di valore e tempestive per capire i data set.

Data migration

Per trasferire i dati a nuovi sistemi di storage, le organizzazioni usano la data migration per capire location e lifecycle dei dati. Anche in fase di onboarding di nuovi software. Il Data lineage offre una visione di come questi dati hanno compiuto progressi nell’organizzazione. Assiste i team a pianificare migrazioni o gli upgrade di questi sistemi, accelerando la transizione completa al nuovo ambiente di storage. I team hanno l’opportunità di pulire i data system, archiviare o cancellare i vecchi dati irrilevanti. Ciò può migliorare le performance del data system riducendo la quantità di dati da gestire.

Conformità

Il Data Lineage permette il meccanismo di conformità per l’auditing, migliorando il risk management e assicurando che i dati siano archiviati e processati in linea con le policy di data governance e regolamenti.  Il GDPR in Europa e il California Consumer Privacy Act (CCPA) negli USA sono legislazioni che hanno reso una priorità lo storage e la sicurezza dei dati.

Impact Analysis

Il tool di Data Lineage possono offrire visibilità all’impatto di modifiche specifiche nel business. Per esempio, se cambia il nome di un elemento di dati, il Data Lineage può essere d’aiuto. I manager possono così capire quante dashboard questa modifica può impattare e dunque quanti utenti che accedono alla reportistica. Può inoltre aiutare a valutare l’effetto dei data error e l’esposizione nell’organizzazione.

Gli errori possono infatti essere di naturare casuale, ma erodono la fiducia in certi report di business intelligence o sorgenti di dati. Tuttavia i tool di Data Lineage possono aiutare i team a tracciarli alla fonte, abilitando i dati a processare ottimizzazione e comunicazione ai rispettivi team.

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

Articoli correlati

Articolo 1 di 3