Ci sono diverse tecniche e metodologie per applicare l’analisi dei dati, a seconda dell’area di business e delle necessità. Queste si basano sia su aspetti matematico-statistici sia su rappresentazioni grafiche.
Alcuni metodi esistono da tanto tempo mentre altri hanno preso piene prevalentemente nell’ultimo decennio grazie a un importante miglioramento della tecnologia e degli strumenti a disposizione.
Al giorno d’oggi non esiste ambito applicativo dove l’analisi dei dati non sia utilizzata giorno dopo giorno, per fornire significative indicazioni e supportare/guidare il personale di tutti i livelli aziendali a prendere delle decisioni fattuali e data-driven.
In alcuni contesti questa analisi è ormai consolidata ed è entrata a far parte dei meccanismi organizzativi, in altri invece esistono ancora aspetti etici e culturali che devono ancora maturare per fare in modo che venga accolta a pieno.
Che cosa si intende con analisi dei dati
L’applicazione metodologica di funzioni matematiche, statistiche e logiche per la manipolazione, l’organizzazione, la pulizia, la presentazione dei dati in diverse forme e la loro valutazione per derivare utili indicazioni a supporto delle decisioni, è una delle definizioni che viene data all’analisi dei dati.
I primi accenni di quello che possiamo afferire essere un processo di analisi dei dati, emergono tra il XVIII e il XIX secolo quando gli economisti Charles Joseph Minard e William Playfair utilizzano i dati relativi all’import-export dei generi alimentari del Regno Unito, del cotone in Europa e alla campagna di Russia di Napoleone. Metodo usato per creare rispettivamente, delle analisi quantitative di comparazione e di visualizzazione di informazioni numeriche.
Venendo a tempi più recenti, l’utilizzo della matematica e della statistica, insieme al crescere della potenza computazionale dell’hardware, prevalentemente on cloud, ha contribuito a diffondere metodologie che mirano a replicare l’intelligenza umana per estrarre informazioni utili nell’analisi dei dati.
Possiamo dunque dire in generale che questa sfrutta tutte le conoscenze logiche e tecnologiche in modo da supportare efficacemente le decisioni future e per comprendere al meglio cosa è accaduto nel passato.
Analisi dei dati, come si fa
Esistono una moltitudine di fasi e attività che insieme concorrono alla formazione del processo di analisi dei dati nella sua interezza. Alcuni di questi a volte vengono svolti solo in parte, altri invece sono maggiormente importanti e time-consuming in alcune tecniche e contesti piuttosto che in altri; di seguito vengono riportate le principali.
Requirement Gathering, scegliere le sorgenti dei dati
La fase primordiale del processo di analisi dei dati non può prescindere da un’attenta e chiara definizione di quello che è il problema, il bisogno, la necessità che l’analisi stessa ha come obiettivo. Identificare i desiderata e il valore che l’analisi deve portare al business, aiuta a guidare le fasi successive che stanno a valle.
Come scegliere quelle che sono le corrette sorgenti dati (o porzioni di esse) che dobbiamo considerare, cosa dobbiamo misurare dentro questo perimetro informativo. E come i risultati andranno poi opportunamente comunicati. Questo primo passo, aiuta anche a direzionare la scelta della migliore metodologia e degli opportuni strumenti da utilizzare.
Data Collection, raccogliere i dati
Basandosi su quello che è l’output di una prima fase di analisi del requisito, si passa alla raccolta dei dati necessari da poter soddisfare le esigenze finali, i comportamenti che si vogliono valutare e agli aspetti che si devono misurare.
I dati sono raccolti (o collezionati) da una varietà di sorgenti (DB, ERP, sensori, website feed,…) contenenti informazioni sia strutturate che non. Spesso in questo contesto, risulta necessario intraprendere azioni tecniche/commerciali per recuperare determinati informazioni ancora non presenti nei sistemi di riferimento.
Data Processing, organizzare i dati
Dopo aver collezionato i dati dalle sorgenti, questi devono essere processati e organizzati opportunamente per essere utilizzati in fase di analisi. In questo momento vengono applicate misure quali i controlli di integrità referenziale o la conversione dei dati in un formato utile alle lavorazioni successive.
Data Cleansing, pulire i dati
Una volta organizzati e processati, i dati possono risultare incompleti, contenere duplicati o errori. Per fare in modo che i risultati generati dall’analisi che si sta preparando siano coerenti e affidabili è importante prevedere iniziative di Data Cleansing che siano in grado di fornire un adeguato livello di Data Quality.
Spesso questa fase, insieme alla precedente, è quella che risulta più time consuming vista la varietà e il volume di dati che sono coinvolti in processi di analisi.
Analysis/Communication, iniziare l’analisi dei dati
Puliti e organizzati, i dati sono pronti per la vera e propria fase di analisi. A seconda di quelle che sono le tecniche scelte, questo step può essere approcciato in maniera profondamente differente. Quello che però accomuna questi diversi modi di affrontare il problema è la comunicazione verso gli stakeholder che sono interessati o hanno direttamente commissionato l’analisi dati in questione: le informazioni possono essere riportate in diversi formati per rispondere ai requisiti iniziali. Per fare questo, spesso vengono applicate diverse metodologie di data visualization in modo da guidare la comunicazione dei messaggi chiave contenuti nelle informazioni analizzate.
Gli utenti finali, sulla base dell’intero processo, potranno decidere di prendere le dovute azioni e fornire feedback riguardo l’analisi generata che genererà analisi ulteriori, dando vita a un processo analitico iterativo.
Metodologie per l’analisi dei dati
I diversi metodi che possono essere utilizzati per analizzare i dati rientrano generalmente in due macrogruppi: le analisi quantitative e quelle qualitative. Le prime sono quelle dove l’informazione è espressa numericamente, può essere utilizzata di conseguenza in calcoli di diversa natura e può essere rappresentata in maniera visuale tramite tabelle o grafici.
Forniscono quindi indicazioni come classificare le possibili cause di problemi, o quantificare il loro impatto, ma non ci dicono direttamente come e quale problema affrontare per primo.
Il secondo macrogruppo di analisi risponde a domande del tipo “come, perché, cosa” in forma testuale e danno la possibilità di definire un problema e delle azioni per affrontare il problema stesso.
Analisi Descrittiva dei dati
Tra le metodologie più diffuse, l’analisi descrittiva o statistica applica tutti i passi sopra menzionati per fornire un disegno onnicomprensivo di quello che è accaduto nella storia dei dati raccolti.
Questo tipo di analisi permette di avere una visione chiara di quello che è accaduto nel passato, fornendo quindi gli elementi necessari per dare supporto a decisioni tipicamente basate sull’esperienza di chi ne usufruisce.
Uno step successivo nell’analisi descrittiva è chiamato analisi diagnostica, la quale fornisce una analisi più approfondita su quelle che sono le ragioni relative all’avvenimento di eventi passati.
Analisi Predittiva dei dati
Utilizzare le osservazioni ottenute per derivare delle predizioni su quelli che potrebbero essere i comportamenti futuri è quella che viene definita metodologia predittiva di analisi.
L’individuazione di trend, pattern, cluster o relazioni di causa-effetto, fatta in maniera ingegnerizzata grazie all’applicazione di algoritmi di machine learning, fa sì che venga sfruttata a pieno la mole di dati a disposizione per non lasciare completamente all’esperienza del decisore, al suo gut-feeling, quelle che sono le azioni da intraprendere: fornisce quindi un valido aiuto verso un reale approccio data-driven.
Analisi Prescrittiva dei dati
L’analisi prescrittiva dei dati non si limita a prevedere o descrivere cosa è accaduto (o è probabile che accada); essa suggerisce anche quello che è il corso delle azioni e potenziali implicazioni che queste possono avere, con lo scopo di generare raccomandazioni o decisioni automatizzate. Questa richiede un perimetro ben definito e specifici algoritmi così da fornire le corrette indicazioni.
Tecniche utili per l’analisi dei dati
Le metodologie sopra descritte possono essere applicate utilizzando diverse tecniche e tecnologie. Cercando di generalizzare, possiamo classificare l’analisi dei dati in tre tecniche principali: business intelligence, data mining e Data visualization. Si tenga in considerazione che essendo l’analisi dati una materia che non possiede confini netti tra i diversi obiettivi che si preclude di raggiungere, è comune che certe tecniche mirino a soddisfare svariate esigenze attraverso diverse metodologie, in modo combinato.
Business Intelligence, l’analisi dati per le aziende
La BI e gli Analytics in senso più ampio sono la principale tecnica che è stata e viene attualmente utilizzata per l’analisi dei dati. Si basa sulla strutturazione dei dati aziendali da diverse sorgenti e sulla definizione di un modello semantico di metadati dove vengono applicate le logiche di business e regole di contesto aziendale per fare in modo che i dati grezzi si trasformino in vera e propria informazione a valore.
I sistemi di BI sono diventati ormai una commodity in tutte le realtà aziendali, in tutte le industry, e permettono di supportare in maniera descrittiva e diagnostica le decisioni all’interno di un’organizzazione.
Il vantaggio di queste tecniche è quello noto di sistemi di BI che hanno una forte componente di conoscenza e governance centralizzate, fruibili da tutti i livelli organizzativi. Di contro la poca tempestività nei nuovi sviluppi, i limitati insights e i costi di gestione elevati, hanno fatto sì che negli anni siano state valutate alternative per l’analisi dei dati.
Data Mining, l’arte di estrarre dati
Il nome Data Mining letteralmente Estrazione Dati risulta a volte mal interpretato, visto che l’obiettivo di questa tecnica è l’estrazione di pattern e conoscenza dai dati e non l’estrazione dei dati stessa. Essa rappresenta il processo che combina statistica, Machine Learning e tecnologia per la scoperta automatica o semiautomatica di pattern, correlazioni, cluster, classificazioni, profilazioni e regressioni di grandi volumi di dati.
Possiamo dire, semplificando, che le tecniche di data mining sono quelle centrali nelle moderne iniziative di data science e intelligenza artificiale, che forniscono la possibilità di andare oltre a una metodologia di analisi semplicemente descrittiva, fornendo della conoscenza ulteriore e supportando ancora più puntualmente gli analisti, aiutandoli a capire quali potrebbero essere comportamenti futuri.
Il grande pro è quello di vedere una reale estrazione di conoscenza, realmente azionabile per portare valore all’azienda. Non sempre però le organizzazioni possiedono le skills adatte internamente per fare in modo che questo avvenga: avvalersi di figure esterne e formare tecnicamente i propri dipendenti non tuttavia sempre possibile per limiti di tempo e budget.
Data Visualization & Exploration, l’interpretazione dei dati
A corollario delle tecniche sopra citate, esiste un mondo di tecnologie che stanno diventando sempre più popolari e che soddisfano la crescente esigenza di transizione da una cultura IT-centrica, verso un approccio misto, dove anche figure business entrano nel processo di modellazione vera e propria dell’analisi del dato; questo insieme di tecniche include Data Visualization, Data Exploration e Data Discovery.
In queste tecniche, lo sforzo maggiore non è tanto nella fase di processamento e modellazione dei dati, ma nella loro interpretazione via rappresentazione grafica per poter individuare situazioni anomale o potenziali opportunità, sfruttando visualizzazioni avanzate.
Questo tipo di tecnica si avvale di strumenti che si basano su una forte predisposizione all’analisi dei dati in modalità self service, dove sono direttamente i professionisti con attitudini più di processo e meno tecniche che applicano la loro conoscenza ed esperienza per cercare di estrarre informazioni utili.
Queste tecnologie si sono così diffuse che alcune integrano già in maniera snella piccole funzionalità derivate dal mondo statistico, come l’integrazione di trendline, outlier detection o clustering.
Grazie a tecniche di questo tipo non siamo legati ai tempi tecnici del reparto IT, possiamo creare un forte ingaggio del business e non siamo dipendenti ad abilità tecniche, sfruttando così il know-how interno.
Dall’altro lato questi approcci, nel lungo termine, finiscono per soffrire per la mancanza di una “struttura” sottostante che permetta di ingegnerizzare i risultati ottenuti all’interno della value chain aziendale e difficilmente riescono a scalare per farne un utilizzo più allargato.
Analisi dei dati: ambiti applicativi
Ad oggi è difficile immaginare contesti in cui non venga applicata, anche se in maniera non approfondita, l’analisi dei dati. Dalle piccole attività che desiderano tenere sotto controllo il proprio inventario e il cashflow, fino alle grandi organizzazioni che vogliono proporre in maniera automatizzata l’articolo che più si addice ai gusti dei propri utenti, l’analisi dei dati è entrata a tutti gli effetti nella value chain organizzativa, come processo a supporto delle attività primarie.
Esiste un insieme sconfinato di esempi delle diverse tecniche e metodologie precedentemente descritte; proviamo di seguito a generalizzarli per ambito applicativo, considerando quelli più interessanti:
- Marketing: tecnologie e algoritmi di data mining sono ormai un approccio consolidato nel fare targeting sempre più mirato dei clienti da ingaggiare con campagne pubblicitarie e advertising ad-hoc. Tra le tante, Coca Cola ha intrapreso pesanti iniziative di analytics per poter supportare la propria operatività grazie ai dati dei propri clienti.
- Manufacturing: le analisi di tipo avanzato grazie a tecniche di machine learning e intelligenza artificiale, stanno alimentando la transizione verso la Industry 4.0 dove l’elevata connessione tra le macchine e i componenti, possono aiutare a ottimizzare i processi produttivi e ad applicare iniziative di predictive maintenance dove si possono così evitare blocchi e guasti nella produzione (tipicamente richiedono anche componenti prescrittive e automatizzate per potersi sostituire all’intervento umano in determinate situazioni). Bayer e Rold sono casi di eccellenza Italiani in questo contesto.
- Finance: questo ambito si presta a diverse applicazioni, come lo sfruttamento di BI descrittiva per fornire indicazioni significative di riepilogo sui principali trend per comparare l’andamento di diversi strumenti finanziari, fino ad arrivare a tecniche più avanzate per predire gli andamenti dei mercati o individuare delle frodi in anticipo e agire di conseguenza.
- Logistics: gli analytics supportano in maniera particolarmente efficace anche le operazioni di ottimizzazione dello stoccaggio merci tra centri di distribuzione centrali e quelli più piccoli dislocati nel territorio per ridurre le spese di spedizione. Applicare algoritmi di associazione tra prodotti per capire quali meno popolari vengono tendenzialmente comprati da quelli più diffusi, fa in modo che si possano assortire in maniera migliore i magazzini, coerentemente con la politica di saving sui costi e di efficientamento dei tempi di spedizione. Inutile dire che Amazon è all’avanguardia, tra le altre, dal punto di vista dell’approvvigionamento “intelligente” dei propri siti di distribuzione.
- Cyber Security: Luxottica ed Enel sono solo gli ultimi di una lunga lista di società che hanno subito un attacco ransomware ai propri sistemi informativi, con danni potenziali molto alti. L’analisi statistica avanzata dei dati della propria rete aziendale (insieme, lo ricordiamo, a un’adeguata formazione del personale su questo tema) e il monitoraggio dei dispositivi in comunicazione con l’esterno sono passi fondamentali per l’individuazione di anomalie e la predizione di potenziali intrusioni.
- Asset Management: prodotti di Business Intelligence, specialmente visuali, di riepilogo e geospaziali, permettono di monitorare lo stato e i KPI associato ai diversi asset (ponti, gasdotti, binari, per esempio) per organizzare i cicli di manutenzione e le aree di intervento. Trenitalia, ad esempio, ha lanciato il suo progetto Dynamic Maintenance Management per gestire in maniera intelligente treni e binari con riduzione dei costi operativi.
Le tipologie di analisi descrittive, poco citate finora, sono tuttavia da considerarsi come il minimo comun denominatore tra le diverse realtà. Anche se non generano nuova conoscenza, la loro linearità e semplicità (rispetto alle altre tecniche), sono state il punto di partenza per la creazione di una cultura della data analysis in azienda e tutt’oggi sono le più diffuse e utilizzate anche in realtà che fanno degli analytics avanzati il principale driver del proprio business.
Perché è importante l’analisi dei dati
Dal momento in cui le aziende hanno visto nei flussi dati e nei repository informativi un asset strategico, la loro analisi è diventata un’attività perfettamente integrata nel tessuto organizzativo. Grazie ai miglioramenti della tecnologia e all’aumentare del volume dei dati a disposizione, anche le tecniche e le metodologie applicate si sono evolute di conseguenza (e continueranno a farlo). Queste, così come gli strumenti e i vari step che sono alla base del processo si fondono, si intersecano e talvolta si alimentano a vicenda nella complessità ed eterogeneità della moltitudine di analisi dati esistenti.
Che si tratti di avere un targeting più mirato della propria clientela, anticipare il blocco della catena produttiva perché si sta per presentare un guasto, capire quale ritorno sull’investimento si è concretizzato con l’ultima campagna di marketing o valutare le performance della propria forza di vendita, l’attività di analisi dei dati (e gli analytics in senso allargato) aiuta a prendere le decisioni che con maggiore probabilità ci permetteranno di raggiungere gli obiettivi che ci siamo preposti, in maniera fattuale.
Attualmente è ancora l’utente umano che fa gran parte del lavoro in questo senso ma, grazie alle recenti evoluzioni tecnico/metodologiche, i livelli di automazione e di precisione ottenuti saranno sempre più un valore aggiunto per le analisi del futuro.