Sezione divulgativa IT – 3 – Big Data e Smart Data, semantica dei dati

Big Data e Smart Data

E’ necessaria una semantica dei dati per creare valore aggiunto.

 

Iniziamo da alcuni numeri, relativi alle previsioni attuali di International Data Corporation relativamente alla la crescita dei dati in tutto il mondo.

La stima è impressionante: nel periodo 2010 – 2020 – e vi siamo immersi in pieno – la quantità di dati digitali è destinata ad aumentare da quaranta a cinquanta volte fino ad arrivare al valore di circa 40 zettabyte (1ZB = 10 alla 21 byte).

E’ come se, per ogni abitante della terra, ci fossero 6 terabyte di dati, l’equivalente del testo contenuto in circa tre milioni di libri.

Come spesso accade una immagine vale più di mille parole…

Big Data e Smart Data

Big Data e Smart Data

Ma, date questa mole crescente di dati, come se ne possono estrarre informazioni nuove, utili, che diano vantaggi competitivo, che migliorino l’as-is? C’è un potenziale in questa miniera di dati? La risposta più diffusa è sì. In un recente sondaggio svolto dall’Università di Oxford quasi i due terzi degli intervistati ha detto che l’utilizzo di processi analitici fornisce alle proprie aziende un vantaggio competitivo.

Scavare nei dati, come un minatore alla ricerca della pepita.

Iniziamo da una considerazione quasi banale: dobbiamo comprendere – in modo approfondito – la massa di dati in analisi per poterla valutare correttamente ed estrarne valore. In altre parole: dobbiamo sapere quali siano i vari dispositivi e “data-source” disponibili che possono fornirci i dati di cui abbiamo davvero bisogno per poterne condurvi una analisi proficua.

Il criterio di base, probabilmente quello decisivo, per la scelta non è necessariamente la quantità di dati disponibili – uno degli aspetti caratterizzanti i cosiddetti Big Data – ma il potenziale di contenuti di valore, aspetto caratterizzante degli Smart Data.

Una prima panoramica dello scenario attuale dei Big Data la abbiamo recentemente esposta in un mia precedente post – cui eventualmente rimando – ora vediamo alcuni limiti di tale paradigma e una potenziale evoluzione, quella verso gli Smart Data, che potremmo anche chiamare in italiano “dati intelligenti”.

Il futuro dei Big Data dipende strettamente dalla esistenza di Smart Data, dalla loro sinergia e dalla loro utilizzabilità.

Evolveranno le tecniche estrattive con affascinanti nuovi algoritmi e metodi di intreccio tra fonti diverse? Dati oggi solo immagazzinati verranno di nuovo scavati in futuro? Probabilmente sì.

L’ingresso ed il potere della semantica stanno inesorabilmente e profondamente trasformando il concetto di Big Data in Smart Data; questo è un legame comune oggi presente in diversi campi in rapida evoluzione tra cui l’Internet delle cose, il Cognitive Computing, i “Semantic Graph Database”, i “Data Lakes” (cui dedicherò i prossimi post) e l’Intelligenza Artificiale.

Definiamo gli Smart Data come “dati con una semantica attaccata”.

Aggiungere altri dati non è la soluzione mentre la aggiunta di semantica è il passaggio che fornisce valore al dato; la attività di costruzione di un valore aggiunto ha poco a che fare con la dimensione del set di dati sotto analisi e molto invece con il modo intelligente di trattare tali dati, inclusi gli strumenti utilizzati.

Probabilmente potremo dire – nel giro di pochi anni – che gli Smart Data sono stati la naturale evoluzione dei Big Data o, in alternativa che l’unione di Big Data ed Analytics ci porta ai Dati Intelligenti.

 

Il passaggio dai Big agli Smart sembra stia diventando sempre più di una attività oggi comune, sostanzialmente perché stiamo creando una mole di informazioni talmente elevata – come rilevavamo all’inizio – ma la cui archiviazione è ormai ruotine.

Quello che sta mancando è l’uso di tali dati. Lo scenario, in altre parole, è “ sovra abbondanza di dati e non abbastanza domanda di loro utilizzo”.

Chiediamoci poi se sono necessari i Big Data per averne di Smart?

E’ tipico sentire che le aziende vogliono sempre pià dati da importare, immagazzinare, trattare ed sporre ma già oggi siamo in pieno sovraccarico di dati disponibili.La vera domanda è come usare i dati, l’approvvigionamento è secondario.

Probabilmente è anche una questione di maturità di competenze: saper maneggiare pienamente Big e Smart dataset devono evolvere verso la loro maturazione con l’introduzione di nuove idee e metodi. E i big player del panorama IT vi stanno lavorando.

La natura concettualmente autodescrittivi degli Smart Data è il “punto di ingresso per la logica applicata ai processi analitici basati sui dati”.

Nel caso di Dati non Smart – e chiamiamoli per una volta in questo contesto dati stupidi anche se, visto che sono DBA dentro la cosa mi rattrista – tali dati, presi al di fuori del contesto che li ha generati rischiano di perdere intrinsecamente il proprio significato.

Nel caso di Smart Data è vero il contrario perché, passando da una serie di dati enorme a dati più intelligenti sono i dati stessi che contengono intrinsecamente ciò che è necessario, ciò che li descrive, ciò che ne giustifica l’esistenza. Il tutto in modo indipendente dal campo di applicazione, con risparmio di tempo ed energia per l’estrazione.

Con gli Smart Data si può pensare di creare un modello e successivamente di mappare i dati reali su quel modello. E quando quel modello diventa interrogabile ne deriva un significato – se ne trova una ulteriore semantica – una differenza enorme.

Quindi perché gli Smart Data sono – visti ad oggi – praticamente una necessità per i Big Data, per le sue enormi quantità, la sua varietà e gli elevati volumi da trattare in real-time o simil real-time?

Perché possiamo dire che essi facilitano:

  • La aggregazione dei dati e relativa analisi, sia in caso di dati strettamente strutturati che semi-strutturati [la maggior parte degli scenari] che destrutturati accelerando quindi lo svolgimento del processo di analisi
  • Le attività di Data Modeling: in quanto complessità e durata delle attività di modellazione dati sono notevolmente più semplici nel paradigma degli Smart Data con conseguente riduzione dei tempi
  • L’accesso controllato e controllabile in linea con direttive di “Data Governance, probabilmente vitali nel lungo termine.

Forse un giorno potremo dire che, attraverso l’uso di questi dati intelligenti associati ad analisi corrette, non solo avremo la capacità di scoprire che cosa sta accadendo nelle nostre strutture – siano esse città, centrali elettriche, treni, motori, flussi di persone e di automobili, migrazioni di animali, consumi energetici, mercati finanziari, in un dato momento, ma anche perché sta succedendo.

Forse.

Speranzosamente, Daniele Vanoncini.

Annunci
Questa voce è stata pubblicata in divulgazione IT, lavoro, ricerca, scienza e contrassegnata con , , , , , , , , , , , . Contrassegna il permalink.

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...