Sezione divulgativa IT – 1 – Il dato: il bene più prezioso

Il dato: il bene più prezioso

Dargli valore per ricavarne informazioni e valore

Quasi sicuramente stiamo vivendo l’inizio di una nuova sotto-fase della attuale rivoluzione tecnologica in atto, basata sulla sempre maggior disponibilità di nuovi dati unita alla crescente consapevolezza del loro valore.

Attraverso tali dati – o meglio, attraverso la corretta analisi di essi – è e sarà possibile comprendere in modo più approfondito la realtà, con la possibilità di ideare ed adottare nuovi approcci alle fasi decisionali.

Fin dall’invenzione dei primi strumenti matematico-statistici, il dato è stato alla base delle analisi volte alla rappresentazione ed interpretazione delle realtà; inoltre oggi sono disponibili – non più solo nei grandi centri di calcolo – strumenti molto sofisticati sia di elaborazione che si supporto alla visualizzazione.

Per avere una idea della crescita e della quantità di dati disponibili – oltre ad una proiezione per i prossimi 5 anni – si veda questa immagine [Fonte: International Data Corporation (IDC)].

Il dato: il bene più prezioso: tasso di crescita dati nel mondo

Il dato: il bene più prezioso: tasso di crescita dati nel mondo

Nel 2020 si stima che esisteranno una quantità di oltre 50 volte i dati disponibili nel 2010, di cui la maggior parte sarà allocata presso i data center di società o presso i servizi di storage on-cloud offerti dai provider.

Che cosa è successo – ed è tutt’ora in corso – che spiega questa accelerazione nella generazione di nuovi dati?

I motivi sono sostanzialmente due:

  1. La creazione di interconnessioni tra sistemi informativi
  2. La crescita e maturazione del numero di strumenti, disponibili anche a basso costo, per l’elaborazione e la rappresentazione dei dati

Al primo motivo si associa generalmente lo scenario cui ci si riferisce con il termine “big data” (ma il big, come vedremo, non è da interpretarsi solo nel senso della quantità in senso stretto).

Grazie all’interconessione tra sistemi – fino alla interconnessione potenzialmente globale via internet – ci si trova ad avere a disposizione, con un costo aggiuntivo potenzialmente molto basso, moltissimi set di dati in più. Inoltre, si assiste ad un rovesciamento dello scenario, tipico del passato, in cui il dato veniva raccolto dietro precise richieste statistiche allo scopo di costruire un campione significativo, limitando tale quantità di dati tipicamente sulla base del budget disponibile.

Oggi, al contrario, possiamo avere a disposizione dati, sia rappresentativi che non rappresentativi, dalle fonti più disparate, spesso tra loro non omogenee, e non direttamente confrontabili.

Non è noto a priori come mettere insieme questi dati per generare informazioni significative, ad esempio per identificare nuove strategie aziendali, per analizzare il proprio posizionamento sul mercato, o per definire le caratteristiche di un nuovo prodotto o servizio.

Inoltre, e si tratta di un aspetto nuovo, la quantità stessa di dati è talmente enorme da generare una serie di problemi tecnologici ed economici associati alla sua acquisizione, immagazzinamento, consultazione, rappresentazione.

Ci troviamo davanti, in sintesi, ad una sfida tecnologica che include parecchi aspetti nuovi.

Il secondo motivo precedentemente considerato – la crescita e maturazione di strumenti di analisi, siano essi open source o commerciali – consente la diffusione della analisi dati con investimenti di minor peso rispetto al passato. Ne consegue che il numero di società che possono intraprendere tali tipi di analisi sta aumentando velocemente.

Di solito ci si riferisce a questo scenario con il termine “analytics” e, pure in questo caso, la situazione è più complessa a variegata di quanto il termine faccia supporre.

Analizziamo ora il processo tipo di analisi del dato per arrivare ad estrarne informazioni utili: questo processo è scomponibile in quattro fasi – in un percorso che, scopriremo poi, è potenzialmente ciclico, ricorsivo, senza fine:

  1. data collection
  2. data management
  3. data science
  4. data visualization

Durante la fase di “data collection” si deve principalmente identificare il potenziale del dato acquisito, la sua affidabilità sotto il punto di vista statistico. Sia detto per inciso – ma nella nostra esperienza consulenziale abbiamo spesso notato come le aziende committenti sopravvalutassero tale potenziale contenuto nei propri flussi dati.

La successiva fase di “data management” è quella in cui avviene lo scontro tra le moli di dati e le potenze dei sistemi dedicati ad archiviarli e trattarli – indipendentemente dalle tecnologie adottate – nella quale si scopre che, forse, anche lo spazio disco non è infinito.

Il vero valore, quello che è il compito del “data scientist” – figura professionale che l’obiettivo attuale della carriera dello scrivente – deriva dalla elaborazione dei flussi di dati raccolti e resi disponibili in un punto centralizzato; in questa fase, chiamata “data science“ è necessario arrivare alla sintesi, alla creazione di nuove informazioni. Qui entrano in gioco non solo le ovvie competenze statistiche e di business intelligence classica ma una visione globale ed innovativa costituita da un misto di metodi, tecniche, inventiva e – la cosa diventa quasi emozionante – creatività!

L’ultima fase “data visualization” – la punta dell’iceberg del processo completo, quella visibile ai non addetti al trattamento del dato – serve per comunicare agli altri in forma comprensibile le informazioni scoperte.

Compito di chi si occupa di visualizzazione è trovare il modo corretto per consentire di fruire di queste informazioni: può essere il management della azienda committente o uno statista politico, un giornalista, un lettore curioso, uno startupper.

Non si tratta di un problema di software giusto o meno ma di metodo, di design correttamente scelto per il genere di rappresentazione cercato.

Non bastano più i canonici grafici, tabelle pivot, ideogrammi o torte, le query sql o mdx, ma servono strumenti e tecniche nuove in grado di mettere su carta o – meglio visto che gli danno interattività – su pagina web la complessità dei dati analizzati per farli leggere, navigare, percepire; in una parola: capire.

Tre esempi – la cui trattazione di dettaglio esula da questo breve post – faranno capire meglio:

1 – Le mindmaps (una della più famose – risalente al 2007: i trend dei siti web)

Il dato : il bene più prezioso: esempio di Mindmap

Il dato : il bene più prezioso: esempio di Mindmap

2.- Metodi per rappresentare connessioni: un esempio per mostrare similarità di passi in un libro.

Il dato : il bene più prezioso: esempio di mappa che mostra collegamenti

Il dato : il bene più prezioso: esempio di mappa che mostra collegamenti

3.- Metodi per rappresentare articoli e risorse: come esempio i tweet di una settimana su un dato argomento

Il dato : il bene più prezioso: esempio di mappa che mostra i collegamenti tra tweet

Il dato : il bene più prezioso: esempio di mappa che mostra i collegamenti tra tweet

Queste quattro fasi, annegate in un processo ben strutturato, possono portare – in un ciclo virtuoso – alla generazione di nuovi flussi e nuovi modelli e nuove informazioni che rientrano nella fase uno di una successiva analisi.

Per me si tratta di un mondo emozionante la cui strada sembra appena partita e che cercherò di seguire e comunicare a voi lettori.

Annunci
Questa voce è stata pubblicata in divulgazione IT, lavoro e contrassegnata con , , , , , , , , , , . Contrassegna il permalink.

3 risposte a Sezione divulgativa IT – 1 – Il dato: il bene più prezioso

  1. Nuzk ha detto:

    Bello questo articolo ed esposto in maniera chiara anche per me che non ne capisco nulla 😀
    Da un lato mi affascina la sensazione di enormità di dati che stiamo producendo con la possibilità, almeno potenziale di interconnettere il tutto. Dall’altro mi rendo conto di quanto tutto sia estremamente vulnerabile in quanto totalmente dipendente dall’elettricità.

    Mi piace

    • dv8888 ha detto:

      Grazie.
      Uno dei prossimi approfondimenti sarà proprio dedicato al tema: “Big data: cosa ci permette di conoscere” con alcune implicazioni filosofiche (che non è detto siano alla mia portata) in quanto estrarre dai dati delle implicazioni, delle correlazioni, non significa avere capito il Perché accadano.
      Oltre all’elettricità c’è un set di strumenti, tecnologie, infrastrutture impressionanti – che diamo per scontate – che rendono il tutto potenzialmente molto fragile (ma ci si attrezza visto che, ad esempio, pure un ospedale o un aeroporto richiedono elettricità).

      Mi piace

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...