15 veloci considerazioni sulla scienza dei dati

Per qualcuno il lavoro del “data scientist” dovrebbe essere “il più sexy del XXI secolo”
ma, ai fini pratici, ecco – misurati sulla mia pelle – 15 aspetti reali di questo lavoro che di sexy non hanno davvero una fava [concordo che c’è comunque di molto molto peggio].

1 – I dati non sono mai puliti.
2 – Il proprietario del dato tende a sopravvalutare la qualità, quantità, pulizia, affidabilità, rilevanza statistica di esso.
3 – La maggior parte del tempo va dedicata alla pulizia e normalizzazione del dato andando a riconciliarlo verso le sue sorgenti master.

4 – Con le moli di dati attuali i tempi dei test, delle aggregazioni, dei calcoli satureranno le tue giornate e notti, mentre dischi e cpu non basteranno mai,anche se disponibili a costo molto basso.
5 – La stragrande maggioranza – direi almeno il 90% – delle attività non richiede che competenze di basso o modesto livello.
6 – Delle competenze statistiche si rischia di usare pochi algoritmi e concetti di base, come le regressioni lineari.
7 – Pensare di separare i progetti dedicati ad analisi di “small data” e “big data” è un errore, la analisi va condotta sui 2 set in sinergia. Quello che conta è la combinazione di small e big data.
8 – Devo far capire al committente che un algoritmo predittivo non è un oroscopo.
9 – Il mondo della scuola, università, accademico e quello lavorativo, dell’industria, dell’impresa sono totalmente diversi.
10 – Agli altri non interessa il modo con il quale arrivi al risultato.
11 – L’apprrocio basato su inferenza bayesiana è probabilmente il migliore, il più velocie [Interpretando le probabilità come livelli di fiducia nel verificarsi di un dato fenomeno.]
12 – Di modelli pienamente riutilizzabili e di procedure automatiche già esistenti probabilmente non ne troverò per lungo tempo.
13 – La qualità del modo di presentazione del lavoro è essenziale, anche più del lavoro stesso.
14 – Nella “Data Science” le probabilità che sia proprio io ad inventare qualche cosa di davvero innovativo sono scarsine.
15 – Big data: alla fine, rischia di diventare un insieme di tool, da accorpare insieme facendoli lavorare con efficienza.

Inutile girarci attorno: sudore, tempo, cura del dettaglio, provesuprovesuprove…, stanamento del bug nascosto, gestione del caso non ordinario, generici task di basso livello ci sono dovunque; vi sono poche attività davvero divertenti, quando le incontri goditele.

Sfidante sì, sexy non sempre.

 

Annunci
Questa voce è stata pubblicata in divulgazione IT, lavoro e contrassegnata con , , , , , , , . Contrassegna il permalink.

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...