Un mondo di dati

Una ricerca del 2012 dell’EMC ha stimato il numero di dati prodotti dall’uomo fino al 2005 in 130 exabyte.

Un exabyte corrisponde a un miliardo di gigabyte, per rendere l’idea di quanto grande sia questo numero basta pensare che 5 exabyte corrispondono a un documento di testo contenente ogni frase, discorso o discussione mai pronunciata da ogni essere umano vissuto sin dall’origine della nostra specie.

Con l’arrivo del web 2.0, la nascita di Facebook e la crescente diffusione di internet, questo numero è cresciuto fino a 4400 exabyte nel 2012 e sembrerebbe destinato ad aumentare di 10 volte, fino a superare i 44000 exabyte, entro il 2020.

 

Dalla Statistica alla Data Science

Una volta c’era la statistica e l’analyst era la figura professionale che aveva il compito di utilizzarla per analizzare i dati ed estrarre informazioni da essi. Questo è durato fino a quando la quantità di dati disponibile ha largamente superato la capacità dell’uomo di analizzarli manualmente, a quel punto gli strumenti della statistica hanno cominciato a diventare obsoleti.

In questo quadro storico Statistica, Data Analysis e Machine Learning hanno unito le forze per dare alla luce la Data Science, un campo interdisciplinare che ha lo scopo di estrarre informazioni dai dati, qualsiasi forma o dimensione questi abbiano e il Data Scientist è diventata la figura professionale più promettente del nuovo millennio.

Il Data Scientist è la figura professionale più sexy del nuovo millennio

Per estrarre informazioni e insight da dati strutturati o non, la data science si serve di un rigoroso processo scientifico, che può essere sintetizzato nei seguenti punti:

  1. Definizione del problema: confrontandosi con chi lo sta riscontrando se questo non ci riguarda direttamente.
  2. Raccolta dei dati: i dati necessari a risolvere il problema possono provenire da database aziendali, da operazioni di web scraping o da qualsiasi altra fonte.
  3. Elaborazione dei dati: in questa fase vengono corretti errori nei dati oppure vengono effettuate trasformazioni per ottenere ulteriori dati dai dati stessi.
  4. Creazione del modello: il campo che studia come trovare relazioni nei dati si chiama data mining e per farlo utilizza, anche ma non sono, tecniche di machine learning.
  5. Presentazione dei risultati: dopo aver tratto le conclusione del caso bisogna mostrarle in maniera adeguata utilizzando lo storytelling insieme a grafici e altri tipi di visualizzazioni.

Data Science: un esempio pratico

Sei un Data Scientist e viene assunto da una grossa catena di supermercati per comprendere come disporre i prodotti sugli scaffali allo scopo di massimizzare le vendite.

Vediamo come devi affrontare i vari step del processo del data science, provando a semplificarli al massimo.

  • Definizione del Problema

Il problema è ben definito “comprendere come disporre i prodotti sugli scaffali allo scopo di massimizzare le vendite”.

Questo può essere affrontato con una tecnica di analisi di affinità, lo stesso tipo di tecnica utilizzata, ad esempio, da Amazon per consigliarci che prodotti acquistare insieme osservando cosa hanno acquistato gli atri utenti.

  • Raccolta dei dati

L’azienda ti fornisce direttamente l’accesso alla tabella del database aziendale che contiene gli acquisti fatti negli ultimi 2 anni, tanta roba. Li esporti sotto forma di uno o più file CSV.

  • Elaborazione dei dati

Rimuovi le informazioni non necessarie dal file CSV, in modo che ogni riga di un file sia composto unicamente dai prodotti acquistati in una singola spesa separati da una virgola.

Siccome una macchina ragiona per numeri, devi codificare tutte le informazioni, come gli identificativi dei prodotti, sotto forma di numeri.

  • Creazione del modello

Abbiamo già detto che il problema può essere affrontato con una tecnica di analisi di affinità, nel particolare la tecnica da utilizzare è una variante dell’analisi di affinità conosciuta come Market Basket Analysis, utilizzata proprio per comprendere comportamenti di acquisto.

Esempio di dataset di spese in un supermercato, ogni colonna rappresenta un prodotto e ogni riga rappresenta una spesa fatta.

  • Presentazione dei risultati

Una volta ottenuti risultati soddisfacenti devi mostrarli in maniera chiara e comprensibile al management della catena di supermercati, per farlo devi utilizzare tutta la tua creatività per realizzare visualizzazioni efficaci.

Le visualizzazioni sono il linguaggio che permette a data scientist e committente di comunicare e comprendersi

La professione del futuro

Ci sono molti punti interrogativi sull’impatto che tutta questa mole di dati potrà avere sulla nostra società, ma di una cosa possiamo stare certi, la figura del data scientist sarà sempre più gettonata.

Secondo una ricerca di Linkedin il data scientist è, insieme all’esperto di machine learning e a quello di big data, è la nuova figura professionale più ricercata dalle aziende.

Tutte le aziende, tecnologiche e non, che producono dati avranno bisogno di qualcuno che le aiuti a utilizzarli in maniera intelligente per creare valore.

Chi non lo farà rimarrà tagliato fuori dalla competizione.

Negli Stati Uniti sono già consapevoli di tutto questo e le aziende sono disposte a sborsare una media di 130.000$ annuali come salario di un Data Scientist, contro i 96.000$ per un ingegnere informatico e i 76.000$ per un web developer.


Vuoi avvicinarti alla Data Science ? Il modo migliore per farlo è cominciare a studiare il Machine Learning e noi siamo qui proprio per questo !

About Giuseppe Gullo

Cresciuto a pane e bit, ho cominciato a programmare a 13 anni, durante un periodo di convalescenza forzata dovuta ad un brutto incidente.

Durante la mia adolescenza ho utilizzato un mio approccio hacker all'apprendimento per passare da un argomento all'altro senza sosta, sviluppo web, programmazione software, sviluppo mobile per android ed iOS, sviluppo di videogame 2d e 3d con Unity.

Poco più che ventenne mi sono avvicinato all'intelligenza artificiale, ed è stato amore a prima vista.

Ho lavorato come sviluppatore indipendente e freelancer, creando diverse dozzine di servizi che hanno raggiunto centinaia di migliaia di persone in tutto il mondo.

Il mio life goal è riuscire a sfruttare le enormi potenzialità dell'AI per migliorare le condizioni di vita degli esseri umani.