Abbiamo visto qui i 10 consigli utili per compilare al meglio il nostro CV ed affrontare con successo un colloquio di lavoro.
Oggi scopriremo insieme quali sono i 5 +1 concetti statistici che tutti i data scientist dovrebbero conoscere.
Pronti? Via!
1. La differenza tra popolazione e campione
La popolazione è l’insieme di tutti gli elementi di interesse per la ricerca statistica che si intende effettuare. Facciamo un esempio: vogliamo studiare i dati occupazionali in Europa. Bene, la nostra popolazione di riferimento comprenderà dunque tutte le persone con età compresa tra i 15 e i 64 anni che vivono in Europa.
A volte però raccogliere i dati per tutta la popolazione risulta difficile o molto dispendioso. Dunque, ricorriamo al campione. Il campione è un sotto insieme, diciamo una porzione rappresentativa della popolazione che vogliamo studiare. Campionare è utilissimo per condurre studi efficaci!
2. Teorema del Limite Centrale
Il teorema del limite centrale ci aiuta a giustificare l’uso della distribuzione normale per grandi campioni, anche nel caso in cui non sappiamo l’effettiva distribuzione sottostante. Vediamo il suo funzionamento con un esempio: vogliamo vedere qual è il voto medio con cui gli studenti statunitensi si laureano nel 2020. Sicuramente i dati da reperire sono molti, ma possiamo chiedere aiuto al Teorema del Limite Centrale. Prendendo infatti diversi campioni di studenti statunitensi appena laureati, la media ottenuta da questi campioni è approssimabile alla media che si otterrebbe studiando l’intera popolazione.
3. Indici di posizione: media, mediana e moda
Gli indici di posizione sono fondamentali nell’analisi statistica. Abbiamo una variabile e la vogliamo esplorare per conoscerla? Bene, in primo luogo è conveniente dare uno sguardo agli indici di posizione. Questi ci consentono di valutare la distribuzione della variabile che stiamo studiando. La media ci dice attorno a quale valore si concentra la distribuzione. La mediana è quel valore che taglia perfettamente a metà la distribuzione, corrisponde al secondo quartile della distribuzione. La moda, infine, ci indica quale valore compare con maggiore frequenza nella nostra distribuzione campionaria.
4. La distribuzione normale
La distribuzione normale è fondamentale per gli studi statistici.
Le distribuzioni di probabilità ci aiutano a capire, anche in maniera visiva, con quale probabilità effettivamente può verificarsi un evento. Sono fondamentali per gli studi predittivi.
La distribuzione normale ha la forma a campana, è largamente utilizzata in analisi statistica perché descrive in modo efficace molti fenomeni naturali. Le probabilità più elevate che un evento si verifichi si concentrano attorno al valore medio, e si riducono progressivamente quando ci spostiamo verso le code della distribuzione.
5. Dati quantitativi e dati qualitativi
I dati quantitativi sono utili per misurare, quantificare, un fenomeno. Utilizziamo a tale scopo dei dati strutturati e ne traiamo delle analisi statistiche. Riguarda un campione piuttosto ampio e ci aiuta a trarre conclusioni di carattere generale.
La ricerca qualitativa si propone di analizzare il fenomeno oggetto di studio. Serve a comprendere motivazioni, abitudini e tendenze che ritroviamo nei dati numerici della ricerca quantitativa. È indirizzata a campioni più ristretti ed è focalizzata a comprendere un aspetto specifico della ricerca.
Una è meglio dell’altra? Beh, possiamo sicuramente dire di no! Sono entrambi approcci validissimi, che si completano a vicenda. L’ideale sarebbe poter utilizzare entrambi!
Abbiamo visto i 5 aspetti statistici che ciascun data scientist dovrebbe conoscere. Ma se vi ricordate bene all’inizio dell’articolo vi avevamo promesso il +1.
Ecco a voi la bonus track. Parliamo di approccio critico all’analisi.
La formazione e la capacità di esprimere un pensiero critico possono davvero fare la differenza e rendere una qualunque analisi dati, una buona analisi.
L’approccio critico è una di quelle che oggi definiamo soft skill. Un’attività interdisciplinare che ci aiuta a riscontrare debolezze, criticità ed errori nelle analisi che stiamo conducendo. Ci aiuta a capire cosa è apprezzabile e cosa no, e comunicarlo in maniera chiara e puntuale.
Siamo giunti alla fine di questo piccolo viaggio nella data science.
Sei interessato a conoscere meglio come lavorano i nostri data scientist? Beh, che aspetti, contattaci!