GLOSSARIO di STATISTICA (Fonte)

Analisi qualitativa
:
analisi non numerica, in generale limitata a variabili nominali (ad esempio, razza, sesso, religione) e ordinali, oppure concernente dati di natura non statistica raccolti mediante i metodi etnografici (interpretazione delle note prese sul campo), l'analisi ermeneutica dei testi, le interviste non strutturate, ecc.
Analisi quantitativa: analisi di dati codificati numericamente, cioè di dati cardinali; spesso comporta il calcolo di parametri statistici.
Analisi monovariata: una tecnica di analisi si dice monovariatase si occupa soltanto della distribuzione e dei parametri statistici di una singola variabile.
Asimmetria: una distribuzione è asimmetrica se una delle sue code è più lunga dell'altra, ovvero se la distribuzione non è disposta simmetricamente attorno alla sua media. Per convenzione se la coda più lunga è a sinistra della media si parla di asimmetria negativa. Nel caso invece in cui la coda più lunga è alla destra della media sarà una asimmetria positiva. L'asimmetria nulla caratterizza invecela curva normale.
Bivariato: a due variabili; una relazione bivariata è l'esplicitazione di una relazione tra due variabili.
Campionamento accidentale:campione non probabilistico in cui sono scelti per l'indagine i casi più comodi (quelli più facilmente disponibili).
Campionamento a grappolo: campionamento effettuato in diversi stadi. Nel primo stadio si campiona un grappolodi casi; poi, a partire da questi grappoli iniziali, si seleziona il campione effettivo di casi (ad esempio, per ottenere un campione di famiglie il ricercatore estrae un campione casuale di isolati, o di edifici, e poi estrae un campione di famiglie all'interno degli isolati, o edifici, scelti).
Campionamento a valanga:
  forma non probabilistica di campionamento in cui le persone scelte inizialmente per il campione sono utilizzate come informatori per individuare altre persone dotate delle necessarie caratteristiche che le rendono adatte per il campione.
Campionamento con ripetizione:
  in un campionamento con ripetizione l'estrazione di n elementi presi a caso, avviene considerando sempre tutti gli n elementi per ogni estrazione, anche quelli che sono stati già precedentemente estratti. Viceversa il campionamento senza ripetizione esclude dalle estrazioni successive tutti gli elementi che sono stati già estratti.Ad esempio se io estraggo delle palline da un'urna che contiene 50 palline bianche e 50 palline nere , e dopo ogni estrazione rimetto dentro la pallina (reimbussolamento) io estraggo sempre da un universo con 50 palline bianche e 50 nere, quindi la probabilità di estrarre una pallina bianca o nera è la stessa per ogni estrazione. Se non rimetto dentro la pallina (campionamento senza ripetizione) la probabilità cambia.
Campione: un campione è un sottoinsieme di una popolazione. Dal momento che è molto spesso impossibile o troppo costoso condurre una ricerca sull'intera popolazione, condurre la ricerca su un campione è un approccio molto usato. I metodi di inferenza statistica generalmente richiedono che il campionamento sia probabilistico per ridurre il più possibile le sistematicità di campionamento ed avere un campione rappresentativo.
Campione casuale:
  campione probabilistico in cui ciascun elemento (e ciascuna combinazione di elementi) ha eguale probabilità di essere selezionato.
Campione stratificato:   procedura di campionamento probabilistica in cui la popolazione viene prima divisa in strati (ad esempio, studenti del primo , secondo, terzo, quarto anno) e successivamente si effettua un campionamento casuale all'interno di ciascun strato.
Campione non probabilistico:
  campione nel quale non è nota la probabilità di selezione di ciascun caso.
Campione probabilistico:
  un campione in cui la probabilità di selezione di ciascun caso (e di ciascuna combinazione di casi) è nota.
Campione sistematico:
  campione in cui viene selezionato un soggetto ogni k soggetti (di solito con il primo soggetto scelto casualmente), dove k è una qualsiasi costante.
Campo di variazione:
  misura di variabilità. È la differenza tra il valore massimo e il valore minimo di una variabile in una distribuzione di frequenza (ingl. range).
Coefficiente di variazione:
  ogni volta che si vogliono confrontare le dispersioni di due variabili aventi medie molto diverse tra loro, il confronto con il coefficiente di variazione, che opera una normalizzazione, dividendo lo scarto tipo della variabile per la sua media, risulta più corretto di quello fatto con le altre misure di dispersione.
Curtosi: l'indice di curtosi mira a rilevare quanto una distribuzione è piatta oppure appuntita. Distribuzioni con picchi piatti e code ampie sono chiamate "platicurtiche", quelle con picchi alti e code piccole sono chiamate "leptocurtiche". Una distribuzione con curtosi uguale a quella della distribuzione normale è chiamata "mesocurtica".
Definizione operativa: permette la misurazione empirica di un concetto astratto; ad esempio, la definizione operativa di intelligenza nel test per valutare il Quoziente di Intelligenza.
Dicotomia
:
  variabile nominale con due stati (ad esempio il sesso: maschio e femmina)
Distribuzione campionaria:
  distribuzione di valori di una statistica del campione (ad esempio, la media) ottenuta a partire da tutti i campioni logicamente possibili di una data ampiezza.
Distribuzione normale:
  le distribuzioni normali sono una famiglia di distribuzioni che hanno le stesse caratteristiche e lo stesso andamento. Sono curve simmetriche con valori più concentrati verso il centro che nelle estremità laterali, che presentano la massima ordinata in corrispondenza della media. In queste distribuzioni moda, media e mediana coincidono. Le distribuzioni normali sono curve a campana, (ma non tutte le curve a campana sono distribuzioni normali).
Distribuzione semplice di frequenza:
  il risultato delle operazioni di conteggio delle unità che appartengono a ciascuna modalità di una variabile qualsiasi. Descrive la composizione di un gruppo secondo quella variabile.
Elemento di campionamento:
  il caso o l'unità più piccola che può essere incluso nel campione; ad esempio, protestanti maschi di età compresa tra i 21 e i 50 anni, le aziende con meno di 15 dipendenti.
Esperimento
:
  consiste nella somministrazione di uno stimolo e nell'osservazione dei suoi effetti in un gruppo di soggetti. Il piano di ricerca consiste nella formulazione di una ipotesi che suppone che i dati raccolti prima e dopo lo stimolo sperimentale non presentino differenze significative, cioè non dovute al caso, allo scopo di dimostrare l'eventuale influsso dello stimolo sperimentale qualora un test statistico dimostri che l'ipotesi è falsa.
File
:
  archivio computerizzato che contiene la matrice dei dati.
Frequenza assoluta:
  numero di ripetizioni di una data modalità
Frequenza marginale: in una tabella a doppia entrata il totale delle frequenze delle righe e delle colonne
Gradi di libertà: i gradi di libertà rappresentano il numero di possibilità che i dati che compongono un campione hanno di variare liberamente. In generale si calcolano togliendo dal numero delle unità del campione il numero delle condizioni cui essi sono vincolati. Ad esempio se io ho n numeri positivi e negativi, ciascuno dei quali può assumere un valore qualsiasi ed un vincolo, ad esempio la somma deve essere 100, io posso assegnare un valore qualsiasi ai primi n-1 numeri, ma l'ultimo sarà vincolato dal fatto che la somma deve essere 100, quindi in questo caso, i gradi di libertà sono n-1.
Gruppo di controllo:   è di solito un gruppo, scelto in maniera casuale, al quale non viene somministrato lo stimolo sperimentale. I dati raccolti dal gruppo di controllo vengono confrontati con quelli rilevati dal gruppo sperimentale al fine di rilevare se sussistono le differenze significative tra i due.
Gruppo sperimentale:
  nell'esperimento il gruppo a cui viene somministrato lo stimolo sperimentale, contrapposto al gruppo di controllo che è un gruppo identico al quale lo stimolo non viene somministrato.
Inchiesta: tecnica di raccolta dei dati che consiste nel porre domande ad un campione di soggetti, in un determinato momento, attraverso un questionario autocompilato o mediante un intervistatore.
Inferenza statistica : le inferenze statistiche consentono di ottenere informazioni su una popolazione partendo da un campione. Sono due i metodi principali della statistica inferenziale (o statistica induttiva): la stima e il test di ipotesi. Nella stima il campione viene usato per stimare un parametro della popolazione e porta alla costruzione di un intervallo di fiducia per il suddetto parametro. Nel caso del test di ipotesi, si formula un'ipotesi, parametrica o non parametrica, e la si verifica sui dati del campione.
Intervista clinica:
  intervista completamente non ristrutturata in cui l'intervistatore lascia che il rispondente approfondisca liberamente un tema di suo interesse: usata soprattutto in psicoterapia.  
Intervista non strutturata:
  intervista in cui l'intervistatore specifica preventivamente soltanto l'argomento senza indicare con precisione alcuna particolare domanda o modalità di risposta prefissata.  
Intervista semistrutturata:
  intervista il cui tema è deciso preventivamente ma in cui l'intervistatore gode di una certa discrezionalità nel decidere quali domande porre e quale tipo di modalità di risposta utilizzare.
Intervallo di fiducia (o di confidenza):
  un intervallo di fiducia è un intervallo di valori che ha una specifica probabilità di contenere il parametro oggetto di stima. Gli intervalli di fiducia del 95% e del 99% sono quelli più comunemente usati.
Ipotesi
:
  asserto che può essere provato; in generale le ipotesi sono tratte da una teoria oppure dall'osservazione diretta dei dati. Le ipotesi possono essere monovariate (ad esempio l'età media è maggiore di 20 anni) oppure bivariate (ad esempio, quanto più alta è l'istruzione, tanto più alto è il reddito).
Ipotesi da testare: il test di ipotesi è un metodo di inferenza statistica. Uno sperimentatore inizia a formulare una ipotesi sulla forma o posizione (ipotesi non parametrica) o su un parametro (ipotesi parametrica) della popolazione, chiamata ipotesi nulla Ho. Viene poi raccolto un campione sul quale viene eseguito il test. In un test parametrico viene calcolato sul campione il parametro oggetto del test e si vede qual è la probabilità che quel dato valore sia dovuto all'effetto del caso. In una ipotesi non parametrica si calcola la probabilità che quella data disposizione (forma e posizione) del campione sia dovuta all'effetto del caso. Se tale probabilità è bassa, minore della significatività del test (in genere <0,05 o <0,01), il risultato del test non è da attribuire al caso e l'ipotesi viene accettata.
Item: domanda in una scala di atteggiamento, in generale "voce".
Matrice dei dati: con questo termine si intende un ideale rettangolo che contiene tante righe quante sono le unità di analisi in esame e tante colonne quante sono le variabili considerate. Ogni singola risposta verrà tradotta in codici (la definizione operativa) e incasellata nella sua posizione. I vantaggi sono numerosi, perché si evita di trascrivere tutto il contenuto del questionario, ma solo i codici delle alternative scelte da ciascun intervistato e si rendono in questo modo più rapide le operazioni di elaborazione statistica dei dati.
Media: somma di tutti i valori divisa per il numero dei casi; insieme alla moda e alla mediana è una misura standard della tendenza centrale.
Mediana: valore di una variabile che lascia metà del campione o della popolazione alla sua sinistra e metà alla sua destra. Insieme alla moda e alla media è una misura standard di tendenza centrale.
Misura di tendenza centrale: valore che rappresenta la caratteristica centrale (posizione) di una distribuzione di frequenze. Sono tali la moda, la mediana, la media aritmetica.
Misure di variabilità: indici che consentono di valutare la dispersione dei dati intorno al valore di tendenza centrale di una distribuzione. Le principali misure di variabilità sono: devianza, varianza, scarto tipo.
Moda: valore più frequente in una variabile; insieme alla media e alla mediana è una misura standard di tendenza centrale.
Modalità: quando diamo una definizione operativa di una variabile, si redigono un insieme di stati significativamente distinti tra loro. Questo insieme di stati sono le modalità della variabile in questione. i diversi modi attraverso cui si esprime un carattere.
Osservazione partecipante: osservazione in cui il ricercatore fa parte dell'organizzazione o del gruppo oggetto d'indagine e partecipa a tutte le attività organizzative; in generale (ma non sempre) gli altri membri del gruppo non sono consapevoli del fatto che l'osservatore sta realizzando una ricerca.
Paradigma: una prospettiva di ricerca (una scuola di pensiero) con determinate idee sugli scopi della ricerca e sui metodi appropriati (come si dovrebbe realizzare la ricerca) e con i propri valori e assunti.
Parametro:
un parametro è una quantità numerica che misura un qualche aspetto di una popolazione. Per esempio la media è una misura di tendenza centrale ed è un parametro di una popolazione. Generalmente si usano lettere greche per designare i parametri della popolazione e lettere latine per designare quelli della popolazione. Di seguito sono elencati alcuni parametri di grande importanza nelle analisi statistiche e la lettera greca corrispondente. I parametri della popolazione sono spesso sconosciuti e vengono stimati attraverso statistiche fatte su campioni.
Percentuale cumulata:
quando l'autonomia semantica delle singole categorie è bassa (dalle scale ordinali in su), l'interesse si sposta dalla frequenza nelle singole categorie alla distribuzione di frequenza nella successione delle categorie. Quindi accanto alle percentuali di categoria è opportuno specificare delle percentuali cumulate, in cui alla percentuale della singola categoria si sommano tutte quelle che la precedono fino ad arrivare all'ultima categoria che naturalmente avrà il 100%. Avendo a disposizione tale percentuale risulterà molto più immediata l'individuazione dei valori caratteristici come la mediana, i quartili e i percentili.
Popolazione (universo) :
  una popolazione consiste in un insieme di oggetti, osservazioni o valori che hanno qualcosa in comune. Per esempio, una popolazione potrebbe essere definita come tutti i maschi di età compresa tra i 15 e i 18 anni. La distribuzione di una popolazione può essere descritta da numerosi parametri come la media e lo scarto quadratico. Le stime di questi parametri fatte a partire da un campione sono chiamate statistiche campionarie.
Popolazione normale: quando una popolazione è espressione di uno scostamento casuale da un valore centrale predefinito (ad esempio un errore di misurazione) ed è almeno superiore a 30 casi, l'andamento della sua distribuzione tende ad avvicinarsi alla distribuzione normale. In questo modo allo studio di questa popolazione si possono applicare le caratteristiche della distribuzione normale.
Post - test: nell'esperimento è un test volto a misurare il valore della variabile dipendente dopo aver applicato lo stimolo sperimentale.
Pre - test: nell'inchiesta è la somministrazione preliminare di un questionario ad un piccolo campione al fine di individuare e di correggere i problemi di interpretazione degli items. Nell'esperimento è un test per misurare il valore della variabile dipendente prima di applicare lo stimolo sperimentale.
Questionario: elenco di domande a cui deve rispondere il soggetto in un'inchiesta; spesso il termine questionario è usato soltanto per lo strumento che deve essere compilato dal soggetto stesso distinguendolo dal tracciato dell'intervista, che è invece la scaletta usata dall'intervistatore.
Ricerca applicata:
ricerca i cui risultati possono essere utilizzati per risolvere problemi sociali di immediato interesse.
Scala:
strumento che misura una caratteristica e/o una proprietà, ad esempio un atteggiamento. La caratteristica è generalmente considerata unidimensionale e se ne ricava solitamente un punteggio quantitativo.
Scala a intervalli:
livello di misurazione che specifica non soltanto la posizione in graduatoria, come la scala ordinale, delle varie modalità della scala, ma anche la distanza tra ciascuna delle modalità. si caratterizza per l'assenza di zero assoluto.
Scala di quantità:
fa parte, con la scala metrica, delle scale di rapporti. Permette di misurare le variabili quantitative, dotate di uno zero non arbitrario (e quindi assoluto) e della trasferibilità della proprietà (ad esempio l'età non è trasferibile, il reddito sì) . Un esempio di variabile misurata su scala di quantità è il reddito.
Scala di rapporti:
livello di misurazione che non soltanto specifica la graduatoria, come nella misurazione ordinale, e la distanza tra le posizioni, come nella misurazione ad intervalli, ma che fissa un punto di zero assoluto (non arbitrario) per la variabile in questione.
Scala nominale (o categoriale non ordinata):
il tipo più semplice di misurazione in cui una variabile è definita mediante classificazione in categorie discrete e non ordinabili.
Scala ordinale (o categoriale ordinata):
misurazione ove non solo è possibile operare una classificazione in categorie discrete, come nella misurazione nominale, ma anche ordinare le categorie.
Scarto:
dicesi scarto la distanza di un valore dalla media aritmetica della distribuzione. Caratteristica saliente degli scarti è che la loro somma dà zero.
Scarto quadratico medio o deviazione standard:
misura di variabilità. È la radice quadrata della media degli scarti al quadrato di ciascun valore di una variabile misurata almeno su scala ad intervalli dalla media.
Statistiche descrittive:
analisi statistica che si limita a descrivere un campione (ad esempio, calcolando la media) invece di stimare il grado di accuratezza con cui i dati del campione rappresentano la popolazione, come accade nella statistica induttiva.
Statistiche induttive (o campionarie):
analisi statistica in cui i dati del campione sono utilizzati per inferire informazioni sulla popolazione dalla quale è stato estratto il campione.
Studio sul campo:
indagine condotta sul "campo", ossia nell'ambiente naturale dei soggetti studiati, contrapposta all'indagine svolta in laboratorio (ambiente artificiale).
Studio trasversale:
un'indagine (di solito un'inchiesta) realizzata in un unico momento con un campione che si suppone costituisca una sezione trasversale rappresentativa della popolazione rispetto a variabili rilevanti (età, sesso, istruzione, ecc.)  
Tabella a doppia entrata:
  quando un'indagine risponde a domande che tengano conto di due variabili contemporaneamente (analisi bivariata), la forma di presentazione dei risultati si chiama tabella a doppia entrata. In questo caso siamo in presenza di una variabile le cui modalità sono coppie di modalità di due variabili semplici.  
t di Student:
  quando il campione è piccolo (normalmente inferiore a 30 casi) i possibili campioni estratti da una popolazione normale non si distribuiscono come una curva normale ma come una curva più bassa della normale, tanto più bassa e allargata agli estremi, quanto più piccolo è il campione. Quindi avremo differenti forme di distribuzione a seconda della numerosità del campione stesso, o meglio a seconda dei suoi gradi di libertà.
Teorema del limite centrale:
afferma che estraendo campioni ripetuti, tutti della stessa dimensione (n, maggiore di 30 casi) dalla medesima popolazione, le medie campionarie si distribuiscono approssimativamente in modo normale (curva a campana) attorno alla media della popolazione; ciò significa che la maggior parte delle medie campionarie avranno valori molto vicini a quello della media della popolazione.
Unità di campionamento:
un singolo elemento del campionamento oppure, come nel campionamento a grappolo, un aggregato di elementi del campionamento.
Variabile:
qualsiasi caratteristica misurata su un'unità di analisi o un attributo che diversi soggetti . Per esempio, se viene misurata l'altezza di 30 soggetti, allora l'altezza è una variabile.Le variabili possono essere quantitative e qualitative. Le variabili quantitative sono misurate su una scala ad intervalli o di rapporti, mentre le variabili qualitative sono misurate su scala nominale o ordinale. Un'altra differenza è tra variabili indipendenti e dipendenti. Quando si conduce un esperimento, alcune variabili sono manipolate dallo sperimentatore (variabili indipendenti) e altre sono misurate per vederne il cambiamento in relazione alla moassumonodifica della variabile indipendente (variabili dipendenti). Un'ulteriore distinzione viene fatta tra variabili continue e discrete. Alcune variabili sono misurate su una scala continua, sulla quale le variabili possono assumere un numero infinito di valori. Altre variabili invece possono assumere solo un numero finito di valori e sono dette variabili discrete.