Connexions

You are here: Home » Content » Design e Analisi di Esperimenti (per l'Interaction Design)
Content Actions

Design e Analisi di Esperimenti (per l'Interaction Design)

Module by: Davide Rocchesso

Summary: Una guida rapida alla sperimentazione con soggetti e all'analisi statistica dei dati, nel contesto del design di oggetti interattivi.

Per la valutazione di interfacce e sistemi interattivi esiste una pletora di paradigmi e tecniche, le quali forniscono per lo più informazioni di tipo qualitativo, oppure informazioni quantitative ma di incerta affidabilità statistica. Invece, se l'elemento di interfaccia da analizzare non è troppo complesso e se si possiedono sufficienti risorse, è possibile adattare alla valutazione di interfacce le tecniche usate nella psicologia sperimentale. In altre parole, si può cercare di fare sperimentazione scientifica con soggetti umani.
Definition 1: Scopo
verificare una ipotesi che predice una relazione tra due o più variabili.
Esempio 1: Ipotesi 
La velocità di lettura di un testo su un display è diversa per il font Helvetica rispetto al font Times.
Il ricercatore manipola le variabili indipendenti (es. font) e misura le variabili dipendenti (es. tempo di lettura).
Definition 2: Condizioni
  • Condizioni sperimentali: Per esempio, la condizione 1 può essere "leggi in Helvetica" e la condizione 2 può essere "leggi in Times"
  • Condizioni di controllo (o gruppi di controllo): sono condizioni molto vicine a quelle sperimentali ma non esposte alle variabili indipendenti oggetto di indagine. Ad esempio, un gruppo di controllo può leggere un testo uguale a quello della condizione 1 ma stampato su carta e sovrapposto al display.
Definition 3: Disegni sperimentali
I disegni sperimentali sono caratterizzati dallo spazio x×y×...×z x y ... z delle condizioni sperimentali.
Esempio 2: Disegno 2 x 2 
Effetto sull'efficienza di svolgimento di un task dell'introduzione di una nuova versione di software su soggetti esperti e soggetti inesperti.
Allocazione dei soggetti
Definition 4: Between-subjects design
Differenti gruppi di soggetti sono usati per le diverse condizioni.
  • Vantaggi: non ci sono effetti di ordinamento
  • Svantaggi: servono molti soggetti
Definition 5: Within-subjects design
Ogni soggetto si presta a tutte le condizioni
  • Vantaggi: bastano pochi soggetti e c'è un minore impatto delle differenze individuali
  • Svantaggi: possono facilmente emergere effetti dovuti all'ordinamento delle prove. Bisogna quindi applicare counterbalancing.
Definition 6: Matched-group procedure
Si fa il match dei gruppi di soggetti sulla base di variabili che non sono direttamente sotto osservazione. Ad esempio, soggetti con grado paragonabile di esperienza sono assegnati ciascuno ad una condizione della variabile indipendente oggetto di indagine.
Esempio 3: Sperimentazione in Interazione Uomo-Macchina 
Esperimento teso a trovare il compromesso ottimo breadth vs. depth negli hyperlink del web. (Larson and Czerwinski, Microsoft, 1998) .
  • Condizioni (rami ad ogni livello): (1) 8 x 8 x 8; (2) 16 x 32; (3) 32 x 16
  • Soggetti: 16 utenti esperti del web.
  • Task: ogni soggetto fa 8 ricerche per ogni condizione, per un totale di 24 ricerche.
  • Variabile dipendente: Tempo di ricerca
Condizioni
Risultati 1 2 3
Media 58 36 46
SD 23 16 26
Conclusione: Breadth è meglio di Depth, ma troppi link possono peggiorare la performance.

Statistica per esperimenti

Nota: Queste note di statistica e gli esempi riportati sono basati sui libri Statistica per psicologi, di Caudek e Luccio, e Statistics: an introduction using R di Crawley.
Definition 7: Ipotesi Nulla H 0 H 0
La manipolazione della variabile indipendente non ha alcun effetto sulla variabile dipendente.
Definition 8: Ipotesi Sostantiva H 1 H 1
La manipolazione della variabile indipendente ha effetto sulla variabile dipendente. In medicina, si afferma l'efficacia di un trattamento.
Se, per via sperimentale, si accerta che la probabilità associata agli eventi è troppo bassa, l'ipotesi nulla viene respinta e si dimostra l'efficacia del trattamento, o l'esistenza di un effetto della variabile dipendente su quella indipendente.
Definition 9: Livello di significatività α
E' la soglia di probabilità al di sopra della quale accetto l'ipotesi nulla. E' la probabilità di commettere un errore del primo tipo.
Definition 10: Errore del primo tipo
Dice che il trattamento è efficace (o è presente l'effetto) quando in realtà non lo è.
Definition 11: Livello di significatività β
E' la probabilità di accettare l'ipotesi nulla, laddove essa sia effettivamente falsa. E' la probabilità di commettere un errore del secondo tipo.
Definition 12: Errore del secondo tipo
Dice che il trattamento è inefficace (o non è presente l'effetto) quando in realtà l'efficacia c'è.
Definition 13: valore p
E' una stima della probabilità che un certo risultato, o uno ancora più estremo, si sia verificato per caso, in caso di validità dell'ipotesi nulla. Un valore piccolo di p significa che l'ipotesi nulla è difficile da sostenere e che l'effetto misurato è significativo. Piccolo significa usualmente <0.05 < 0.05
Situazione Effettiva
Ipotesi Nulla vera falsa
accetta corretto tipo II
respingi tipo I corretto
Definition 14: Potenza di un test statistico
E' la probabilità 1-β 1 β di rigettare l'ipotesi nulla quando essa è falsa. Se si vuole rilevare una variazione, dovuta a un trattamento, pari a δ δ e ci si può ragionevolmente aspettare una variabilità nei dati misurata da una varianza s2 s 2 , allora si può dimensionare la numerosità del campione secondo la regola n=potenza s210δ2 n potenza s 2 10 δ 2 . Un valore considerato adeguato per la potenza statistica è 0.8 0.8. Ad esempio, se la media è circa 20 20 e la varianza è circa 10 10, allora per rilevare una variazione del 10 10 % con potenza 0.8 0.8 bisogna usare n=20 n 20 .
Esempio 4 
  • Ipotesi nulla: nascere maschio o nascere femmina non ha influenza sul fatto di diventare programmatori. H 0 H 0 : p m = p f =0.5 p m p f 0.5
  • Ipotesi sostantiva: H 1 H 1 : p m > p f p m p f
  • Livello di significatività: α=0.05 α 0.05
Se prendiamo un campione di 10 programmatori e, di questi, 2 sono donne, cosa possiamo concludere? La probabilità di ottenere il caso osservato e tutti quelli altrettanto o più sfavorevoli all'ipotesi nulla è pari a probabilità di tutte le sequenze con 2 femmine + probabilità di tutte le sequenze con 1 femmina + probabilità di tutte le sequenze con 0 femmine. La prima di queste tre probabilità, ad esempio, si trova come p m 8 p f 2 p m 8 p f 2 moltiplicata per il numero di possibili sequenze con due femmine, cioè per le combinazioni di 10 su 8 elementi. La somma delle tre probabilità risulta essere complessivamente pari a 0.0547 0.0547 e quindi, con il livello di significatività adottato, si accetta l'ipotesi nulla. In altri termini l'evento osservato e quelli altrettanto o più sfavorevoli sono troppo poco improbabili per poter accettare l'ipotesi sostantiva.

Verifica di ipotesi sulla differenza tra due medie (between-subjects design)

Si supponga di avere un campione di numerosità n n estratto da una popolazione normale di media μ μ e varianza σ2 σ 2 . La media di tale campione è anch'essa una variabile aleatoria normale, con media μ μ e varianza σ2n σ 2 n . Presi invece due campioni da due popolazioni, il valore atteso della differenza tra le medie di due campioni è
E Y 1 _ - Y 2 _ =E Y 1 _ -E Y 2 _ = μ 1 - μ 2 E Y 1 _ Y 2 _ E Y 1 _ E Y 2 _ μ 1 μ 2 (1)
Se le medie dei due campioni sono indipendenti, allora la varianza della differenza delle medie campionarie è
σ 2 Y 1 _ - Y 2 _ = σ 1 2 n 1 + σ 2 2 n 2 =σ21 n 1 +1 n 2 σ 2 Y 1 _ Y 2 _ σ 1 2 n 1 σ 2 2 n 2 σ 2 1 n 1 1 n 2 (2)
dove l'ultima uguaglianza assume che la varianza nei due campioni sia la stessa. A partire da un campione, lo stimatore privo di bias della varianza della popolazione è s2=i=1n x i - x _ 2n-1 s 2 i 1 n x i x _ 2 n 1 . Questo perché, una volta conosciuta la media, i gradi di libertà associati ad un campione di numerosità n n sono n-1 n 1 e nel calcolo della varianza campionaria bisogna dividere per il numero di gradi di libertà.
Dati due campioni di n 1 n 1 e n 2 n 2 elementi uno stimatore della varianza della popolazione è σ ̂ 2= n 1 -1 s 1 2+ n 2 -1 s 2 2 n 1 + n 2 +-2 σ ̂ 2 n 1 1 s 1 2 n 2 1 s 2 2 n 1 n 2 -2 . Le ipotesi sulla differenza tra le medie si verificano con la statistica
t= Y 1 _ - Y 2 _ - μ 1 - μ 2 σ ̂ 1 n 1 +1 n 2 =differenza tra le mediedeviazione standard della differenza tra le medie t Y 1 _ Y 2 _ μ 1 μ 2 σ ̂ 1 n 1 1 n 2 differenza tra le medie deviazione standard della differenza tra le medie (3)
la quale è distribuita come una t di Student con n 1 + n 2 +-2 n 1 n 2 -2 gradi di libertà. Maggiore è la differenza tra le medie e più siamo convinti dell'efficacia di un trattamento. Maggiore è la varianza dei campioni, e meno ne siamo convinti.
Esempio 5 
Due software didattici (A e B) vengono confrontati esaminando i voti dei test di due classi di studenti. Ci si chiede se i due software siano diversamente efficaci.
Usiamo il software libero R per analizzare i risultati dei test e rispondere alla domanda. La sequenza di istruzioni
	      
	      > classeA
	      [1] 3 4 4 3 2 3 1 3 5 2
	      > classeB
	      [1] 5 5 6 7 4 4 3 5 6 5
	      > profitto <- c(classeA, classeB)
	      > label <- factor(c(rep("A", 10), rep("B", 10)))
	      > boxplot(profitto~label, notch=T, xlab="classi", ylab="profitto")
	      
	    
mostra i risultati dei test nelle due classi e disegna il boxplot di Figura 1. Poiché i solchi dei due plot non si sovrappongono, si può concludere che le medie sono significativamente diverse, con un livello di significatività al 5%. La variabilità è simile in entrambe le classi, e pertanto ha senso procedere con un t-test.
Boxplot
bpclassi.png
Figura 1: Boxplot.
Possiamo calcolare esplicitamente le varianze campionarie per le due classi e, da queste, il valore della variabile t di Student:
	      
	      > s2A <-  var(classeA)
	      > s2B <-  var(classeB)
	      > (mean(classeA) - mean(classeB))/sqrt(s2A/10 + s2B/10)
	      [1] -3.872983
	      
	    
Il valore ottenuto va considerato in modulo, e confrontato con il valore critico per la significatività scelta, il quale è
	       
	      > qt(0.975, 18) 
	      [1] 2.100922 
	       
	    
Nel primo parametro della chiamata a qt(), si noti come il test vada condotto a due code, e quindi α divisa per due, perché non c'è una direzione preferenziale di confronto: ci interessa solo la diversità tra le due classi e non una relazione d'ordine. Il secondo parametro è il numero complessivo di gradi di libertà. Poiché il valore calcolato è più grande del valore critico l'ipotesi nulla può essere respinta. Rovesciando il ragionamento, possiamo attribuire un valore di probabilità all'osservazione, supponendo che valga l'ipotesi nulla. Questa probabilità è
	      
	      > 2*pt(-3.872983, 18)
	      [1] 0.001114540  
	      
	    
ed è molto inferiore al 5% che ci eravamo posti come soglia. In R, il t-test si può condurre con una sola istruzione
	    
	      > t.test(classeA, classeB)

	      Welch Two Sample t-test

	      data:  classeA and classeB 
	      t = -3.873, df = 18, p-value = 0.001115
	      alternative hypothesis: true difference in means is not equal to 0 
	      95 percent confidence interval:
	      -3.0849115 -0.9150885 
	      sample estimates:
	      mean of x mean of y 
	      3         5 
	      
	    
In un rapporto di ricerca, il risultato dell'analisi si può presentare come "il profitto della classe B ( media=5 media 5 ) è significativamente diverso da quello della classe A ( media=3 media 3 ; t=3.873 t 3.873 , p=0.0011 p 0.0011 (two-tailed), d.f.=18 d.f. 18 )".
Con il software libero Octave, la stessa analisi si svolgerebbe con il comando
	    
	    octave> classeA = [3 4 4 3 2 3 1 3 5 2];
	    octave> classeB = [5 5 6 7 4 4 3 5 6 5];
	    octave> [p, t, df] = t_test_2(classeA, classeB, "<>")
	    p = 0.0011145
	    t = -3.8730
	    df = 18
	    
	  
L'ipotesi fondante per la verifica di ipotesi sulle medie è che la popolazione sia normale, e di varianza omogenea tra i campioni. Il metodo è robusto a variazioni dalla normalità. Però deve valere l'ipotesi di indipendenza tra le medie, e questo non si può avere con test di tipo "within subjects". Per ovviare a questo problema si può però riformulare il test considerando i dati come provenienti da un unico campione di differenze di punteggi D D. L'ipotesi nulla diventa H 0 H 0 : E D _ =0 E D _ 0 , e si verifica con
t= D _ -E D _ s D n t D _ E D _ s D n (4)
con n-1 n 1 gradi di libertà.

Regressione multipla

Si abbiano kk variabili indipendenti quantitative. Il modello di regressione lineare si esprime come
y i = β 0 + β 1 x 1, i + β 2 x 2, i +...+ β k x k, i +ɛi y i β 0 β 1 x 1, i β 2 x 2, i ... β k x k, i ɛi (5)
Con nn osservazioni il modello si può esprimere in forma matriciale
y=Xb+ɛ y X b ɛ (6)
Tipicamente il numero di osservazioni è superiore al numero di variabili indipendenti, e pertanto il sistema Equazione 6 risulta sovradeterminato. Esso si può risolvere ai minimi quadrati ottenendo
b=X'X-1X'y b X ' X -1 X ' y (7)
La Equazione 7 è la soluzione che minimizza la Somma quadratica degli errori SSE=i=1n y i - y ̂ i 2 SSE i 1 n y i y ̂ i 2 , dove y ̂ i y ̂ i è la stima dell'i-esimo campione fornita dal modello lineare.
Se si hanno k k variabili quantitative e una variabile qualitativa il modello di regressione è
y i = β 0 + γ D i + β 1 x 1, i + β 2 x 2, i +...+ β k x k, i +ɛi y i β 0 γ D i β 1 x 1, i β 2 x 2, i ... β k x k, i ɛi (8)
dove D i D i è una variabile dicotomica, cioè assume solo i valori 0 0 o 1 1.
Esempio 6 
Si studi la relazione tra la prestazione in un test di apprendimento di un software (variabile y y) e il numero di volte in cui i soggetti hanno fatto ricorso all'help durante l'apprendimento dello stesso (variabile x x). La variabile qualitativa D D discrimina tra utenti esperti e novizi.
Ecco una sessione in R che produce la regressione ai minimi quadrati (funzione lm(), per linear model) e traccia il grafico di Figura 2.
	    
	    > risp_corrette
	    [1] 80 88 89 62 67 37 62 78 62 77 81 41 26 41 37 57 35 58 22 25 46 18 56 26 38 21
	    > help
	    [1] 16 25 21 13 17  2 11 14  8 12 17  7  6 16 17 21 14 25  7 12 19  9 17 14 16  6
	    > esperienza
	    [1] 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
	    > rce <- split(risp_corrette, esperienza)
	    > he <- split(help, esperienza)
	    > plot(help, risp_corrette, type="n", ylab="Risposte corrette", 
	    + xlab="invocazioni help")
	    > points(he[[1]], rce[[1]], pch=16) 
	    > points(he[[2]], rce[[2]])
	    > lm(risp_corrette ~ help + esperienza)
	    
	    Call:
	    lm(formula = risp_corrette ~ help + esperienza)
	    
	    Coefficients:
	    (Intercept)         help   esperienza  
	    3.738        2.280       33.962  
	    
	    > abline(3.738, 2.28)
	    > abline(3.738 + 33.962, 2.28, lty=2)
	    
	  
Regressione multipla
regrq.png
Figura 2: Regressione con una variabile qualitativa e una variabile quantitativa.
Una domanda che è naturale porsi è se e quanto sia significativo il livello di esperienza.

Analisi della Regressione

Indicata con y _ y _ la media delle osservazioni, e definite la Somma totale dei quadrati SSY=i=1n y i - y _ 2 SSY i 1 n y i y _ 2 e la Somma dei quadrati di regressione SSR=i=1n y ̂ i - y _ 2 SSR i 1 n y ̂ i y _ 2 si dimostra che vale l'ortogonalità tra la variabilità dei dati rispetto al modello lineare e la variabilità del modello rispetto alla media dei dati. Cioè
SSY=SSR+SSE SSY SSR SSE (9)
Si usa anche dire che la varianza totale è data dalla somma della varianza entro i gruppi ( SSE SSE) e tra i gruppi ( SSR SSR). Il Coefficiente di determinazione è definito come
r xy 2=SSRSSY r xy 2 SSR SSY (10)
Questo è un numero compreso tra 0 0 e 1 1, e vale 1 1 se non c'è errore residuo, cioè se la regressione fa un fit perfetto. Si dimostra che r xy 2 r xy 2 è il quadrato del Coefficiente di correlazione, definito come il rapporto tra la covarianza e le deviazioni standard campionarie di x x e y y.
r xy =i=1n x i - x _ i=1n y i - y _ n S x S y = S xy S x S y r xy i 1 n x i x _ i 1 n y i y _ n S x S y S xy S x S y (11)
    Proprietà dei coefficienti di regressione multipla
  1. Il valore atteso del j-esimo elemento di bb è β j β j
  2. La varianza del j-esimo elemento di bb è ν jj σ ɛ 2 ν jj σ ɛ 2 , dove ν jj ν jj è il j-esimo elemento diagonale di X'X-1 X ' X -1 e σ ɛ 2 σ ɛ 2 è la varianza del rumore additivo ɛɛ
  3. S E 2=SSEn-k+1 S E 2 SSE n k 1 è uno stimatore unbiased di σ ɛ σ ɛ .
  4. Le variabili di residuo ɛ i ɛ i sono normalmente distribuite.
  5. I coefficienti parziali di regressione (elementi di bb) sono normalmente distribuiti.
Ulteriori proprietà sono associabili alla 3 di 6:
  1. S E 2ν σ ɛ 2 S E 2 ν σ ɛ 2 è distribuita come una variabile aleatoria χ ν 2 χ ν 2 con νν gradi di libertà.
  2. La differenza di due variabili aleatorie χ2 χ 2 con ν1 ν1 e ν2 ν2 gradi di libertà è ancora una variabile aleatoria χ2 χ 2 con ν1-ν2 ν1 ν2 gradi di libertà.
  3. Il rapporto di due variabili aleatorie χ2 χ 2 con ν1 ν1 e ν2 ν2 gradi di libertà è una variabile aleatoria di tipo FF, secondo la relazione χ ν1 2ν1 χ ν2 2ν2= F ν1 ν2 χ ν1 2 ν1 χ ν2 2 ν2 F ν1 ν2

Verifica di ipotesi sui coefficienti di regressione

Se si deve verificare l'ipotesi nulla H 0 H 0 : b j = β j, 0 b j β j, 0 si può applicare, in virtù delle 2 e 3 delle 6, il t-test con la statistica t= b j - β j, 0 SSEn-k+1 ν jj t b j β j, 0 SSE n k 1 ν jj

Verifica di minimalità di un modello

Supponiamo di avere un modello con kk regressori e di volere verificare l'ipotesi nulla H 0 H 0 : β 1 =...= β p =0 β 1 ... β p 0 , cioè che esiste un sottomodello ugualmente rappresentativo. Indichiamo con SSE k - p SSE k - p lo scarto per la regressione con le k-p kp variabili rimaste. In virtù delle proprietà possiamo scrivere l'equivalenza nel senso della distribuzione statistica
SSE k - p -SSEpSSEn+-k+-1 χ p 2p χ n - k - 1 2n+-k+-1 F p, n - k - 1 SSE k - p SSE p SSE n k -1 χ p 2 p χ n - k - 1 2 n k -1 F p, n - k - 1 (12)
F-test Maggiore è l'incremento di errore dovuto alla esclusione di pp regressori, minore è la probabilità che valga l'ipotesi nulla. Dati i gradi di libertà di numeratore e denominatore, si legge il valore tabulato per un dato livello di significatività FαFα e si rifiuta l'ipotesi nulla se F>Fα F Fα . Oppure, il programma calcola la probabilità di errore del primo tipo associata al valore di FF calcolato. Se pp è piccolo e F>1 F 1 si respinge l'ipotesi nulla.
La Equazione 12 può anche essere scritta in termini di coefficiente di determinazione:
SSR-SSR k - p pSSEn+-k+-1=r2- r2 k - p p 1 -r2n+-k+-1 SSR SSR k - p p SSE n k -1 r 2 r 2 k - p p 1 r 2 n k -1 (13)
Un importante caso particolare si ha per p=k p k , per il quale l'ipotesi nulla è: nessuna variabile ha effetto su y y. In questo caso il test si fa con
F=SSRkSSEn+-k+-1=between-groups   mean-square   variancewithin-groups   mean-square   variance F SSR k SSE n k -1 between-groups   mean-square   variance within-groups   mean-square   variance (14)
Esempio 7 
Si studi la relazione tra lo sviluppo di capacità logiche nella adolescenza (misurate con un test logictest) e il tempo speso settimanalmente ai videogame (vg) o alla televisione (tv). Lo studio è affrontato molto semplicemente in R.
	      
		> vg
		[1] 12  7 23  8 19 24  5 31  9 21 24 17 19  6 16 12 12 11 33 14  4  2 21 18 21
		> tv
		[1] 32  4 12 12 22 21 14  6  9 26 19 18 12 21 18 24 23 23 12 21 26  8 23 12 26
		> logictest
		[1] 34 12 67 46 43 78 56 69 23 67 89 73 26 41 52 19 83 38 56 43 11 21 54 56 87

		> summary(lm(logictest~tv+vg))
		
		Call:
		lm(formula = logictest ~ tv + vg)
		
		Residuals:
		    Min      1Q  Median      3Q     Max 
		-28.192 -14.089   1.308  11.183  36.416 
		
		Coefficients:
		             Estimate Std. Error t value Pr(>|t|)    
		(Intercept)  11.1431    12.4141   0.898 0.379108    
		tv            0.6083     0.5203   1.169 0.254910    
		vg            1.7875     0.4592   3.893 0.000783 ***
		---
		Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 
		
		Residual standard error: 18.45 on 22 degrees of freedom
		Multiple R-Squared: 0.4249,	Adjusted R-squared: 0.3727 
		F-statistic: 8.129 on 2 and 22 DF,  p-value: 0.002274 		
	      
	    
Il prospetto fornito da summary(lm()) si può interpretare come segue
  • I residui non presentano una distribuzione evidentemente asimmetrica, visti i valori minimo, massimo e mediano, e pertanto si può ragionevolmente assumere la gaussianità;
  • Il valore di F F è alto ed accompagnato da un p p piccolo, e pertanto si può falsificare l'ipotesi nulla secondo cui né i videogiochi né la televisione hanno effetto sullo sviluppo delle capacità logiche;
  • Il coefficiente legato alle ore di videogiochi è significativamente (secondo il t-test) positivo, indicando un effetto.
In octave lo stesso f-test si svolgerebbe con il comando
		
		octave> [p, f, df_num, df_den] = f_test_regression(logictest', 
		> [ones(1,25);tv;vg]',[[0 1 0];[0 0 1]])
		p = 0.0022740
		f = 8.1286
		df_num = 2
		df_den = 22
		
	      
Esempio 8 
Si riprenda lo Esempio 6 e ci si chieda se è significativo il grado di esperienza. In R, da una
summary(lm(risp_corrette~help+esperienza))
si ricava il coefficiente di determinazione come primo numero riportato nella linea
		Multiple R-Squared: 0.9051, Adjusted R-squared: 0.8969
	      
Il secondo numero, se moltiplicato per 100100, si interpreta come riduzione percentuale della varianza apportata dal modello lineare. Trascurando la variabile dicotomica relativa al grado di esperienza, il coefficiente di determinazione risulta da
		> cor(risp_corrette, help) ^ 2
		[1] 0.3099675
	      
o da
		> summary(lm(risp_corrette~help-esperienza))
		...
		Multiple R-Squared:  0.31,	Adjusted R-squared: 0.2812
	      
e facendo il calcolo della Equazione 13 si trova F 1, 23 =144.27 F 1, 23 144.27 . Il valore di pp associato a tale F F è molto piccolo, e quindi si rigetta l'ipotesi nulla. In altri termini: il grado di esperienza conta.
Inoltre, possiamo effettuare il t-test per verificare se l'help-on-line è efficace per entrambi i gruppi. Anche tale informazione si può estrarre dal prospetto di
summary(lm(risp_corrette~help+esperienza))
:
		
		Coefficients:
		              Estimate Std. Error t value Pr(>|t|)    
		(Intercept)   3.7382     3.9736   0.941    0.357    
		help          2.2797     0.2448   9.312 2.89e-09 ***
		esperienza   33.9622     2.8275  12.011 2.17e-11 ***
		
	      
Poiché il valore t=9.312 t 9.312 è elevato e la corrispondente p=2.89e-09 p 2.89e-09 è piccolissima, possiamo considerare provata l'efficacia dell'help.
In octave, f-test e t-test si conducono con le due chiamate
		
		octave> [p, f, dfn, dfd] = f_test_regression(risp_corrette, 
		> [ones(1,26); esperienza; help]', [0, 1, 0])
		p =  2.1692e-11
		f = 144.27
		dfn = 1
		dfd = 23
		octave> [p, t, dfn] = t_test_regression(risp_corrette, 
		> [ones(1,26); esperienza; help]', [0, 0, 1], 0, ">")
		p =  1.4428e-09
		t = 9.3115
		dfn = 23
		
	      
L'analisi andrebbe completata verificando la assenza di interazioni tra esperienza e help. Ciò si fa con un altro f-test, aggiungendo il prodotto esperienza.*help, e usando i coefficienti di determinazione con e senza il prodotto delle due variabili. In Octave:
		
		octave>  [p, f, dfn, dfd] = f_test_regression(risp_corrette, 
		> [ones(1,26); esperienza; help; esperienza.*help]', [0, 0, 0, 1])
		p = 0.66901
		f = 0.18776
		dfn = 1
		dfd = 22
		
	      
In R, si fa
		> summary(lm(risp_corrette ~ help + esperienza + help:esperienza))
	      
da cui si ottiene
		Multiple R-Squared: 0.9059,	Adjusted R-squared: 0.8931 
	      
che si può usare insieme al valore del coefficiente di determinazione senza interazioni (0.90510.9051) all'interno della Equazione 13, trovando così F 1, 22 =0.19 F 1, 22 0.19 , la cui probabilità associata è
		> 2*pf(0.19, 1, 22)
		[1] 0.6656723
	      
In questo caso non c'è evidenza di interazioni tra esperienza e help e quindi i loro effetti si possono studiare separatamente. Viceversa, la presenza di interazione significherebbe che gli effetti di ciascuna variabile mutano a seconda dei valori assunti dall'altra.

ANOVA

Con il termine ANOVA si indica usualmente una analisi della regressione multipla in cui tutte le variabili indipendenti sono qualitative. Lo scopo è quello di stabilire se esistono differenze statisticamente significative tra i gruppi corrispondenti alle variabili indipendenti.
Definition 15: One-way ANOVA
E' una ANOVA con una sola variabile indipendente qualitativa (o fattore) con m m categorie (o livelli). Ci siano n n elementi misurati per ogni livello.
y i =α+