load("DataZSO8.RData")
source("OLP2 Functies.R")
library(car)
ZSO 8
Voorbereiding
Voor deze ZSO ga je aan de slag met de dataset: DataZSO8.RData.RData
. De data kan je downloaden door op onderstaande link te klikken met een rechtermuisklik.
Een goede workflow in RStudio
is van cruciaal belang op lange termijn. In dit vak is het geen verplichting, maar werken met projecten in RStudio
kan je leven een pak makkelijker maken.
Daarom raden we je aan om een nieuw project te maken per ZSO. Concreet betekent dit dat je tevens op je pc een map maakt per ZSO met daarin alle nodige files voor die ZSO:
- databestanden
OLP2 functies.R
file- Je script met analyses (of Quarto document)
Meer uitleg over werken met projecten en Quarto documenten kan je vinden onder Extra materiaal (KLIK HIER)
OPDRACHTEN
Het databestand bevat gegevens van leerlingen in het 6de jaar secundair onderwijs. Belangrijkste doelstelling van het onderzoek waaruit deze data voortkomt, was de overgang naar hoger onderwijs verder te onderzoeken. In deze dataset maakten we een selectie van volgende variabelen:
Leerlingnummer
: een identificatienummer voor leerlingen;Iq
: de score die een leerling behaalde op een IQ toets;Begrlezen
: behaald percentage op een toets aangaande begrijpend lezen;Ondvorm
: onderwijsvorm waarin de leerling zit (1 = ASO ; 2 = BSO ; 3 = TSO);Demotivatiez
: mate van demotivatie om verder te studeren als z-score;Willenz
: mate van intrinsieke motivatie om verder te studeren als z-score;Moetenz
: mate van extrinsieke motivatie om verder te studeren als z-score.
Je wenst grip te krijgen op welke leerlingen in meerdere of mindere mate gedemotiveerd zijn om verder te studeren. Daartoe ga je verschillende analysemodellen schatten die telkens opbouwen in moeilijkheid.
1.1 Een eerste model test de hypothese dat kinderen met een hoger Iq en betere schoolprestaties (hier gemeten a.d.h.v. ‘Begrlezen’) in mindere mate gedemotiveerd zijn (lager scoren op ‘Demotivatiez’). Doe de analyse om deze hypothese te toetsen en schrijf je conclusies neer. Zorg ervoor dat de schattingen niet afhankelijk zijn van de meetschaal die werd gehanteerd voor de verschillende variabelen.
1.2 In een tweede model wil je specifiek de hypothese nagaan dat BSO-leerlingen sterker gedemotiveerd zijn dan de overige leerlingen. Je wenst deze groep dus af te zetten t.o.v. de rest van de leerlingen. Doe hiertoe het nodige analysewerk. Houd daarbij rekening met de resultaten uit 1.1: enkel variabelen die een significant effect hadden neem je op als controlevariabelen. Interpreteer de resultaten grondig.
1.3 Vervolgens wil je nagaan of het steek houdt wat collega’s zeggen. Je hoort hen namelijk vertellen dat vooral in het BSO-leerlingen met een hoog Iq gedemotiveerd geraken om verder te studeren. Ze zeggen dus dat het verschil tussen ‘slimme’ en ‘domme’ leerlingen aangaande demotivatie in het BSO groter is dan in de overige twee onderwijsvormen. Klopt dit volgens de gegevens die hier verzameld zijn? Wees volledig in de beschrijving van de analyses. Geef ook aan welk van de effecten het sterkste is volgens dit laatste model.
1.4 Ga na welk van de drie geschatte modellen het beste bij de data past. Analyseer en beargumenteer welk model het beste past.
1.5 Tenslotte bereken je de verwachte score in de steekproef en in de populatie voor een leerling die:
a) les volgt in het ASO, 1 SD hoger scoort op ‘Iqz’ en 0.5 SD lager op ‘Begrlezenz’
b) les volgt in het BSO, 2 SD hoger scoort op ‘Iqz’ en 1.5 SD hoger op ‘Begrlezenz’
Hanteer hiervoor de output van het beste model.
RESPONSEN
Vooraleer we de analyses kunnen uitvoeren moeten we uiteraard de data inladen in R
en tevens de OLP2 Functies activeren. Dit doen we bijvoorbeeld door gebruk te maken van de commando’s load( )
en source( )
.
1.1
- Analyses
We maken gebruik van z-scores om er voor te zorgen dat de schattingen niet afhankelijk zijn van de meetschaal die werd gehanteerd.
$Iqz <- scale(DataZSO8$Iq)
DataZSO8$Begrlezenz <- scale(DataZSO8$Begrlezen)
DataZSO8<- lm(Demotivatiez ~ Iqz + Begrlezenz, data = DataZSO8)
Model1 summary(Model1)
Call:
lm(formula = Demotivatiez ~ Iqz + Begrlezenz, data = DataZSO8)
Residuals:
Min 1Q Median 3Q Max
-1.7764 -0.8135 -0.1589 0.6599 3.4039
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.01592 0.01768 -0.901 0.36786
Iqz 0.06072 0.02253 2.695 0.00707 **
Begrlezenz -0.14939 0.01902 -7.852 5.55e-15 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.9879 on 3141 degrees of freedom
(560 observations deleted due to missingness)
Multiple R-squared: 0.01927, Adjusted R-squared: 0.01865
F-statistic: 30.86 on 2 and 3141 DF, p-value: 5.345e-14
- Bespreking van de resultaten
Dit model verklaart 1.9% van de variantie in ‘Demotivatiez’ en is bovendien statistisch significant (F(2,3141) = 30.86, p < 0.001, Adj.
Uit de parameterschattingen blijkt dat de hypothese dat kinderen met een hoger IQ en betere schoolprestaties lager scoren op ‘Demotivatiez’ niet volledig klopt. De hellingsgraad van ‘Iqz’ is 0.061 (
De hellingsgraad van ‘Begrlezenz’ is echter negatief (
Het intercept (
1.2
- Analyses
Om hierop een antwoord te kunnen geven, maken we een dummyvariabele aan die aanstaat voor BSO en waarop leerlingen uit het ASO en TSO dus 0 scoren.
$BSO <- (DataZSO8$Ondvorm == 2) * 1
DataZSO8table(DataZSO8$BSO , DataZSO8$Ondvorm) # check of dummy goed is aangemaakt
1 2 3
0 1730 0 1020
1 0 920 0
<- lm(Demotivatiez ~ Iqz + Begrlezenz + BSO, data = DataZSO8)
Model2 summary(Model2)
Call:
lm(formula = Demotivatiez ~ Iqz + Begrlezenz + BSO, data = DataZSO8)
Residuals:
Min 1Q Median 3Q Max
-1.6451 -0.7771 -0.1278 0.6544 3.3951
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.09255 0.02110 -4.386 1.19e-05 ***
Iqz 0.08966 0.02289 3.916 9.18e-05 ***
Begrlezenz -0.08399 0.02137 -3.930 8.66e-05 ***
BSO 0.34164 0.05112 6.683 2.77e-11 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.9823 on 3119 degrees of freedom
(581 observations deleted due to missingness)
Multiple R-squared: 0.03328, Adjusted R-squared: 0.03235
F-statistic: 35.79 on 3 and 3119 DF, p-value: < 2.2e-16
- Bespreking van de resultaten
Uit de Adjusted
Het intercept bedraagt -0.093. Dit wil zeggen dat een leerling in de steekproef uit het ASO of TSO die gemiddeld scoort op IQ en op begrijpend lezen een score van -0.093 SD op demotivatie zal behalen. Het intercept is statistisch significant afwijkend van 0 (
Voor elke standaardafwijking dat een leerling hoger scoort op IQ, scoort deze leerlingen 0.09 standaardafwijkingen hoger op demotivatie, ongeacht de score op begrijpend lezen en onafhankelijk van de onderwijsvorm waarin de leerling les volgt. IQ heeft dus een positief effect op demotivatie en dit geldt ook voor de populatie (
1.3
- Analyses
In deze vraag wordt verwezen naar een interactie-effect tussen ‘BSO’ en ‘Iqz’. Dit dienen we toe te voegen aan het model.
<- lm(Demotivatiez ~ Iqz + Begrlezenz + BSO + (BSO*Iqz),data = DataZSO8)
Model3 summary(Model3)
Call:
lm(formula = Demotivatiez ~ Iqz + Begrlezenz + BSO + (BSO * Iqz),
data = DataZSO8)
Residuals:
Min 1Q Median 3Q Max
-1.7134 -0.7735 -0.1300 0.6594 3.3838
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.08608 0.02133 -4.035 5.60e-05 ***
Iqz 0.06049 0.02708 2.234 0.0255 *
Begrlezenz -0.08420 0.02136 -3.942 8.26e-05 ***
BSO 0.36847 0.05280 6.978 3.64e-12 ***
Iqz:BSO 0.09801 0.04862 2.016 0.0439 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.9818 on 3118 degrees of freedom
(581 observations deleted due to missingness)
Multiple R-squared: 0.03454, Adjusted R-squared: 0.0333
F-statistic: 27.89 on 4 and 3118 DF, p-value: < 2.2e-16
- Resultaten bespreken
Volgens de Adjusted
Het intercept bedraagt -0.086 (
Op basis van de parameterschattingen kunnen we verder stellen dat als diezelfde leerling (gemiddelde score op Iq en op begrijpend lezen) les volgt in het BSO, deze 0.368 SD hoger scoort op ‘Demotivatiez’ (
Het effect van ‘Begrlezenz’ is negatief. Voor elke standaardafwijking die een leerling hoger scoort op ‘Begrlezenz’ scoort hij 0.084 standaardafwijkingen lager op ‘Demotivatiez’ (
Tenslotte blijkt uit de resultaten dat het effect van ‘Iqz’ inderdaad anders is voor leerlingen uit het BSO dan voor leerlingen uit het ASO of TSO. Een leerling uit ASO of TSO zal voor elke standaardafwijking die hij hoger scoort op IQ, 0.06 SD hoger scoren op demotivatie (
- Uitdieping: figuur maken
# EXTRAATJE VOOR DE LIEFHEBBERS!!
# voor wie graag zelf interactie-effecten tussen een kwantitatieve
# en een kwalitatieve variabele plot
#maak van de dummy een factor
$BSOfac <- factor(DataZSO8$BSO, levels=c(0,1), labels=c("ASO of TSO","BSO"))
DataZSO8
#herschat het model met de variabele als factor
<- lm(Demotivatiez ~ Iqz + Begrlezenz + BSOfac + (BSOfac*Iqz),data = DataZSO8)
Model3bis summary(Model3bis)
Call:
lm(formula = Demotivatiez ~ Iqz + Begrlezenz + BSOfac + (BSOfac *
Iqz), data = DataZSO8)
Residuals:
Min 1Q Median 3Q Max
-1.7134 -0.7735 -0.1300 0.6594 3.3838
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.08608 0.02133 -4.035 5.60e-05 ***
Iqz 0.06049 0.02708 2.234 0.0255 *
Begrlezenz -0.08420 0.02136 -3.942 8.26e-05 ***
BSOfacBSO 0.36847 0.05280 6.978 3.64e-12 ***
Iqz:BSOfacBSO 0.09801 0.04862 2.016 0.0439 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.9818 on 3118 degrees of freedom
(581 observations deleted due to missingness)
Multiple R-squared: 0.03454, Adjusted R-squared: 0.0333
F-statistic: 27.89 on 4 and 3118 DF, p-value: < 2.2e-16
# eerst pakket ‘effects’ installeren! (staat niet in OLP)
library(effects)
plot(effect("Iqz:BSOfac",Model3bis),
multiline=T,
main="Visualisatie interactie-effect IQ en BSO")
1.4
- Analyses
Om modellen met elkaar te kunnen vergelijken dienen ze op dezelfde dataset geschat te zijn. Eigenlijk hadden we bij de start van de ZSO reeds kunnen opteren om een dataset aan te maken via na.omit( )
waarin we enkel observaties weerhouden die geen ontbrekende waarden hebben voor al onze gehanteerde variabelen. We doen dit nu.
<- na.omit(DataZSO8[c('Iqz' , 'Demotivatiez' , 'Begrlezenz' , 'BSO')])
DataZSO8b <- lm(Demotivatiez ~ Iqz + Begrlezenz, data = DataZSO8b)
Model1b <- lm(Demotivatiez ~ Iqz + Begrlezenz + BSO, data=DataZSO8b)
Model2b <- lm(Demotivatiez ~ Iqz + Begrlezenz + BSO + (BSO*Iqz), data=DataZSO8b)
Model3b anova(Model1b , Model2b , Model3b)
Analysis of Variance Table
Model 1: Demotivatiez ~ Iqz + Begrlezenz
Model 2: Demotivatiez ~ Iqz + Begrlezenz + BSO
Model 3: Demotivatiez ~ Iqz + Begrlezenz + BSO + (BSO * Iqz)
Res.Df RSS Df Sum of Sq F Pr(>F)
1 3120 3052.4
2 3119 3009.3 1 43.088 44.7016 2.708e-11 ***
3 3118 3005.4 1 3.917 4.0636 0.0439 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
- Resultaten bespreken
Uit de output van de anova blijkt dat Model 3 de meeste variantie verklaart in de onafhankelijke variabele ‘Demotivatiez’. Dit blijkt uit de Residual Sum of Squares (RSS) die het laagst is voor het derde model. Dit onderstreept het belang van het opnemen van interactie-effect tussen Iq en BSO in het model.
Belangrijker, wanneer we kijken naar de p-waarde die de significantie van het verschil in RSS tussen Model2 en Model3 toetst (F(1) = 4.064, p = 0.044), dan zien we dat Model3 ook statistisch significant beter is. Dus ook in de populatie zal Model3 met het interactie-effect meer variantie verklaren in demotivatie dan Model2.
1.5
Uit de analyses in 1.4 blijkt dat Model3 het beste ‘Demotivatiez’ verklaart. We hanteren dus de schattingen uit dat model om de voorspelde scores te berekenen. We herhalen eerst de output voor dat model.
summary(Model3)
Call:
lm(formula = Demotivatiez ~ Iqz + Begrlezenz + BSO + (BSO * Iqz),
data = DataZSO8)
Residuals:
Min 1Q Median 3Q Max
-1.7134 -0.7735 -0.1300 0.6594 3.3838
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.08608 0.02133 -4.035 5.60e-05 ***
Iqz 0.06049 0.02708 2.234 0.0255 *
Begrlezenz -0.08420 0.02136 -3.942 8.26e-05 ***
BSO 0.36847 0.05280 6.978 3.64e-12 ***
Iqz:BSO 0.09801 0.04862 2.016 0.0439 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.9818 on 3118 degrees of freedom
(581 observations deleted due to missingness)
Multiple R-squared: 0.03454, Adjusted R-squared: 0.0333
F-statistic: 27.89 on 4 and 3118 DF, p-value: < 2.2e-16
Voor een leerling die les volgt in het ASO, 1 SD hoger scoort op ‘Iqz’ en 0.5 SD lager op ‘Begrlezenz’ verwachten we dat deze in de steekproef en de populatie de volgende scores behaalt:
- in de steekproef: -0.086 + 0.06 + 0.042 = 0.016
- in de populatie: -0.086 + 0.06 + 0.042 = 0.016
Immers, de berekening gaat als volgt voor de populatie en de steekproef (voor beide gelijk, gegeven alle parameterschattingen statistisch significant zijn):
Voor een leerling die les volgt in het BSO, 2 SD hoger scoort op ‘Iqz’ en 1.5 SD hoger op ‘Begrlezenz’ verwachten we dat deze in de steekproef en de populatie de volgende scores behaalt:
in de steekproef: -0.086 + 0.12 + -0.126 + 0.368 + 0.196 = 0.472 in de populatie: -0.086 + 0.12 + -0.126 + 0.368 + 0.196 = 0.472
De berekening in meer detail: