College-aantekeningen bij Multivariate data-analyse (MVDA) aan de Universiteit Leiden - 2015/2016 (2024)

  • Werkgroep 1: Multipele regressie analyse
  • Werkgroep 2: ANOVA
  • Werkgroep 3: Ancova
  • Werkgroep 4: Logistic Regression Analysis
  • Werkgroep 5: MANOVA
  • Werkgroep 6: Repeated Measures ANOVA
  • Werkgroep 7:Mediatie Analyse

Back to top

Werkgroep 1: Multipele regressie analyse

Deze week gaat over MRA, omdat er meerdere X’en van interval niveau zijn en een Y van interval niveau. Binair is tegelijk ook interval, omdat alle intervallen gelijk zijn, gezien er maar één interval is.

Opdracht 1 A

Alle variabelen zijn van interval niveau. In een scatterplot kan er gekeken worden naar of er een patroon aanwezig is dat op non-lineariteit duidt of op heteroscedasticiteit. In dit geval is er sprake van lineairiteit en hom*oscedasticiteit. De normaliteit van residuen of error wordt gecheckt met standardized residual. De punten moeten dicht bij de lijn liggen en in dit geval klopt dat. Hieruit valt te concluderen dat dit model geschikt is voor de data.

Opdracht 1 B

H0: β1 = β2 = 0.

Ha: minstens 1 βj is niet gelijk aan 0.

Er wordt gebruikt gemaakt van β in plaats van b, omdat het gestandaardiseerd is. In dit geval kan H0 worden verworpen, omdat het effect significant is (p<0,001).

Opdracht 1 C

Voorspelde RA = -1,5 + 1 (Language Skill) + 0,5 (Motor Skill). Dit is opgesteld uit ŷ = b0 +b1X1 + b2X2.

Interpretatie: als er bij Language Skill 1 punt omhoog gegaan wordt, betekent dit dat er bij RA ook een punt bij komt. Als er bij Motor Skill en punt bij komt, komt er bij RA een halve punt bij.

ŷj = -1,5 + (1x3) + (0,5x4)= 3,5

Opdracht 1 D

Gestandaardiseerd: (Voorspelde RA)st = 0,471 (LS)st + 0,373(MS)st. deze is opgesteld vanuit ŷst = β1X1st + β2X2st. Hier is b0 gelijk aan 0, dus staat deze niet in de formule. Interpretatie: Language Skill + 1 sd, zorgt voor RA + 0,471 sd's. Motor Skill + 1 sd, zorgt voor RA + 0,373 sd's.

Opdracht 1 E

VAF=R squared= 0,583 en dus 58,3%. Dit is af te lezen, maar ook te berekenen met SSregressie / SStotaal. R is de correlatie tussen de voorspelde en de daadwerkelijke waarde. Dit is R squared in model summary.

Opdracht 1 F

De uniek verklaarde variantie door een bepaalde X is de semi partiële correlatie in het kwadraat en is part in het kwadraat in SPSS. Dus 0,365 in het kwadraat = 0,133 en X1 verklaard dus 13,3% van de variantie. 0,289 in het kwadraat = 0,084 en X2 verklaart dus 8,4% van de variantie. De beste predictor heeft de hoogste absolute part of/en de hoogste absolute β (0,365 LS en 0,471 LS).

Opdracht 1 G

De Venn diagram is in te vullen met: de totaal verklaarde variantie = R squared = 0,583. De uniek verklaarde varianties zijn: 0,133+0,084=0,217. De algemeen verklaarde variantie is dan: 5,83-0,217= 0,366. Het Venn diagram bestaat uit drie overlappende cirkels. On217 is het gebied van overlap tussen Y en X2. 0,366 is het gebied van overlap tussen Y, X1 en X2. 0,133 is het gebied van overlap tussen Y en X1.

Opdracht 2 A

R squared = 78,2%

Opdracht 2 B

R=0,377 en r squared = 0,142.

Opdracht 2 C

0,6 in het kwadraat + X in het kwadraat = 0,782, dus 0,782-0,36=0,422. R kwadraat van Y (X2 x X1), geeft aan dat er een correctie is voor X1. Deze wordt eruit gepartialiseerd.

(0,8-(0,6x0,3))/(√ 1-0,3 kwadraat) is ook een manier om dit te berekenen en als het goed is, komt hier dus hetzelfde uit.

Opdracht 2 D

R kwadraat Yz= 0,8 kwadraat=0,64 of 64%. Dit is alleen het maximum als het niet negatief is. Dit wordt ook wel suppressie genoemd.

Opdracht 2 E

Ry(1x2)=0,377. Ry(2x1)= √0,422=0,650 en deze is hoger (X2). Het maakt niet uit of het getal negatief is, wanneer je aan het inschatten bent welke waarde het hoogst is. Je kijkt dus alleen naar absolute waardes.

Opdracht 2 F

R squared = 0,782. De unieke verklaarde variantie = 0,142+0,422=0,564. De algemene verklaarde variantie = 0,782-0,564=0,217. Het Venn diagram wordt hier ingevuld met 0,142 in de overlap tussen Y en X1, 0,218 tussen Y, X1 en X2 en 0,422 tussen Y en X2.

Opdracht 2 G

R squared = r in het kwadraat van Y1 + R in het kwadraat van Y2.

Opdracht 2 H

Hierbij is er geen overlap tussen X1 en X2, omdat hier geen relatie tussen is. Deze kan er ook uitzien als twee vierkante gebieden van X1 en X2 die naast elkaar liggen, waar een rechthoek van Y in ligt. In de linker kant van de rechthoek staat dan 0,36 bij X1 en rechts 0,64 bij X2.

Opdracht 5

Figuur

Lineariteit

hom*oscedasticiteit

1

Ja

Nee

2

Ja

Ja

3

Niet

Ja

4

Niet

Niet

5

Ja

Ja

6

Ja

Niet

7

Ja, want er is hier sprake van een lineaire afwijking die aan te passen in met een transformatie

Ja

8

Niet

Niet

Opdracht 6 A

Er is een relatie, dus wordt H0 verworpen. Er is namelijk een significant effect (p<0,001).

Opdracht 6 B

R squared = 0,397 en deze is hier hetzelfde als R squared change.

Opdracht 6 C

Voorspelde CA = 0,452 + 0,719 (Ability) + 0,262 (Motivation)

Opdracht 6 D

0,952 in het kwadraat = 0,209 (part in het kwadraat) en 0,209 in het kwadraat = 0,044. R squared = 0,397.

Opdracht 6 E

Deze wilde de docent overslaan, omdat hij de vraag nergens op vindt slaan.

Opdracht 6 F

Nee, 0,078 is niet significant, dus voegt het niets toe.

Opdracht 6 G

Dit voegt wel iets toe, omdat het effect significant is (p<0,001). De R squared change = 0,029.

Opdracht 6 H

Teachers interest

Opdracht 7

In het eerste geval is er 1 set, bestaande uit interesse van het kind (Y) die voorspeld wordt uit ouders en docenten (X’en). Deze zijn op interval niveau, omdat er een 7-puntsschaal is, dus maken we gebruik van MRA. Op het tentamen komen er waarschijnlijk 4 of 5 vragen over techniek keuze.

In het tweede geval is er 1 variabele per set, dus twee sets. Hier maak je gebruikt van een dependent T-test.

In het derde geval is er 1 set en kijk je naar dimensionaliteit, omdat er niks voorspeld wordt. Dan maak je gebruik van PCA.

Back to top

Werkgroep 2: ANOVA

We hebben in een ANOVA te maken met nominale X variabelen en een Y variabele van interval niveau.

Opdracht 2 A

Er is balans als alle groepen groter zijn dan 15. Dit is hier het geval en dus is de test robuust tegen heterogeniteit. Er is ook balans als alle Sums of Squares bij elkaar optellen tot het totaal. Dus effect A + effect B + A*B = totaal. Dit is hier ook het geval en dus is de test robuust tegen niet normaliteit. De derde aanname waar aan voldaan moet worden, is dat de errors onafhankelijk zijn, maar daar wordt alleen naar gekeken, als er rede is om hier aan te twijfelen.

Opdracht 2 B

H0 : μ1 = μ2 = μ3 = μ4.

Ha : minstens twee gemiddelden met μ i is niet gelijk aan μj.

In dit geval wordt de nul hypothese verworpen, omdat de F corrected model significant is.

F (3,56) = 14, p = 0,002.

Opdracht 2 C

Alle effecten zijn significant, omdat alle p’s kleiner zijn dan 0,05.

De η squared = SS effect / SS corrected total.

In dit geval komt hier dus uit: 210/490=0,429 algemeen. 70/490= 0,143 interactie. 90/490=0,184 Gender. 50/490=0,102 Marital Status.

Opdracht 2 D

Er is één grote cirkel die Stress (Y) bevat. Dan zijn er drie cirkels die wel overlappen met Y, maar niet met elkaar. In het gebied van overlap tussen Yen Gender, staat 0,184. In het gebied van overlap tussen Y en Interactie (de middelste cirkel) staat 0,143. In het gebied van overlap tussen Y en Marital Status staat 0,102.

Opdracht 2 E

Als factoren niet gecorreleerd zouden zijn, is er geen balans en wordt er gekeken naar de estimated marginal means. Mannen hebben gemiddeld meer werkstress dan vrouwen. Dit geld in de gehuwde groep en in de ongehuwde groep. Ongetrouwde mensen hebben gemiddeld meer werkstress dan getrouwde mensen. Ongetrouwde mannen hebben gemiddeld 1,5 meer werkstress dan vrouwen (kijk naar het verschil in gemiddelden). Getrouwde vrouwen hebben gemiddeld 0,3 meer werkstress. Je kijkt dus naar mannen, vrouwen, ongetrouwde mensen en getrouwde mensen en stelt per groep een interpretatie op. Dan kan je ook nog kijken naar welke groep opvalt en in dit geval zijn dat de ongehuwde mannen.

Opdracht 3 A

In het histogram is te zien dat het een beetje normaal verdeelde data is. Er is sprake van hom*ogeniteit als Levene’s niet significant is en in dit geval is dat zo. Hieruit valt te concluderen dat het model passend is.

Opdracht 3 B

Het corrected model is hier significant, dus is er ergens een relatie. Dit geeft aan dat H0 kan worden verworpen. Hoofdeffecten A en B zijn significant, maar het interactie effect A*B niet.

Opdracht 3 C

De η squared van A = 40,2/2177=0,018. De η squared van B = 327/2177=0,15. De η squared van A*B = 5/2177=0,0023. η squared zegt iets over de sterkte van het gevonden verband.

Opdracht 3 D

Lassaiz-faire leiderschap zorgt gemiddeld voor meer tevredenheid (8,3) dan paternalistisch leiderschap (6,3) en deze zijn weer iets tevredener dan mensen onder authoritarian leiderschap (5,7). Dit kan je halen uit de estimated marginal means tabel. Er is geen significant verschil te zien tussen paternalistisch leiderschap en authoritarian leiderschap. De Bonferoni multiple comparisons laat zien dat er een significant verschil zit tussen authoritarian leiderschap en laissez-faire leiderschap en tussen paternalistisch leiderschap en laissez-faire leiderschap. Er is dus geen verschil tussen authoritarian leiderschap en paternalistisch leiderschap en laissez-faire leiderschap doet het significant beter dan beide authoritarian leiderschap en paternalistisch leiderschap.

Opdracht 4 A

De groepen zijn groter dan 15, maar niet even groot en dus is er geen balans. 35/26=15. De test is robuust tegen hom*ogeniteit en tegen niet normaliteit.

Opdracht 4 B

H0 wordt verworpen, omdat p = 0,000 bij corrected model. Dit houdt in dat er samenhang is.

Opdracht 4 C

Leeftijd is hier significant en de interpretatie hiervan is dat jongeren meer SNS gebruiken dan ouderen. De interpretatie van het interactie effect leeftijd*stad is hier: oudere mensen uit een grote stad gebruiken het meest SNS. Jongere uit een grote stad gebruiken meer SNS en ouderen uit een grote stad gebruiken minder SNS. Er is een klein verschil in kleine stad tussen jongeren en ouderen.

De interpretatie van het interactie effect geslacht*stad is hier: vrouwen uit een kleine stad gebruiken het meest SNS, meer dan mannen uit een kleine stad. Mannen uit een grote stad gebruiken meer SNS dan vrouwen uit een grote stad.

Opdracht 4 D

De η squared wordt berekent als er naar uniek verklaarde variantie wordt gevraagd.

Opdracht 5

Error = 414-12-30-12=360, want er is balans.

DF= aantal groepen – 1. Interactie DF= DF A * DF B. Totale DF = N-1. DFe= N – IJ (groepen A*groepen B). Het telt hier weer op tot corrected total.

MS effect = SS effect / DF effect.

SS effect

DF effect

MS effect

F

12

1

12

4

30

2

15

5

12

2

6

2

360

120

3

414

125

Opdracht 6

  1. Er zijn 15 variabelen, 1 set en alle 15 variabelen zijn van interval niveau. Er wordt gekeken naar de specifieke item structuur en dimensionaliteit. Er wordt hier niet één variabele uit de ander voorspeld, dus maken we gebruik van CFA.

  2. Er zijn hier 3 variabelen, 2 sets en alle variabelen zijn van interval niveau. Hier willen we wel voorspellen, dus maken we gebruik van MRA.

  3. Er zijn 2 variabelen, 2 sets en 1 variabele is van interval niveau en 1 van nominaal niveau. We maken hier gebruik van een one-way ANOVA.

Back to top

Werkgroep 3: Ancova

Bij Ancova maak je gebruik van X variabelen op nominaal en interval niveau en een Y variabele op interval niveau. Daarnaast is er een C variabele, de covariantie, die ook op interval niveau is. De pre-test is de C variabele.

Opdracht 1 A

In totaal zijn er 180 proefpersonen. In iedere groep zitten 60 proefpersonen. Dit is meer dan 15 personen per groep, dus is de test robuust tegen niet normaliteit. Alle groepen zijn ook even groot, dus is er sprake van een gebalanceerd design en is de test robuust tegen heterogeniteit.

Opdracht 1 B

F(2, 177)=13,3171, P<.001, wel significant. Je kijkt daarna naar de means in de estimated marginal means. Dan is er met het blote oog te zien dat B het hier het beste doet, dan A en dan C. In de Tukey kan je kijken naar significante verschillen in multiple comparisons bij Sig. Dan kan je zien dat B significant verschilt van A en C, maar deze verschillen onderling niet significant van elkaar.

Opdracht 1 C

In within groups correlation, kan je zien dat er vrij hoge correlaties zijn, die significant zijn, tussen de pre-test en post-test. De covariaat hangt dus samen met variabelen, dus wordt hiermee de error gereduceerd. Hiermee wordt de systematische bias ook verwijderd. Er is sprake van systematische bias, als er geen correlatie is tussen de variabelen en de covariaat, of als de groepsgemiddelden verschillen op de covariaat. Het doel is dus het hebben van correlatie en geen verschil. Als er wel verschil is in groepsgemiddelden op de covariaat, maar als er wel correlatie is, is er geen sprake van bias. Het verschil in groepsgemiddelden is dan niet significant. Het heeft hier wel zin om een pre-test te doen, omdat de error dan wordt gereduceerd en de systematische bias wordt eruit gewerkt. Er is hier namelijk geen correlatie maar wel verschil.

Opdracht 1 D

Uit de scatterplot valt te halen, dat de data redelijk niet lineair is. Blauw wijkt af van de steekproef, maar er is hier toch sprake van parallellisme in de populatie, omdat er niet heel veel verschil is. Er wordt gekeken naar de test of between-subjects effects. In deze tabel moet je alleen kijken naar het interactie effect en niet naar de rest. De data verandert namelijk als het interactie effect wordt toegevoegd. Parallellisme wordt niet geschonden. Er is namelijk geen rede om aan te nemen dat er geen parallellisme in de populatie is. Hiermee wordt er gecheckt of er tussen de groepen dezelfde relatie is tussen de covariaat en de afhankelijke variabele.

F(2,174)=1,008 , p=0,367, niet significant.

Dit is dus een goed model voor de data. Er is namelijk lineairiteit, parallellisme en robuusteid tegen niet normaliteit en ongelijke groepsvarianties.

Opdracht 1 E

Je kijkt naar test of between-subjects effect zonder het interactie effect erin. De pre-test is significant, want p=0,000. Method is nog steeds significant, maar iets minder en de groepsgemiddelden verschillen. Je kijkt naar de estimated marginal means en Tukey multiple comparisons. Het gemiddelde van B is nog steeds het hoofst, maar het gemiddelde van C is omhoog gekropen naar A, als je met het blote oog naar de estimated marginal means kijkt. Uit de Tukey kan je halen dat B iets minder significant verschilt van A en C en dat A en C weer onderling niet verschillen.

Opdracht 2 A

Dit is nuttig voor de reductie van error. Bw=0,75 en dit duit op samenhang. B doet het systematisch beter dan A. dit houdt in dat er systematische bias is op gebied van groepsgemiddelden die verschillen op de covariaat.

Opdracht 2 B

De pre-test (C) staat op de X-as en de post-test op de Y-as.

Groep A: 4 o p C en 7 op Y, dit leidt tot punt (4,7).

Groep B: 8 op C en 9 op Y, dit leidt tot punt (8,9).

Hier gebruiken we voor de regressielijn per groep Bw=0,75. Dit houdt in dat als er 1 plaats wordt opgeschoven, er 0,75 bij komt.

De formule die hier gebruikt wordt is: ‘kies een punt op de lijn’ + Bw x ‘het verschil tussen het gegeven punt en het gekozen punt’.

Voor A: 7+0,75 x 4= 10, dus punt (8,10). Tussen de twee punten (4,7 en 8,10) wordt een lijn getrokken.

Voor B: 4-8=-4, 9+0,75 x -4=6 en hier komt dus punt (4,6) uit.

De regressielijn van A ligt hoger dan die van B.

C met een streepje erop = (4+8)/2=6. 4 is hier het gemiddelde van A op de pre-test en 8 is het gemiddelde van B op de pre-test. Vanuit punt C met een streepje eruit (6 op de X-as), wordt een verticale streep getrokken.

Het gecorrigeerde gemiddelde van A = de kruising tussen de regressielijn van A en de lijn die getrokken is vanuit C met een streepje. Hier komt ongeveer 8,5 uit. Voor B is dit ongeveer 7,5. Het gecorrigeerdeRead more

College-aantekeningen bij Multivariate data-analyse (MVDA) aan de Universiteit Leiden - 2015/2016 (2024)
Top Articles
Latest Posts
Article information

Author: Mrs. Angelic Larkin

Last Updated:

Views: 5712

Rating: 4.7 / 5 (67 voted)

Reviews: 90% of readers found this page helpful

Author information

Name: Mrs. Angelic Larkin

Birthday: 1992-06-28

Address: Apt. 413 8275 Mueller Overpass, South Magnolia, IA 99527-6023

Phone: +6824704719725

Job: District Real-Estate Facilitator

Hobby: Letterboxing, Vacation, Poi, Homebrewing, Mountain biking, Slacklining, Cabaret

Introduction: My name is Mrs. Angelic Larkin, I am a cute, charming, funny, determined, inexpensive, joyous, cheerful person who loves writing and wants to share my knowledge and understanding with you.