Summary Class notes - Statistic

Course
- Statistic
- Bouwmeester
- 2015 - 2016
- Erasmus Universiteit Rotterdam (Erasmus Universiteit Rotterdam, Rotterdam)
- Psychologie
203 Flashcards & Notes
5 Students
  • This summary

  • +380.000 other summaries

  • A unique study tool

  • A rehearsal system for this summary

  • Studycoaching with videos

Remember faster, study better. Scientifically proven.

PREMIUM summaries are quality controlled, selected summaries prepared for you to help you achieve your study goals faster!

Summary - Class notes - Statistic

  • 1455058800 Lecture: ch. 3

  • Waar gaat ch 3 over?
    over variabiliteit 

    individuele verschillen:

    - inter (tussen) individuele verschillen
    - intra (binnen mensen) individuele verschillen
  • Waarom is variabiliteit in individuele verschillen?
    onderzoek gaat altjd over verschillen
    is dus de basis voor psychologische metingen
    niet alleen voor traditionele tests (IQ test) maar voor al het onderzoek
  • Wat is key voor onderzoek?
    het kwantificieren van de variabiliteit (variatie) binnen een verdeling vanb scores
  • Wat is de maat voor centrale tendentie?
    is de meest typische of meest representatieve score in de verdeling

    eigenlijk zijn dat er 3: 
    median 
    gemiddelde = X streepje, som teken sigma, alle personen scores optellen en delen door N 
    modus
  • Wat is de formule voor variabiliteit?
    De variantie

    s² = sigma (score - gemiddelde)² / N
  • Waarom delen we niet door "N-1"?
    Je deelt door N-1 als je uitspraken wil doen over een populatie. 
    Dat is om te poliseren voor het feit dat je een beetje een fout maakt. Want je baseert je schatting van de st dev op basis van een steekproef, maar je hebt niet de hele populatie. En toch wil je uitspraken doen over een hele populatie. 

    Maar als je het puur erover hebt wat de spreiding, de variantie is binnen DEZE steekproef, dan hoef je niet te delen door N-1 omdat je geen uitspraken doet over de popualtie.
  • Wat zegt het als een variable een grote variantie heeft? En wat kunnen we daarmee? Interpretatie:
    Variantie is een gek begrip wat het is een gekwadrateerde schaal. 

    De groote van de variantie die hangt af van de maat waarin de scores verschillen. Maar ook hangt die af van de schaal waarop gemeten wordt (cm is 100 keer zo groot dan meters).
  • Wat zijn kenmerken van de variantie?
    - kan niet kleiner zijn dan 0 
    - er is geen eenvoudige kleine groote interpretatie nodig
    - er is context nodig voor de interporetatie
    - variantie is eigenlijk belangrijk voor het gebruiken in andere mate: correlaties en betrouwbaarheid
  • Hoe zien (normale) verdelingen eruit?
    Normale verdeling: 
    - betekent dat ie symetrisch is,
    - starten heeft aan allebei de kanten,
    - het gemiddelde is gelijk aan de mediaan,
    - Als de variable gelijk verdeled is kun je oppervlaktes berekenene aan de hand van een wiskunde functie.     
    - totale oppervlakte is altijd 1
    - omdat dat zo is kun je dus ook gaan berekenen wat de oppervlakte is van een score van 4 (kans dan) enz.
  • Hoe ziet een scheefe verdeling uit?
    - staart rechte kant, scheef rechts: veel lage scores, minder hoge score, gemiddelde is groter dan de mediaan ( het gemiddelde wordt naar de start toe getrokken)
  • Wat is een uniforme verdeling?
    alle scores hebben dezelfde kans (een streep als verdeling), dat is bijv bij een dobbelsteen het geval 

    - totale oppervlakte is weer 1
    -
  • Associaties tussen verdelingen: nieuwe maat: de covariantie?
    covariantie is een c (x,y)
    een sterke associatie betekent consistente individuele verschillen
    - hoe varieren 2 variabelen samen?

    berekent: sigma (x-gem)(y-gem) / N 

    covariantie is allenmaar informatiev over de richting: + variabelen hangen positief samen enz.
  • Interpretatie covariantie?
    kan weer niet want is afhankelijk van de groote van de meet schaal (covariantie tussen kg en meters is kleiner dan cm en gram)

    kan alleen in richting
  • waar lijkt formule covariantie op?
    op de formule van de variantie

    variantie van een variabele is de co-variantie van een variabele met zichzelf

    c (x,x) = sigma (x-gem)(x-gem) / N = sigma (x -gem)² / N = s²
  • Correlatie
    tot nu toe uitgerekent met z scores
    maar dat kan ook op een andere manier namelijk met die covariantie

    covariantie delen door het product van de standard deviaties
    r (x,y) = c (x,y) / s(x) s(y)
    Die covariantie standardiseer je, schaal je eigenlijk want je deelt door de schaal van de variabelene. St dev zegt ets over de schaal van de variabele.
    Door het te standardiseren kun je nu niet alleen iets zeggen over de richting van de correlatie,  maar ook over de grootte (want de correlatie ligt tussen -1 en 1). Door te delen door de st deviaties wordt het een gestandardiseerde maat, geschaalde maat.  

    Eigenlijk is dat hetzelfde als met z scores. x - gem en dan deel je door de st deviatie. Dat noem je dan een standaard score, uitgedrukt op een z schaal. Dat is ook standardiseren.

    Dus van covariantie naar correlatie standardiseer je en kun je wat zeggen over de grootte van een correlatie.
  • Variantie covariantie matrix?
    Matrix zelf is niet ingewikkeld. 
    rije: covarianties van 2 variabelen
    diagonaal: covariantie van een variabele met zichzelf = variantie
  • Wat is een composite score?
    is een samengestelde score 

    Y1+Y2....+Yk
  • Wat is de variantie van de composite score?
    s²composite= s²i + s²j + 2cij 

    2 keer de covariantie tussen item i en j bij optellen - waarom?
    Stel je hebt een test met 2 items, je hebt afwijkingsscores die de variantie weergeven y1=(y1-gem1) etc.
    De variantie s²x = s² y1+y2 schrijf je als de variantie van y1 en y2: sigma (y1+y2)² / N
    Dat kun je uit elkaar halen: 
    (y1+y2)(y1+y2)/N
    Haakjes weg werken: 
    sigma (y1y1 + y2y1+ y1y2+ y2y2) /N 
    Uitschrijven: sigma (y1y1)/N + sigma (y2y1) / N + ...

    Dat is dus: s²y1 + c(y1,y2) + c(y2,y1) + s²y2 = s²y1+ s²y2 + 2c(y1,y2)
  • Variantie covariantie matrix & variantie van composite score ?
    diagonaal: 2 varianties
    buiten: 2 covarianties

    eigenlijk zegt de formule van variantie van composite score: dan moet je gewoon de hele matrix optellen   
    Dat werkt voor 2 variabelen maar ook voor 40 items ;)

    wat je wiskundig kunt bewijzen voor 2 variabelen kun je generaliseren voor 40 items. Dat is een belangrijke eigenschap voor betrouwbaarheid uitrekenen later.
  • Je kan ook 2 composite scores hebben (bv IQ test, nonverbale en verbale tests ieder bestaande uit subtestjes). Stel je wil de covariantie berekenen tussen 2 samengestelde scores, hoe gaat dat dan?
    samengestelde scores: X (i.j) en x(k.l)
    Composite 1 = Xi+ Xj
    Composite 2 = Xk + Xl
    Composite1,composite2 = cik+cil+cjk+cjl

    Vraag: wat is de covariantie tussen die 2 composite scores? 
    Dat is gelijk aan de covarianties (laatste formule hierboven).

     4 covarianties optellen, niet 2 keer, maar 1 keer.
  • Continue scores, maar wat zijn binary items?
    H3 heeft het altijd over continue scores. 
    Maar binaire, dichotome items zijn alleen 0 of 1.
    Daar kun je ook varianties, gemiddelde etc. mee berekenen.   

    Gemiddelde wordt meestal weergegeven met een proportie, met een px = frequentie X / n
    Gemiddelde bereken je ook niet anders.

    Variantie is s²x = px ( 1-px)
    1 - px = is ook vaak qx.

    Standard deviatie is de wortel daaruit.    

    Covariantie cx,y = px,y - pxpy
    Wat is px,y? -  is de frequentie dat zowel item1 als item2 goed benatwoord is (dus een 1 heeft). 

    Correlatie is rx,y = cx,y/sx*sy
    Deze correlatie noemen ze ook de fico effeicient.
  • Interpreteren van test scores:
    - spreiding
    - verdelingen
    - associaties

    Hoe te interpreteren?

    Wanneer er sprake is van een normreferentie dan heb je 2 belangrijke punten:
    - hoe wijkt die score af van het gemiddelde
    - hoe wijkt die score af van andere scores?

    Een mooie maat die dat allemaal in zich heeft is de gestandardiseerde score, de z score.
  • Wat is de z score?
    afwijking van het gemiddelde (x-gem) en gedeeld door de standard deviatie (s). Wanneer je deelt door een standard deviatie dan noem je dat standardiseren. 

    Als een ruwe verdeling van x normaal verdeeld is, dan is z handig, want dan kun je die op zeoeken in de tabel om de kans berekenen op een bepaalde ruwe score of kleiner.

    Score 5 of kleiner: z score - opzoeken in tabel (in de cumulatieve verdelingsfunctie, de oppervlakte van het gebied van een 5 of kleiner).

    Als een verdeling niet normaal verdeeld is (bijv uniform) dan kun je de z score niet gebruiken. Op het moment dat je x omzet naar z is z niet normaal verdeeld (het is namelijk een lineare transformatie). In het uniforme geval kun je de z tabel niet gebruiken, je kunt dan metz z niet kans berekenen.
  • Wat zijn converted z scores?
    z scores zijn lastig te interpreteren: meestal tussen -3 en 3, veel cijfers achter comma etc. 

    Vaak wordt er een lineare transformatie gebruikt die makkelijke te interpreteren is: T

    Je vermenigvuldig z met st deviatie en telt gemiddelde van nieuwe variabele bij op. z*s + gem

    Meestal wordt er gekozen voor s van 20 en gem van 50. Want dan komen de scores zo een beetje tussen de 100 te liggen. Dat begrijp je makkelijk. -3 en 3 worden dan 10 en 90. (Is ook bij IQ test). 

    Als je z alleen omzet in T score worden ze ook weer niet normaal verdeeld van. Want het is weer een lineare transformatie!!!
  • Percentile ranks = percentiel scores?
    % van mensen met een bepaalde scores of lager

    Op het moment dat je scores precies normaal verdeeld zijn kun je z scores gebruiken om percentiel scores op te zoeken. Dan komen ook percentiel scores met wat je in je z tabel aan p waardes vind. 

    Maar als de verdeling onbekend is of niet normaal verdeeld is kun je (andere manier) met behulp van de frequentie tabel, met behulp van de continuiteitscorrectie de percentielen berekenen.
  • Hoe bereken je percentiele met behulp van de frequentie tabel, als de verdeling dus niet normaal verdeeld is?
    percentile rank = (F -0.5f) / N * 100

    F: cumulatieve frequentie: alle scores tot de score toe
    f: frequentie 

    Waarom 0.5 * f? Dat is de continuiteitscorrectie. Je trekt de helft van de score vanaf, omdat in de verdeling 3 van 2.5 tot 3.5 gaat. Dat komt omdat de onderliggende schaal continue is, dus alle mensen die een score halen tussen 2,5 en 3,5 die hebben een 3. Maar de percentiel rank is het % van mensen die precies 3.00000 of lager hebben, daarom trek je dus die helt ervan af.
  • Normalized scores
    Pas op met z scores want die zijn niet zo maar normaal verdeeld. Maar wat nu je hebt een verdeling die niet normaal verdeeld is, en je wil er een normal verdeelde score van maken. 

    In sommige situaties is dat deel discutabel. 
    Maar in sommige situaties is dat ook verantwoord: stel je wil een test maken en je weet dat die variabele in de populatie normaal verdeeld is. Stel je hebt nu een steekproef getrokken die nu net niet normaal verdeeld is dan kun je het gaan aanpassen, als het ware corrigeren (want je steekproef is eigenlijk gebiased). Dan ga je de scores normaliseren, transformeren.   

    Het is wel een probleem als je populatie zelf NIET normaal verdeeld is (bijvoorbeeld test voor angstscore).

    Hoe weet je nu of je het wel of niet mag doen? Je moet dus eerst goed gaan onderzoeken of je popualtie normaal verdeeld is (eerde onderzoek etc.).

    Voor wetenschappelijk onderzoek is het belangrijk dat scores normaal zijn verdeeld, dat is belangrijk voor heel veel analysis (variantie etc.). Dan moet je wel onthouden dat je iets doet wat niet past op de ruwe data. Je kunt alleen uitspraken doen over de getransormeerde variabele.
  • Hoe doe je dat, het transformeren?
    Stel je hebt 12 scores met frequenties. In een grafiek zie je dat het heel scheef verdeeld is (veel lage en weinig hpoge scores). 

    1. stap 1 is om de percentiel scores te berekenen. Dus cumulatieve frequentie en percentages. 

    2.  Percentielscores omzetten in z scores. De z tabel gebruik je dan eigenlijk in een omgekeerde manier. We hebben een p en we zoeken een z op. 94% heeft bij een score van 6.0 of lager. Z score kun je dan op 3 manieren berekenen: in SPSS, in Excel, in tabel opzoeken. 

    -> Z tabel: je zoekt de z die hoort bij een kans van p is kleiner dan .94. Bij een kans van .5 hoort een z van 0. Je hebt hier te maken met een p groter dan .5. Dus je zoekt naar een z die groter is dan 0. Dan heb je meteen een probleem want die z scores staan niet in de tabel. Je moet een truc uithalen: je weet dat de normale verdeling symmetrisch is. Dus je moet dan 1 - die kans rekenen. In dit geval een kans kleiner dan .06. 
    Als je de kans opzoekt van 6% dan moet je het weer omreken naar 1 - die kans. 
    Z tabel geeft in de eerste kolom de z cijfers weer, en in de rijen de decimalen. 
    Wij moeten nu zoeken naar een kans die hoort naar 6%. Als je hgaat zoeken in de tabel kijk je naar het getal dat er het dichtste bij is. De z die erbij hoort is -1.56, dat is je z score. Maar omdat je eighnlijk geintereseerd bent in een kans van 94% moet je het nog vermenigvuldigen met-1, dus de kans op een z score kleiner dan .94 is +1.56. 
     
    -> in SPSS In een klap: met die Rankit functie, die doet dat allemaal voor jou. Dat wat eruit komt is de getransformeerde, genormaliseerde z score. In SPSS: N total - dat is dus een z score, die normaal verdeeld is.

    3. laatste stap: omzetten naar een schaal met een bepaalde metric. gemiddel 5 en st dev 1 bijvoorbeeld.
Read the full summary
This summary. +380.000 other summaries. A unique study tool. A rehearsal system for this summary. Studycoaching with videos.

Latest added flashcards

Wat is de relatie tussen regressieanalyse en betrouwbaarheid?
Alle B gewichten worden beinvloedt door betrouwbaarheid van de test en het criterium. 
Hoe meer spreiding er in de test en het criterium zit dat veroorzaakt wordt door meetfout, hoe lager dus de betrouwbaarheid is, en hoe slechter dus de correlaties zullen zijn tussen test en criterium.
Wat betekent die B eigenlijk?
Bij dummy het verschil tussen man en vrouwe, native en nonnative speakers. Die B staat als eerste kolom in de tabel. Dat is het verschil in intercept. De toets die erbij hoort toetst of dat afwijkt van 0. Als het niet signicinant is kun je niet stellen dat de intercepts significant verschillen. 
H0: verschil in intercept op t is 0, wijkt niet af van 0. 
HA: de twee groepen verschillen in intercept. 
--> bij meer proefpersonen zou het verschil wellicht wel significant kunnen worden. 

Zelfde geldt voor de interactie: de slope geeft het verschil in helling voor de twee groepen weer. Als het niet significant is moet je aannemen dat de regressielijnen even stijl zijn.  
H0: regressielijnen zijn even stijl.
HA: regressielijnen zijn niet even stijl.
Hoe onderzoek je die intercept en slope bias in spss?
in een analyse

stap1. dummy variabele aanmaken (die heeft alleen maar de waarde 0 en 1), mss moet je een variabele (taal, geslacht etc) hercoderen. Doe je met recode into different variables. 

stap2. om slope bias te onderzoeken maak je de interactie variabele: product variabele aanmaken van dummy en test score: met Compute test keer dummy. Iedere die keer dummy waarde 0 is, heeft bij de interactie dan ook een 0 gekregen. 

stap3. regressieanalyse doen: dummy, test en interactie variabele erin stoppen. (dus de 3 predictoren in het regressiemodel).
Wat is heteroscedasticiteid?
er is verschillende spreiding (meestal voor de twee groepen)
Wat is dan de sterkte van de relatie?
NIET de slope. 

Die wordt uitgedrukt met de proportie verklaarde variantie (correlatie), hoe kleiner dus de error hoe groter de betrouwbaarheid. Dus hoe veel van de variantie die er in de scores van VB brugklascijfers, zit, kun je voorspellen door VB cito scores. Hoe meer je kan verklaren, hoe sterkter de relatie. Hoe kleiner dan de error tussen de (geobserveerde) Y scores en de Y die voorspelt wordt vanuit de test (Yo - Y).

De slope (richtingscoefficient) zegt NIETS over deze sterkte. De regressielijn zegt NIKS over de sterkte van de relatie. 

Tabel!
Stel je hebt twee gelijke regressielijnen, dan hebben ze dezelfde constante en zelfde slope. Je ziet het verschil in de Std. Error!!! Daar waar de spreiding groter is. De Beta coefficiente geven de correlatie weer tussen de Estimated en de criterium. Dus de correlatie voor de groep met minder spreiding en minder error is altijd sterker. Als je dat verschil gaat testen (slope test je of dat regressiegwicht afwijkt van 0), om significantie te testen gebruik je de t test, als je een hele grote std. error hebt dan wordt die t waarde kleiner!
Wat is slope bias?
daar zijn de richtingscoefficienten verschillend voor de twee groepen. 
Het intercept is hier hetzelfde.

VB in de native speaker groep gaan zij meer omhoog bij 1 eenheid op de predictor dan bij de non-native groep. Het is fout om te zeggen dat er dan een sterker verband is, dat wordt niet met stijlheid uitgedrukt. De sterkte van het verband ligt erin of de punten op de lijn liggen.

Slope bias gaat over het feit dat er een ANDER verband is tussen test en criterium. Dus het zou niet goed zijn als je geen rekening mee houdt dat er eigenlijk twee groepen in je hele groep zitten die twee verschillende regressielijnen hebben.
Wat is intercept bias?
Stel nu dat er eigenlijk twee groepen in jou hele groep zitten en je de relatie van deze twee groepen apart gaat bekijken. 

Als er intercept bias is dan betekent dat dat de schattingen van b0 verschillen voor beide groepen, dus de snijdingen met de Y as is verschillend voor beide groepen.

De ene groep (VB native speakers) heeft dus dan overall een voordeel.


Als je zou negeren dat er meerdere groepen zijn in jou totale groep, dan zou je een foute conclusie trekken op de common lijn. Alle conclusies die je met de common lijn trekt geldt namelijk voor NIEMAND want de ene groep zit erboven en de andere eronder.
Wat is regressieanalyse?
je wil iets voorspellen (bijvoorbeeld met criterium) 

je hebt een intercept en een regressiegewicht voor een voorspeller:
Y = bo + b1 test

Dan kun je een puntenwolk maken van alle data die je hebt en een lijn doorheen trekken en die lijn is een regressielijn. Je wil eigenlijk dat die punten, die geobserveerde scores, zo dicht mogelijk op die lijn liggen, dan is die voorspeller heel goed. De stijheid van die functie verteld ons niks over de sterkte van het verband, omdat de sterkte van het verband wordt bepaald door hoe dicht de punten op de lijn liggen, dat geeft aan hoe goed de voorspeller is.

Waar de regressielijn de 0 kruist: intercept
Stijlheid geeft de slope aan, de richtingscoefficient.

Wat gebeurd er als je op de test een eenheid hoger hebt, wat gebeurd er dan met de voorspelde Y? Dat zegt de slope.
Hoe werkt de methode van differentiate item functioning? 
 de relatie tussen item score en de onderliggende construct level verschilt voor de groepen. 

Dus de relatie tussen iemands true score en de kans dat je een goed antwoord geeft op de vraag, die functie is verschillend voor verschillende personen/groepen.

Je hebt hier uniforme bias (locatie) en niet uniforme bias (vorm of vorm en locatie)
Als de lijn scheef is dan discrimineerd die voor dat kleine scheefe stukje heel goed. Dus je zoekt naar items die op de hele schaal goed discrimineren.
Hoe werkt de methode: item discrimination index?
je maakt dan eerst twee groepen: laagst presterende mensen (op basis van de totaalscore) en eentje met de hoogst scorende mensen