Summary Cursus onderzoekspracticum inleiding data-analyse

-
337 Flashcards & Notes
6 Students
  • This summary

  • +380.000 other summaries

  • A unique study tool

  • A rehearsal system for this summary

  • Studycoaching with videos

Remember faster, study better. Scientifically proven.

Summary - Cursus onderzoekspracticum inleiding data-analyse

  • 1.1 Inleiding en ethiek

  • Waarom wordt de wetenschap beoefend
    Dit is een methode om te leren over de realiteit.  Mensen hebben verstoringen in geheugen en informatieverwerking hierdoor is onze ideeën over de realiteit niet zomaar te vertrouwen zijn.

    Daarom zijn systematische methoden van informatieverzameling en verwerking nodig om de realiteit in kaart te brengen, en de wetenschap biedt die.
  • Beschrijf wat een empirische onderzoek is
    Dit is een onderzoek waarbij data worden verzameld: in de praktijk is bijna al het onderzoek als empirisch onderzoek te beschouwen.
  • Uit welke fasen bestaat de empirische onderzoek cyclus?
    onderzoeksvraag formuleren
    studie ontwerpen
    data verzamelen
    data analyseren
    rapporteren
  • Wat is de achtergrond en rol van ethiek bij wetenschappelijk onderzoek bij mensen?
    Ten eerste zijn de objecten van onderzoek in de psychologie en onderwijswetenschappen meestal mensen. Deelnemers steken tijd en moeite in deelname, maar kunnen bovendien schade ondervinden door deelname aan een studie. Ten tweede wordt wetenschappelijk onderzoek meestal uitgevoerd met publieksgeld.
  • Beschrijf hoe etnische toetsing in Nederland en bij de OU in zijn werk gaat.
    Besluiten worden genomen door ethische commissies. Die maken onder andere een afweging van de kosten van een studie ( zowel mogelijke negatieve gevolgen voor deelnemers als financiële kosten) en van de mogelijke opbrengsten. Daarnaast bescherming van de deelnemers, bijvoorbeeld nazorg. 

    Bij de Open Universiteit wordt deze gedragscode toegepast door de commissie Ethische Toetsing Onderzoek (cETO). Al het mensgebonden onderzoek bij de Open Universiteit wordt door de cETO getoetst. 
  • Wat is het belang, de rol en aard van een Informed Consent en welke onderdelen bevat het?
    Het Informed Consent is een overeenkomst tussen de onderzoekers en de deelnemers aan een studie. Dit is een garantie dat deelnemers volledig vrijwillig meedoen en niets doen dat ze niet willen.

    In zo’n overeenkomst geven de deelnemers aan dat ze de gelegenheid hebben gehad om de achtergrond-informatie te lezen de gelegenheid hebben gehad om vragen te stellen de gelegenheid hebben gehad om over hun deelname na te denken begrijpen dat ze op elk moment met het onderzoek kunnen stoppen zonder consequenties en zonder opgave van reden. De onderzoeker verplicht zich bovendien tot het volledig anonimiseren van de data.
  • Wat wordt er in een datamanagement plan beschreven?
    In dit plan wordt onder andere beschreven hoe data tijdens het onderzoek worden opgeslagen; hoe deze worden geanonimiseerd; wie toegang houden tot de niet-geanonimiseerde (versleutelde) data; en hoe deze na afloop van het project langdurig worden opgeslagen.
  • Beschrijf wat Full Disclosure is en waarom het belangrijk is.
    Full Disclosure houdt in dat volledige openheid wordt gegeven over het onderzoeksproces. Dit om Diederik Stapel (wetenschap fraudeur) gebeurtenissen te voorkomen. 
  • Beschrijf hoe uitkomsten van onderzoek worden verspreid onder wetenschappers
    Wetenschappers communiceren op congressen, maar nog meer in de vorm van artikelen, die naar een journal worden gestuurd en dan worden beoordeeld door andere wetenschappers (peer reviewers), voordat ze worden geaccepteerd en gepubliceerd. Dit kan tegenwoordig digitaal.
  • 1.2 Validiteit en betrouwbaarheid

  • Beschrijf wat betrouwbaarheid is en geef een voorbeeld.
    De mate waarin een meting bij herhaling hetzelfde resultaat oplevert heet de betrouwbaarheid van die meting. Een belangrijk aspect is de aanname datgene dat wordt gemeten stabiel is.

    Wanneer bijvoorbeeld iemands’ humeur wordt gemeten, zal dat over de tijd veranderen; de verschillende uitkomsten die worden gevonden zijn dan geen symptoom van een lage betrouwbaarheid, maar juist een indicatie dat het meetinstrument goed werkt
  • Beschrijf wat een meetfout is en geef een voorbeeld
    Met elk meetinstrument is de uitkomst niet uitsluitend afhankelijk van wat we willen meten, maar ook van externe zaken. Al dit soort invloeden noemen we samen meetfout (ook wel ruis of measurement error in het Engels). De meetfout is dus het complement van de betrouwbaarheid. Naarmate er minder meetfout is, is een meting betrouwbaarder, en vice versa.

    Voorbeeld:  Als we willen meten hoe goed iemand zich kan concentreren, kan een ruzie die die persoon had, minuten voor deelname aan ons onderzoek, een verstorende invloed hebben.
  • Leg uit hoe de meetfout zich verhoudt tot betrouwbaarheid
    De meetfout is aanvulling van de betrouwbaarheid. Naarmate er minder meetfout is, is een meting betrouwbaarder, en vice versa.
  • Leg uit wat validiteit is
    Dit is de mate waarin een meetinstrument meet wat het moet meten.
  • Hoe kom je te weten hoe betrouwbaar een meting is?
    Dit kan door bijvoorbeeld een week later de meting te herhalen. Als wat is gemeten stabiel is gebleven, zou de tweede meting identiek moeten zijn aan de eerste. Hoe meer die tweede meting afwijkt, hoe minder betrouwbaar het meetinstrument dan is.
  • Hoe krijg je een indruk van de validiteit?
    Vaak worden andere meetinstrumenten afgenomen om dezelfde of gerelateerde dingen te meten. .
Read the full summary
This summary. +380.000 other summaries. A unique study tool. A rehearsal system for this summary. Studycoaching with videos.

Latest added flashcards

Hoe kan dit thema worden samengevat?
Nadat in thema 1 variabelen, operationalisaties, populaties en steekproeven zijn geïntroduceerd, zijn we hier in thema 2 dieper op ingegaan:
  • Variabelen kunnen worden geoperationaliseerd op een continu meetniveau (ratio of interval) of op een categorisch meetniveau (ordinaal, nominaal, of dichotoom); 
    • Voor continue variabelen kunnen tien beschrijvingsmaten worden berekend: de centrummaten (gemiddelde, mediaan, en modus), spreidingsmaten (standaarddeviatie, variantie, variatie, en de interkwartielafstand), en verdelingsmaten (scheefheid, spitsheid, en toppigheid (modaliteit));
    • Voor ordinale variabelen kunnen de mediaan en de modus worden berekend, en voor nominale variabelen alleen de modus. 
    • Continue variabelen kunnen bovendien worden geïnspecteerd met histogrammen, boxplot, en Q-Q plots, en categorische variabelen met frequentieverdelingen en staafdiagrammen. 
  • Bovendien is in dit thema één van de belangrijkste concepten uit de statistiek geïntroduceerd: het concept van de steekproevenverdeling: 
    • De steekproevenverdeling is een theoretische verdeling die alle mogelijke waarden voor een gegeven maat bevat. In een steekproef van een gegeven omvang geldt dat elke maat die kan worden uitgerekend dus noodzakelijkerwijs afkomstig is uit de corresponderende steekproevenverdeling;
    • Van deze steekproevenverdelingen zijn de verdelingsvorm en de spreiding, oftewel de standaardfout, bekend. Dit maakt het mogelijk om betrouwbaarheidsintervallen te berekenen, die informatie geven over waarden in de populatie op basis van datareeksen uit een steekproef. 
Kunnen steekproefverdelingen en betrouwbaarheidsintervallen worden berekend voor categorische  variabelen?

Net als centrum-, spreidings-, en verdelingsmaten, geldt dat elk van de percentages in de frequentieverdeling van een categorische variabele uit een eigen steekproevenverdeling komt. Voor deze percentages zijn dus betrouwbaarheidsintervallen uit te rekenen. Zoals veel steekproevenverdelingen zijn ook steekproevenverdelingen van proporties normaal verdeeld. De standaardfout van deze normale steekproevenverdeling kennen we ook (formule is te vinden op de afbeelding).

In deze formulie staat p voor de proportie (oftewel het percentage, maar dan wel gedeeld door 100) en n staat (zoals bijna altijd) voor het aantal datapunten in de datareeks. 

Vervolgens kunnen we deze standaardfout weer vermenigvuldigen met twee, en het resulterende getal zowel van de proportie aftrekken als er bij optellen, om het betrouwbaarheidsinterval voor dit percentage te krijgen. Ook voor categorische variabelen kunnen we dus op basis van de steekproef conclusies trekken over de populatie, net als bij continue variabelen.
Waarom worden histogrammen of staafdiagrammen gebruikt en wat is het verschil?
Doorgaans is het niet praktisch om een frequentietabel te bestellen van een continue variabele: meestal hebben deze dermate veel verschillende meetwaarden dat het een hele lange lijst frequenties zou worden, en dat elke meetwaarde bovendien bijna niet voorkomt (deelnemers hebben immers bijna allemaal andere meetwaarden). Daarom worden in histogrammen de meetwaarden samengevoegd in groepen (van de intervalvariabele wordt dus achter de schermen een categorische variabele gemaakt, met categorieën van gelijke breedte).

Bij categorische variabelen hoeft dat samenvoegen niet om het aantal datapunten per categorie grafisch weer te geven. Tegelijkertijd kan er geen histogram worden gegenereerd: er is immers geen continue variabele om de de x-as te plaatsen. Wel kan er een variabele op de y-as worden gezet, namelijk het aantal datapunten. In plaats van een x-as kunnen dan op diezelfde plek de categorieën naast elkaar worden geplaatst. De resulterende grafiek heet een staafdiagram, en hoewel deze lijkt verdacht veel op een histogram lijkt, moeten de implicaties van het ontbreken van een x-as niet worden onderschat. Zo kan er geen density plot worden gegenereerd voor een staafdiagram, of dus voor een categorische variabele. Er kan dus ook niet worden gesproken over verdelingsvormen bij categorische variabelen. Maar goed, genoeg over de verschillen, want qua interpretatie zijn histogrammen en staafdiagrammen precies hetzelfde: ze geven een beeld van de verdeling van een variabele, oftewel, van de absolute en relatieve frequenties voor elke meetwaarde.  

De verschillende meetwaarden kunnen dus ten opzichte van elkaar worden geordend, maar de afstand tussen opeenvolgende meetwaarden is niet altijd gelijk (en meestal onbekend). Daarom worden de meetwaarden gelijk naast elkaar geplaatst.
Wat zijn frequentieverdelingen en wat is te vinden in een frequentietabel?
Een frequentieverdeling bestaat uit de frequenties (aantallen) voor elke mogelijke meetwaarde.


De frequentietabel heeft vier kolommen:

  • de frequenties, oftewel het aantal datapunten met elke meetwaarde;
  • het percentage ten opzichte van het totale aantal datapunten (waarbij ook datapunten meetellen die geen meetwaarde hebben voor deze variabele, zogenaamde missing values);
  • het percentage ten opzichte van het ‘subtotale’ aantal datapunten dat wel een meetwaarde heeft voor deze variabele;
  • het cumulatieve percentage ten opzichte van dit laatste subtotaal: het percentage van een bepaalde meetwaarde (of categorie) samen met alle lagere (of, van de andere kant bekeken, hogere) meetwaarden (of categorieën).   



De frequenties in deze frequentietabellen heten ook wel de absolute frequenties, om ze te onderscheiden van de percentages, waar wel naar wordt verwezen met relatieve frequenties. Deze relatieve frequenties (de percentages dus, oftewel de proporties) geven informatie over het aantal datapunten in een categorie ten opzichte van het totale aantal datapunten. Die informatie is niet beschikbaar in de absolute frequenties. Aan de andere kant geven de relatieve frequenties geen informatie over het aantal datapunten in de steekproef: die informatie zit nu juist weer alleen in de absolute frequenties.
Welke beschrijvingsmaten zijn nog beschikbaar voor categorische variabelen?
De modus is de meest voorkomende meetwaarde: en een meest voorkomende meetwaarde is er ook bij ordinale en zelfs bij nominale variabelen. De mediaan is de meetwaarde van het middelste datapunt nadat alle datapunten zijn geordend van hoge naar lage meetwaarde (of andersom), en dat kan ook bij ordinale variabelen. Toch geven de mediaan en modus maar relatief weinig informatie over de verdeling van een categorische variabele. Gelukkig is het juist bij categorische variabelen, omdat er tenslotte meestal maar relatief weinig categorieën (oftewel meetwaarden) zijn, om te kijken hoe vaak elke meetwaarde voorkomt. Dit heet een frequentieverdeling.
Waarom zijn categorische variabelen minder zeldzaam dan je zou verwachten?
  1. Ten eerste resulteren manipulaties bijna altijd in categorische variabelen. In de studie met de Best Possible Self (BPS)- manipulatie resulteert die operationalisatie van optimisme bijvoorbeeld in twee meetwaarden: de helft van de deelnemers krijgt immers geen BPS-manipulatie, en de andere helft wel. Die twee meetwaarden vormen samen dus een categorische (dichotome) variabele. Manipulaties met meer niveaus (bijvoorbeeld ‘Geen BPS-manipulatie’, ‘Lichte BPS manipulatie’, en ‘Zware BPS-manipulatie’) resulteren meestal in ordinale variabelen (hoewel deze soms op het intervalniveau kunnen worden geoperationaliseerd door willekeurig uit verschillende ‘doseringen’ van de manipulatie te kiezen: bijvoorbeeld 0 minuten, 30 minuten, 60 minuten, etc).
  2. Ten tweede geldt voor meetinstrumenten dat bij de ontwikkeling niet alleen gelet moet worden op het optimale meetniveau: een operationalisatie moet bovendien valide en betrouwbaar zijn, en dat betekent onder andere dat hij goed aan moet sluiten op de belevingswereld van deelnemers: dus van de te onderzoeken populatie. Om die reden wordt geslacht bijvoorbeeld bijna altijd dichotoom gemeten: de cultuur van veel populaties is zodanig dat de meeste deelnemers de categorieën ‘vrouw’ en ‘man’ kennen, terwijl ‘genderqueer’ bij veel mensen (nog) onbekend is.


Hoewel het dus belangrijk is om deze, waar redelijkerwijs mogelijk, te vermijden, is het tegelijkertijd onvermijdelijk dat wetenschappers in de psychologie en de onderwijswetenschappen categorische variabelen tegenkomen. In experimenten komen categorische variabelen daarom wel vaak voor. Het is dus belangrijk categorische en continue variabelen te onderscheiden en op de juiste manier te behandelen. Zoals eerder al besproken kunnen gemiddelden en standaarddeviaties niet worden berekend voor categorische variabelen.
Wat zijn de vier redenen dat kiezen voor een categorisch (ordinaal of nominaal) meetniveau wanneer een variabele op een continu (interval of ratio) niveau kan worden gemeten, schadelijk kan zijn?

  1. Ten eerste zijn er altijd meer deelnemers nodig naarmate het meetniveau van de betreffende variabelen lager is. Een verband aantonen tussen twee continue variabelen vereist dus minder deelnemers dan als een van de variabelen categorisch is, laat staan als beide variabelen categorisch zijn.
  2. Ten tweede is het zo dat de meeste variabelen nu eenmaal simpelweg continu zijn. Daar waar mensen categorieën waarnemen, blijkt na nader onderzoek meestal dat er in feite alleen sprake is van een of meer onderliggende continue variabelen, die mensen min of meer arbitrair in groepen indelen. Categorische operationalisaties zijn dus meestal niet valide. Dit hangt samen met de derde reden dat waarneming in categorieën of groepen schadelijk kan zijn.
  3. Het is altijd mogelijk om van een continue variabelen terug te gaan naar lagere niveaus, maar niet andersom. Als een deelnemer ‘35 tot 50’ aankruist, is immers onbekend of de leeftijd 36 is of 47.
  4. Tot slot bestaan groepen mensen vaak niet uit duidelijk onderscheidbare subgroepen: elke indeling in categorieën zal dus vaak een vertekening van de werkelijkheid opleveren. Het meten van variabelen op een categorisch meetniveau vereist immers dat harde grenswaarden, zogenaamde ‘cut-offs’, worden gekozen; en om het leeftijdsvoorbeeld weer te gebruiken: als iemand van 36 niet veel meer lijkt op iemand van 49 dan op iemand van 34, dan is een cut-off van 35 dus niet goed te verdedigen.
Waarom zijn meetniveaus niet zozeer eigenschappen van variabelen in de realiteit, maar kenmerken van operationalisaties, oftewel van meetinstrumenten of manipulaties?

Het was evolutionair erg handig om te denken in hokjes zoals ‘dit kun je eten’ versus ‘dit kun je niet eten’, ‘dit wil jou eten’ versus ‘dit wil jou niet eten’, en ‘geschikt voor voortplanting’ versus ‘niet geschikt voor voortplanting’. Veel mensen hebben nog steeds de neiging om in hokjes te denken. Vanuit de beoefening van de wetenschap heeft dit twee gevolgen, waarvan het eerste erg onhandig, en het tweede mogelijk zelfs schadelijk is:
  1. Het eerste gevolg is dat mensen de neiging hebben om als er sprake is van categorische variabelen, ten onrechte groepen te zien in plaats van meetwaarden van een variabele. In plaats van de variabele ‘geslacht’ met als meetwaarden ‘vrouw’ en ‘man’, zien mensen ‘mannen’ en ‘vrouwen’. Naast dat deze denkwijze natuurlijk stigmatisering in de hand werkt is het ook onhandig vanuit wetenschappelijk oogpunt: wetenschap betreft immers het zoeken naar verbanden tussen variabelen, en dan is het handig om variabelen te zien waar ze zijn. 
  2. Het tweede gevolg is dat mensen de neiging hebben om variabelen te operationaliseren op een categorisch meetniveau, ook waar een continu meetniveau gepaster zou zijn.


Hieruit wordt al duidelijk dat variabelen zelf zelden een meetniveau hebben: het meetniveau van een variabele is een keuze die de onderzoeker maakt tijdens het operationaliseren. Zo kan geslacht dichotoom worden gemeten, maar ook op een ordinale schaal van genderidentiteit.

Meetniveaus zijn dus vaak niet zozeer eigenschappen van variabelen ‘in de realiteit’, maar kenmerken van operationalisaties, oftewel van meetinstrumenten of manipulaties.
Hoe kunnen de verschillende categorieen meetniveaus worden samengevat?
  • Continue variabelen:
    • Interval (niet relevant);
    • Ratio (niet relevant);
  • Categorische of discrete variabelen:
    • Nominaal (categorieen kunnen niet geordend worden);
    • Ordinaal (categorieen kunnen wel geordend worden, maar de afstand tussen de categorieen is niet bekend);
  • Dichotome variabelen: ook nominaal of ordinaal, worden vaak onder de categorische variabelen gerekend.
Wat zijn meetniveaus?

Hoewel bijna alle variabelen continu zijn (ze liggen op een ononderbroken schaal, en kunnen in de populatie oneindig veel waarden aannemen), zijn sommige variabelen van een lager zogenaamd meetniveau. Geslacht is bijvoorbeeld een zogenaamde dichotome variabele: geslacht kan maar twee waarden aannemen. Dit heet ook wel een binaire variabele.

Een ander voorbeeld is haarkleur: dit kan zwart, bruin, blond, rood, of wit zijn. Zwart is echter niet ‘hoger’ of ‘lager’ dan rood: deze categorieën zijn alleen te benoemen, maar niet te ordenen. We noemen dit meetniveau daarom nominaal.

Opleidingsniveaus zijn wel te ordenen: iemand die alleen de basisschool heeft afgemaakt heeft een lager opleidingsniveau dan iemand die ook de middelbare school heeft gedaan, en iemand die ook nog een vervolgopleiding afrondt heeft een nog hoger opleidingsniveau. Bovendien zijn er binnen elke fase (bijvoorbeeld middelbaar en hoger onderwijs) vaak niveaus te onderscheiden, zoals vmbo, havo en vwo in Nederland. Hoewel deze categorieën ten opzichte van elkaar te ordenen zijn, geldt niet dat iemand die universiteit heeft gedaan ‘dubbel zo’n hoog opleidingsniveau’ heeft als iemand die met de middelbare school bezig is. De afstand tussen de geordende categorieën is dus onbekend: we kunnen de categorieën alleen maar ordenen. We noemen dit daarom een ordinale variabele. Samen heten nominale en ordinale variabelen de categorische of discrete variabelen: dit omdat de verschillende meetwaarden die deze variabelen aan kunnen nemen altijd categorieën zijn, zoals ‘vrouw’, ‘MBO’, ‘minderjarig’, ‘40-50 jaar’, of ‘stedelijk’.

Hier tegenover staan de continue variabelen. Deze variabelen kunnen in theorie allerlei meetwaarden aannemen, meestal op een schaal van ‘min oneindig’ tot ‘oneindig’, waarbij waarden steeds onwaarschijnlijker worden naarmate ze verder van het gemiddelde af liggen (waardoor ‘min oneindig’ noch ‘oneindig’ natuurlijk ooit bereikt worden, meestal niet eens bij benadering). Natuurlijk geldt dit niet voor alle variabelen: lengte kan bijvoorbeeld al niet negatief zijn. Binnen de continue variabelen worden soms twee meetniveaus onderscheiden, hoewel dat onderscheid met betrekking tot statistiek irrelevant is. Het ene meetniveau is het intervalniveau (omdat intervallen tussen opeenvolgende meetwaarden altijd even groot zijn), en het andere meetniveau is het rationiveau (dit zijn eigenlijk de variabelen waar de meeste mensen bekend mee zijn). Het verschil is het bestaan van een zogenaamd ‘absoluut nulpunt’. Wat belangrijk is, is dat er met continue variabelen gerekend kan worden. Twee continue variabelen kunnen, als ze op dezelfde schaal zijn gemeten, worden opgeteld of gemiddeld, om een betekenisvol resultaat op te leveren. Bovendien zijn de meetwaarden van continue variabelen bijna altijd te talrijk zijn om zinvol in te delen in categorieën.