Summary Discovering Statistics Using IBM SPSS Statistics

-
ISBN-10 1526422964 ISBN-13 9781526422965
372 Flashcards & Notes
33 Students
  • These summaries

  • +380.000 other summaries

  • A unique study tool

  • A rehearsal system for this summary

  • Studycoaching with videos

Remember faster, study better. Scientifically proven.

Summary 1:

  • Discovering Statistics Using IBM SPSS Statistics
  • Andy Field
  • 9781526422965 or 1526422964
  • 2017

Summary - Discovering Statistics Using IBM SPSS Statistics

  • 1 Andy

  • How do we call a form of a categorical variable, where the variable has only two categories?
    A binary variable
  • How do we call a form of a categorical variable where each category is named by a number, example; age; <18 = 1, 18-40 = 2, >40 = 3?
    A nominal variable.
  • How do we call a form of a categorical variable where the categories are in a set hierarchical order?
    An ordinal variable.
  • How do we call a variable that gives us a score for each subject that can take any value on the measurement scale we are using?
    A continuous variable.
  • How do we call a form of a continuous variable where the difference between two values is meaningful. The difference between a temperature of 100 degrees and 90 degrees is the same difference as between 90 degrees and 80 degrees
    An interval variable
  • How do we call a form of an interval variable where the intervals have meaning, so a score of 4 means twice as much of the variable compared to 2?
    A ratio variable.
  • How do we call a continuous variable where the variable can only take certain values?
    A discrete variable.
  • 2 The spine of statistics

  • Waar staat de SPINE voor?
    Standaard Error
    Parameters
    Interval schattingen (CI)
    Nul hypothese significantie testen (NHST)
    Estimation
  • Omdat dit ‘gedachte-experiment’ zo belangrijk is, nog even de hoofdlijnen op een rijtje voordat we er dieper op ingaan:
    • Uit een populatie kan een steekproef van een gegeven omvang worden getrokken door willekeurig onderzoekseenheden (bijvoorbeeld deelnemers) te selecteren.
    • De resulterende datareeks kan worden gekenmerkt door beschrijvingsmaten (centrum-, spreidings-, en verdelingsmaten).
    • Voor elk van deze maten kan een theoretische steekproevenverdeling worden opgesteld.
    • Die steekproevenverdeling bevat de desbetreffende maten die zijn verkregen uit oneindige herhaling van die steekproeftrekking (met dezelfde omvang).
    • Elke centrum-, spreidings-, en verdelingsmaat is dus te beschouwen als een willekeurige selectie van één waarde uit de desbetreffende steekproevenverdeling.
  • Real life outcome = 'model' + error
  • Wat kan je doen met statistiek wat je zonder statistiek niet kan?
    - Generaliseren
    - Het geeft je een tool om te beschrijven wat we denken dat er aan de hand is, dit wordt beschreven a.d.h.v statistische modellen.
  • Wat is kenmerkend voor een continue variabele?
    De afstand tussen de scores zijn gelijk. 

    Bvb leeftijd in jaren 

    Een nulscore kan voor deze variabele van betekenis zijn. 
  • A sample is a smaller subset of the population, which is the group of individuals that we want to know something about.
  • Waaruit bestaan statistische modellen?
    Het zijn formules die bestaan uit:
    - Variabelen
    - Parameters
  • Wat houdt een variabele op rationiveau in?
    Dat is wanneer het meetniveau een absoluut 0-punt hebben.
  • How do we call measured constructs that vary across entities in the sample?
    Variables.
  • Variabelen
    gemeten constructen die kunnen variëren. We kunnen deze meten, observeren en manipuleren
  • Stel, een variabele heeft twee scores, bvb man - vrouw, wat is dan het meetniveau?
    Dichotoom nominaal niveau - oftewel: de uitkomst is geen kwalitatief getal en valt niet te ordenen van laag naar hoog (nominaal) 
    Er wordt gedifferentieerd op basis van naam of benoeming, waarbij er twee (binair of dichotoom) of meer antwoordmogelijkheden zijn. 
  • How do we call constants that represent some fundamental truth about relations between variables in a model, like the mean, the median, the correlation, etc.?
    Parameters
  • Parameters
    Aspecten van het model die de vorm van het model beschrijven. Zoals het gemiddelde, de SD, de b-waarde etc.
  • Kwalitatief staat voor ...
    Nominaal en ordinaal 

    Ordinaal = wél te ordenen van hoog naar laag (op schaal) 
           Bvb opleidingsniveaus - mavo havo vwo 

    Nominaal = niet te ordenen van hoog naar laag 

    De uitkomst is géén kwalitatief getal, maar bvb een automerk of een kleur. 
  • How do we call how off a score is from the mean?
    The deviance (error)
  • Waarom berekenen we de parameters in het model in een steekproef?
    Zo kan je de waarde schatten van de populatie.
  • Kwantitatief staat voor ...
    Interval en ratio 

    Ofwel een continue meetschaal - waarbij je aparte scores voor entiteiten kan meten, bvb 123 meter lang. 

    Ratio heeft een absoluut 0punt 

    Interval heeft géén 0punt (bvb leeftijd of IQ) 
  • How do you calculate the total error of a model?
    Calculate the sum of squares of the errors.
  • Het gemiddelde is een hypothetische waarde om gegevens samen te vatten. Het model is uitkomst = (b0)+error. Waar staat b0 voor?
    B0 = het gemiddelde van de uitkomst
  • Leer dit schema
    Bekijk het schema goed
  • What does the total error say about a model?
    How accurate the model is.
  • Het is belangrijk om de fit van elk statistisch model te beoordelen. Want je wil weten hoe goed het model is. Waar kijk je naar en wat is perfecte en niet-perfecte fit?
    Je kijkt naar de variabiliteit:
    - Perfecte fit = geen variabiliteit.
    - Geen perfecte fit = error, de waarden liggen verspreid van het gemiddelde.
  • Bereken – indien van toepassing – de spreidingsmaten en de minimale en maximale scores voor de variabelen Gender, Age, Education, Cursus, Statken1, Statken2, Angst1 en Angst2. 
    Voor continue variabelen is het mogelijk om vier spreidingsmaten te berekenen, namelijk de standaarddeviatie, variantie, variatie, en de interkwartielafstand.

    Voor nominale en ordinale variabelen kunnen deze maten niet berekend worden. Men moet voor Gender, Cursus en Education de verdeling op een andere manier inspecteren, bijvoorbeeld door middel van frequentietabellen en staafdiagrammen.
  • The bigger the sample, the higher the sum of squared errors is.
  • Hoe bereken je de error?
    deviatie = uitkomst - model
  • In R, SPSS en PSPP wordt de variantie berekend. Om de variatie te berekenen moet u de variantie vermenigvuldigen met n−1 n−1.
    Variantie (MS) is gelijk aan Variatie (SS) gedeeld door n−1 n−1.

    Extra aanwijzingen voor SPSS en PSPP
    In SPSS kunnen weer DESCRIPTIVES, FREQUENCIES en EXAMINE worden gebruikt, nu met andere argumenten voor die eerste twee:
    DATASET ACTIVATE dat.
    DESCRIPTIVES VARIABLES= Age Statken1 Statken2 Angst1 Angst2
    /STATISTICS=SEMEAN STDDEV VARIANCE RANGE MIN MAX.

    FREQUENCIES VARIABLES= Age Statken1 Statken2 Angst1 Angst2
    /FORMAT=NOTABLE /NTILES=4
    /STATISTICS= MINIMUM MAXIMUM RANGE STDDEV VARIANCE.

    EXAMINE VARIABLES= Age Statken1 Statken2 Angst1 Angst2.

    De derde regel in het FREQUENCIES commando roept de afkappunten van de kwartielen op. U kunt ze gebruiken om de interkwartielafstand te berekenen.

    Het EXAMINE commando geeft juist rechtstreeks de interkwartielafstand.
  • Instead of sum of squared errors, what do we use to estimate the accuracy of our model?
    The average squared error
  • Sum of Squared Error (SS)
    Je kwadrateert de deviatie en telt alle deviaties bij elkaar op.
  • Variantie NVT   36.35       NVT  NVT  48.12        95.28           155.65          87.14
    Variatie   NVT  6070.07    NVT  NVT  8036.28   15911.62    25993.14      14551.62

    De Variantie (MS) is gelijk aan de Variatie (SS) gedeeld door n - 1 

    ofwel

    De Variatie (SS) berekenen door de Variantie (MS) te vermenigvuldigen met n - 1
  • How can the average squared error be calculated?
    Divide the sum of squared error by the number of values, N
  • Waarom kwadrateer je bij de SS?
    Als je de deviaties bij elkaar optelt krijg je 0. Als je kwadrateert verdwijnen de negatieve waarden, zodat je getal wel boven de 0 is. Hoe hoger het getal hoe meer spreiding.
  • Voor continue variabelen is het mogelijk om drie verdelingsmaten te berekenen, namelijk scheefheid, spitsheid, en ‘toppigheid’ (Dip Test).

    Voor nominale en ordinale variabelen kunnen deze maten niet berekend worden. 
  • How can we calculate the mean squared error in the population?
    Divide the sum of squared errors, the total error, by the degrees of freedom.
  • Wat is de Mean Squared Error (MSE)
    Dat is SS/N
    Om een schatting te maken van de gemiddelde error in de populatie deel je de SS/df

    Dit wordt meestal de variantie genoemd, als je een gemiddelde als model neemt.
  • De negatieve waarden van scheefheid (skewness) geven aan dat Age, Statken1 en Statken2 linksscheef zijn.
    De positieve waarden geven aan dat Angst1 en Angst2 rechtsscheef zijn.
    De negatieve waarden van spitsheid (kurtosis) geven aan dat Age en Statken2 platter zijn dan de normale verdeling.
    De positieve waarden van spitsheid geven aan dat Statken1, Angst1 en Angst2 spitser zijn dan de normale verdeling (hoewel Angst1 en Angst2 in deze steekproef praktisch even spits lijken als de normaalverdeling).
    Behalve de spitsheid van Statken1 liggen de waarden van scheefheid en spitsheid van alle intervalvariabelen binnen de grenzen van -1 en +1.
    Er wordt dan soms gezegd dat de variabelen (behalve Statken1) bij benadering normaal verdeeld zijn. Tot slot kan aan de scores van de Dip Test worden gezien dat de verdelingen allemaal unimodaal lijken: deze Dip Test scores liggen immers allemaal in de buurt van 0.
  • How do we also call the mean squared error?
    The variance
  • Waarom zijn het gemiddelde en de SD fantastisch/ geweldig?
    - Je kan alle data karakteriseren in 2 getallen
    - Ze maken het mogelijk om een schatting te maken van het gemiddelde en de SD van de populatie
  • Om een betrouwbaarheidsinterval te berekenen wordt altijd dezelfde formule gebruikt

    Betrouwbaarheidsinterval=Steekproefwaarde±Breedte-index×Standaardfout

    In dit geval is de steekproefwaarde voor het gemiddelde 34.39. De standaardfout is 0.47. De breedte-index voor een 95% betrouwbaarheidsinterval is 1.96 (of 2: schattingen uit steekproeven zijn dermate inaccuraat dat verschillen op decimalen niet uitmaken - de standaardfout is in een volgende steekproef tenslotte ook hoger of lager).

    De ondergrens van het 95% betrouwbaarheidsinterval is dus gelijk aan:
    Gemiddelde−1,96×Standaardfout=34.39−1,96×0.47=33.48


    En de bovengrens van het 95% betrouwbaarheidsinterval is:
    Gemiddelde+1,96×Standaardfout=34.39−1,96×0.47=35.3

    Het interval is dus [33.48; 35.3].

    DATASET ACTIVATE dat.
    FREQUENCIES VARIABLES=Age
    /FORMAT=NOTABLE
    /STATISTICS=MEAN SEMEAN.
  • How good a model fits the data can be calculated with the sum squared error, or the variance. The bigger the sse or the variance, the worse the fit is.
  • Wat is een steekproefverdeling?
    Je selecteert random samples van de populatie om het gemiddelde en de SD of andere waarden van de populatie te schatten. Als je dit vaak doet krijg je verschillende waarden.
  • DATASET ACTIVATE dat.
    SORT CASES BY Sex.
    SPLIT FILE LAYERED BY Sex.  

    FREQ educationLevel.  

    Om daarna het splitsen van de analyses weer stop te zetten kan het volgende commando worden gebruikt:
    SPLIT FILE OFF.
  • What do we mean by the method of least squares, or ordinary least squares (OLS)?
    Finding the parameter with the least error, given the data that you have.
  • Van welke twee dingen hangt de steekproefverdeling af?
    - Standaard Error
    - Sampling variation
Read the full summary
This summary. +380.000 other summaries. A unique study tool. A rehearsal system for this summary. Studycoaching with videos.

Summary 2:

  • Discovering Statistics Using IBM SPSS Statistics
  • Andy Field
  • 9781446249185 or 1446249182
  • 4th ed.

Summary - Discovering Statistics Using IBM SPSS Statistics

  • 1 Why is my evil lecturer forcing me to learn statistics? REMMP1

  • What is falsification?
    The act of disproving a hypothesis or theory
  • What is a measurement error?
    The difference between the value we're measuring and the actual value
  • What is cross-sectional research?
    Observational
  • What is longitudinal research?
    Research over a long period of time
  • What two methods of data collection are there?
    Between groups-> to manipulate the independent variable using different entities
    Within subject(repeated measures)->Manipulate independent variable using the same entities. So test the same person or group twice
  • What is unsystematic variation?
    Differences in performance due to unknown factors
  • What is systematic variation?
    Difference in performance created by a specific experimental manipulation
  • Why is randomization used?
    This used in treatment conditions to minimize systematic variation to get a more sensitive measurement.
  • What are the two most common causes of systematic variation? How are these avoided?
    Practice effect: Different performance due to familiarity with the experimental situation
    Boredom effect: Different performance because they are tired or bored 

    By counterbalancing  the order in which a person participates in a condition
  • What is a histogram?
    A fq distribution, shows how many times each value occured in the data set
  • What is the median?
    The middle score when the data is ranked, if these consist of two scores take the mean of these
  • What is the sum of squared errors?
    Deviations from the mean, squared and then summed
  • 1.1 What will this chapter tell me?

  • Wat is het verschil tussen kwantitatieve- en kwalitatieve methoden?
    Onderzoeken waarbij gebruik gemaakt van data op basis van cijfers worden kwantitatieve methoden genoemd en onderzoeken waarbij taal wordt gebruikt als basis voor het onderzoek, worden kwalitatieve methoden genoemd. Beide methoden zijn complementair aan elkaar, de een is niet beter dan de ander.
  • 1.2 What the hell am I doing here? I don't belong here

  • Wanneer kan je spreken van een oorzakelijk verband?
    Als:
    • oorzaak en gevolg elkaar nauw in de tijd opvolgen
    • de oorzaak moet voorafgaan aan het gevolg
    • het gevolg nooit voorkomt zonder dat de oorzaak heeft plaatsgevonden


    En dat alle andere verklaringen van het oorzaak-gevolg effect uitgesloten moeten zijn. 
  • 1.3 Initial observation: finding something that needs explaining

  • Wat is meetfout?
    Er is vaak een verschil tussen de gemeten waarde en de werkelijke waarde. 
  • 1.4 Generating theories and testing them

  • Wat is falsificatie?
    Wanneer de verzamelde gegevens de theorie of hypothese tegenspreken.
  • Wat is een binaire variabele?
    Een variabele met twee categorieën, bijvoorbeeld mannen en vrouwen.
  • Wat is een categorische variabele?
    Deze bestaat uit verschillende categorieën. Je kan maar in één categorie per keer ingedeeld worden, je hoort niet een beetje bij de ene categorie en een beetje bij de andere categorie. Een voorbeeld van een categorische variabele is de indeling tussen mannen en vrouwen. 
  • Wat is een nominale variabele?
    Als een variabele bestaat uit meer dan twee categorieën die aan elkaar gelijk zijn, noem je dit een nominale variabele. Een voorbeeld van een nominale variabele is religie (jodendom, christendom, islam, et cetera). Hoewel deze categorieën ook kunnen worden weergegeven met cijfers, is het niet mogelijk om wiskundige berekeningen uit te voeren met deze cijfers.
  • Wat is een ordinale variabele?
    Bij een ordinale variabele heb je ook verschillende categorieën, maar hebben die een bepaalde rangorde. Ordinale data geeft bijvoorbeeld een bepaalde volgorde aan. Echter wordt er niet aangegeven hoe groot het verschil is tussen de categorieën. Een top drie van een wedstrijd geeft aan wie beter is dan de ander, dus het heeft een volgorde, maar het zegt niet hoeveel beter de winnaar was dan de nummer twee en drie.
  • Wat is de intervalvariabele?
    De intervalvariabele is een vorm van een continue variabele. Bij de intervalvariabele is het verschil tussen alle getallen gelijk. Een voorbeeld hiervan is een schaal waarbij je aangeeft hoe aardig je iemand vindt op een vijfpuntsschaal. Het verschil tussen 1 en 2 is hierbij even groot als het verschil tussen 4 en 5.
  • Wat is de ratio variabele?
    De ratio variabele heeft dezelfde voorwaarden als de intervalvariabele alleen heeft de ratio variabele een absoluut en betekenisvol nulpunt. Dit betekent dat je de getallen van een ratio variabele kan vermenigvuldigen. Een voorbeeld hiervan is reactietijd. Een milliseconde duurt altijd even lang, dus de verschillen tussen de milliseconden zijn gelijk, maar daarnaast kun je ook zeggen dat 200 milliseconden twee keer zo lang is als 100 milliseconden.
  • Wat is een discrete variabele?
    Een echte continue variabele kan alle mogelijke waarden aannemen, maar bij een discrete variabele kunnen alleen bepaalde waarden (meestal alleen hele getallen) gekozen worden. Als je aangeeft hoe aardig je iemand vindt op een vijfpuntsschaal, is dat wel een continuüm, waarbij 2.98 een betekenisvolle waarde is, maar je kunt alleen de cijfers 1, 2, 3, 4 en 5 werkelijk kiezen. Je kunt niet daadwerkelijk 2.98 invullen.
Read the full summary
This summary. +380.000 other summaries. A unique study tool. A rehearsal system for this summary. Studycoaching with videos.

Latest added flashcards

Which assumptions are taken when using a one sample t-test?
  • the data, when plotted, results in a normal distribution, bell-shaped distribution curve.the scale of measurement applied to the data collected follows a continuous or ordinal scale, such as the scores for an IQ test.
  • the data is collected from a representative, randomly selected portion of the total population.
  • a reasonably large sample size is used.
  • homogeneity of variance. Homogeneous, or equal, variance exists when the standard deviations of samples are approximately equal.
What does a t-distribution show?
represents the deviation of sample means from the population mean (μ μ), given a certain sample size (d f =n−1 df=n−1)
What do we mean by level of measurement?
Whether a variable is measured on a nominal-, ordinal-, interval-, or ratio scale.
Which two variants of the t-test are there, and when do you use them?
  • Independent t-test; used when comparing means that come from conditions consisting of different entities
  • paired-samples t-test; used when you want to compare two means that come from conditions consisting of the same or related entities
In spss, how do you know if the group scores are normally distributed?
  • Select test of normality.
  • under the collum "kolmogorov-smirnov'', see "statistic"
  • if this number is greater than 0,05, the scores are normally distributed. 
How do we call a continuous variable where the variable can only take certain values?
A discrete variable.
How do we call a form of an interval variable where the intervals have meaning, so a score of 4 means twice as much of the variable compared to 2?
A ratio variable.
How do we call a form of a continuous variable where the difference between two values is meaningful. The difference between a temperature of 100 degrees and 90 degrees is the same difference as between 90 degrees and 80 degrees
An interval variable
How do we call a variable that gives us a score for each subject that can take any value on the measurement scale we are using?
A continuous variable.
How do we call a form of a categorical variable where the categories are in a set hierarchical order?
An ordinal variable.