Summary Class notes - Data Science

Course
- Data Science
- Henk de Ridder
- 2019 - 2020
- Hogeschool Utrecht (Hogeschool Utrecht, Utrecht)
- HBO-ICT
100 Flashcards & Notes
1 Students
  • This summary

  • +380.000 other summaries

  • A unique study tool

  • A rehearsal system for this summary

  • Studycoaching with videos

Remember faster, study better. Scientifically proven.

PREMIUM summaries are quality controlled, selected summaries prepared for you to help you achieve your study goals faster!

Summary - Class notes - Data Science

  • 1551567600 Week 1

  • Welke 2 soorten statistiek zijn er?
    • Beschrijvend en Inductief
  • Welke 2 soorten kwalitatieve meetniveaus zijn er en welke bewerkingen kan je ermee doen?
    • Nominaal = gelijk en niet gelijk (Kleur)
    • Ordinaal = gelijk, niet gelijk, groter, kleiner (Opleiding)
  • Welke 2 soorten kwantitatieve meetniveaus zijn er en welke bewerkingen kan je ermee doen?
    • Discreet = gelijk, niet gelijk, groter, kleiner, alle rekensommen behalve delen (aantal kinderen)
    • Continu = gelijk, niet gelijk, groter, kleiner, alle rekensommen (gewicht)
  • Welke berekening zie je hier en leg hem uit:
    Gemiddelde, alle meetwaarden delen door totaal meetwaarden
  • Wat is de mediaan?
    De middelste waarde
  • Hoe bereken je de mediaan als het aantal waarden even is?
    De twee middelste optellen en delen door 2
  • Wat is de modus?
    De meetwaarde die het meeste voorkomt
  • Wat is een array in numpy?
    Een lijst met homogene waarde
  • Datascience is het gebruik van technieken en systemen voor het verkrijgen van kennis en inzicht uit gestructureerde en ongestructureerde gegevens.
  • Wanneer is een experiment reproduceerbaar?
    Als iemand anders hetzelfde resultaat krijgt als hij het project herhaald.
  • Hoe selecteer je van de dataset df de derde rij, tweede kolom?
    df[2,1]
  • Hoe selecteer je van de dataset df de 10e rij, 1ekolom?
    df[10,0]
  • Hoe bepaal je het minimum, maximum en gemiddelde in Numpy?
    .min, .max, .mean
  • Hoe rond je getallen af in Numpy?
    np.around(variable, aantal decimalen)
  • 1552172400 Week 2

  • Hoe bereken je de interkwartielafstand?
    IQR = Q3 - Q1
  • Hoe bereken je variantie?
    1. Schijf alle waarde onder elkaar op
    2. Bereken totaal
    3. Bereken gemiddelde
    4. Waarde - gemiddelde
    5. Uitkomst in het kwadraat
    6. Optellen
    7. Delen door aantal
  • Hoe bereken je de variantie in numpy?
    np.var(x)
  • Hoe bereken je de standaarddeviatie?
    De wortel van de variatie
  • Hoe bereken je de standaardeviatie in numpy?
    np.std(x)
  • Waarvan is dit de formule?
    Standaarddeviatie
  • Waarvan is dit de formule?
    Variantie
  • Hoe bereken je kwartiel 1(Q1) en hoe in numpy?
    Neem de mediaan van de getallen links van de mediaan. 
    np.percentite(X,[25])
  • Hoe teken je een boxplot?
    1. Zet streepje bij het laagste getal, Q1, Q2, Q3 en het hoogste getal
    2. Eerste en laatste deel zet je een lijn
    3. Middelste twee delen is een box
  • Wat is het verschil tussen een serie en een dataframe is pandas?
    Een serie is 1 dimensionaal. een dataframe 2 dimensionaal
  • Wat is het verschil tussen een array in numpy en een array in pandas?
    Een array in numpy kan alleen uniforme waarde bevatten, pandas arrays kunnen meerdere waarden bevatten.
  • Hoe laadt je bestanden in in jupyter notebook?
    np.loadtxt('file.csv')
    pd.read_csv('file.csv')
  • Hoe laadt je een tabel in in jupyter notebook?
    pd.read_table('file.csv')
  • Hoe wijzig je de kolomnamen van een tabel in jupyter notebook?
    df.columns= ['RAD', 'ANA', 'CBA']
  • Wat zijn de attibuten van een dataframe in pandas?
    1. .shape
    2. .axes
    3. .columns  
    4. .index
  • Waarvoor je gebruik je panda's en noem een voorbeeld?
    gegevens representeren en verwerken in tabellen. Bijv. cijfers per klas
  • Waarvoor je gebruik je scikit-learn en noem een voorbeeld?
    Machinelearning technieken. Bijv. clustering of classification.
  • Waarvoor je gebruik je numpy en noem een voorbeeld?
    Array verwerkingen zoals vermenigvuldigen of gemiddeld
  • Waarvoor gebruik je MatPlotLib en noem een voorbeeld?
    Voor visualisatie: bijvoorbeeld een blokdiagram
  • Wat kan je zeggen over de correlatie bij r = 0,2
    Er is geen correlatie
  • Wat kan je zeggen over de correlatie bij r = -0,8
    Er is een sterke negatieve correlatie
  • Wat kan je zeggen over de correlatie bij r = 1
    Er is volledige positieve correlatie
  • Wat kan je zeggen over de correlatie bij r = 0,3
    Er is een kleine positieve correlatie
  • Lineaire regressie heeft alleen zin als er een bepaalde mate van correlatie is.
  • Wat is de z-waarde?
    Z-waarde is de berekende waarde waarbij het gemiddelde 0 is en de standaarddeviatie 1. Het doel is om meerdere waardes te kunnen vergelijken.
Read the full summary
This summary. +380.000 other summaries. A unique study tool. A rehearsal system for this summary. Studycoaching with videos.