Summary Class notes - Inleiding Big Data

Course
- Inleiding Big Data
- ..
- 2018 - 2019
- LOI Hogeschool
- Informatica
306 Flashcards & Notes
5 Students
  • This summary

  • +380.000 other summaries

  • A unique study tool

  • A rehearsal system for this summary

  • Studycoaching with videos

Remember faster, study better. Scientifically proven.

PREMIUM summaries are quality controlled, selected summaries prepared for you to help you achieve your study goals faster!

Summary - Class notes - Inleiding Big Data

  • 1517785200 Oefenopgaven

  • Noem twee belangrijke redenen die vroeger bestonden om gegevens op één plaats op te slaan.
    - De opslag was erg duur
    - Redundantie (= overtolligheid van gegevens) vermijden en daarmee de integriteit van gegevens garanderen en bestandsvervuiling voorkomen
  • Wat is de taak van een DBMS (Databasemanagementsysteem)
    - Elementaire gegevens opslaan volgens een vooraf gedefinieerde structuur vastleggen
    - Applicatieprogramma's in staat stellen combinaties van deze gegevens te
    benaderen/manipuleren.
  • Wat is een DWH en wat is de functie hiervan
    Een DWH(datawarehouse) bevat een grote verzameling van - eventueel redundante - gegevens die via ETL-processen uit allerlei applicaties binnen de organisatie worden verkregen.
  • Noem twee belangrijke kenmerken van big data
    1. Er worden enorme hoeveelheden gegevens verwerkt.
    2. De gegevens zijn veelsoortig: gestructureerd, maar ook en vooral semi-gestructureerd en ongestructureerd.
  • Hoe luidt de wet van Moore
    De aanwezige capaciteit rekenkracht verdubbelt elke achttien maanden (tot 1970: elke twaalf maanden).
  • Noem de eenheden die telkens een factor duizend hoger zijn en die volgen op kilo-(duizend), mega(miljoen) en gigabytes(miljard)
    TePeExZeYoBro
    - Terrabytes (12 nullen)
    - Petabytes (15 nullen)
    - Exabytes (18 nullen)
    - Zettebytes (21 nullen)
    - Yottabytes (24 nullen)
    - Brontobytes (27 nullen)
  • Wat is het belangrijkste verschil tussen SQL en No SQL
    - SQL moet alvorens gestructureerd worden en accepteert alleen maar de gegevens zoals die alvorens zijn aangeven.
    - NoSQL heeft geen vooraf gedefinieerde structuur en accepteert meer semi-gestructureerde data
  • Beschrijf de essentie van de manier waarop Google het H1N1-virus wist te traceren
    - Google vergelijkt meest gebruikte zoektermen met de door de overheid verstrekte gegevens over verspreiding van seizoensgriep in de 5 voorgaande jaren.
    - Door toepassing van een groot aantal wiskundige modellen ontdekten ze een combinatie van 45 zoektermen waaruit een correlatie bleek tussen de voorspellingen en de landelijke gegevens.
    - Vervolgens was het mogelijk om op basis van gebruikte zoektermen - bijna realtime - aan te geven waar het (nieuwe) griepvirus zich begon te verspreiden.
  • Welke betekenis heeft het fenomeen big data
    - Het vermogen van de samenleving om informatie op nieuwe manieren in te zetten voor het verkrijgen van nuttige inzichten (of waardevolle goederen en diensten).
    - Men keek alleen naar het zoekgedrag van miljoenen mensen
  • Wat is de essentie van de beschreven manier om de prijzen van vliegtuigtickets te voorspellen?
    - Alle ticketverkopen voor een bepaalde route analyseren en onderzoeken hoe de betaalde prijzen afhangen van het aantal dagen voor het vertrek.
    - Het daaruit door Etzioni ontwikkelde trendmodel keek niet naar het "waarom", maar alleen naar het "wat".
    - Het later door hem opgerichte bedrijf Farecast gebruikte voor het doen van voorspellingen 200 miljard records uit de reserveringsdatabase van de luchtvaartbranche en was zodoende in staat consumenten aanzienlijke besparingen aan te bieden
  • Wat is essentieel in de betekenis van gegevens binnen het fenomeen big data
    Het feit dat gegevens - na het gebruik waarvoor ze oorspronkelijk waren bedoeld - worden bewaard, zorgt dat die gegevens in feite veranderen in een ruwe grondstof die bij later gebruik tot economisch voordeel kan leiden
  • Wat is het revolutionaire in de manier waarop in big data naar gegevens wordt gekeken
    Het begrip "causaliteit" wordt in feite losgelaten en vervangen door "correlaties".

    Met andere woorden: niet weten waarom iets gebeurt, maar alleen kijken naar wat er gebeurt en daarbij alle gegevens betrekken, zodat er geen steekproeven meer nodig zijn.
  • In welke verhouding digitaal/analoog worden de gegevens opgeslagen?
    In 2000 was 75 procent van de gegevens analoog opgeslagen (25% digitaal). Inmiddels is dat minder dan 2 procent (98% digitaal).
  • Noem de 3 belangrijkste veranderingen in de manier waarop we (als gevolg van big data) informatie analyseren, die gevolgen zullen hebben voor het organiseren en begrijpen van de samenleving
    - Als we in staat zijn om alle (of: heel veel) gegevens te gebruiken, dan vallen daardoor details op die we anders niet zouden waarnemen.
    - Vanwege de enorme hoeveelheid is het niet zo erg als er af en toe onnauwkeurigheden voorkomen.
    - Causaliteit, dat in feite altijd de basis is van ons denken, maakt in veel gevallen plaats voor het leggen van correlaties.

    Waarom iets gebeurt is niet belangrijk, het feit dat iets gebeurt, daar gaat het om.
  • Wat is of wat was een belangrijke doelstelling van het gebruik van statistiek?
    Met behulp van de kleinst mogelijke hoeveelheid gegevens de meest verstrekkende bevindingen te bevestigen c.q. gevolgen te voorspellen.
  • Wat is een aselecte steekproef en hoe betrouwbaar is die?
    - Aselect betekent het willekeur selecteren van een relatie klein aantal deelnemers aan een steekproef.

    - De praktijk heeft uitgewezen dat die doorgaan relatief betrouwbare resultaten geeft (afwijking in de regel maximaal 3 procent)
  • Noem enkele belangrijke tekortkomingen van de aselecte steekproef tov big data
    - Uit steekproeven verkregen gegevens verliezen hun bruikbaarheid als u dieper wilt graven om in te zoomen op een bepaalde relevante subcategorie

    - Verder is een afwijking van drie procent in veel gevallen niet acceptabel.

    - Een andere bekend verschijnsel is het verloren gaan van details.
  • Noem in één term de relatie tussen big data en de statistische benadering.
    N = alles (waardoor we dieper kunnen indringen in de gegevens dan met steekproeven mogelijk is).
  • Betekent 'N = alles' in het geval van big data dat altijd alle (of: heel erg veel) gegevens gebruikt (moeten) worden? Motiveer uw antwoord.
    Nee, het betekent niet in alle gevallen per se 'heel erg veel', maar wel alles wat verband houdt met een bepaald te onderzoeken aspect.
    NB. Lees ter verduidelijking nog eens het voorbeeld van het manipuleren van wedstrijden van sumoworstelaars in Japan, in de paragraaf 'Van een deel naar alles'.
  • Welk wetenschappelijk gebied is door de komst van big data het meest ingrijpend veranderd?
    De alfawetenschappen, aangezien interpretaties van empirische maatschappelijke gegevens c.q. verklaringen van bepaalde ontwikkelingen door gespecialiseerde enquêtedeskundigen nu veelal vervangen kunnen worden door bigdata-analyses.
  • Wat was in de wereld van small data een natuurlijke en belangrijke impuls?
    Het reduceren van het aantal fouten en het garanderen van een hoge gegevenskwaliteit.
  • Er wordt gesteld dat het accepteren van onnauwkeurigheid (rommeligheid) in big data juist een positief punt is. Vervolgens worden er verschillende soorten rommeligheid genoemd. Welke?
    - Het substantieel verhogen van het aantal meetpunten vergroot het risico dat er ook onjuiste metingen voorkomen.
    - Het combineren van verschillende soorten informatie van verschillende bronnen.
    - De vaak voorkomende inconsequente manier van opslag kan het nodig maken dat gegevens eerst 'gereinigd' moeten worden.
    Als voorbeeld gelden de talloze manieren waarop een bedrijf of een organisatie kan worden benoemd (zoals dat in de praktijk ook vaak gebeurt).
    - Het verwerken c.q. omzetten van gegevens naar andersoortige gegevens. Zie het voorbeeld van het analyseren van gevoelens teneinde recettes van films te voorspellen.
  • Wat is in de wereld van big data een natuurlijke en belangrijke impuls?
    Het toestaan van fouten en onnauwkeurigheden en dit compenseren door een volume dat zodanig groot is dat het voorkomen van een (relatief) klein aantal onnauwkeurigheden geen rol speelt.
  • In de jaren negentig ontwikkelde IBM een vertaalsysteem (Candide) dat van hoge kwaliteit was doordat dit het vertalen van een tekst beschouwde als een groot wiskundig probleem.
    Hoe komt het dat het vertaalsysteem dat Google later ontwikkelde veel beter werkt?
    De reden is niet dat het algoritme slimmer is, maar dat de verzameling gegevens tienduizenden malen zo groot was als die welke Candide gebruikte.
  • Hoe verhoudt de rommeligheid van big data zich tot de traditionele steekproefmethoden?
    De verschijnselen staan recht tegenover elkaar. In de conventionele steekproefmethode ging het juist om het voorkomen van rommeligheid en het streven naar exactheid.
  • Is rommeligheid een voorwaarde voor big data? Motiveer uw antwoord.
    Nee, zeker niet!
    - Rommeligheid is een verschijnsel dat het gevolg is van de onvolmaaktheid van de hulpmiddelen die wij gebruiken voor het verwerken van informatie waarvan de nadelen door de enorme hoeveelheid gegevens grotendeels in het niet vallen.
  • Wat zijn tags?
    Tags zijn kenmerken die ad hoc aan gegevens kunnen worden toegekend als hulpmiddel bij het classificeren en combineren van ongestructureerde gegevens.
  • Noem een belangrijk verschil tussen SQL en NoSQL.
    - SQL (Sequel) is gebaseerd op het werken met rigide en vooraf gedefinieerde recordstructuren
    - NoSQL (No Sequel) maakt geen gebruik van vaste structuren, maar allerlei gegevens van variabele typen en groottes benaderbaar maakt.
  • Wat is Hadoop en hoe werkt het?
    - Hadoop is een open-source systeem dat erg goed is in het verwerken van enorme hoeveelheden gegevens.

    Het gaat ervan uit dat:
    - Gegevens nooit netjes geordend zijn,
    - Dat de hoeveelheid ook te groot is om ooit geordend te kunnen worden en zelfs te groot om verplaatst te kunnen worden.
    - Gegevens worden dan ook geanalyseerd op de plaats waar zij zich bevinden 
    - De uitvoer van Hadoop niet zo exact, maar in heel veel gevallen bruikbaar om enorme tijdwinst te boeken.
  • De rommeligheid van big data kan worden vergeleken met het impressionisme. Leg deze stelling uit.
    Een impressionistisch schilderij ziet er van dichtbij uit als een verzameling rommelige verfstreken die vergelijkbaar is met de rommelige details die binnen big data voorkomen.

    Als u echter een stap achteruit doet, dan ziet u het geheel en dat kan een prachtig schilderij zijn.
    Zo is dat ook met big data: een detail kan nietszeggend en zelfs onjuist zijn, maar het geheel is een heel nuttige en bruikbare afbeelding van de werkelijkheid.
  • Beschrijf de verandering die bij Amazon.com tot een revolutionaire groei leidde, die zo groot was dat men besloot de – zeer gewaardeerde en gerenommeerde – redacteuren te ontslaan?
    - Amazon bewaarde al haar gegevens en beschikte daardoor over een enorme hoeveelheid.
    - Overeenkomsten tussen klanten werden aanvankelijk gevonden door steekproef 
    - Dit leidde tot veelal domme aanbevelingen,
    - Vervolgens koos men voor 'collaboratief filteren' dat verbanden opspoorde tussen verkochte producten, waardoor de omzet explosief steeg.
  • Wat is het verschil tussen een zwakke en een sterke correlatie?
    - Een zwakke correlatie is een relatie tussen twee verschillende gegevens die geen of weinig verband met elkaar hebben,
    - een sterke correlatie is gebaseerd op een nuttige afgeleide.
    (Grofweg: als A vaak samen met B optreedt, kunnen we aan de hand van het voorkomen van B – de afgeleide indicator – voorspellen dat A zal optreden).
  • Wat is de betekenis van big data voor het kiezen van correlaties?
    Hoe meer gegevens, des te meer mogelijkheden er zijn om correlatieanalyses uit te voeren.

    Dit kan tegenwoordig door de beschikbare rekenkracht en de hoeveelheid gegevens
  • Waartoe diende het voorspellingsmodel van Aviva? Wat was het voordeel en het nadeel?
    Ariva ontwikkelde een model dat bepaalde ziektes kon voorspellen obv niet-medische gegevens zoals kredietwaardigheid en maakte een model met leefstijlvariabelen.

    - Het bespaarde veel kosten en was een financieel succes.

    - Mensen kunnen bang worden hun vrijheid kwijt te raken doordat elke gedraging wordt opgeslagen, geanalyseerd en gecombineerd.
  • Wat is de basisgedachte achter voorspellingsanalyses?
    De gedachte is dat een verschijnsel, zoals het kapotgaan van een machine, meestal niet abrupt plaatsvindt, maar altijd een voorgeschiedenis heeft waarin bepaalde patronen voorkomen.
    Door het analyseren van die patronen, kan men abnormaliteiten signaleren en is men in staat om tijdig maatregelen te nemen (bijvoorbeeld voorkomen dat de machine kapotgaat door het tijdig vervangen van een onderdeel).
  • Geven voorspellingsanalyses inzicht in de oorzaak van het probleem?
    Nee, absoluut niet. De correlaties geven alleen inzicht in het wat, niet in het waarom.
  • Wat is het nadeel van causale onderzoeken en correlatieanalyses in de oude smalldatawereld?
    Beide beginnen met het opstellen van een hypothese, die vervolgens wordt geverifieerd (of gefalsificeerd). Het opstellen van een hypothese kan echter worden beïnvloed door vooroordelen en intuïties, wat kan leiden tot onjuiste conclusies. Bovendien waren de benodigde gegevens vaak niet beschikbaar.
  • Noem twee vormen van het menselijk denken in causaliteiten.
    - De snelle manier: het direct trekken van conclusies op basis van causale verbanden die er misschien helemaal niet zijn. 

    - Het diep en methodisch nadenken over kwesties en problemen: de filosofische benadering.

    De mens is a priori geneigd tot de eerste variant; dat is bijna een automatisme.
  • Noem drie in het boek beschreven gevolgen van nieuwe correlatietechnieken die ontstaan zijn door het werken met big data.
    - Er zullen niet-causale, empirische vragen worden beantwoord.
    - U zult verbanden zien die voorheen onbekend waren.
    - Bigdatacorrelaties zullen aantonen dat onze causale intuïtie vaak onjuist is, omdat er geen relatie is tussen het gevolg en de door ons veronderstelde oorzaak.
  • Betekent big data het einde van de traditionele wetenschappelijke theorie? Motiveer uw antwoord.
    Nee, zeker niet.

    Wel is beweerd dat de traditionele werkwijze bij wetenschappelijke ontdekkingen (een hypothese wordt in de praktijk getest met behulp van een model met onderliggende causale verbanden) niet meer bruikbaar zou zijn.

    *Big data is zelf gebaseerd op theorieën uit de statistiek, wiskunde en informatica
  • Wat is Velocity?
    De snelheid waarmee gegevens worden gecreëerd, opgeslagen, geanalyseerd en inzichtelijk gemaakt.
  • Hoeveel zoekopdrachten verwerkt Google wereldwijd per uur?
    Bijna honderdvijftig miljoen queries.
  • Variety heeft betrekking op de verschillende gedaanten waarin gegevens voorkomen. Noem de vier gedaanten en geef van elk twee voorbeelden.
    1) Ongestructureerd → contentmanagementdata, dynamic content, e-mail, chat, social data.
    2) Semigestructureerd → metadatatags (gegevens over gegevens) in documenten, EDI-documenten, XML-objecten.
    3) Gestructureerd → platte bestanden, legacy data, log files, spreadsheets e.d.
    4) Complex gestructureerd → XML-datasets t.b.v. complexe financiële producten.
  • Volume heeft betrekking op de hoeveelheid aanwezige en gecreëerde gegevens. 
    Hoeveel zettabytes zouden er volgens het boek in 2020 worden gecreëerd?
    Vijftig maal het aantal in 2011 = negentig zettabytes.
  • Wat is Veracity?
    Veracity heeft betrekking op de correctheid van gegevens en gebruikte analysemethoden.
    Met andere woorden: big data is geen toverformule! Nog steeds geldt het oude adagium 'garbage in = garbage out', zij het in mindere mate dan in de tijd van small data.
  • Wat is het verschil tussen Variability en Variety?
    - Variety gaat over de verschillende gedaanten van gegevens,
    - Variability betrekking heeft op de verschillende betekenissen die een gegeven kan hebben, afhankelijk van de context (zoals hetzelfde woord in verschillende situaties iets anders kan betekenen).
  • Wat is Visualization?
    De manier waarop de resultaten van de verwerking van de enorme berg gegevens inzichtelijk kunnen worden gemaakt.
  • Waarop heeft Value betrekking?
    Met Value wordt in eerste instantie gedoeld op de financiële voordelen die behaald kunnen worden door bedrijven, organisaties en consumenten.

    (Merk op dat gegevens op zich geen waarde hebben. De waarde zit in de manier waarop analyses uit de gegevens informatie en kennis genereren. Dit is niet anders dan in de tijd van small data, alleen zijn de mogelijkheden nu oneindig veel groter. )
  • Wat was de belangrijkste ontdekking die Matthew Maury deed tijdens zijn actieve periode bij de Amerikaanse marine, bijna tweehonderd jaar geleden?
    Maury vond de zee niet zo onvoorspelbaar als de oudere kapiteins dachten, want hij ontdekte voortdurend patronen die zich herhaalden.
  • Wat was de essentie van de werkwijze van Maury om zeeroutes efficiënt te maken en wat wordt bedoeld met een viraal sociaal netwerk?
    - Tijdens actieve zeevaart zoveel mogelijk informatie verzameld
    - Later alle "oude rommel" (logboeken, kompassen enz) in het magazijn geïnventariseerd
    - Hiermee efficiëntere zeeroutes ontwikkeld, zo ontstond als het ware een speciale groep die informatie uitwisselde. Velen voerden daartoe ook een speciale vlag.
Read the full summary
This summary. +380.000 other summaries. A unique study tool. A rehearsal system for this summary. Studycoaching with videos.

Latest added flashcards

Wat is paradigma?
Big data dwingt ons opnieuw na te denken over basisprincipes. Op de verandering die dit meebrengt, is het begrip  paradigma van toepassing.
Wat is profiling?
Is bedoeld om een beeld te krijgen van (potentiële) klanten.
Daarbij wordt de analysemethode behaviour analytics gebruikt om patronen in het gedrag te ontdekken.
Welke 3 elementen zijn belangrijk voor het beheren van de gegevens in bigdatacovernance
- Verantwoordelijkheid nemen ten aanzien van al het gebruik dat van de gegevens wordt gemaakt
- Maatregelen nemen om diefstal en misbruik van gegevens te voorkomen.
- Al het mogelijke doen om te zorgen dat de gegevens volledig correct zijn.
Welke 2 begrippen worden gebruikt bij de ROI
Return of Data --> een getal dat de waarde van big data in een organisatie weergeeft
CLV (Customer Lifetime Value)  --> de waarde van een klant tijdens zijn levenscyclus bij het bedrijf of organisatie.
Welke 4 soorten rommeligheid zijn er?
-Het verhoging van het aantal meetpunten
-Het combineren van verschillende soorten informatie binnen verschillende bronnen.
-Inconsequente manier van opslag.
-          Het verwerken cq omzetten naar andersoortige gegevens
Welke 3 soorten analyses zijn er
Operationele analyse --> de gebruikelijke managementrapportages over het functioneren van de organisatie
Regressie- correlatie analyse --> het ontdekken van bepaalde trends en het waarderen ervan
Voorspellende analyse --> voorspellen van het gedrag van klanten inzake aankopen
Wat zijn de 7 V's
Veracity --> heeft betrekking op de correctheid van de gegevens (garbage in garbage out)
Variability --> heeft betrekking op de verschillende betekenissen van de gegevens
Variety --> gaat over de verschillende gedaanten van de gegevens
Value -> de financiële voordelen die  behaald kunnen worden door bedrijven.
Visualisation --> de manier waarop de grote berg met resultaten inzichtelijk kunnen worden gemaakt.
Volume --> heeft betrekking op de hoeveelheid aanwezige en gecreëerde gegevens
Wat doet een Big data auditor 
 - Garant staan voor de correctheid en de correcte beveiliging van de gegevens.
- Garanderen dat de gebruikte algoritmen voor analyses volledig correct zijn.
- Ervoor zorgen dat de organisatie de vier ethische richtlijnen volgt
    1. Radical transparancy: 
    2. Simplicity by design: 
    3. Preparation and security: 
    4. Privacy as part of the DNA:
Wat doen algoritmisten?
- Een algoritmist controleert bigdata-analyses en -voorspellingen
- Hij/zij beoordeelt de keus van de gegevensbronnen, de keus van analytische en voorspellende hulpmiddelen (algoritmen en modellen) en de interpretatie van de resultaten.
Welke twee soorten algoritmisten zijn er
Intern --> werken binnen de organisatie en bewaken de big data activiteiten. Houden controle en zijn aanspreekpunt
Extern --> Onpartijdige auditors  die de nauwkeurigheid of geldigheid van big data voorspellingen controleren wanneer de overheid daarom vraagt.