LEERBOEK
Kansrekenen i Statistiek
D-finaliteit economie en wetenschappen
Philip Bogaert
Filip Geeurickx
Marc Muylaert
Roger Van Nieuwenhuyze
Erik Willockx
CARTOONS
Dave Vanroye
Philip Bogaert
Filip Geeurickx
Marc Muylaert
Roger Van Nieuwenhuyze
Erik Willockx
CARTOONS
Dave Vanroye
Dit boek bevat drie hoofdstukken. Elk hoofdstuk is opgebouwd uit verschillende paragrafen met aan het einde een handige samenvatting.
Definities vind je op een rode achtergrond. Eigenschappen vind je op een groene achtergrond. Methodes, rekenregels en formules vind je op een zachtblauwe achtergrond.
Wiskunde is een eeuwenoude wetenschap. De geschiedenis van de wiskunde en de herkomst van bepaalde begrippen worden zachtpaars afgedrukt.
De nummers van de oefeningen hebben een gele kleur. Een sterretje duidt op een extra uitdaging. Maak ook kennis met voorbeeldvragen uit ijkingstoetsen en toelatingsexamens.
ICT is een ideaal hulpmiddel. Bij dit boek hoort een webpagina van GeoGebra, gevuld met heel wat digitale oefeningen en applets. Die vind je terug via www.polpo.be. 1
Achteraan in dit boek vind je de oplossingen
Wat moet je kennen en kunnen ?
Op het einde van elk hoofdstuk zie je een handig overzicht van wat je moet kennen en kunnen
Welkom in de boeiende studie van kansrekenen en statistiek. Bij kansrekenen leggen we de klemtoon op kansbomen en de formule van Laplace die enkel geldt als de uitkomsten bij een kansexperiment even waarschijnlijk zijn. We maken ook kennis met kruistabellen en voorwaardelijke kansen.
Statistiek is de wetenschap van het verzamelen, ordenen en interpreteren van gegevens. In het dagelijkse leven kom je voortdurend data, statistieken en resultaten van statistische gegevens tegen. Met kennis en inzicht in de statistische wetenschap ben je beter in staat om daarmee om te gaan en kun je ze op hun (on)waarde taxeren.
De deductieve of beschrijvende statistiek is het deel van de statistiek dat verzamelde data, afkomstig van een steekproef of van de populatie, probeert samen te vatten in een beknopte weergave om globale patronen en kenmerken te ontdekken.
De inductieve statistiek bestaat enerzijds uit de verklarende statistiek en anderzijds uit de inferentiële statistiek. Verklarende statistiek maakt gebruik van de kansrekening ; inferentiële statistiek probeert algemene uitspraken binnen een zeker betrouwbaarheidsniveau te formuleren over de gehele populatie, op basis van een beperkt aantal gegevens : de steekproef.
Kan kansrekenen je een wereldreis opleveren ? We maken even tijd voor een van de beroemdste problemen uit de kansrekening.
Bij een quizprogramma ben jij de winnaar. Proficiat ! De presentator neemt je mee naar drie deuren. Achter een van die deuren zit een wereldreis. Achter de twee andere bevindt zich niets. Jammer dat je niet weet achter welke deur wat zit. Je kiest, maar voordat jouw deur wordt opengemaakt, komt de presentator eventjes tussen. Hij, die wel weet waar de wereldreis zich bevindt, helpt een beetje (?) door een deur te openen waar niets achter zit. Je zenuwen begeven het bijna als de presentator zegt dat je nu nog van idee mag veranderen. Wat doe je ? Blijf je bij je eerste idee of kies je de andere deur, die nog niet geopend is ?
De mens is al lange tijd gefascineerd door het toeval en probeert onzekere verschijnselen te benaderen met een model. Zo kan niemand voorspellen of het opgooien van een correct muntstuk ‘munt’ zal opleveren. Wel aanvaardt iedereen dat bij veel keren opgooien het aantal keren ‘munt’ de helft van het aantal worpen zal zijn. In gewone taal zeggen we dat de kans om munt te werpen 1 op 2 is.
De bedoeling van kansrekenen is precies dit soort voorspellingen te doen over allerlei ‘experimenten’ waarvan de afloop door het toeval wordt beheerst. We spreken over kansexperimenten.
Als je een zuivere dobbelsteen opgooit, mag je wel verwachten dat hij zal neervallen, maar niet dat bijvoorbeeld ‘drie’ boven zal liggen. Het is onmogelijk de afloop van dit experiment te voorspellen maar we kunnen soms zinnige informatie geven over de afloop van een groot aantal herhaalde experimenten over dit verschijnsel.
– Bij 6000 worpen met een normale dobbelsteen mogen we, ruw geschat, zowat in 1000 gevallen een ‘drie’ verwachten.
– Als we 1300 maal een kaart trekken uit een spel van 52 kaarten, dan zal het aantal getrokken ‘azen’ ongeveer 100 bedragen.
– Uit de statistieken blijkt dat in België 51,35% van de pasgeboren baby’s jongens zijn.
Het is dus duidelijk dat het uitvoeren van herhaalde experimenten ons veel kan leren over verschijnselen die door het toeval beheerst worden. Het is dan wel noodzakelijk een aantal afspraken en begrippen in te voeren.
De dobbelstenen waarmee alles begon
Ridder de Méré, een dobbelaar, schrijft in 1654 een brief met vragen aan Blaise Pascal, de wiskundige en filosoof. “Het paar dobbelstenen dat mij geld in het laatje gebracht had, deed het mij nog sneller weer verliezen”, schreef jonker de Méré. Bij het zoeken naar een antwoord op de puzzel van de Méré begon Pascal de beginselen van kansen waarschijnlijkheidsrekening te bestuderen. Hij besprak de vraagstukken met Pierre de Fermat, jurist en raadsheer bij de rechtbank van Toulouse, maar daarnaast een wiskundige bolleboos. Met die brief begon de geschiedenis van de waarschijnlijkheidsrekening. Ridder de Méré had enige tijd goed geboerd door te wedden op de waarschijnlijkheid dat hij met vier worpen van de dobbelsteen minstens één zes kon krijgen. Hij won meer dan hij verloor. Maar toen hij overging op de weddenschap dat twee dobbelstenen in een reeks van 24 worpen hem op zijn minst één dubbele zes zouden bezorgen, verloor hij meer dan hij won. de Méré berekende dat de kans op een zes bij het werpen van een dobbelsteen 1 6 is, bij vier worpen zou de kans dus 4 6 == 2 3 moeten zijn. Op diezelfde manier redeneerde hij voor twee dobbelstenen. De kans op één dubbele zes bij het werpen van twee dobbelstenen is 1 36 , bij 24 worpen zou de kans dus 24 36 == 2 3 moeten zijn. Dit valse spoor leidt tot de conclusie dat de tweede weddenschap even goed is als de eerste. Maar dat is niet zo, zoals de Méré aan den lijve ondervond.
Bij gebrek aan een methode van kansrekening kan de Méré niets anders dan een heel groot aantal worpen uitvoeren en dan de aantekeningen bekijken. Ook bij de Grieken was het dobbelen een bekend gokspel. De drie broers Zeus, Poseidon en Hades dobbelden om het heelal : Zeus won de hemelen, Poseidon de zeeën en Hades, de verliezer, kreeg de onderwereld.
Het uitvoeren van een experiment geeft aanleiding tot een uitkomst. We noteren de mogelijke uitkomsten door ui , met i ∈ N0 omdat we ons alleen beperken tot kansexperimenten met een eindig aantal uitkomsten.
Bij het gooien van een dobbelsteen kunnen we één, twee, drie, , zes ogen zien verschijnen. We leggen de afloop van dit experiment vast door een van de getallen 1, 2, 3, 4, 5, 6 op te schrijven. We zeggen dat dit de zes mogelijke uitkomsten van het experiment zijn.
De uitkomstenverzameling ( of het universum) U is de verzameling van alle mogelijke uitkomsten van het experiment.
U = { u 1, u 2, , un }
Voorbeelden :
De uitkomstenverzameling bij het experiment ‘gooien met een correcte dobbelsteen’ is :
U = { 1, 2, 3, 4, 5, 6 } ⟹ #U = 6
De uitkomstenverzameling bij het experiment ‘opgooien van een correct muntstuk’ is :
U = { k , m } ⟹ #U = 2
met k : kruis gooien en m : munt gooien
De uitkomstenverzameling bij het experiment ‘gooien met twee correcte dobbelstenen’ is :
U = {( 1, 1); ( 1, 2); ( 2, 1); ; ( 6, 6)} ⟹ #U = 36
Bij het gooien met een correcte dobbelsteen is U = { 1, 2, 3, 4, 5, 6 }.
Veronderstel dat iemand 3 euro krijgt als hij bij zijn worp een even aantal ogen gooit. Hij heeft dan natuurlijk bijzondere belangstelling voor een deelverzameling A = { 2, 4, 6 } van U.
Die deelverzameling A noemen we een gebeurtenis.
– De uitkomsten die een volkomen kwadraat zijn, vormen de deelverzameling B = { 1, 4 } – De uitkomsten die priemgetallen zijn, vormen de deelverzameling C = { 2, 3, 5 }
B en C zijn ook gebeurtenissen van het experiment ‘gooien met een dobbelsteen’. Er zijn bij dit experiment in het totaal 26 = 64 gebeurtenissen. Verklaar dit ! gebeurtenis
Bij het uitvoeren van een kansexperiment met uitkomstenverzameling U is een gebeurtenis een deelverzameling van U.
Notatie : – We stellen een gebeurtenis voor met de hoofdletters A, B, C …
– Voor een gebeurtenis A geldt dus : A ⊂ U.
Beschouw opnieuw de gebeurtenis A = { 2, 4, 6 }
Veronderstel dat je een dobbelsteen opwerpt en als uitkomst 2 bekomt.
Omdat 2 ∈ A zeggen we dat de gebeurtenis A optreedt of dat A gerealiseerd wordt.
Enkele bijzondere gebeurtenissen :
a De zekere gebeurtenis
De uitkomstenverzameling U van een experiment is een deelverzameling van zichzelf. We noemen ze de zekere gebeurtenis.
Je merkt op dat bij het gooien met een dobbelsteen U = { 1, 2, 3, 4, 5, 6 } steeds gerealiseerd wordt. U is dus een zekere gebeurtenis.
De lege verzameling ∅ is een deelverzameling van U. We noemen ze de onmogelijke gebeurtenis
Inderdaad : wat ook de uitkomst van een experiment is, die uitkomst kan nooit tot ∅ behoren, ∅ kan zich dus onmogelijk voordoen, ∅ wordt nooit gerealiseerd.
Voorbeeld :
Een zeven werpen met een correcte dobbelsteen is een onmogelijke gebeurtenis.
c Elementaire of enkelvoudige gebeurtenis
Een deelverzameling van U die uit één enkele uitkomst bestaat, een singleton van U dus, noemen we een elementaire of enkelvoudige gebeurtenis
Als U = { u 1, u 2, …, un }, dan zijn E1 = { u 1}, E2 = { u 2}, … , En = { un} elementaire gebeurtenissen.
Voorbeeld :
Bij het experiment ‘gooien met een dobbelsteen’ zijn { 1}, { 2}, , { 6} gebeurtenissen die individuele uitkomsten beschrijven, het zijn de 6 elementaire gebeurtenissen van U = { 1, 2, 3, 4, 5, 6 }
d Afgeleide gebeurtenissen
Doorsnede van 2 gebeurtenissen
Beschouw 2 gebeurtenissen A en B van een uitkomstenverzameling U.
A ∩ B = { u ∈ U | u ∈ Aen u ∈ B}
De gebeurtenis A ∩ B doet zich voor enkel en alleen als A en B zich beide voordoen.
Vereniging van 2 gebeurtenissen
A ∪ B = { u ∈ U | u ∈ Aof u ∈ B}
De gebeurtenis A ∪ B treedt op als en slechts als de gebeurtenis A en/of de gebeurtenis B zich voordoet.
Verschil van 2 gebeurtenissen
A \ B = { u ∈ U | u ∈ Aen u / ∈ B}
De gebeurtenis A ⧵ B doet zich voor enkel en alleen als A zich voordoet en B niet.
Tegengestelde of complement van een gebeurtenis
A = { u ∈ U | u / ∈ A}
A doet zich voor enkel en alleen als A zich niet voordoet.
Merk op dat U = ∅ en ∅ = U.
Disjuncte gebeurtenissen
We zeggen dat twee gebeurtenissen elkaar uitsluiten of disjunct zijn als hun doorsnede de onmogelijke gebeurtenis is.
A en B zijn disjunct ⟺ A ∩ B = ∅
Twee disjuncte gebeurtenissen kunnen dus nooit tegelijkertijd optreden.
Voorbeeld :
2 verschillende elementaire gebeurtenissen, 2 tegengestelde gebeurtenissen.
Voorbeeld :
Bij het gooien met een dobbelsteen beschouwen we de volgende gebeurtenissen :
A : even aantal ogen A = { 2, 4, 6 }
B : aantal ogen is een kwadraat B = { 1, 4 }
De Deltawerken :
Voordat de overstromingsramp in 1953 plaatsvond, waren de dijken in Nederland op een hoogte dat je zo’n ramp gemiddeld een keer in 300 jaar kon verwachten. Met de afsluiting van de Oosterschelde zijn de Deltawerken voltooid. De dijken zijn nu op deltahoogte. Dat houdt in dat een dijkhoogte is gekozen waarbij een ramp zoals in 1953 gemiddeld één keer in de 10 000 jaar kan voorkomen. Bij de berekening van hoogte van dijken maken ingenieurs gebruik van kansrekening. Hierbij worden kansen gebruikt die gebaseerd zijn op meetgegevens of ervaringen. Zulke kansen heten empirische kansen. Hoe groot schat je de kans dat een ramp als in 1953 volgend jaar plaatsvindt ? En in het jaar 2035 ?
Als bij n experimenten de gebeurtenis A zich n maal voordoet, dan noemen we de relatieve frequentie van A het getal f A = n A n of f A = hetaantalkeerdatdegebeurteniszichvoordoet hetaantalkeerdathetexperimentuitgevoerdwordt
In de beschrijvende statistiek heb je al kennisgemaakt met het begrip relatieve frequentie. We herhalen even met een voorbeeld.
Bij een onderzoek naar het gebruik van internet bij jongeren, werd aan 1200 leerlingen van het vijfde jaar gevraagd hoeveel keer per dag ze iets posten op hun sociale media. De resultaten staan in de volgende frequentietabel.
We kiezen willekeurig een leerling van het vijfde jaar. Omdat 168 leerlingen op 1200 niets posten, zeggen we dat de kans op gebeurtenis A, leerling post 0 keer per dag, gelijk is aan 168 1200 = 0,14.
Notatie : P ( leerling post 0 keer per dag) = 0,14 = 14%
De letter P komt van probabilitas, dit is het Latijnse woord voor ‘kans’.
P ( leerling post maximaal 2 keer per dag) = 840 1200 = 70%
Je ziet dat de kans op een gebeurtenis niets anders is dan de relatieve frequentie van die gebeurtenis.
In het kanshistogram hiernaast staan de kansen die uit de tabel volgen.
De som van alle kansen is 1.
De empirische kans op een gebeurtenis A = P (A) = frequentievanA totalefrequentie
Kansen geef je aan met getallen tussen 0 en 1. Zo ontstaat de kansschaal in de volgende figuur.
KANSSCHAAL
onmogelijk
Het is een jaar lang windstil in Vlaanderen.
Je gooit kruis
bij het tossen met een muntstuk.
Morgen gaat de zon op in Vlaanderen.
posts per dag
Voorbeeld 1 : geldstukken gooien
Annelies gooit 10 keer met een geldstuk. Ze krijgt drie keer munt en zeven keer kruis. “Dat is onmogelijk”, zegt ze, “die munt is niet zuiver”.
Enkele klasgenoten van Annelies hebben elk met een geldstuk gegooid. Ze telde het aantal keren ‘munt’. De resultaten staan in de tabel.
Bereken telkens de relatieve frequentie van de gebeurtenis ‘munt’. Van welk getal zal de relatieve frequentie van de gebeurtenis ‘munt’ op den duur weinig verschillen als nog veel vaker wordt gegooid ?
Bij een kansexperiment kun je de kans schatten door het experiment een groot aantal keren uit te voeren en de relatieve frequentie te berekenen. De ervaring leert dat de relatieve frequentie een steeds betere schatting geeft van de kans naarmate je het experiment vaker uitvoert. Die eigenschap heet de wet van de grote getallen (zie blz. 18)
Zo komt de relatieve frequentie van de gebeurtenis ‘munt’ steeds dichter bij 0,5 te liggen. De kans op munt is gelijk aan 0,5 of ook P( munt) = P( kruis) = 0,5.
Voorbeeld 2 : kaarten trekken
Als je 1300 keer een kaart zou trekken uit een spel van 52 kaarten ( met terugleggen en telkens goed door elkaar schudden), dan zal het aantal getrokken azen ongeveer 100 bedragen. De relatieve frequentie van de gebeurtenis A ‘een aas trekken uit een spel van 52 kaarten’ is dan gelijk aan 100 1300 = 1 13
Dit is wat we bedoelen als we kortweg zeggen : “De kans op een aas is 1 13 ”.
We weten dit ook door de symmetrie ( elke kaart speelt dezelfde rol)
Aangezien 4 van de 52 kaarten azen zijn en er geen enkele reden is om aan te nemen dat bepaalde kaarten meer kans maken om getrokken te worden dan andere, is de kans dat je een aas trekt gelijk aan 4 52 = 1 13
Voorbeeld 3 : gooien met 1 dobbelsteen
Op dezelfde manier weten we dat de kans om met één dobbelsteen een 6 te gooien gelijk is aan 1 6 omdat alle uitkomsten even waarschijnlijk zijn als de dobbelsteen niet vervalst is.
Dit blijkt ook uit een computersimulatie ( zie figuur) van het werpen van 1 dobbelsteen, waarbij eerst voor 60 worpen en daarna voor 8000 worpen telkens de frequentie grafisch geïllustreerd wordt d.m.v. een histogram. De uniforme verdeling ( alle uitkomsten zijn even waarschijnlijk) komt goed naar voren bij een zeer groot aantal worpen.
Voorbeeld 4 : gooien met 2 dobbelstenen
We bekijken nu de computersimulatie van het werpen met 2 dobbelstenen.
Hoeveel verschillende uitkomsten ( voor de som van de ogen) zijn er ?
Niet elk van die uitkomsten is even waarschijnlijk. Welke uitkomst heeft de grootste kans ?
De niet-uniforme verdeling (niet alle uitkomsten zijn even waarschijnlijk) komt goed tot uiting bij een zeer groot aantal worpen. Hoe gaan we de kans op een gebeurtenis berekenen bij een uniforme en een niet-uniforme verdeling ?
Als de uitkomstenverzameling U n elementen telt en alle uitkomsten even waarschijnlijk zijn, dan is de kans op elke uitkomst ui ( elementaire gebeurtenis) gelijk aan 1 n
P ({ u i }) = P ( u i ) = 1 n =⇒
n i = 1 P ( u i ) = 1
Voor een gebeurtenis A met p elementen is de kans gelijk aan p n
Formule van Laplace :
P (A) = p n
P ( A) lees je als : de kans van A of de waarschijnlijkheid van A of de probabiliteit van A. De formule van Laplace wordt vaak anders opgeschreven :
P (A) = p n = aantalvoorAgunstigeuitkomsten aantalmogelijkeuitkomsten = #A #U
Gevolgen : • P( U) = 1 en P( ∅) = 0
• ∀ A ⊂ U : 0 ⩽ P( A) ⩽ 1
Je hebt hier een voorbeeld van een theoretische kansberekening. Een theoretische kans kun je precies berekenen zonder het kansexperiment uit te voeren, statistisch cijfermateriaal te raadplegen of metingen te doen. Het is dan belangrijk een overzicht te hebben van alle mogelijke uitkomsten. Vervolgens zoek je de gunstige uitkomsten en bereken je de kans.
In de praktijk vinden we heel wat gevallen van uniforme kansverdelingen :
– het gooien van een zuivere dobbelsteen ;
– het trekken van een knikker uit een vaas ;
– het opgooien van een zuiver muntstuk ;
– het trekken van de hoofdprijs van een tombola ;
– het bepalen van een nummer in een eerlijk roulettespel ;
– het kiezen van een te controleren exemplaar uit een voorraad van geproduceerde stukken ;
– het aanwijzen van een proefpersoon op een lijst met mogelijke namen ;
– het trekken van een kaart uit een goed geschud spel.
Voorbeeld 1 : dobbelstenen
Bij het gooien met een zuivere dobbelsteen beschouwen we de gebeurtenis A : een aantal ogen gooien dat deelbaar is door 3. Bereken de kans van A.
Oplossing :
We vinden dat A = { 3, 6 } ⟹ # A = 2
We weten dat # U = 6
Omdat het hier gaat om een uniforme kansverdeling kunnen we de formule van Laplace toepassen : P (A) = 2 6 = 1 3
Voorbeeld 2 : twee dobbelstenen
We gooien met twee zuivere dobbelstenen. Beschouw de gebeurtenis A : de som van het aantal ogen op de twee stenen is gelijk aan 6. Bereken de kans van A.
Oplossing :
In dit geval is U = { 1, 2, 3, 4, 5, 6 } × { 1, 2, 3, 4, 5, 6 }
Dus U = {( 1, 1); ( 1, 2); ( 2, 1); ( 2, 2); ; ( 6, 6)} ⟹ # U = 36
We vinden de gebeurtenis A = {( 1, 5); ( 2, 4); ( 3, 3); ( 4, 2); ( 5, 1)} ⟹ # A = 5
Volgens de formule van Laplace is dus : P (A) = 5 36 .
Voorbeeld 3 : knikkers
We trekken blindelings een knikker uit een vaas die 3 rode en 7 witte knikkers bevat. Wat is de kans dat de getrokken knikker rood is ?
Oplossing :
We kunnen veronderstellen dat alle knikkers evenveel kans hebben om getrokken te worden. We hebben hier dus te maken met een uniforme kansverdeling.
Beschouw de gebeurtenis A : een rode knikker trekken ⟹ # A = 3
Uit het gegeven leiden we af dat # U = 10
Volgens de formule van Laplace is P (A) = 3 10 = 30%.
Pierre-Simon Laplace (1749 – 1827)
Laplace wordt geboren op 23 maart 1749 in Beaumont-en-Auge (Normandië) als zoon van een landbouwer. Hij gaat naar school tot zijn zestiende. Al vlug is duidelijk dat wiskunde zijn roeping is en in 1769 wordt hij wiskundeleraar aan de militaire school in Parijs. Daar was in 1784 en 1785 een zekere Napoleon Bonaparte een van zijn leerlingen. Laplace hield zich vooral bezig met de waarschijnlijkheidstheorie en de sterrenkunde.
In 1794 wordt hij professor in de wiskunde aan de École Polytechnique in Parijs, waar de beste studenten worden opgeleid tot ingenieurs en legerofficieren. Als Napoleon in 1799 aan de macht komt, benoemt hij Laplace tot minister van Binnenlandse Zaken. Als dank draagt Laplace zijn meesterwerk Mécanique Céleste (hemelmechanica) aan Napoleon op.
In 1812 publiceert hij zijn Théorie Analytique des probabilités. Dit boek bevat een overzicht van de kansrekening uitgewerkt door zijn voorgangers Fermat, Pascal, Bernoulli, aangevuld met zijn eigen bevindingen.
In verband met kansrekening schreef Laplace het volgende : “De waarschijnlijkheidstheorie is in de grond niets anders dan het gezond verstand gereduceerd tot cijfers. Ze stelt ons in staat precies weer te geven van wat grote genieën instinctief voelen zonder dat ze er rekenschap van geven.”
Laplace overlijdt in Parijs op 5 maart 1827, precies 100 jaar na zijn grote voorganger Newton.
De klassieke kansberekening volgens Laplace laat ons in de steek als de symmetrie verbroken wordt, zoals bij een verzwaarde dobbelsteen. De uitkomsten zijn niet meer even waarschijnlijk. In dit geval is het onmogelijk de kans te kennen zonder te steunen op relatieve frequenties.
Voorbeeld 1 : de vervalste dobbelstenen
Voor een normale dobbelsteen verwachten we intuïtief dat in een lange reeks herhaalde experimenten de relatieve frequentie van ‘zes ogen gooien’ niet veel van 1 6 zal afwijken. Dit werd aangetoond met een computersimulatie op blz. 14. Wat echter te denken van een vervalste dobbelsteen die aan één zijde verzwaard is ?
Om dit geval te onderzoeken zetten we een reeks van 1500 herhaalde experimenten op. Na elk groepje van 30 worpen en later na elk groepje van 150 worpen bepalen we het totale aantal zessen en de relatieve frequentie van de gebeurtenis : een zes gooien.
We stellen de resultaten grafisch voor t.o.v. een rechthoekige basis. Op de x -as duiden we de omvang ( aantal worpen) aan, op de y -as de relatieve frequentie. We stellen vast dat de relatieve frequenties in het begin grote schommelingen ondergaan, maar op het einde niet sterk meer veranderen. We constateren dat op den duur vrij kleine schommelingen optreden rond een getal dat tussen 0,3300 en 0,335 ligt, dus ongeveer gelijk is aan
Dit intuïtief aanvoelen krijgt een ruggensteuntje van de experimentele wet van de grote aantallen die zegt dat bij een toenemend aantal pogingen de relatieve frequentie van een bepaalde gebeurtenis zich meer en meer stabiliseert. We nemen hier de relatieve frequentie over een lange periode als waarde voor de kans, bij gebrek aan symmetrieoverwegingen. We kunnen dus stellen dat de kans op zes ogen in dit geval gelijk is aan 1 3 .
Op dezelfde manier bepalen we de kans op de andere uitkomsten. De kansverdeling voor de vervalste dobbelsteen ziet er als volgt uit :
Hieruit blijkt dat kant 1 van de dobbelsteen lichtjes verzwaard is, waardoor 1 minder vaak voorkomt en de overstaande kant 6 daarentegen meer. We berekenen de kans op gebeurtenis A : ten minste 2 ogen gooien.
Voorbeeld 2 : afgekeurde objecten bij industriële productie
De volgende tabel geeft het aantal verworpen producten aan bij achtereenvolgens 10 reeksen van 25, 10 reeksen van 250 en 10 reeksen van 2500 voorwerpen, alsook de corresponderende relatieve frequenties van afkeuring.
Voor n = 25 varieert het percentage tussen 0 en 16; voor n = 250 tussen 3,2 en 8,8; voor n = 2500 tussen 5,4 en 6,4. We zien duidelijk het effect van het vermeerderen van het aantal waarnemingen in de reeks, namelijk de grotere stabiliteit van de relatieve frequentie. We stellen vast dat de ware waarde van de relatieve frequentie bij 6% gelegen is. We kunnen hieruit besluiten dat de kans op een afgekeurd object 0,06 is.
Besluiten :
1 Experimentele wet van de grote aantallen : De relatieve frequentie van een gebeurtenis bij herhaalde experimenten heeft de neiging steeds minder af te wijken van een zeker reëel getal als het aantal experimenten toeneemt. De relatieve frequentie gaat zich meer en meer stabiliseren.
2 De kans op een gebeurtenis : Bij een experiment met een niet-uniforme kansverdeling is de kans op een gebeurtenis, het reëel getal waarrond de relatieve frequenties van de gebeurtenis gesitueerd zijn bij een zeer groot aantal herhalingen van het experiment. We nemen de relatieve frequentie over een lange periode als waarde voor de kans, bij gebrek aan symmetrieoverwegingen.
3 De kansverdeling :
– De som van alle kansen van alle uitkomsten moet 1 zijn.
– De kans van een gebeurtenis A ≠ ∅ is de som van de kansen van de uitkomsten in A.
4 Enkele gevallen waarbij de kansverdeling met deze methode van de relatieve frequentie bepaald zal worden :
– bij het opgooien van een vervalste dobbelsteen of een verbogen muntstuk ;
– bij kwaliteitscontroles van nieuwe gloeilampen is de kans op een defecte lamp heel wat kleiner dan de kans op een niet-defecte lamp ;
– voor de diensten van het openbaar vervoer is het belangrijk dat de kans dat trein of bus op tijd aankomt veel groter is dan de kans dat ze niet op tijd zijn ;
– bij het opgooien van een duimspijker kan deze op 2 manieren terechtkomen. De kans dat de punt omhoog wijst is niet gelijk aan de kans van het andere geval.
Voorbeeld 1 : kans op een meisje
Veel mensen denken dat bij een zwangerschap de kans op een meisje 0,5 is.
De enige manier om de kans op een meisje te bepalen, is de statistieken raadplegen. Hieruit blijkt dat in Vlaanderen de kans op een meisje ongeveer 0,4887 is en niet 0,5. Er worden immers ongeveer 48,87 % meisjes geboren en 51,13 % jongens.
Voorbeeld 2 : sterftetafels en overlevingskansen
Ten behoeve van het verzekeringswezen hebben ze sterftetabellen i.v.m. overlevingskansen van bepaalde leeftijdsgroepen opgesteld, zoals in gebruik in de actuariële wiskunde. Herleid op 1 miljoen inwoners registreerden ze het aantal overlevenden ( Lx ) en bijgevolg ook het aantal sterfgevallen ( Dx ) per leeftijdscategorie.
De resultaten staan in de tabellen van bijlage 1 en 2 blz. 138 en 139.
a Gebruik de tabel om de kans af te lezen dat een pasgeboren jongen 80 jaar oud zal worden. Zelfde vraag voor een meisje.
Antwoord : –
Voor een jongen is de kans : L80 L0 = 571123
1000000 = 0,571123 ≈ 57,11%
– Voor een meisje is de kans : L80 L0 = 722256 1000000 = 0,722256 ≈ 72,23%
b Wie heeft de grootste kans om 100 jaar te worden : een meisje van 16 of een vrouw van 80 ?
Antwoord :
De vrouw van 80 is al een eind onderweg en heeft dus logisch gezien meer kans om 100 jaar te worden dan een meisje van 16.
Uit de tabel lezen we af dat de kans om 100 jaar te worden voor een meisje van 16 is :
L100
L16 = 34710 996041 = 0,03484796 ≈ 3,48%
Analoog is de kans om 100 jaar te worden voor een vrouw van 80 :
L100
L80 = 34710 722256 = 0,04805775 ≈ 4,81%
c Bereken de kans dat een jongen van 16 de leeftijd van 65 jaar niet bereikt.
Antwoord :
Uit de tabel lezen we af dat de kans om 65 jaar te worden voor een jongen van 16 is :
L65
L16 = 870382
994950 = 0,87479974 ≈ 87,48%
De kans dat een jongen van 16 geen 65 jaar oud wordt, is 1 0,8748 = 0,1252 = 12,52%
Opmerking :
Die overlevingskansen moeten wel gerelativeerd worden, want de levensverwachting verandert in functie van de tijd. Dankzij de vooruitgang van de geneeskunde en de verbetering van de levensomstandigheden, is de levensverwachting in België tijdens de twintigste eeuw met meer dan 40 % toegenomen. Ook nu weten we niet precies hoe de sterftetafels er binnen 50 of 100 jaar zullen uitzien.
Verder gaan die overlevingskansen over ‘gemiddelde Belgen’. Extra informatie kan de kansen sterk veranderen : weet je bijvoorbeeld dat de betrokkene rookt, dan zakt zijn of haar levensverwachting een heel stuk !
Voorbeeld 1 : kinderen en kansen
In een gezin worden twee kinderen geboren. Neem aan dat bij elke geboorte de kans op een jongen gelijk is aan 0,5113 en de kans op een meisje 0,4887.
Bereken nu de kans :
a dat het eerste kind een jongen en het tweede kind een meisje is. b dat het kinderen van hetzelfde geslacht zijn.
Antwoord :
De kansboom bij deze opgave ziet er als volgt uit :
1e kind
0,5113 jongen
0,4887
2e kind
0,5113
0,4887
jongen meisje meisje
0,5113
0,4887
a De kans dat het eerste kind een jongen is en het tweede een meisje :
0,5113 0,4887 = 0,2499 ≈ 24,99%
b De kans dat het twee jongens zijn : 0,5113 0,5113 = 0,26142769 ≈ 26,14%
De kans dat het twee meisjes zijn : 0,4887 0,4887 = 0,23882769 ≈ 23,88%
jongen meisje
De kans op twee kinderen van hetzelfde geslacht : 0,26142769 + 0,23882769 = 0,5002554 ≈ 50,03%
Uit deze opgave onthouden we volgende regels :
1 De som van de kansen bij de takken die uit eenzelfde vertakkingspunt vertrekken, is altijd gelijk aan 1.
2 Wanneer we in een kansboom verdergaan langs een bepaalde tak, moeten we de kansen van de deeltakken vermenigvuldigen.
3 Wanneer verschillende takken goed zijn, moeten we de kansen van die takken optellen.
Taak : bereken de gevraagde kansen opnieuw als je aanneemt dat de kans op een jongen gelijk is aan de kans op een meisje. Vergelijk je antwoorden met de vorige.
Voorbeeld 2 : knikkers
In een bak zitten drie witte, vier zwarte en drie rode knikkers.
We nemen lukraak een eerste knikker, leggen hem niet terug en nemen dan lukraak een tweede knikker.
Bereken de kans dat de tweede getrokken knikker rood is.
Antwoord :
De kansboom ziet er als volgt uit : eerste knikker tweede knikker
De
Is dit toevallig ?
Bereken bijvoorbeeld de kans dat de derde knikker een rode is (als de eerste twee knikkers niet worden teruggelegd ) en vergelijk met de kans dat de eerste knikker een rode is, namelijk 3 10
Voorbeeld 3 : schaken
Annelies en Bert schaken 18 maal tegen elkaar. Daarvan wint
Annelies 9 partijen, Bert wint er 6 en drie spelletjes eindigen met remise. Ze spelen nu nog driemaal tegen elkaar.
Bereken telkens de kans van de volgende gebeurtenissen.
a De drie partijen worden gewonnen door Annelies.
b Twee partijen eindigen op remise.
c Bert wint minstens één keer.
Antwoord :
We beschouwen de volgende gebeurtenissen elk met hun empirische kans, afgeleid uit hun relatieve frequentie.
c De kans dat Bert minstens 1 partij wint = 1 de kans dat Bert geen enkele partij wint (complementregel).
De kans dat Bert een partij niet wint is 2 3 . Hieruit volgt dat de kans dat Bert geen enkel van de 3 spellen wint
Voorbeeld 4 : trekkingen met terugleggen
In een vaas zitten 4 gele en 2 rode knikkers. We trekken 3 knikkers met terugleggen.
Bereken de kans op precies 1 rode knikker.
In dit geval gaat het om een samengesteld experiment, waarbij de drie deelexperimenten onafhankelijk zijn, omdat een getrokken knikker teruggelegd wordt. P(
In een vaas zitten 4 gele en 2 rode knikkers. We trekken 3 knikkers zonder terugleggen. Bereken de kans op precies 1 rode knikker.
Oplossing :
P( 1 rode knikker) = P( GGR) + P( GRG) + P( RGG) = 1 5 + 1 5 + 1 5 = 3 5 = 60%
In dit geval gaat het om een samengesteld experiment, waarbij de drie deelexperimenten afhankelijk zijn.
Na het trekken van de eerste knikker blijven er nog 5 knikkers over.
Voorbeeld 6 : lotto
Bij de lotto krijg je 6 getallen van 1 tot 45. Onder het toeziend oog van een deurwaarder en televisiekijkers rollen er dan op de eerstvolgende woensdag of zaterdag zes balletjes uit een doorzichtige ‘trommel’ waarin 45 genummerde balletjes aan het dansen waren.
Bereken de kans om 6 getallen juist te hebben.
Oplossing :
Let op : de volgorde van de zes getallen is van geen tel. Er is dus geen ‘eerste’ aangekruist getal, geen tweede enz. Er zijn gewoon 6 aangekruiste en 39 niet-aangekruiste getallen.
Vul de volgende kansboom verder aan :
GOKVERSLAVING
Het is bij wet verboden aan jongeren onder de 18 om deel te nemen aan kansspelen. Ook het lottospel kan verslavend werken. Een gokverslaafde is eerder geneigd om te gokken en vaker te spelen bij spelen waar de uitslag direct bekend is. Hoe merk je dat het de slechte kant uitgaat ? Als je langer speelt dan je van plan was, als je tegen anderen liegt over je gokgedrag en als je (wanneer je niet gokt) altijd aan gokken denkt. Een gewaarschuwd persoon is er twee waard !
De kans dat het eerste balletje een van de zes aangekruiste getallen draagt, is volgens de regel van Laplace 6 45
Als het eerste balletje een van de zes is, dan zitten er nog 44 balletjes in de trommel waarvan 5 goede.
In het andere geval zitten er ook nog 44 balletjes in, maar de 6 goede zijn er nog allemaal.
Zo vinden we dat de kans om de 6 getallen juist te hebben gelijk is aan 6 45 · 5 44 · 4 43 · 3 42 · 2 41 · 1 40 = 1
8145060 (productregel).
• Je kent de methodes om kansen te berekenen:
1 uniforme kansverdeling
Alle uitkomsten zijn even waarschijnlijk.
Formule van Laplace: P (A) = #A #U = aantalvoorAgunstigeuitkomsten aantalmogelijkeuitkomsten
2 niet-uniforme kansverdeling
De uitkomsten zijn niet meer even waarschijnlijk.
– De kans op een gebeurtenis is het reëel getal waarrond de relatieve frequenties van de gebeurtenis gesitueerd zijn bij een zeer groot aantal herhalingen van het experiment.
– De relatieve frequentie van een gebeurtenis A die zich n A maal voordoet bij n experimenten is
f A = n A n
– Hierbij gelden volgende regels :
• De som van alle kansen van alle uitkomsten moet 1 zijn.
• De kans van een gebeurtenis A ≠ ∅ is de som van de kansen van de uitkomsten in A.
3 kansbomen
Hierbij gelden volgende regels :
– De som van de kansen bij de takken die uit eenzelfde vertakkingspunt vertrekken, is altijd gelijk aan 1.
– Wanneer we in een kansboom verdergaan langs een bepaalde tak, moeten we de kansen van de deeltakken vermenigvuldigen. Dit noemen we de productregel voor kansen. Die regel wordt gebruikt wanneer ‘en’ in de formulering van de boom voorkomt.
– Wanneer verschillende takken goed zijn, moeten we de kansen van die takken optellen. Dit noemen we de somregel. Die regel gebruiken we wanneer ‘of’ in de formulering van de kans voorkomt.
4 complementregel
AlsAen Acomplementairegebeurtenissenzijn,dangeldt:P (A)+ P (A)= 1.
Kruis of munt.
a Geef de uitkomstenverzameling van het experiment ‘opgooien van 3 geldstukken’.
b Geef de volgende gebeurtenissen door opsomming. Maak een boomdiagram en bereken de kans op elke gebeurtenis.
A : ten hoogste tweemaal kruis gooien
B : driemaal hetzelfde resultaat gooien
c Omschrijf de volgende gebeurtenissen met woorden en door opsomming. Bereken daarna de kans op elke gebeurtenis.
A,A ∪ B,A ∩ B,A \ B
Geef de uitkomstenverzameling van het experiment ‘drie knikkers na elkaar trekken uit een bak die drie knikkers met verschillende kleur ( rood, groen, blauw) bevat’ als :
a elke trekking gebeurt met terugleggen ;
b elke trekking gebeurt zonder terugleggen.
Een voorwerp heeft de vorm van een regelmatig achtvlak met zijvlakken a 1, a 2, , a 8.
Aan de gebeurtenis { a 1 }, zijvlak a 1 blijft boven liggen bij het gooien, wordt 0,16 als kans toegekend.
Alle andere elementaire gebeurtenissen { ai } hebben dezelfde kans. Bepaal die kans.
Beschouw het experiment ‘kiezen van een cijfer met behulp van dit rad’. We veronderstellen bovendien dat het rad nooit zal stilstaan op een scheidingslijn.
a Geef de uitkomstenverzameling.
b Bepaal de kans van elke elementaire gebeurtenis. Is de kansverdeling uniform ?
c Bepaal de kans van de gebeurtenis A : het getrokken cijfer is even of deelbaar door 3.
Kun je hier de formule van Laplace toepassen ?
Bij het opgooien van een punaise observeren we de ligging ervan als ze op de tafel neergekomen is. Het blijkt dat de uitkomstenverzameling U = { punt omhoog, punt omlaag }
We werpen de punaise 3000 maal. Bij 1800 worpen valt de punt naar beneden. Welke waarde geef je dan aan de kans op ‘punt omhoog’ en aan de kans op ‘punt omlaag’ ?
We trekken een kaart uit een spel van 52 kaarten. Beschouw de gebeurtenissen A en B.
A : trekken van een hartenkaart
B : trekken van een aas
a Hoe zou je de volgende gebeurtenissen beschrijven ?
A ∪ B,A ∩ B,B \ A, A ∩ B
b Bereken de kans van elke gebeurtenis.
c Toon aan : A ∪ B
In een school bestaat de leerlingenraad uit 15 leerlingen. 10 leerlingen zijn van de derde graad, waarvan 5 jongens en 5 meisjes. 5 leerlingen zijn van de tweede graad, waarvan 3 jongens en 2 meisjes. We kiezen hieruit een voorzitter voor de leerlingenraad.
Wat is de kans dat het een jongen is ?
De kans dat een bepaalde scheikundeproef lukt, is volgens de ervaring 0,32. a Bereken de kans dat de proef vier keer achter elkaar mislukt.
b Bereken de kans dat de proef minstens drie van de vier keer lukt.
c Bereken de kans dat de proef minstens één van de vier keer lukt.
d De scheikundeleraar demonstreert de proef een aantal keren. Hij wil dat de kans dat de proef minstens eenmaal lukt groter is dan 0,96. Zoek met je rekentoestel uit hoeveel keren hij de proef minstens moet doen.
In een urne zitten drie ballen, genummerd met de getallen 1, 2 en 3. Er wordt lukraak een bal uit de urne genomen. Het getal dat op de bal staat, wordt genoteerd en de bal wordt terug in de urne gelegd. Op dezelfde manier wordt een tweede en een derde trekking gedaan.
Als de som van de drie genoteerde getallen 6 is, wat is dan de kans dat de bal met het nummer 2 drie keer werd getrokken ?
De frisdrankautomaat in de refter van onze school is tijdens de afgelopen 12 weken 5 dagen defect geweest. Hoe groot is de kans dat hij de volgende schooldag defect is ( vijfdagenweek)?
In de kruistabel hiernaast zijn van de leerlingen van klas 4E de kenmerken ‘geslacht’ en ‘leeftijd’ verwerkt.
a Bereken P ( leerling is een jongen van 14 jaar)
b Bereken P ( meisje is 16 jaar) = P ( 16 jaar onder de voorwaarde ‘meisje’)
c P ( leerling van 15 jaar is een jongen)
Opmerking :
Kijk goed uit wat de totale frequentie is, want soms moet je je beperken tot een kleinere groep.
Een universitaire afdeling heeft 80 studenten. Van die studenten volgen er 20 logica, 30 volgen psychologie en 40 volgen geen van beide. We kiezen lukraak een student.
a Wat is de kans dat hij enkel psychologie volgt ?
b Wat is de kans dat hij logica of psychologie volgt ?
We gooien met 3 zuivere dobbelstenen.
a Bepaal de kans dat het product van het aantal ogen op de 3 stenen gelijk is aan 12.
b Bepaal de kans dat de som van het aantal ogen op de 3 stenen ten minste gelijk is aan 5.
c Bepaal de kans dat we met de 3 geworpen getallen een rekenkundige rij met verschil 1 kunnen vormen.
Twee koppels gaan samen naar het theater. Ze zetten zich willekeurig op 4 naast elkaar liggende plaatsen. Hoe groot is de kans dat niemand naast z’n partner zit ?
Stel dat we een spelletje darts spelen met een doel zoals in de figuur hiernaast.
Als we een pijltje gooien en de schijf S raken, wat is dan de kans dat we in de roos zitten ?
In een loopwedstrijd met drie deelnemers is de kans dat deelnemer a wint drie keer die van b . De kans dat deelnemer b wint, is twee keer die van c Bepaal de kans op winnen van elk van de deelnemers a , b en c .
Een lifter wil zich van plaats O naar A begeven. Hij doet dit door lukraak een van de drie wegen te nemen die uit O vertrekken. Vanuit de knooppunten B1, B2, B3 kiest hij opnieuw lukraak uit de aangegeven wegen (zie figuur). Wat is de kans dat de lifter in A aankomt ?
In een doos zitten kaartjes waarop getallen van drie cijfers geschreven staan. Voor het eerste cijfer zijn er vier mogelijkheden : 1, 2, 3 of 4. Het aantal kaartjes van elk type is zodanig berekend dat iemand die lukraak een kaartje uit de doos neemt, een kans 0,425 heeft op een getal beginnend met 1, een kans 0,25 op een getal beginnend met 2, een kans 0,20 op een getal beginnend met 3 en een kans 0,125 op een getal beginnend met 4. Bereken de kans om een kaartje te trekken waarop :
a het eerste cijfer even is ;
b het getal kleiner is dan 400.
Jeroen, Lien en Wouter vormen een quizploeg. Om een vraag over sport op te lossen, heeft Jeroen een kans 0,8, Lien een kans 0,7 en Wouter een kans 0,6.
Bereken de kans dat hun ploeg de sportvraag oplost.
Met een verbogen geldstuk is de kans om kruis te gooien gelijk aan 0,3. Met een tweede verbogen geldstuk is de kans om munt te gooien 0,25.
Bereken de kans om tweemaal hetzelfde resultaat te krijgen als elk geldstuk eenmaal opgegooid wordt.
Een vaas bevat 24 blauwe en 16 groene knikkers. Michiel neemt er willekeurig en na elkaar 3 knikkers uit.
Bereken eerst met terugleggen en nadien zonder terugleggen de kans op precies 2 groene knikkers.
Gebruik voor beide gevallen een kansboom.
Een inwoner van stad A trekt elke dag met de wagen naar stad B om zijn dagtaak te vervullen. Daarbij heeft hij de keuze tussen twee wegen (a en b ) die hem ongeveer even snel naar de tussenliggende stad C brengen. Vandaar neemt hij meestal de hoofdweg (d ) naar B. Bij grote drukte kan hij echter ook gebruikmaken van twee alternatieve wegen (c en e ).
a
A C B
b c d e
De keuze van het gevolgde traject hangt voor een deel van de omstandigheden af, maar de ervaring leert dat weg a tweemaal meer wordt benut dan weg b en dat weg d driemaal zo vaak wordt gebruikt als c en e
a Bereken P( a ), P( b ), P( c ), P( d ) en P( e )
b Hoe groot is de kans dat de inwoner van stad A de volgende werkdag het traject ae volgt ? Gebruik hiervoor een kansboom.
In een loterij met 5000 biljetten zijn er 250 prijzen.
Wat is de kans :
a dat we met één biljet prijs hebben ?
b dat we met 2 biljetten twee prijzen hebben ?
c dat we met 2 biljetten minstens één prijs hebben ?
We trekken op aselecte wijze twee kaarten uit een spel van 52 kaarten zonder terugleggen. Bereken de kans :
a dat de tweede getrokken kaart een aas is ; b dat de twee kaarten azen zijn.
Een muntstuk wordt 4 maal geworpen. Bereken de kans van de volgende gebeurtenissen :
a 4 maal kruis gooien ; b meer kruis dan munt gooien.
Er zal een kindje geboren worden en je weet nog niet of het een jongen is of een meisje. Gebruik de sterftetabellen en het feit dat 48,87% van de pasgeborenen meisjes zijn om de kans te bepalen dat het kind de leeftijd van 18 jaar bereikt. Stel een kansboom op.
Een man en een vrouw van 28 jaar huwen. Wat is de kans dat ze hun gouden bruiloft (50 jaar gehuwd) samen zullen vieren ?
Wie heeft de grootste kans om 90 jaar te worden : een meisje van 16 of een man van 75 ? Raadpleeg de sterftetafels om het probleem op te lossen.
Een landbouwer huurt een groot stuk weiland van een oud koppel. De man is 70 jaar en de vrouw is 67 jaar oud.
Hij weet dat de erfgenamen andere plannen hebben met het stuk grond wanneer beide eigenaars sterven. Wat is de kans dat hij het stuk weiland nog 15 jaar kan gebruiken ? Stel een kansboom op met behulp van de sterftetafels.
Het verjaardagsprobleem.
Neem aan dat de verjaardagen op aselecte wijze verdeeld zijn over de 365 dagen van het jaar. Als je te maken hebt met mensen waarvan je de verjaardag niet kent, bereken dan :
a de kans dat een bepaalde persoon vandaag jarig is ; b de kans dat twee bepaalde personen vandaag jarig zijn ; c de kans dat twee bepaalde personen op dezelfde dag jarig zijn ; d de kans dat in een groep van drie personen er minstens twee dezelfde verjaardag hebben ; e de kans dat een bepaalde persoon jarig is op 29 februari.
Vier vrienden komen elke maand samen en ze hebben de lekkere gewoonte om dan telkens pralines te eten. De afspraak is dat er geloot wordt wie de volgende keer voor pralines zorgt. Ze doen hiervoor telkens 4 knikkers (3 witte en 1 zwarte) in een zakje. Wie de zwarte knikker trekt, moet de volgende keer een doos pralines meebrengen. Een jaar lang werkt dit systeem goed tot iemand opmerkt dat het eigenlijk niet eerlijk is ; wie de eerste knikker nam, zou minder kans op de zwarte knikker hebben dan de tweede, die minder dan de derde … Immers, de eerste heeft een kans van een op vier om de zwarte knikker te krijgen, bij de tweede is die kans, indien hij aan beurt komt, een op drie. Wat denk je hiervan ?
Stel het trekken van de knikkers voor in een boom en bereken hiermee de kans dat de eerste die trekt de zwarte neemt, dat de tweede de zwarte neemt
Het probleem van Chevalier de Méré
Toon aan (zoals Pascal deed voor de Méré) dat de kans op minstens 1 zes bij 4 worpen met 1 dobbelsteen groter is dan de kans op minstens 1 dubbele zes bij 24 worpen met 2 dobbelstenen.
Hint : bereken eerst de kansen van de tegengestelde ( complementaire) gebeurtenissen.
Voor kerstavond spreken drie broers af dat elkeen één cadeautje koopt zonder er een naam op te plakken. De cadeaus worden blindelings en aselect aan een broer toegewezen. Wat is de kans dat niemand zijn eigen cadeau krijgt?
Los dit probleem opnieuw op met respectievelijk vier en vijf broers.
Vier worpen met een (onvervalste) dobbelsteen geven a , b , c en d ogen.
a Bereken de kans dat het product a · b · c · d even is.
b Bereken de kans dat de som a + b + c + d even is.
Bereken de kans dat je met één gewone dobbelsteen en een viervlaksdobbelsteen eenzelfde aantal ogen gooit.
Toon gooit met twee identieke dobbelstenen een 3 en een 5. Jonas mag nu gooien en moet proberen om minstens 3 of hoger met de ene dobbelsteen en 5 of hoger met de andere dobbelsteen te gooien.
Hoeveel kans heeft hij?
In het damestennis wordt vaak ‘best of three’ gespeeld. Dat wil zeggen : wie het eerst twee sets wint, wint de partij. Tot nu toe heeft Annelies 60% van alle sets die ze tegen Bea gespeeld heeft, gewonnen.
Hieronder zie je de kansboom waarin is aangegeven hoe de partij kan verlopen.
a Neem de kansboom over en werk hem af.
b Bereken de kans dat Bea de partij wint.
Urne A bevat een wit en een zwart bolletje. Urne B bevat 5 zwarte en 3 witte bolletjes en urne C bevat 4 zwarte en 4 witte bolletjes.
Simon neemt eerst een bolletje uit urne A. Is het bolletje zwart, dan neemt hij daarna een bolletje uit urne B. Is het bolletje uit urne A echter wit, dan neemt hij het tweede bolletje uit urne C.
a Bepaal de kans dat Simon twee witte bolletjes uit de urnen haalt.
b Bepaal de kans dat Simon twee bolletjes van verschillende kleur trekt.
Op een tafel staan twee vazen. In de eerste vaas zitten 4 groene en 2 blauwe ballen, in de tweede vaas één groene en één blauwe bal. We trekken aselect uit de eerste vaas een bal en werpen die in de tweede vaas. Nadien trekken we uit de tweede vaas een bal. Wat is de kans dat de tweede bal blauw is ?
Uit een bak met 3 gele en 7 paarse bollen wordt één bol getrokken. Aan Bram wordt gevraagd welke kleur die bol heeft. Bram liegt echter 2 van de 3 keer. Bram zegt : “De bol is geel”. Bereken de kans dat de bol effectief geel is.
Een muis gaat van haar hol (H) naar de kaas (K) en terug. Wat is de kans dat ze de muizenval (V) niet passeert ?
Je leerkracht wiskunde heeft 2 kinderen. Uit betrouwbare bron weet je dat er zeker een jongen bij is. Je wilt je leerkracht bedanken voor de bijlessen over kansrekening die je kreeg. Terwijl je twee geschenkjes uitzoekt voor de twee kinderen, vraag je je af wat de kans is dat ze allebei een jongen zijn.
In de videogame Nine Lives heeft de kat Felix negen levens. Hij maakt gevaarlijke sprongen die hem een leven kunnen kosten. Bij de n-de sprong belandt Felix met kans 1 n netjes op zijn poten, in het andere geval verliest hij een leven. Wat is de kans dat Felix na 10 sprongen nog niet alle levens opgebruikt heeft ?
2021 eerste ronde, vraag 20 © Vlaamse Wiskunde Olympiade vzw
Aida dobbelt met drie speciale, kubusvormige dobbelstenen. Van twee dobbelstenen is de ontvouwing gegeven. De derde dobbelsteen heeft op elk zijvlak drie of vier ogen en heeft in totaal 20 ogen. Wat is de kans dat de som van de gegooide ogen gelijk is aan 12 ?
49
Kaya en Mina willen door loting bepalen wie het laatste ijsje krijgt. Ze hebben een muntstuk met verschillende kansen op kop of munt bij het tossen. Kaya kiest kop en Mina kiest munt. Hoe kunnen ze toch eerlijk loten ?
(A) Ze tossen drie keer en kiezen de kant die het vaakst voorkomt.
(B) Ze tossen een aantal keer tweemaal na elkaar tot ze twee verschillende kanten krijgen. Ze kiezen de laatste kant.
(C) Ze tossen een aantal keer tweemaal na elkaar tot ze twee dezelfde kanten krijgen. Ze kiezen de laatste kant.
(D) Ze tossen een aantal keer driemaal na elkaar tot ze drie dezelfde kanten krijgen. Ze kiezen de laatste kant.
(E) Het is niet mogelijk om eerlijk te loten met dat oneerlijke muntstuk.
VWO 2021 tweede ronde, vraag 28 © Vlaamse Wiskunde Olympiade vzw
In Arendland bestaat een gsm-nummer uit zes cijfers en in Buizerdland uit zeven cijfers. Elk cijfer van 0 tot en met 9 kan overal voorkomen. Zo is 000000 een gsm-nummer in Arendland en 1234567 een gsm-nummer in Buizerdland. De kans dat een gsm-nummer in Arendland op 1 eindigt is:
(A) 10 keer groter dan de kans dat een gsm-nummer in Buizerdland op 1 eindigt ;
(B) 10 keer kleiner dan de kans dat een gsm-nummer in Buizerdland op 1 eindigt ;
(C) 106 keer groter dan de kans dat een gsm-nummer in Buizerdland op 1 eindigt ;
(D) 106 keer kleiner dan de kans dat een gsm-nummer in Buizerdland op 1 eindigt ;
(E) even groot als de kans dat een gsm-nummer in Buizerdland op 1 eindigt.
VWO 2022 eerste ronde, vraag 24 © Vlaamse Wiskunde Olympiade vzw
In een vaas zitten 10 ballen die genummerd zijn met de getallen 1 tot en met 10. Dennis neemt lukraak drie ballen uit de vaas, in volgorde en zonder terugleggen. Wat is de kans dat het getal op de derde bal het gemiddelde is van de getallen op de eerste twee ballen?
(A) 1 10 (B)
VWO 2023 tweede ronde, vraag 29 © Vlaamse Wiskunde Olympiade vzw
In een doos zitten dubbel zoveel rode ballen als witte ballen. Als we lukraak twee ballen uit de doos nemen, is de kans dat ze een verschillende kleur hebben gelijk aan 7 15 . Hoeveel witte ballen zitten in de doos?
(A) 4
(B) 5 (C) 6
IJkingstoets burgerlijk ingenieur augustus 2022, oefening 29
(D) 7
Je beschikt over een speciale dobbelsteen met 10 (in plaats van 6) vlakken. Op elk vlak staat een verschillend getal
(1, 2, …, 10) en elk vlak heeft evenveel kans om geworpen te worden. Als je 5 keer gooit met die dobbelsteen, wat is dan de kans dat je precies 3 keer een 7 gooit ?
(A) 0,00081
(B) 0,0021
IJkingstoets burgerlijk ingenieur juli 2022, oefening 27
(C) 0,0081
(D) 0,021
We gooien met drie identieke, niet-vervalste kubusvormige dobbelstenen met op elke zijde van de dobbelsteen een verschillend aantal ogen van 1 tot en met 6. Noem N het aantal ogen van de dobbelsteen met het grootste aantal ogen. Wat is de kans dat N gelijk is aan 5 ?
Jef gooit vier keer met een niet-vervalste kubusvormige dobbelsteen. Elke zijde van de dobbelsteen bevat een verschillend aantal ogen van 1 tot en met 6. Wat is de kans dat hij na vier worpen evenveel keer even als oneven ogen gooide ?
ijkingstoets 2022-2023, faculteit ingenieurswetenschappen KU Leuven, oefening 3.23
Bij een dobbelspel wordt 5 keer met een eerlijke dobbelsteen gegooid. Indien op de dobbelsteen 1 of 2 ogen zichtbaar zijn, dan ontvang je hiervoor een negatieve score van –0,25. Indien op de dobbelsteen een 5 of 6 tevoorschijn komt, dan krijg je hiervoor een positieve score van +1,0. Voor een 3 of een 4 krijg je een score van 0,0. De score van het spel is de som van de scores behaald in de 5 worpen samen. Wat is de kans dat je een score hebt die minstens 3 punten bedraagt ? (A)
Oefenmodules ijkingstoets 2022-2023, faculteit ingenieurswetenschappen KU Leuven, oefening 6.15
Voorbeeld 1 :
In een school werd aan de leerlingen gevraagd of ze soms met de fiets naar school komen of niet.
Dit waren de resultaten :
• In de eerste graad (G1) komen 72 leerlingen soms met de fiets (F), 94 nooit (F).
• In de tweede graad (G2) komen 88 leerlingen soms met de fiets, 76 nooit.
• In de derde graad (G3) komen 67 leerlingen soms met de fiets, 103 nooit.
We kunnen die gegevens mooi weergeven in een tabel.
Die voorstelling noemen we een kruistabel
De getallen op de randen noemen we marginale waarden van de tabel.
Zo een tabel is handig bij het berekenen van kansen.
Een leerkracht spreekt willekeurig een leerling van de school aan. Wat is de kans dat :
• die leerling per fiets komt ?
aantal mogelijkheden : 500
aantal gunstige : 227
P(F) = 227
500 = 45,4%
• die leerling een leerling uit de tweede graad is ?
aantal mogelijkheden : 500
aantal gunstige : 164
P(G2) = 164
500 = 32,8%
• die leerling een leerling uit de derde graad is die nooit met de fiets komt ?
aantal mogelijkheden : 500
aantal gunstige : 103
P(G3
∩ F)= 103
500 = 20,6%
Voorbeeld 2 :
Bij een nachtelijk bosspel krijgen de deelnemers drie attributen. Elke deelnemer krijgt een kompas (K), een stafkaart (S) of gps (G) en een zaklamp (Z) of walkietalkie (W).
De verdeling van de attributen vind je in volgende tabel.
Een wandelaar in het bos komt een deelnemer van het bosspel tegen. Wat is de kans dat :
• de deelnemer een stafkaart bij zich heeft ?
P(S) = 21 85 = 24,7%
• de deelnemer een zaklamp bij zich heeft ?
P(Z) = 60 85 = 70,6%
• de deelnemer een walkietalkie en gps bij zich heeft ?
P(W ∩ G) = 3 85 = 3,5%
• de deelnemer geen kompas bij zich heeft ?
P (K)= 21 + 16 85 = 37 85 = 43,5%
• de deelnemer een kompas of gps bij zich heeft ?
P(K ∪ G) = 48 + 16 85 = 64 85 = 75,3%
• de deelnemer een zaklamp en walkietalkie bij zich heeft ?
P(Z ∩ W) = 0 85 = 0,0%
• de deelnemer een zaklamp of stafkaart bij zich heeft ?
P(Z ∪ S) = 32 + 15 + 13 + 6 85 = 66 85 = 77,6%
• de deelnemer geen stafkaart maar wel een zaklamp bij zich heeft ?
P (S ∩ Z)= 32 + 13 85 = 45 85 = 52,9%
Voorbeeld 1 :
Van 500 leerlingen uit het laatste jaar van het secundair onderwijs zijn twee zaken geregistreerd : hun geslacht ( J of M) en of ze al dan niet een bril dragen ( B of B)
De resultaten staan in de volgende tabel.
We nemen uit die groep studenten lukraak een persoon.
– We berekenen de kans dat het een meisje is.
P (M)= #M #U = 200 500 = 40%
– We berekenen nu de kans dat het gekozen meisje een bril draagt. Door de extra informatie (een meisje) verandert het aantal gunstige uitkomsten evenals het totale aantal uitkomsten. Er zijn 200 meisjes, waaronder 68 met een bril. De kans dat het lukraak gekozen meisje een bril draagt, is
68 200 = 34%
We noemen die laatste kans een voorwaardelijke kans en noteren die als volgt :
P (B | M)
(Lees : de kans dat een student een bril draagt op voorwaarde dat het om een meisje gaat)
MerkopdatP (B | M)= 68 200 = 68 500 200 500 = P (B ∩ M)
P (M)
Analoogvindje:P (B | J)= 184
300 = P (B ∩ J)
P (J)
Bij het berekenen van een kans waarbij we ons moeten beperken tot een bepaalde groep, deel je door de totale frequentie van die groep. Zo’n kans heet een voorwaardelijke kans.
We kunnen de tabel herschrijven tot een kansentabel.
De kansen in de rand (blauwe vakjes) noemen we de marginale kansen van de kruistabel.
voorwaardelijke kans
Beschouw een kansexperiment met universum U.
A en B zijn gebeurtenissen met P( A) ≠ 0.
De kans op een gebeurtenis B als een gebeurtenis A zich heeft voorgedaan, noemen we een voorwaardelijke kans en noteren we als
P (B | A) metP (B | A)= P (A ∩ B)
P (A)
Opmerking :
Let op: P( B | M) ≠ P( M | B)
P( M | B) betekent immers de kans dat de student een meisje is op voorwaarde dat ze een bril draagt
P (M | B
Voorbeeld 2 :
P
P
∩
) = 68 500 184 500 = 68 184
Een urne bevat 12 identieke balletjes, genummerd van 1 tot 12. We trekken volledig willekeurig een balletje uit de urne en richten onze aandacht op de volgende gebeurtenissen :
B1 : een nummer trekken groter dan 6 ; B1 = { 7, 8, 9, 10, 11, 12 }
B2 : een oneven nummer trekken ; B2 = { 1, 3, 5, 7, 9, 11 }
A : een nummer trekken dat een viervoud is ; A = { 4, 8, 12 }
Aangezien de kansverdeling uniform is, weten we dat :
P (B1 )= 6 12 = 1 2 enP (B2 )= 6 12 = 1 2 enP (A)= 3 12 = 1 4
Wat worden die kanswaarden als de bijkomende inlichting wordt gegeven dat het getrokken nummer een viervoud is ?
• P (B1 | A)= P (B1 ∩ A) P (A) = 2 12 3 12 = 2 3
We kunnen het vorige resultaat gemakkelijk begrijpen : de verzameling telt drie viervouden waarvan er twee groter zijn dan 6.
• P (B2 | A)= P (B2 ∩ A) P (A) =
Voorbeeld 3 :
Op een zomersportkamp kiest elke deelnemer een watersport (surfen (S), zeilen (Z) of waterskiën (W)) en een racketsport (badminton (B), tennis (T) of padel (P)). De aantallen van de gemaakte keuzes staan in de volgende tabel.
Bereken de kans dat een deelnemer:
• badmintont.
P(B) = 55 135 = 40,7%
• niet zeilt.
P (Z)= 68 + 19 135 = 64,4%
• padelt en surft.
P (P ∩ S)= 8 135 = 5,9%
• tennist als je weet dat hij ook waterskiet.
P (T | W)= P (T ∩ W) P (W) = 8 19 = 42,1%
• waterskiet als je weet dat hij ook tennist.
P (W | T)= P (W ∩ T) P (T) = 8 44 = 18,2%
• zeilt of niet padelt.
P (Z ∪ P)= 55 + 44 + 23 135 = 90,4%
• badmintont en niet surft.
P (B ∩ S)= 17 + 6 135 = 17,0%
• niet zeilt als je weet dat hij badmintont.
P (Z | B)= P (Z ∩ B) P (B) = 32 + 6 55 = 69,1%
• padelt als je weet dat hij niet zeilt.
P (P | Z)= P (P ∩ Z) P (Z) = 8 + 5 68 + 19 = 14,9%
• niet surft als je weet dat hij niet tennist.
P (S | T)= P (S
17
Voorbeeld 1 :
In het bergdorp Oetz in het Oostenrijkse Tirol leven gedurende het toeristische hoogseizoen vier keer zoveel toeristen als autochtonen. 60% van de toeristen draagt een folkloristische hoed, typisch voor de streek.
Daarentegen draagt slechts 30% van de plaatselijke bevolking een tirolerhoed. Als je op straat een persoon met een tirolerhoed tegenkomt, wat is dan de kans dat hij een toerist is ? Oplossing :
Antwoord : als je op straat in Oetz een persoon met een tirolerhoed tegenkomt, dan is de kans 8 op 9 dat die persoon een toerist is.
Voorbeeld 2 :
Twee vazen bevatten paarse (P) en oranje (O) bollen. Vaas A bevat 3 paarse en 7 oranje bollen. Vaas B bevat 6 paarse en 4 oranje bollen. Je kiest volledig willekeurig een van de vazen en daarna neem je twee bollen (zonder teruglegging) uit die vaas. Beide bollen blijken paars te zijn (PP). Wat is de kans dat je vaas A gekozen had ?
:
Antwoord : de kans dat je vaas A koos, is 1 op 6.
Voorbeeld 3 : lichaamslengte
In een tennisclub is de lichaamslengte van 15% van de mannen en van 5% van de vrouwen groter dan 185 cm. 60% van de leden zijn mannen. Een lid van de club wordt willekeurig uitgekozen.
Bereken de kans dat het om een vrouw gaat, als we weten dat diegene die gekozen werd meer dan 185 cm meet.
Oplossing :
De kansboom ziet eruit als volgt :
Op dezelfde manier vinden we :
Voorbeeld 4 : een kankertest
Veronderstel dat een test voor kanker de eigenschap heeft dat 90% van de mensen die kanker hebben positief reageren en 5% van de mensen die geen kanker hebben ook positief reageren.
Veronderstel bovendien dat in een bepaald ziekenhuis 1% van de patiënten kanker heeft.
Kies willekeurig een patiënt in dat ziekenhuis en laat hem de test ondergaan.
Als hij positief reageert op de test, wat is dan de kans dat hij kanker heeft ?
Oplossing :
K : een persoon van het ziekenhuis heeft kanker.
K : een persoon van het ziekenhuis heeft geen kanker.
T : een getest persoon van het ziekenhuis reageert positief.
T : een getest persoon van het ziekenhuis reageert niet positief.
We stellen een kansboom van het probleem op.
Uit de boom lezen we af dat de kans dat een getest persoon positief reageert gelijk is aan
De kans dat een persoon kanker heeft en positief reageert op de test is gelijk aan P(T ∩ K) = 0,01 · 0,9
De kans dat iemand kanker heeft als hij positief reageert, is gelijk aan
Dit is een verrassend resultaat.
Enerzijds is de diagnosetest zeer betrouwbaar want in 90% van de gevallen waarin kanker aanwezig is, zou de test dit aan het licht brengen.
Anderzijds zou slechts in 15,4% van de gevallen waarin de test kanker aanwijst, werkelijk kanker aanwezig zijn.
Dit relativeert heel sterk de betekenis van de testuitslag.
Opmerking :
In plaats van een kansboom op te stellen, kunnen we het probleem ook oplossen aan de hand van een kanstabel.
Als voorwaardelijke kansen rechtstreeks bepaald kunnen worden, dan levert de definitie een goed middel om de kans op de doorsnede van 2 gebeurtenissen te bepalen.
UitP (B | A)= P (A ∩ B) P (A) metP (A) = 0volgtimmersdat
Voorbeeld :
In een bak zitten drie witte, vier zwarte en drie rode knikkers. We nemen lukraak een eerste knikker, leggen die niet terug en nemen dan lukraak een tweede knikker. De kansboom van dit experiment ziet er als volgt uit :
Merk op dat in een kansboom vanaf de tweede vertakking altijd voorwaardelijke kansen op de takken staan. De kans van elke uitkomst wordt dan gevonden door toepassing van de productregel op de getallen, vermeld op de ‘boomtakken’.
Opmerkingen :
1 OmdatP (A | B)= P (A ∩ B) P (B) metP (B) = 0,geldtdusookdatP (A ∩ B)= P (B) · P (A | B)
2 De productregel kan ook uitgebreid worden voor 3 of meer gebeurtenissen.
P (A ∩ B ∩ C)= P [(A ∩ B) ∩ C]
= P (A ∩ B) · P (C | A ∩ B)
= P (A) · P (B | A) · P (C | A ∩ B)
Algemeen : P (A1 ∩ A2 ∩ ∩ An )= P (A1 ) P (A2 | A1 ) P (An | A1 ∩ A2 ∩ ∩ An 1 )
Voorbeeld :
We zoeken de kans om met één rooster winnaar van rang 1 (6 nummers juist) te worden bij de lotto.
Li = de i -de getrokken bal is de goede
P (winnaar rang 1)
Voorbeeld 1 : dragen van een bril
We keren terug naar het voorbeeld van blz. 37 : het onderzoek naar het dragen van een bril bij 500 leerlingen van het laatste jaar secundair.
We vinden
=
68 200 = 34%
De twee kansen zijn verschillend van elkaar. De kans op het dragen van een bril wordt blijkbaar gewijzigd als we weten dat de onderzochte proefpersoon een meisje is. We zeggen daarom dat in de groep van 500 leerlingen de gebeurtenissen B en M afhankelijk zijn.
Merk op dat : P(B ∩ M) = 68 500 = 0,136
P(B) = 184 500
P(M) = 200 500
Hieruit volgt dat : P(B) · P(M) = 184 500 · 200 500 = 0,1472
VoordeafhankelijkegebeurtenissenBenMisP(B ∩ M) = P(B) P(M)
Voorbeeld 2 : gooien met dobbelstenen
Josefien gooit met een witte en een zwarte dobbelsteen. We beschouwen de volgende gebeurtenissen : A : een even aantal ogen gooien met de witte dobbelsteen. B : het werpen van 5 of 6 ogen met de zwarte dobbelsteen.
We vinden : P(A) = 18 36 = 1 2 P(A | B)=
=
=
Hieruit blijkt dat het optreden van B geen invloed heeft op de kans van A en is ook het optreden van A zonder invloed op de kans van B. We noemen de gebeurtenissen A en B onafhankelijke gebeurtenissen.
Algemeen :
• IndiengeldtdatP(A) = P(A | B)noemenwedegebeurtenissenAenBonafhankelijk.
HetoptredenvangebeurtenisBheeftgeenenkeleinvloedopdekansvangebeurtenisA.
Volgensdeproductregelgeldt:P(A ∩ B) = P(B) P(A | B)
ZijnAenBonafhankelijk,dangeldt:P(A | B) = P(A),zodatP(A ∩ B) = P(A) · P(B)
Bovendiengeldt:P(B | A) = P(A ∩ B) P(A) = P(A) P(B) P(A) = P(B)
• IndiengeldtdatP(A) = P(A | B)ofP(B) = P(B | A),dannoemenwedegebeurtenissenAenBafhankelijk.
HetoptredenvandegebeurtenisBheeftwelinvloedopdekansvangebeurtenisA.
Indatgevalgeldt:P(A ∩ B) = P(A) P(B)
Gegeven : Voor drie gebeurtenissen A, B, C (schematisch voorgesteld) geldt :
Gevraagd :
1 Bereken : aP (A\ (B ∪ C))
bP A ∩ B ∩ C
cP (B | A)
dP (A ∪ B) ∩ C
2 Welke van volgende uitspraken zijn waar ? Verklaar.
e A en B zijn disjunct
f A en C zijn disjunct
g B en A zijn onafhankelijk
h B en C zijn onafhankelijk
Oplossing :
Stel de kansen visueel voor op het venndiagram.
P(A \ B) = 1 3 1 6 = 1 6
P(B \ A) = 1 2 1 6 = 1 3
aP (A\ (B ∪ C)) = P (A\B) = 1 6
bP A ∩ B ∩ C = P (C) = 1 4
cP (B | A) = P (A ∩ B) P (A) = 1 6 1 3 = 1 2
dP (A ∪ B) ∩ C = P A ∪ B ∪ C = P A ∪ B = 1 P (A ∪ B) = 1 3
eA ∩ B = ∅ =⇒ AenBzijnnietdisjunct
fA ∩ C = ∅ =⇒ AenCzijndisjunct
gP(A ∩ B) = P(A) P(B) = 1 3 1 2 = 1 6 =⇒ AenBzijnonafhankelijk
h P (B ∩ C)= P (∅)= 0
P (B) P (C)= 1 2 1 4 = 1 8 =⇒ BenCzijnnietonafhankelijk A
• Je weet wat een voorwaardelijke kans betekent.
P (B | A)= P (A ∩ B) P (A) alsP (A) = 0
P (A | B)= P (A ∩ B) P (B) alsP (B) = 0
• Je kent de productwet van de kansrekening.
P(A ∩ B) = P(A) P(B | A)
P(A ∩ B ∩ C) = P(A) P(B | A) P(C | A ∩ B)
P(A1 ∩ A2 ∩ ... ∩ An ) = P(A1 ) P(A2 | A1 ) ... P(An | A1 ∩ A2 ∩ ... ∩ An 1 )
• Je kan kansen berekenen met behulp van kansbomen en kruistabellen.
• Je weet wat de betekenis is van marginale kans.
• Je weet wanneer gebeurtenissen afhankelijk of onafhankelijk zijn.
AenBzijnonafhankelijkalsP (A)= P (A | B) ofP (B)= P (B | A).
Indatgevalgeldt:P (A ∩ B)= P (A) · P (B)
AenBzijnafhankelijkalsP (A) = P (A | B) ofP (B) = P (B | A)
Indatgevalgeldt:P (A ∩ B) = P (A) P (B)
De ouders van firma Q mogen voor hun kinderen voor het komend kerstfeestje een geschenk kiezen. De keuze bestaat uit een blokkendoos (BD), een boerderij (BO), een poppenset (PS) of een trein (TR). Al die keuzes bestaan in twee uitvoeringen : in hout (H) of in kunststof (K).
De keuzes zijn als volgt :
Als de kerstman een kind aanspreekt, wat is de kans dat het kind :
a een blokkendoos heeft gekozen ?
b houten speelgoed heeft gekregen ?
c een trein in kunststof heeft gevraagd ?
d geen poppenset heeft gekozen ?
e een boerderij of een trein heeft gekregen ?
f een blokkendoos uit hout of een trein uit hout heeft gevraagd ?
g geen houten speelgoed en geen boerderij heeft gekozen ?
h houten speelgoed of een blokkendoos heeft gekregen ?
Bij een schooluitstap zorgt de school voor een broodje en een drankje voor elk kind. Bij de broodjes kun je kiezen uit een broodje kaas (K), ham (H), tonijn (T) of veggie (V). Bij de drankjes mag elk kind kiezen uit water (W), frisdrank (F) of appelsap (A).
In de volgende tabel heb je een overzicht van de lunchpakketten die worden klaargemaakt.
Als een leraar een leerling aanspreekt, wat is de kans dat die :
a een broodje met kaas in zijn lunchpakket heeft ?
b water als drankje gekozen heeft ?
c een broodje met ham en frisdrank gekozen heeft ?
d geen tonijn gevraagd heeft ?
e appelsap of frisdrank drinkt ?
f water drinkt of een broodje kaas eet ?
g geen veggiebroodje of water gekregen heeft ?
h geen frisdrank in zijn lunchpakket heeft maar wel een broodje met ham ?
Gegeven is de volgende kruistabel :
Gevraagd : Bereken volgende kansen.
a P (R)
Gegeven is de volgende kruistabel:
Gevraagd : Bereken volgende kansen.
In een pretpark wordt op het einde van de achtbaan aan de bezoekers gevraagd hoelang ze moesten aanschuiven voordat ze op de attractie konden. De resultaten worden volgens leeftijd bijgehouden. De antwoorden van vandaag vind je in volgende tabel :
a Als je (vandaag) willekeurig iemand aanspreekt, wat is de kans dat hij meer dan een kwartier heeft moeten aanschuiven ?
b Als je willekeurig iemand aanspreekt, wat is de kans dat die persoon jonger is dan 16 jaar ?
c Je spreekt iemand aan ouder dan 50 jaar. Wat is de kans dat die persoon langer dan een half uur heeft moeten aanschuiven ?
d De persoon die je aanspreekt, moest minder dan een kwartier aanschuiven. Wat is de kans dat hij ouder is dan 16 ?
Tijdens de driedaagse in Parijs mogen de leerlingen van de school zelf kiezen welk museum ze willen bezoeken.
Ze kunnen kiezen uit Musée Rodin, Musée d’Orsay en Centre Pompidou. De verdeling dit jaar is als volgt :
a Na de reis spreek je (willekeurig) een leerling aan. Wat is de kans dat die leerling Musée d’Orsay bezocht ?
b Aan een van de jongens vraag je welk museum hij heeft bezocht. Wat is de kans dat hij het Centre Pompidou niet heeft bezocht ?
c Je spreekt met een leerling die vol enthousiasme bezig is over het bezoek aan het museum van Rodin. Wat is de kans dat het een meisje is ?
Gegeven is de volgende kruistabel :
Vul volgende kruistabel aan en bereken de gevraagde kansen.
11
Vul volgende kruistabel aan en bereken de gevraagde kansen.
Vul telkens de kruistabel in aan de hand van de gegevens.
•
• P (G)= 0,6
• P (K ∩ G)= 0,15
• P (F ∩ L)= P (F)
• P (L ∩ H)= 0,25
•
•
•
•
Aan de leerlingen van het vijfde jaar werd gevraagd of ze het boek (B) of de serie (S) Bridgerton gelezen respectievelijk gezien hadden.
Hun antwoorden schematisch voorgesteld waren :
a Herschik die gegevens in tabelvorm.
b Bepaal P(B | S)enP(S | B).
Bereken :
a P (∅ | A)
b P (A | U)
c P (U | A)
De kans van een gebeurtenis A is 0,6 en de kans van A ∪ B is 0,8.
a Bepaal P(B) als A en B onafhankelijk zijn.
b Bepaal P(B) als A en B disjunct zijn.
d P (A | A)
Aan de leerlingen van de derde graad werd gevraagd of ze lid zijn van een sportclub (S), muziek beoefenen (M) of lid zijn van een jeugdbeweging (J). De resultaten waren :
Bepaal :
a P (S | J)
b P (M | S)
c P (J | M)
d P (J | S ∩ M)
e P (S | M ∩ J)
Juul, Gijs en Staf gaan schieten op de kermis. Zij doen dit al jaren en hebben hun scores heel goed bijgehouden. Uit hun succes tot nu toe leiden ze af dat de kans om raak te schieten respectievelijk 20%, 25% en 35% bedraagt. Elk vuurt eenmaal naar het doel.
a Wat is de kans dat een van hen raak schiet ?
b In dat geval, wat is de kans dat het de slechtste schutter was ?
Urne A bevat 3 zwarte bolletjes en 1 witte, een andere urne B bevat 2 zwarte en 4 witte. We nemen willekeurig een bolletje uit urne A en werpen dit in urne B. We trekken daarna een bolletje uit B en dit blijkt zwart te zijn. Bereken de kans dat het witte bolletje werd verwisseld van vaas.
Op een tafel staan twee vazen. De ene vaas bevat 3 paarse en 5 oranje bollen, de andere vaas 2 paarse en 6 oranje bollen. Je kiest op aselecte wijze een vaas, trekt daaruit een bol en die blijkt paars te zijn. Hoe groot is de kans dat de volgende bol, die je uit dezelfde vaas trekt, ook paars is ?
Op een tafel staan drie vazen. Vaas A bevat 3 paarse en 2 oranje bollen, vaas B 3 paarse en 4 oranje bollen en vaas C 3 paarse en 3 oranje bollen. We trekken op aselecte wijze een bol uit vaas A én een bol uit vaas B en werpen die in vaas C. Nadien trekken we op aselecte wijze een bol uit vaas C en die blijkt paars te zijn.
Wat is de kans dat er zowel uit vaas A als vaas B een paarse bol getrokken was ?
Op een tafel staan drie vazen. Vaas A bevat één paarse en één oranje bol, vaas B bevat twee paarse bollen en vaas C twee oranje bollen. We trekken op aselecte wijze een bol uit vaas A en werpen die in vaas B. Nadien trekken we een bol uit vaas B en werpen die in vaas C. Ten slotte trekken we een bol uit vaas C en die blijkt paars te zijn. Hoe groot is de kans dat de eerste bol die getrokken is uit vaas A oranje was ?
In drie identieke vazen bevinden zich blauwe en groene ballen. Vaas A bevat 24 blauwe en 16 groene ballen, vaas B bevat 32 blauwe en 48 groene ballen en in vaas C bevinden zich 5 blauwe en 15 groene ballen. Een onschuldige hand trekt uit een willekeurige vaas een willekeurige bal. De bal wordt naar een andere plaats gebracht en we stellen vast dat die bal blauw is. Wat is de kans dat die bal uit vaas A komt ?
Bij het verlaten van een feestzaal kun je je laten onderwerpen aan een alcoholtest zodat je kunt nagaan of je mag rijden of niet. De test is echter niet 100% betrouwbaar: ze reageert slechts positief bij 94% van de mensen die te veel gedronken hebben en ze reageert ook bij 8% van de mensen die niet te veel gedronken hebben. Als je weet dat tijdens de avond 40% van de aanwezigen te veel gedronken heeft, bereken dan de kans dat als de test negatief reageert die persoon toch te veel gedronken heeft.
Drie identieke kasten A, B en C hebben elk twee laden. In allebei de laden van A ligt een goudstuk, in allebei de laden van C ligt een zilverstuk. In de ene lade van B ligt een goudstuk en in de andere een zilverstuk. Je opent een lade van een kast en je vindt een goudstuk. Wat is de kans dat je te maken hebt met kast B ?
Op het instrumentenbord van een wagen gaat normaal een rood waarschuwingslampje branden wanneer de oliedruk te laag is. Bij een bepaald model gaat dit lampje, wanneer de oliedruk te laag is, slechts branden in 98% van de gevallen. Anderzijds gaat het in 1% van de gevallen echter ten onrechte (zonder de minste reden) branden. Bovendien is geweten dat er bij dit wagenmodel 4% kans is dat de oliedruk te laag is. Veronderstel dat je op weg bent met zo’n wagen en het waarschuwingslampje gaat branden. Wat is de kans dat de oliedruk werkelijk te laag is ?
Uw buur heeft een nogal verouderd en wispelturig alarmtoestel tegen inbraak. Wanneer er in zijn huis ingebroken wordt, is er 95% kans dat het alarm in werking treedt.
Tijdens de laatste 8 weken is het echter zevenmaal, telkens zonder reden, in werking getreden.
Uit politierapporten weet je dat de kans dat er op een dag in een huis in uw wijk ingebroken wordt, 0,0005 is.
Als het alarmtoestel van uw buur morgen in werking treedt, wat is de kans dat er werkelijk ingebroken wordt ?
In een fabriek worden uitlaten voor auto’s geproduceerd. De ervaring heeft geleerd dat er onder de uitlaten geproduceerd door één productielijn juist 3% niet voldoet aan de gestelde normen. Om die uitlaten te ontdekken wordt de volledige productie onderworpen aan een trekproef.
We weten dat bij die proef 1% uitlaten die aan de normen voldoen toch worden afgekeurd en 2% uitlaten die niet aan de normen voldoen toch worden goedgekeurd.
Een consument heeft een goedgekeurde uitlaat voor zijn wagen. Wat is de kans dat de aangekochte uitlaat niet aan de normen voldoet ?
In een magazijn bevinden zich 4 partijen (A, B, C, D) onderdelen waarvan er respectievelijk 5%, 5%, 8% en 10% defect zijn. De etiketten van de verpakkingen zijn echter verloren geraakt. We kiezen lukraak een van de partijen en nemen hieruit een staal van 10 onderdelen (te beschouwen als aselecte trekkingen met terugleggen, vanwege het grote aantal onderdelen). We stellen vast dat twee daarvan defect zijn. Wat is de kans dat het hier gaat om een partij met 5% defecte onderdelen ?
Vaas A bevat 9 balletjes genummerd van 1 tot en met 9. Vaas B bevat 5 balletjes genummerd van 1 tot en met 5. Er wordt lukraak een balletje getrokken. Bereken de kans dat het balletje uit vaas A komt als het getrokken cijfer even is.
15% van de bevolking van een bepaalde regio in Centraal-Afrika is besmet met het aidsvirus. Een willekeurige persoon uit de regio wordt onderworpen aan een hiv-test. Die test wordt gebruikt om bloed te testen op aanwezigheid van het hiv-virus. In feite detecteert de test antilichamen die worden aangemaakt wanneer het aidsvirus in het bloed aanwezig is. Wanneer er antilichamen in het bloed zitten, is de hiv-test positief met een kans van 0,995 en negatief met een kans van 0,005. Is de persoon niet besmet met het hiv-virus, dan geeft de test toch een positief resultaat in 1% van de gevallen en een negatief (dus correct) resultaat met een kans van 0,99. Hoe groot is de kans dat een persoon daadwerkelijk hiv-besmet is als de test positief uitvalt ?
Hieronder zie je een gedeeltelijk ingevulde kanstabel. De gebeurtenissen B en D zijn onafhankelijk, net als de gebeurtenissen C en E. Onderzoek of de gebeurtenissen A en D ook onafhankelijk zijn.
Voor een groep van 400 personen blijkt iedereen of bloedgroep AB of bloedgroep O te hebben. Van elk van die personen is de resusfactor (Rh+ of Rh–) gekend. Toon op twee manieren aan dat de gebeurtenissen ‘bloedgroep O’ en ‘resusfactor positief’ afhankelijk zijn.
Bij een bepaalde populatie is griep de meest voorkomende ziekte. De kans dat iemand uit die populatie griep heeft is 1%. Mensen met griep hebben 54,5% kans om koorts te hebben. Mensen zonder griep (maar met mogelijk een andere ziekte) hebben 4,5% kans om koorts te hebben. Beschouw een willekeurige persoon uit de populatie. De persoon heeft koorts. Wat is de kans dat de persoon griep heeft?
(A) 1%
(B) 10,9%
(C) 45,5%
Oefenmodules ijkingstoets 2022-2023, faculteit ingenieurswetenschappen KU Leuven, oefening 3.22
(D) 54,5%
Ineenwoonzorgcentrumzijn40%vandebewonersmannelijken60%vrouwelijk.Erbreekteenbesmettingdoor eenvirusuit.Voordevrouwelijkebewonersisdekansopbesmetting
Kansspelen bestaan al duizenden jaren. In de prehistorie werd er al gespeeld en gegokt met een sprongbeen, een voorloper van onze huidige dobbelsteen. In Ur, een stad in het oude Mesopotamië, is een bordspel teruggevonden met dobbelstenen in de vorm van een viervlak. Op Egyptische grafschilderingen uit 3500 voor Christus zijn er mensen te zien die met astralagi of hielbotjes dobbelden. Ook bij de Grieken was het dobbelen een bekend gokspel (de drie broers Zeus, Poseidon en Hades dobbelden zelfs om de heerschappij over het heelal : Zeus won de hemelen, Poseidon de zeeën en Hades, de verliezer, kreeg de onderwereld).
De eerste vraagstukken over telproblemen treffen we aan in India in de 12e eeuw bij Bhaskara II (1114–1185). Toch duurde het tot de 14e eeuw voordat wiskundigen zich echt met gokspelletjes zouden bezighouden. Een eerste belangrijke vraagstuk, het ‘partijenvraagstuk’, vinden we in een Italiaans geschrift van 1380, maar een oplossing kwam er niet. “Twee partijen spelen een balspel waarbij punten gescoord kunnen worden. Ze hebben allebei evenveel kans om een punt te scoren. Er is geen tijdsduur voor het spel vastgelegd en de partij die als eerste 6 punten gescoord heeft, wint de pot van 60 dukaten. Wegens slechte weersomstandigheden moet het spel bij de stand 5–3 gestaakt worden. Er wordt besloten om de pot te verdelen. De vraag is hoe dat moet gebeuren.” Twee Italianen onderzochten dit een eeuw later, maar ze kwamen tot een andere oplossing : wiskundige Luca Pacioli (1445–1517) en zijn collega Girolamo Cardano (1501–1576), die eigenlijk arts was van opleiding. Die laatste was de auteur van het boek over kansspelen Liber de ludo alaeae, en dat was de eerste praktische start voor de kansrekening.
Halfweg de 17e eeuw kreeg de Franse wiskundige Blaise Pascal (1623–1662) het bovenstaande partijenvraagstuk voorgelegd door de Franse edelman en verwoed gokker Chevalier de Méré. Die schotelde hem ook andere kansproblemen voor die hij zelf niet kon oplossen. Pascal stortte zich samen met Pierre de Fermat (1601–1665) op de vraagstukken en rond 1655 waren de meeste ervan opgelost. Noem de twee heren dus gerust de grondleggers van de kansrekening zoals we die tegenwoordig nog steeds beoefenen.
Onder invloed van de handel en de ontdekkingsreizen kwamen tussen de 15e en de 17e eeuw in Italië en in Holland de eerste verzekeringsmaatschappijen op. Er ontstond daarbij behoefte aan werken met kansen om de risico’s op uitbetaling te berekenen. De Nederlandse geleerde Christiaan Huygens (1629–1695) publiceerde in 1657 zijn boek over kansrekening Van rekeningh in Spelen van Geluck Verscheidene problemen over kansspelen werden in deze publicatie opgelost.
Ook de albekende Duitser
Gottfried Wilhelm Leibniz (1646–1716) deed zijn duit in het zakje met zijn boek De arte combinatoria van 1666; daar voerde hij de benaming variatie in. Raadspensionaris van Holland Johan de Witt (1625–1672) paste Huygens’ ideeën toe op het verzekeringswezen. In zijn Waerdije van Lijfrenten naar Proportie van Losrenten uit 1671 berekende hij de sterftekansen die gebruikt werden bij het afsluiten van levensverzekeringen.
De Engelse koopman John Graunt (1620–1674) maakte in 1662 voor het eerst schattingen van dergelijke sterftekansen. Dat was een hele prestatie, want systematisch bevolkingsgegevens bijhouden deden ze toen nog niet. Hij zorgde er ook voor dat de eerste firma’s die levensverzekeringen afsloten, gebruik konden maken van zijn statistieken. Zijn gegevens werden ook gebruikt om lijfrenten te berekenen. We kunnen dus stellen dat de eerste systematische behandeling van de kansrekening dateert uit het midden van de 17e eeuw.
In de 18e eeuw werd de theoretische basis gelegd van deze ontluikende wetenschap door de Zwitserse wiskundige
Jakob Bernoulli (1654–1705) in zijn werk Ars conjectandi Daarin werd voor het eerst gewerkt met kansen tussen 0 en 1.
In dit werk is ook het boek van Huygens opgenomen en aangevuld met onder meer een grondige behandeling van de combinatieleer. Aan Bernoulli hebben we ook de benaming permutatie te danken. Ook de Britse wiskundige Abraham de Moivre (1667–1754) zette de studie van Huygens voort in zijn boek Doctrine of Chances, dat hij publiceerde in 1716.
De kansrekening werd een autonome wetenschap dankzij Gauss (1777–1855) en vooral dankzij Pierre-Simon Laplace (1749–1827) met zijn beroemde werk Théorie analytique des probabilités, dat in 1812 het signaal was voor een buitengewone ontwikkeling van de jonge wetenschap.
In dit boek wordt de kans ingevoerd via de formule die je ook op blz. 15 vindt.
In de 20e eeuw is tegen deze vorm van de definitie gereageerd door terug te grijpen naar het begrip relatieve frequentie, dat in feite ook al Pascal en Fermat had geïnspireerd.
Tegenwoordig wordt algemeen uitgegaan van een axiomatisch systeem dat we danken aan de Russische wiskundige Andrej Kolmogorov (1903–1987) met zijn werk Grundbegriffe der Warscheinlichkeitsrechnung (1933). Sindsdien werd het wiskundige instrument op punt gesteld ten dienste van andere wetenschappen en van de techniek. De bepaling van risico’s speelt tegenwoordig een belangrijke rol voor bedrijven, vooral voor financiële instellingen zoals banken en verzekeringsmaatschappijen.
Wiskunde wordt aan de lopende band gebruikt in het dagelijkse leven. Na het plukken van de appelen in de boomgaard worden die verwerkt. Sommige worden ‘premium’ ingepakt per 6, andere worden in bulk aangeboden en de vruchten die te veel afwijken van het ideale profiel verdwijnen in appelsap. Zullen we aan de hand van gezonde Belgische appelen onze tanden zetten in de basisbegrippen van de statistiek ?
Een frisdrankfabrikant wil zijn machinepark renoveren en doet daarom een test met twee types vulmachines.
Hij laat beide types 40 flessen frisdrank van 1 liter vullen en meet nadien de inhoud van elke fles tot op één milliliter nauwkeurig. De resultaten vind je in de onderstaande grafieken.
Welk type vulmachine is het best ?
– Bij vulmachine A zijn er slechts 6 flessen die 1 liter frisdrank bevatten.
– Bij vulmachine B bevat meer dan de helft van de flessen de gevraagde liter frisdrank.
De fabrikant zou nu van beide reeksen van 40 flessen de gemiddelde inhoud kunnen berekenen.
Voor vulmachine A is dat 993 ml, voor vulmachine B juist 1000 ml of 1 liter. Een gemiddelde berekenen is een manier om een reeks waarnemingen in één getal samen te vatten. We noemen het gemiddelde dan ook een centrummaat omdat ze centraal gelegen is. Ken je nog andere centrummaten ?
Wanneer we de reeksen iets nauwkeuriger bekijken, zien we dat het verschil tussen de hoogste waarde en de laagste waarde bij vulmachine B veel groter is dan bij vulmachine A. Het verschil tussen de hoogste en de laagste waarde noemen we de variatiebreedte. De variatiebreedte is een van de spreidingsmaten die je in de tweede graad al hebt geleerd. Ken je nog andere ?
De laagste waarde bij vulmachine B is wel zeer laag, namelijk 955 ml. Een extreem lage waarde noemen we een uitbijter, een extreem hoge waarde noemen we een uitschieter
De vraag die we ons moeten stellen, is: moeten we rekening houden met die extreme waarden of niet ?
Die waarden beïnvloeden immers het gemiddelde en de variatiebreedte.
De lage waarde zou het resultaat kunnen zijn van een verkeerde meting of van het verkeerd noteren van het waarnemingsresultaat. In een dergelijk geval moet je de uitbijter inderdaad verwijderen. Anderzijds kan die waarneming ook juist zijn en kan die kleine vulinhoud te wijten zijn aan het slecht functioneren van de vulmachine wegens bijvoorbeeld een plaatselijke verstopping. In dat geval moet de waarde opgenomen worden in de statistische verwerking.
Kortom, uitbijters en uitschieters mag je niet zomaar verwijderen uit een reeks waarnemingen zonder verder onderzoek naar het waarom van die extreme waarde.
Toen het gat in de ozonlaag boven de Zuidpool rond 1985 werd ontdekt, bleek dat dit fenomeen al 10 jaar lang trouw opgemeten werd, maar dat die lage ozonconcentraties stelselmatig als foutieve metingen door een statistisch computerprogramma werden verwijderd.
Om zijn appels te kunnen indelen in groot (zwaar) en klein (licht) besluit een fruitboer om de pluk van vandaag van een van zijn bomen te wegen. Er worden 72 appels gewogen, de resultaten (in gram) zijn de volgende :
enkelvoudige aselecte steekproef
Al de appels van één appelboom vormen samen de populatie appels van die boom. Al de appels van alle appelbomen uit de boomgaard samen vormen de populatie appels van de fruitteler. De 72 gewogen appels vormen één steekproef uit die populatie. Omdat we mogen veronderstellen dat de fruitteler totaal willekeurig een appelboom uit de boomgaard heeft gekozen en de gewogen appels totaal willekeurig zijn geplukt, spreken we van een enkelvoudige aselecte steekproef. De 72 metingen van de massa van een appel noteren we als x1, x2, x3, …, x72 en noemen we de waarnemingen. Samen vormen ze de data van de steekproef.
Studietip :
Het is nuttig om de voornaamste begrippen van de statistiek te herhalen.
Een enkelvoudige aselecte steekproef met grootte n is een steekproef van n eenheden uit de populatie die zo gekozen is dat elke andere steekproef van n eenheden uit die populatie evenveel kans heeft om gekozen te worden. We gebruiken voor ‘enkelvoudige aselecte steekproef’ de afkorting EAS.
Je vindt ze terug in VBTL 3/4 STATISTIEK
Om de massa van de appels grafisch voor te stellen, verdelen we de gevonden waarnemingen in klassen. De lichtste appel weegt 132 gram, de zwaarste 355 gram. Als klassenbreedte nemen we 20 gram en als beginklasse [ 120, 140[ . De grenzen van de intervallen noemen we klassengrenzen
Opmerkingen:
– Bij een groot aantal waarnemingen of als precieze gegevens van minder belang zijn, kun je gegevens in klassen indelen. Dat laat je toe waarnemingen te groeperen en geeft ook een beter overzicht.
De klassenbreedte is de afstand tussen de twee grenzen van een klasse. In veel gevallen is de klassenbreedte van alle klassen gelijk, maar dat hoeft niet altijd zo te zijn.
– De beginklasse is de eerste klasse waarbij de frequentie niet nul is.
Frequenties van waarnemingen kun je absoluut of relatief noteren :
• De absolute frequentie is het aantal keer dat een bepaalde waarneming voorkomt.
• De relatieve frequentie is de verhouding van de absolute frequentie tot het totale aantal ( n )
Soms wordt de relatieve frequentie in percentages uitgedrukt.
– Met een frequentietabel geef je een overzicht van de absolute en/of relatieve frequenties.
Om onderscheid te kunnen maken, krijgen de klassen een volgnummer of index i .
Grafisch kun je waarnemingen voorstellen door middel van een histogram. Je start met een klassenindeling op de x -as waarbij elk interval de basis (= de breedte) vormt van een rechthoek. De hoogte (= de lengte) van de rechthoek is zodanig dat de oppervlakte van de rechthoek evenredig is met het aantal waarnemingen in de klasse waarop die rechthoek staat. Zijn alle klassen even breed, dan kun je als hoogte de absolute of relatieve frequentie nemen.
Voorbeeld :
Verbinden we de opeenvolgende middens van de bovenzijden van de rechthoeken van het histogram door middel van lijnstukken, dan ontstaat de frequentiepolygoon
We hebben de gewoonte om aan beide zijden nog een klasse met frequentie 0 toe te voegen, zodat de polygoon begint en eindigt op de x -as. We kunnen ofwel een gebroken lijn, ofwel een vloeiende lijn tekenen. We spreken dan respectievelijk van een frequentiepolygoon of een frequentiekromme.
Soms zijn we niet enkel geïnteresseerd in de mate waarin de waarnemingen in klassen verdeeld zijn, maar willen we ook weten hoe vaak een waarneming ‘groter dan …’ of ‘kleiner dan …’ een bepaalde waarde is.
Hoeveel appels wogen minder dan 200 gram ?
Welk percentage appels woog meer dan 300 gram ?
In dat geval zijn cumulatieve (absolute of relatieve) frequenties handiger.
De grafische voorstelling van cumulatieve frequenties gebeurt meestal met een ogief of sompolygoon. Om een ogief te tekenen, ga je als volgt te werk :
– Start met een klassenindeling op de x -as.
– Zet bij de rechtergrens van elke klasse de cumulatieve (absolute of relatieve) frequentie uit.
Verbind de opeenvolgende punten met lijnstukken.
Bij de linkergrens van de eerste klasse is de cumulatieve frequentie nul.
We brengen de gegevens in het rekenblad van GeoGebra in. Nadien selecteren we de gegevens en klikken we op de werkbalk op het icoontje onderzoek één variabele. Vervolgens kiezen we voor analyseer en dan voor histogram
We krijgen dan het volgende te zien :
Vervolgens klikken we op het kleine icoontje voor opties en vinken we bepaal manueel de klassengrenzen aan. We kiezen dan als start 120 en als breedte 20.
Als je dan ook frequentietabel en frequentiepolygoon aanvinkt, dan krijg je dit scherm :
We krijgen dan volgend histogram :
Om het ogief te krijgen, wordt cumulatief aangevinkt.
Je merkt ook dat de cumulatieve absolute frequenties worden weergegeven in de frequentietabel.
Statistische gegevens worden vaak samengevat in een paar karakteristieke getallen. Je kunt dan data met elkaar vergelijken als ze in dezelfde dimensie staan.
Met centrummaten probeer je het ‘midden’ van een verdeling aan te geven. Een centrummaat is een getal waarrond de waarnemingen zich situeren.
De modus (mo) van een serie waarnemingsgetallen is het getal met de grootste absolute frequentie.
De mediaan (me) is het middelste waarnemingsgetal nadat alle waarnemingsgetallen naar grootte zijn gerangschikt. Bij een even aantal waarnemingen neem je voor de mediaan het gemiddelde van de middelste. 50% van de waarnemingsgetallen is kleiner dan de mediaan, 50% is groter.
mediaan van de getallen die kleiner zijn dan de mediaan, is het eerste kwartiel
Een boxplot is een grafische voorstelling van die gegevens.
Merk op dat je bij de berekening van de kwartielen met ICT resultaten krijgt die soms licht afwijken van elkaar.
b Gemiddelde
Het gemiddelde is de som van alle waarnemingsgetallen, gedeeld door het totale aantal waarnemingen.
Tijdens de Gentse feesten verkopen twee markt- kramers elk 60 T-shirts. De ene verkoopt ze voor € 5 per stuk, bij de andere
betaal je € 10 voor 3 stuks. Op het einde van de dag hebben ze samen € 300 + € 200 = € 500. Gemiddeld verkopen ze De verdwenen 20 euro van onze redactieVBTL
Eigenschappen van het gemiddelde
Voorbeeld 2 :
Ze besluiten de volgende dag samen te werken en de T-shirts te verkopen tegen € 8 voor twee stuks. Aan het eind van de dag zijn alle 120 T-shirts verkocht en de opbrengst blijkt € 480 te zijn. Ze gaan op zoek naar de ontbrekende € 20 en beschuldigen elkaar van diefstal. De volgende dag staan ze weer elk apart aan hun kraam… Wat ging er fout?
Voorbeeld 1 :
Als de gemiddelde massa van een aantal pakjes koffie, gewogen in kg, gelijk is aan 0,254 kg, dan zal de gemiddelde massa van die pakjes koffie gewogen in gram, 254 gram zijn.
M.a.w. we hebben elke waarneming en dus ook het gemiddelde vermenigvuldigd met factor 1000.
De resultaten van een examen aardrijkskunde kunnen zowel op 100 als op 20 gequoteerd worden.
Uit deze tabel blijkt dat als je de waarnemingen deelt door 5, ook het gemiddelde gedeeld wordt door 5.
Als alle waarnemingen xi met een factor a worden vermenigvuldigd, dan wordt het gemiddelde met dezelfde factor vermenigvuldigd.
in symbolen: ax = a x
Als bij alle waarnemingen xi een vaste waarde b wordt opgeteld, dan is het nieuwe gemiddelde gelijk aan het oude gemiddelde vermeerderd met de term b
in symbolen: x + b = x + b
Bewijs : x + b = 1 n n i = 1 ( x i + b )
= 1 n ( x 1 + b + x 2 + b + + x n + b )
= 1 n ( x 1 + x 2 + + x n )+ 1 n ( b + b + b + + b )
n termen
= x + 1 n nb = x + b
Voorbeeld :
Het gemiddelde maandloon in een firma bedraagt 2317 euro.
Omdat de firma het voorbije kwartaal een uitzonderlijke omzet heeft gerealiseerd, krijgt elke werknemer deze maand een bonus van 125 euro.
Bereken het gemiddelde maandloon voor deze maand.
x nieuw =(2317 + 125) euro = 2442euro
Opmerking :
De vorige twee eigenschappen kunnen we symbolisch samenvatten als: ax
Voorbeeld :
Een verzekeringsbureau is van plan de brandverzekeringspremies te verhogen. Elke premie wordt 2% duurder en wordt ook verhoogd met een vast bedrag van 1 euro. Als je weet dat de gemiddelde premie nu 412,5 euro bedraagt, hoeveel bedraagt dan de gemiddelde premie na de tariefverhoging ?
x nieuw =(1,02 · 412,5 + 1) euro = 421,75euro
De som van de afwijkingen van een reeks waarnemingen t.o.v. hun rekenkundig gemiddelde is nul.
in symbolen: n i = 1 ( x i x ) = 0
Bewijs : n i = 1 ( x i x ) = x 1 x + x 2 x + ... + x n x
= ( x 1 + x 2 + + x n ) ( x + x + + x )
n termen
= n x n x
= 0
Opmerking :
Het gemiddelde is het evenwichtspunt van de verdeling : positieve en negatieve afwijkingen t.o.v. het gemiddelde houden elkaar in evenwicht.
Een spreidingsmaat geeft aan of de waarnemingen dicht bij elkaar of juist ver uit elkaar liggen. Het is een maat voor het al dan niet ‘dichtbij of verder weg liggen’ van de waarnemingen t.o.v. de centrummaat.
Spreidingsbreedte (of variatiebreedte)
De spreidingsbreedte is het verschil tussen het grootste en het kleinste waarnemingsgetal.
In het voorbeeld met de appels is de spreidingsbreedte gelijk aan ( 355 – 132) g = 223 g.
(Inter)kwartielafstand
De kwartielafstand is het verschil tussen het derde en het eerste kwartiel.
In het voorbeeld is de kwartielafstand gelijk aan Q3 – Q1 = ( 300 – 242) g = 58 g.
Variantie en standaardafwijking
Om de spreiding van de waarnemingen t.o.v. het gemiddelde te berekenen, zijn er verschillende mogelijkheden. Je zou de gemiddelde som kunnen nemen van alle afwijkingen t.o.v. het gemiddelde, maar je weet dat dit nul is en dus niet bruikbaar.
1 n n i = 1 ( x i x ) = 0
Je zou de gemiddelde som kunnen nemen van de absolute waarden van de afwijkingen t.o.v. het gemiddelde zodat positieve en negatieve waarden elkaar niet langer kunnen neutraliseren. Het werken met een som van absolute waarden is wiskundig echter niet altijd zo eenvoudig bij theoretische berekeningen.
1 n n i = 1 | x i x |
Als alternatief wordt meestal de volgende vorm gebruikt: s 2 = 1 n 1 n i = 1 ( x i x )2
De variantie s 2 van een steekproef wordt gedefinieerd als de som van de kwadratische afwijkingen van de waarnemingen tot het gemiddelde, gedeeld door het aantal waarnemingen min één. We noemen de variantie ook wel de gemiddelde kwadratische afwijking
De standaardafwijking s of standaarddeviatie is de wortel uit de variantie, s = 1 n 1 n i = 1 ( x i x )2 .
In het voorbeeld met de appels is de standaardafwijking s = 42,41 g (berekend via ICT).
De standaardafwijking is de meest gebruikte karakteristiek voor spreiding en wordt meestal samen met het gemiddelde gebruikt om de kenmerkende eigenschappen van een verdeling van gegevens te beschrijven.
De standaardafwijking van een reeks waarnemingen geeft aan in hoeverre die van elkaar en van het gemiddelde verschillen. Hoe groter de standaardafwijking, hoe groter de afwijking van de waarnemingen t.o.v. het gemiddelde.
Opmerking :
Waarom delen door n – 1 en niet door n ? We illustreren dit met een voorbeeld.
Beschouw zes getallen waarvan het gemiddelde gelijk is aan 8.
Verder ken je vijf van de zes getallen, namelijk 2, 5, 6, 8 en 15.
Op basis van die gegevens en het feit dat de som van de afwijkingen van de zes getallen t.o.v. het gemiddelde steeds nul is, kun je het zesde getal bepalen.
( x 8)+(2 8)+(5 8)+(6 8)+(8 8)+(15 8)= 0
⇐⇒
Als het gemiddelde en vijf van de zes getallen gekend zijn, dan ligt het zesde getal onherroepelijk vast.
Algemeen kunnen we stellen dat als je van n getallen het gemiddelde en n –1 getallen kent, het laatste (het n -de) getal te bepalen is. M.a.w. zodra je n –1 getallen gekozen hebt, kun je het laatste getal niet meer kiezen.
Het getal n –1 noemen we het aantal vrijheidsgraden van de variantie of van de standaardafwijking.
Het belang van het aantal vrijheidsgraden komt tot uiting wanneer je bepaalde karakteristieken (parameters) van een verdeling wil gaan schatten. Maar dat valt buiten dit deel van de cursus …
Als je soep maakt en je wilt weten of de smaak goed is, dan neem je er een soeplepel van en je proeft. Op basis van die ene schep trek je de conclusie of de soep te pikant of te flauw is. Je baseert je conclusie voor de hele kom soep (= populatie) op die ene soeplepel (= steekproef). Dat mag je doen op voorwaarde dat je eerst goed geroerd hebt en dat de rest van de soep dan heel waarschijnlijk net zo smaakt als die ene lepel.
Tijdens elke fase van een statistisch onderzoek kunnen moeilijkheden optreden. Omdat elke stap zijn invloed heeft op de volgende, moet je zeer omzichtig te werk gaan. Het belangrijkste probleem bij de organisatie van een steekproef is het waarborgen van de representativiteit. Gebeurt dat niet, dan zullen de verdere resultaten en conclusies van het onderzoek, hoe nauwgezet ook uitgevoerd, weinig betrouwbaar of zelfs misleidend zijn.
Een steekproef is representatief als ze een weerspiegeling is van de populatie, m.a.w. een steekproef is representatief als ze beschouwd kan worden als de ‘populatie in het klein’.
Hoe bekom je een representatieve steekproef ?
Het uitgangspunt voor het realiseren van een representatieve steekproef is dat elk element uit de populatie dezelfde kans moet hebben om in de steekproef opgenomen te worden.
Er bestaan verschillende methodes voor het genereren van een representatieve steekproef. We vermelden er hieronder enkele :
– aselect met randomgetallen – gestratificeerd aselect
– getrapt aselect
– systematisch met aselect begin
Opgelet : je hebt nooit een waterdichte, 100% zekere garantie dat de steekproef ook werkelijk representatief is voor de te onderzoeken variabele.
In tegenstelling tot representatieve steekproeven bestaan er ook niet-representatieve steekproeven. De meest gekende onder die laatste is de zogenaamde convenience sampling. Dat is een techniek van steekproeftrekking waarbij het gemak voor de onderzoeker een grote rol speelt. Voorbeelden hiervan zijn: straatenquêtes, enquêtes bij de receptie van een vakantieverblijf, enquêtes via internet …
Voorbeeld :
In een school met 600 leerlingen wil de directie de mening van de leerlingen kennen over een aantal aanpassingen in het schoolreglement. Ze besluit een steekproef van 40 leerlingen te nemen, die dan samen met de directie mee van gedachten mogen wisselen.
De 600 leerlingen van de school krijgen elk een nummer (van 1 tot 600) en uit die 600 nummers worden er willekeurig 40 uitgeloot. Op die manier krijgen we een gelote steekproef of een aselecte steekproef op basis van randomgetallen.
Algemeen :
Ken aan elk element uit de populatie een getal toe. Selecteer nu de steekproefelementen op basis van volkomen toevallige getallen (random numbers). Op die manier heeft elk element van de populatie evenveel kans om geselecteerd te worden.
Opmerking :
Bij die methode is het mogelijk dat alle leerlingen uit één bepaalde graad komen of dat één bepaalde graad oververtegenwoordigd is.
Voorbeeld :
In de school uit het vorige voorbeeld zitten 270 leerlingen in de eerste graad, 150 leerlingen in de tweede graad en 180 leerlingen in de derde graad. De directeur stelt voor om via een gelote steekproef 18 leerlingen te kiezen uit de eerste graad, via een andere gelote steekproef 10 leerlingen uit de tweede graad en via een derde gelote steekproef 12 leerlingen uit de derde graad. Op die manier is elke graad vertegenwoordigd in dezelfde verhouding als de hele schoolpopulatie.
Algemeen :
Deel de populatie op in een aantal homogene deelgroepen of subpopulaties. Uit elke deelgroep wordt dan een aselecte steekproef genomen met steekproefgroottes in dezelfde verhouding als de onderlinge verhouding van de grootte van de subpopulaties. Op die manier krijg je een gestratificeerde aselecte steekproef. Een voordeel van stratificeren is dat de steekproef nauwkeuriger is.
Voorbeeld :
Om organisatorische redenen en om het lesgebeuren niet te veel te storen, besluit de directie om per graad twee klassen te selecteren. Uit die klassen worden dan respectievelijk de 18 leerlingen van de eerste graad, de 10 leerlingen van de tweede graad en de 12 leerlingen van de derde graad gekozen.
Algemeen :
Net zoals bij de gestratificeerde steekproef delen we de populatie op in een aantal homogene deelgroepen of subpopulaties. Uit elke deelgroep worden dan lukraak enkele kleinere deelpopulaties gekozen waaruit een aselecte steekproef genomen wordt met steekproefgroottes in dezelfde verhouding als de onderlinge verhouding van de grootte van de subpopulaties. Dit noemen we getrapt aselect
Voorbeeld :
Omdat de directeur uit de school niet houdt van al het tijdverlies dat gepaard gaat met het trekken van steekproeven, besluit hij de volgende eenvoudige methode te hanteren. Hij maakt via de computer een lijst van alle 600 leerlingen gesorteerd (en genummerd) volgens leeftijd. Nu kiest hij ergens een willekeurig nummer, bijvoorbeeld 257. De leerlingen die nu in aanmerking komen om geraadpleegd te worden, zijn de nummers:
Algemeen :
Genereer één random getal. De andere steekproefelementen volgen hieruit door met vaste stapgrootte door de hele populatie te lopen.
Bij het uitvoeren van een steekproefonderzoek kunnen een aantal fouten optreden. Die fouten kunnen verschillende oorzaken hebben en opgesplitst worden in twee soorten : de steekproeffout en de niet-steekproeffout.
Steekproeffouten
Steekproeffouten treden op doordat je niet de hele populatie maar slechts een deel ervan bekijkt.
De grootte van de fout is afhankelijk van de grootte van de steekproef en van het homogene karakter van de populatie. Hoe homogener de populatie en hoe groter de steekproef, hoe kleiner de steekproeffout.
De inductieve statistiek houdt via de variabiliteit rekening met dit soort fouten.
Niet-steekproeffouten
Niet-steekproeffouten splitsen op hun beurt op in non-responsfouten en responsfouten.
Non-responsfouten ontstaan doordat mensen niet willen meewerken aan enquêtes.
Voorbeelden van responsfouten zijn: – codeerfouten : dat zijn fouten in de gegevensverwerking zoals tikfouten (dit zijn dus fouten gemaakt door de onderzoeker);
– interviewfouten : die ontstaan wanneer er een slechte communicatie is tussen de interviewer en de geïnterviewde. De een begrijpt de vraag slecht of de ander interpreteert het antwoord verkeerd ; – respondentfouten : die ontstaan wanneer de geïnterviewde foutieve of onware antwoorden geeft.
Thomas wil de elasticiteit van een botsballetje onderzoeken en besluit om een botsballetje 70 keer van op een meter hoogte te laten vallen. Hierbij meet hij op een centimeter nauwkeurig tot op welke hoogte het balletje telkens terugbotst.
Zijn metingen vind je in volgende tabel :
Wanneer hij die waarden uitzet in een histogram, vindt hij volgend resultaat :
Op de drie waarnemingen uiterst links na, vindt hij een min of meer symmetrisch interval rond de waarde 80. Die drie waarnemingen die blijkbaar sterk afwijken van de rest noemen we uitschieters. Omdat het uitschieters zijn naar beneden toe, worden ze ook wel uitbijters genoemd.
We bekijken de gegevens nogmaals in een ander diagram waarbij de gegevens chronologisch zijn voorgesteld :
Bij de berekening van het gemiddelde vindt Thomas de waarde 78,99 cm en een standaardafwijking van 5,9 cm.
Laat hij echter de drie uitbijters achterwege in zijn berekeningen, dan vindt hij een gemiddelde waarde van 79,99 cm en een kleinere standaardafwijking van 3,6 cm.
Hij vraagt zich af wat hij moet doen. Mag hij die drie uitschieters zomaar verwijderen uit zijn reeks gegevens of niet ?
Uitschieters en uitbijters mogen nooit zomaar uit een reeks waarnemingen worden verwijderd. Alleen wanneer je met zekerheid weet dat ze te wijten zijn aan codeerfouten (bv. tikfouten) of aan meetfouten mag je ze uit de dataset verwijderen.
Bij een grondige controle van zijn experiment merkt Thomas dat de ondergrond waarop hij het balletje liet botsen op een bepaalde plaats een oneffenheid vertoont. Doordat de botsbal op die plaats terechtkwam, was de weerbots opvallend minder. Hij besluit dan ook dat die waarnemingen te wijten zijn aan een meetfout en hij verwijdert ze uit zijn dataset.
Taak : we merken op dat de uitschieters invloed hebben op het gemiddelde en de standaardafwijking.
Ga na wat de invloed is van de uitschieters bij de mediaan.
Voorbeeld:
Een farmaceutisch bedrijf wil een nieuw medicijn testen en doet daarvoor een beroep op een groep proefpersonen : mannen en vrouwen tussen de 20 en 60 jaar. De proefpersonen zullen opgedeeld worden in twee groepen. De ene groep (groep A) krijgt het nieuw te testen medicijn toegediend, de andere groep (groep B) gewoon een placebo. De techniek waarin proefpersonen op basis van toeval worden ingedeeld in verschillende groepen, noemen we randomisatie.
Situatie 1: simpele randomisatie
Deze situatie komt overeen met het opgooien van een muntstuk. In praktijk genereert de computer willekeurig een getal tussen 0 en 10. Bij 5 of lager wordt de proefpersoon ingedeeld in groep A, bij een getal hoger dan 5 bij groep B.
Bij dit systeem van randomiseren kan het gebeuren dat de ene groep opvallend groter is dan de andere, daar waar we liever twee even grote groepen nastreven.
Situatie 2 : blokrandomisatie
Om het nadeel van ongelijke groepen te vermijden, kun je randomiseren in blokken. Een blok bestaat uit een zekere grootte, bijvoorbeeld 10 personen. In elk blok komen evenveel A’tjes als B’tjes voor. De proefpersonen krijgen al naargelang ze zich aanmelden de op voorhand vastgelegde groep toebedeeld.
Voorbeeld:
eerste 10 proefpersonen
volgende 10 proefpersonen
volgende 10 proefpersonen
volgende 10 proefpersonen
randomisatie
ABAABBBABA
BAAABBBAAB
BABAABBABA
AAABBAABBB
Situatie 3 : gestratificeerde blokrandomisatie
Nu kan het nog steeds gebeuren dat in beide groepen mannen en vrouwen en/of de verschillende leeftijdsgroepen niet evenredig verdeeld zijn. Dit lossen we op door op voorhand verschillende lijstjes te maken. Al naargelang de personen zich aanmelden en al naargelang de doelgroep waartoe zij behoren, worden ze in de aangewezen proefgroep ingedeeld.
Voorbeeld:
proefpersoon
lijst 1 man, 20-30 jaar
lijst 2 man, 31-40 jaar
lijst 3 man, 41-50 jaar
lijst 4 man, 51-60 jaar
lijst 5 vrouw, 20-30 jaar
lijst 6 vrouw, 31-40 jaar
lijst 7 vrouw, 41-50 jaar
lijst 8 vrouw, 51-60 jaar
randomisatie
AABABBBAAB
BAABBBAAAB
AABBAABBBA
BABABBBAAA
BBABBAAAAB
AAABAABBBB
BAABBAABBA
ABBABAABBA
Inleidende voorbeelden : – Miel wil als voetballer goed presteren. Daarom gaat hij alle dagen een aantal kilometer lopen.
De voetbalploeg van Miel werd op het einde van het seizoen dan ook kampioen.
– Mats verzorgt dit jaar groenten in een serre. Hij is zijn planten een aantal dagen vergeten water te geven en dit bij hoge temperaturen. Zijn planten zijn allemaal verdord.
Bij het voorbeeld van Miel is er een samenhang (of correlatie of verband) tussen de opgedreven trainingen van Miel en het kampioen spelen, maar dit is niet de oorzaak van het feit dat zijn ploeg kampioen speelt. Kampioen spelen hangt immers niet alleen van Miel af.
In het voorbeeld van Mats is het gedrag van Mats rechtstreeks de oorzaak van wat er met de planten gebeurt. Hier spreken we van een causaal verband (of causaliteit).
causaliteit
Causaliteit is een principe binnen de statistiek waarbij binnen twee variabelen een rechtstreeks verband is. Een verandering van de ene variabele veroorzaakt een verandering van de andere.
Nog enkele voorbeelden:
–
Er is een verband tussen gewelddadige videospelletjes en het agressief gedrag van bepaalde jongeren, maar er is geen oorzakelijk of causaal verband.
– Er is een causaal verband tussen het te snel rijden en het aantal ongevallen.
– Er is geen causaal verband tussen het aantal ooievaars en het aantal geboorten van baby’s.
Voorbeeld 1:
Als je een aansteker op zak hebt (variabele X), dan is de kans op longkanker groter (variabele Y).
Soms lijkt het dat er een causaal verband is omdat er een derde variabele (of confounding variabele) is die beide variabelen beïnvloedt.
Het feit dat je een aansteker op zak hebt, is geen directe oorzaak van longkanker. De derde variabele is hier het feit dat je rookt (variabele Z). Dat roken impliceert dat je een aansteker op zak hebt en het beïnvloedt ook je kans op longkanker.
Voorbeeld 2 :
Als er aan onze Belgische kust meer ijsjes verkocht worden (variabele X), dan stijgt het aantal verdrinkingen in zee (variabele Y).
Er is mogelijk geen directe samenhang tussen X en Y. Er is wel een derde variabele die invloed heeft op zowel de afhankelijke variabele Y als de onafhankelijke variabele X. Die derde variabele is de temperatuur (variabele Z). Als de temperatuur stijgt, dan zullen er meer ijsjes verkocht worden. Als de temperatuur stijgt, dan zullen er meer mensen gaan zwemmen.
Sofie moet als onderzoeksopdracht voor het vak wetenschappen de kwaliteit van het water van de plaatselijke Molenvijver nagaan. Zij neemt gedurende tien weken elke dag een staal water en berekent de hoeveelheid chloor (uitgedrukt in mg/liter) die er in het water aanwezig is.
Hieronder vind je de resultaten.
Dankzij de cursus beschrijvende statistiek kan zij die gegevens verwerken en via ICT berekent zij de volgende karakteristieken :
• De kleinste waarde of het minimum : 93,36 mg/liter
mg/liter
• De gemiddelde waarde: 121,61 mg/liter
• De standaardafwijking: 12,29 mg/liter
Omdat zij die gegevens ook grafisch wil voorstellen d.m.v. een histogram, stelt zij een frequentietabel op.
Als klassenbreedte neemt zij 3 mg/liter en als eerste klasse kiest zij [ 93, 96[ . klasse klassen-
Hamza en Otis hebben als onderzoeksopdracht voor wetenschappen dezelfde opdracht gekozen als Sofie. Ook zij namen gedurende dezelfde tien weken elke dag een staal water uit de Molenvijver (weliswaar niet op exact dezelfde plaats als Sofie en/of niet op hetzelfde tijdstip van de dag).
De vraag die zich bij het bekijken van de drie onderzoeksopdrachten onmiddellijk stelt, is : wie heeft het beste gewerkt ?
Antwoord : ze hebben alle drie even goed gewerkt !
Sofie, Hamza en Otis hebben elk een steekproef genomen van het water van de Molenvijver. Welnu, steekproeven uit eenzelfde populatie leveren verschillende resultaten op. Dit fenomeen noemen we steekproefvariabiliteit. Variabiliteit heeft als gevolg dat je uit een steekproefresultaat nooit met 100% zekerheid besluiten kunt trekken over de hele populatie.
Karakteristieken die we berekenen op basis van een steekproef noemen we (toevals)variabelen. Die getallen zijn niet absoluut want een andere steekproef kan andere waarden voor die variabelen opleveren.
Indien we karakteristieken van de volledige populatie berekenen, spreken we van parameters. Parameters zijn constanten die iets zeggen over de hele populatie.
Voorbeeld :
Cijfers van een of andere rijksdienst of van de Algemene Directie Statistiek zijn vaak parameters : het percentage werklozen in Vlaanderen, de verdeling van de schoolgaande jeugd over de verschillende richtingen in het secundair onderwijs, het aantal wagens in België … Cijfers afkomstig van een enquête zijn altijd toevalsvariabelen.
Afspraken:
Voor karakteristieken gebaseerd op steekproefresultaten gebruiken we kleine letters :
x ishet gemiddelde vaneensteekproef
s 2 isde variantie vaneensteekproef
s isde standaardafwijking opbasisvaneensteekproef
steekproefgemiddelde en steekproefvariantie
Voor de karakteristieken van een populatie gebruiken we Griekse letters :
m is het populatiegemiddelde
s is de standaardafwijking op basis van de hele populatie
populatiegemiddelde en populatievariantie
Iedereen kent de uitspraak ‘met cijfers en statistiek kun je alles bewijzen’. Een leuk voorbeeld hiervan is de paradox van Simpson die aantoont dat je soms een ander resultaat krijgt als je (dezelfde) cijfers anders voorstelt.
Voorbeeld :
Een producent van frisdranken wil een nieuwe smaak op de markt brengen. Bij de productie van de nieuwe smaak ontwikkelen ze twee varianten: A en B. De marketing manager wil nagaan welke smaak de consumenten verkiezen.
Hij liet 300 proefpersonen smaak A drinken en vroeg hen of ze het product lekker vonden en/of ze het product eventueel zouden kopen. Hetzelfde deed hij bij 750 proefpersonen voor smaak B.
De resultaten staan in volgende tabel :
Omgezet in percentages :
de marketing manager dat smaak B te prefereren is boven smaak A.
De productiemanager is hiermee echter niet akkoord. Ook hij heeft ditzelfde onderzoek geanalyseerd en heeft een onderscheid gemaakt tussen mannen en vrouwen. Hij komt tot volgende tabel :
Omgezet in percentages :
• Je kent de volgende begrippen uit de beschrijvende statistiek: populatie, steekproef, waarnemingen, data, klassen, klassenbreedte, klassengrenzen, frequentietabel, uitschieter en uitbijter.
• Je kent het verschil tussen absolute frequentie en relatieve frequentie.
– De absolute frequentie is het aantal keer dat een bepaalde waarneming voorkomt.
– De relatieve frequentie is de verhouding van de absolute frequentie tot het totale aantal.
• Je kunt waarnemingen grafisch voorstellen d.m.v. een histogram.
• Je kunt een frequentiepolygoon of frequentiekromme construeren.
• Je kunt cumulatieve frequenties voorstellen in een ogief.
• Je kent de betekenis van de volgende centrummaten: mediaan, eerste kwartiel, derde kwartiel, gemiddelde.
• Je kunt een boxplot tekenen.
• Je kent de eigenschappen van het gemiddelde en je kunt die bewijzen.
– Als alle waarnemingen xi met een factor a worden vermenigvuldigd, verandert het gemiddelde met dezelfde factor. In symbolen: a x = a x
– Als bij alle waarnemingen xi een vaste waarde b wordt opgeteld, dan is het nieuwe gemiddelde gelijk aan het oude gemiddelde vermeerderd met de term b .
In symbolen: x + b = x + b
– De vorige twee eigenschappen kunnen we symbolisch samenvatten als ax + b = a · x + b
– De som van de afwijkingen van een reeks waarnemingen tot hun rekenkundig gemiddelde is nul.
In symbolen: n i = 1 ( x i x ) = 0
• Je kent de betekenis van de volgende spreidingsmaten: spreidingsbreedte of variatiebreedte, kwartielafstand, variantie, standaardafwijking of standaarddeviatie.
• Je weet dat een steekproef representatief is als ze een weerspiegeling is van de populatie.
• Je kent verschillende methodes voor het genereren van een representatieve steekproef.
• Je kent het belang van randomisatie en representativiteit bij steekproeven.
• Je kent het verschil tussen samenhang en causaliteit.
• Je kent het verschil tussen steekproeffouten en niet-steekproeffouten.
• Je weet dat steekproeven uit eenzelfde populatie verschillende resultaten kunnen opleveren (steekproefvariabiliteit).
• Je kent het verschil tussen variabelen en parameters.
– Variabelen zijn karakteristieken die we berekenen op basis van een steekproef. Die getallen zijn niet absoluut want een andere steekproef kan andere waarden voor die variabelen opleveren.
– Parameters zijn constanten die iets zeggen over de hele populatie.
• Je kent de volgende formules en kunt ze toepassen.
niet-gegroepeerdewaarnemingen: x = 1 n n i = 1 x i
Deze oefeningen kunnen zowel met de grafische rekenmachine als met Excel of GeoGebra opgelost worden.
Bij een snelheidscontrole werd van 100 auto’s de snelheid opgetekend. Hieronder vind je de resultaten (in km/h).
a Verdeel in klassen en maak een frequentietabel.
b Teken het histogram en de enkelvoudige frequentiepolygoon.
c Teken het ogief.
d Bereken de mediaan en de kwartielen en teken de boxplot.
e Bereken het rekenkundig gemiddelde en de standaardafwijking.
f Hoeveel procent van de auto’s reed sneller dan het gemiddelde ?
g Hoeveel procent van de snelheden zit in [ x s , x + s ], [ x 2 s , x + 2 s ] en [ x 3 s , x + 3 s ] ?
Op het erf van de oma van Robbe lopen heel wat kippen. Robbe besluit om gedurende een week alle eieren te wegen. Hier zie je de resultaten (in gram).
a Verdeel in klassen en maak een frequentietabel.
b Teken het histogram en de enkelvoudige frequentiepolygoon.
c Teken het ogief.
d Bereken de mediaan en de kwartielen en teken de boxplot.
e Bereken het rekenkundig gemiddelde en de standaardafwijking.
f Hoeveel procent van de eieren zit in [ x s , x
Dit zijn de resultaten (op 150 punten) van een aantal leerlingen op de wiskundeolympiade:
a Verdeel in klassen en maak een gegroepeerde frequentietabel.
b Teken het histogram en de enkelvoudige frequentiepolygoon.
c Teken het ogief.
d Bereken alle kwartielen, het rekenkundig gemiddelde en de standaardafwijking.
e Teken de boxplot.
f Hoeveel leerlingen behaalden 88 punten ?
g Hoeveel leerlingen behaalden meer dan 75 punten maar minder dan 90 ?
h Hoeveel % van de leerlingen behaalde meer dan 95 punten ?
i Hoeveel leerlingen zitten boven het klasgemiddelde ?
j Hoeveel procent van de leerlingen zit in [ x s , x + s ] en [ x 2 s , x + 2 s ] ?
In onderstaande tabel worden de resultaten van het verspringen (in m) van leerlingen gegeven in een les lichamelijke opvoeding.
a Verdeel in klassen en maak een gegroepeerde frequentietabel.
b Teken het histogram en de enkelvoudige frequentiepolygoon.
c Teken het ogief.
d Bereken alle kwartielen, het rekenkundig gemiddelde en de standaardafwijking.
e Hoeveel leerlingen sprongen 5,20 m ver ?
f Hoeveel leerlingen sprongen verder dan 5,30 m maar minder ver dan 6,10 m ?
g Hoeveel % van de leerlingen sprong verder dan 6 m ?
h Hoeveel % van de leerlingen zit in [ x 2 s , x + 2 s ] ?
De leeftijd van moeders (in jaren) werd opgetekend als ze hun eerste kind kregen.
a Maak een gegroepeerde frequentietabel.
b Teken het histogram en de enkelvoudige frequentiepolygoon.
c Teken het ogief.
d Bepaal het gemiddelde, de mediaan, de standaardafwijking en de kwartielen.
e Teken de boxplot.
f Hoeveel moeders kregen op 22 jaar hun eerste kindje ?
g Hoeveel % van de moeders kreeg hun eerste kindje na hun 25e levensjaar ?
h Hoeveel % van de moeders kreeg hun eerste kindje als ze meer dan 22 jaar maar minder dan 30 jaar waren ?
De inhoud van voorverpakte voedingswaren moet volgens een EU-richtlijn van 1976 aan strenge eisen voldoen. Regelmatig zijn er ook steekproeven en controles. Die situeren zich op twee niveaus :
Criterium 1 : individuele controle
Bij een steekproef van 50 stuks wordt de partij goedgekeurd als slechts 2 stuks onder de norm vallen. De partij wordt afgekeurd als 5 stuks onder de norm vallen. In het andere geval wordt een nieuwe steekproef genomen.
Bij frisdrankverpakkingen van 1 liter is de norm 985 ml.
Criterium 2 : controle van het gemiddelde
Ze berekenen het gemiddelde van een steekproef van 50 stuks uit de partij en de partij wordt goedgekeurd als x aangeduide inhoud – 0,379 s en wordt afgekeurd als x < aangeduide inhoud – 0,379 s
De voedingswareninspectie controleert 50 eenliterflessen van een bepaald merk en noteert volgende inhouden (in ml) :
Doorstaat de steekproef het eerste respectievelijk het tweede criterium ?
Een snackbar ontvangt 20 klanten tussen 11.00 u. en 12.00 u. Hun (individuele) rekening bedroeg (in euro) :
a Bereken het gemiddelde verbruik en de standaardafwijking van het verbruik van de eerste reeks klanten.
b Bereken het gemiddelde verbruik en de standaardafwijking van het verbruik van de tweede reeks klanten.
c Bereken het gemiddelde verbruik en de standaardafwijking van het verbruik van alle klanten.
d Maak een boxplot van het verbruik van de eerste reeks klanten, van het verbruik van de tweede reeks klanten en van alle klanten samen. Wat kun je hieruit concluderen ?
Raf gaat met de fiets naar school. Gedurende 12 weken (= 60 waarnemingen) heeft hij bijgehouden hoeveel minuten hij erover doet om van thuis naar school te fietsen. De resultaten vind je in volgende tabel :
a Verdeel in klassen en maak een histogram van de gegevens.
b Merk je symmetrie ? Zo ja, rond welke waarde ?
c Zijn er uitschieters ? Kun je die verklaren als je achteraf verneemt dat Raf eenmaal een lekke band heeft gehad ?
d Bereken het rekenkundig gemiddelde en de standaardafwijking. Doe dit eenmaal met de uitschieter en eenmaal zonder de uitschieter.
Een reiziger reist van A naar B. Zijn gemiddelde snelheid daarbij is precies 60 km/h. Hoelang moet de reiziger over de terugreis doen om gemiddeld over de heen- en terugreis op 90 km/h uit te komen ?
In een klas van 16 leerlingen was het gemiddelde op een toets wiskunde 6,2. In een andere klas van 26 leerlingen werd dezelfde toets afgenomen en was het gemiddelde 6,6. Wat is het gemiddelde op die toets over de twee klassen heen ?
Voor het vak geschiedenis zitten twee klasgroepen A en B samen. In de groep A zitten 12 leerlingen. Op de laatste overhoring behaalde die groep een gemiddelde van 6,5. Groep B behaalde een gemiddelde van 7 en het gemiddelde van beide groepen samen was 6,7. Hoeveel leerlingen telt groep B ?
28 Amerikanen stappen een wisselkantoor binnen met gemiddeld 1250 dollar op zak. Voor één dollar krijgen ze 90 eurocent.
a Hoeveel euro hebben de Amerikanen gemiddeld nadat ze het wisselkantoor buitenkomen en ze al hun dollars omgewisseld hebben in euro ?
b Hoeveel euro hebben de Amerikanen samen ?
Bewijs de volgende eigenschappen.
a Als alle waarnemingen xi met een positieve factor a worden vermenigvuldigd, dan wordt de standaardafwijking met dezelfde factor vermenigvuldigd.
b De standaardafwijking verandert niet wanneer bij alle waarnemingen een vast getal b wordt opgeteld.
Geef voor elk van de volgende gevallen aan of je de genoemde verzameling beschouwt als een steekproef of als een populatie. Verklaar en motiveer je keuze.
a De leerkrachten die aanwezig zijn op de laatste klassenraad.
b De 150 personen die geïnterviewd zijn bij een straatenquête.
c De 420 leden van de zwemvereniging.
d De 48 klanten die vandaag de elektrozaak om de hoek bezochten.
e De 210 bewoners van de Stationsstraat.
f De 120 automobilisten die moesten stoppen voor een alcoholcontrole.
g De 1200 leerlingen van een school.
h Alle personen boven de 60 jaar in jouw gemeente.
Een ijsjesfabrikant wil een nieuwe smaak ijs op de Vlaamse markt lanceren.
Hij heeft twee smaakvarianten ontwikkeld en wil 600 mensen aan een blinde smaaktest onderwerpen. In die test krijgt elke proefpersoon de twee smaakvarianten
A en B in identieke verpakking en in willekeurige volgorde voorgeschoteld.
Elke proefpersoon moet aangeven of hij smaak A of smaak B verkiest.
a Beschrijf de populatie.
b Beschrijf de variabele die we in deze studie bestuderen.
c Wat is de steekproef ?
Geef voor elk van de volgende gevallen aan over welke soort steekproef het gaat. Verklaar je antwoord.
a Bij een onderzoek i.v.m. de veiligheid in een bepaalde straat besluit de enquêteur om de bewoners van alle huisnummers deelbaar door 5 te bevragen.
b I.v.m. een peiling over een politiek thema kiezen we eerst willekeurig een stad en nadien kiezen we hierin een bevolkingsgroep naar geslacht en leeftijd in dezelfde verhouding als de totale Belgische bevolking.
c In een bedrijf werken 42 werknemers. Wanneer de directie de mening van die werknemers wil weten, neemt ze de alfabetisch genummerde personeelslijst en de lottocijfers van deze week om er zo zes werknemers uit te halen.
De verdeling van het aantal leden van een hobbyclub naar leeftijd en geslacht vind je in volgende tabel.
We willen een gestratificeerde aselecte steekproef nemen van 40 leden. In welke mate zijn de groepen vertegenwoordigd ?
Is er een causaal verband of is er enkel samenhang ?
samenhang causaliteit
a Een schilder heeft een ongeluk met zijn wagen, waardoor hij zijn pols breekt. Daardoor kan hij niet meer werken en lijdt hij inkomensverlies.
b Je speelt erg vaak spelletjes op je smartphone. Daardoor heb je vaker last van slaapproblemen.
c Een vandaal steekt een band stuk van een taxi. Daardoor komt een CEO te laat op een afspraak en mist zo een miljoenendeal.
d Je onderzoekt de invloed van het prestatievermogen van een persoon en de duur van zijn nachtrust.
e Je laat je op erg jonge leeftijd vaccineren tegen polio (kinderverlamming). Daardoor is de kans heel erg klein dat je zult overlijden aan polio.
f Hoe meer zonnebrillen er verkocht worden, hoe meer ijsjes er verkocht zullen worden. Wat zou een derde variabele (of confounding variabele) kunnen zijn bij volgende correlaties ?
a Als er meer drank verkocht wordt op de kermis, dan stijgt het aantal ongelukken.
b Als personen een hoog inkomen hebben, dan stijgt het aantal verkochte luxewagens.
c Als ouders een hoger opgeleid diploma hebben, dan presteren hun kinderen beter op school.
d Als een persoon meer uren slaapt, dan zal zijn prestatievermogen de dag nadien stijgen.
e Als een leerling meer uren studeert, dan stijgen de examenresultaten.
Voor het testen van een nieuw medicijn melden zich 80 proefpersonen. De gegevens (geslacht – leeftijd) vind je in volgende tabel.
a Laat de computer willekeurig bij elke persoon de letter A of B plaatsen. Ga nadien na hoeveel personen er in elke groep zitten, hoeveel mannen en vrouwen er in elke groep zitten en wat de gemiddelde leeftijd is in elke groep.
b Verdeel de proefpersonen in twee gelijke groepen met een min of meer gelijke verdeling naar geslacht en leeftijd. (Neem voor de leeftijd twee groepen : leeftijd jonger dan 40 en leeftijd ouder of gelijk aan 40).
Een farmaceutisch bedrijf heeft tegen een nieuw virus twee medicijnen ontwikkeld. Het bedrijf wil beide medicijnen testen op een aantal proefpersonen plus een controlegroep. Verdeel onderstaande groep personen in drie gelijkwaardige groepen naar leeftijd (jonger dan 35, ouder of gelijk aan 35) en geslacht (M / V).
Wat is statistiek ?
Statistiek omvat de wetenschap, de methodiek en de techniek van het verzamelen, bewerken en interpreteren van gegevens in verband met massaverschijnselen. Het statistisch onderzoek bestaat uit drie fasen.
– Een steekproef opstellen.
– De gegevens van de steekproef verzamelen, rangschikken en samenvatten. Dat onderdeel noemen we de beschrijvende statistiek
– Op basis van die steekproef besluiten trekken omtrent de hele populatie. Dat noemen we de verklarende statistiek
KEIZER AUGUSTUS
In de 11e eeuw liet Willem de Veroveraar in Engeland het Domesday Book opstellen.
In dat boek werd de verdeling van de bevolking over de verschillende standen weergegeven, maar ook de verdeling van de veestapel en van de landbouwgronden werd er keurig in genoteerd.
Historici halen daar vandaag nog waardevolle inlichtingen uit.
Je kunt voor het eerst spreken van statistiek wanneer landen gegevens begonnen te verzamelen over allerlei zaken : de samenstelling van de bevolking, eigendommen en inkomsten, het bedrag van geïnde belastingen, het aantal weerbare mannen (geschikt om oorlog te voeren), het aantal vaklui en werktuigen, het aantal stuks vee ...
Dergelijke informatie kon je verkrijgen door eenvoudigweg te tellen, wat al in de tijd van de Romeinen gebruikelijk was. Bekend is de volkstelling die ten tijde van Christus door keizer Augustus werd bevolen.
Ook nu komen er nog tellingen voor. Zo vindt er bij ons in België om de tien jaar een volkstelling plaats ; de allereerste was er al in 1846. In ons land is dat de taak van Statbel, het Belgische statistiekbureau (statbel.fgov.be).
WILLEM DE VEROVERAAR
1662
Het eerste, zeg maar echt statistische materiaal vinden we terug in Engeland.
Dat hebben we te danken aan zakenman John Graunt (1620 –1674) en aan Thomas Robert Malthus (1766 –1834), die bekendstaat om zijn pessimistische visie over de bevolkingsgroei. De Londense lakenkoopman John Graunt publiceerde in 1662 zijn boek Natural and Political Observations, waarin een statistische analyse stond van de wekelijkse lijst van sterftegevallen in en rond Londen, de zogenaamde Bills of mortality.
In 1693 maakte de sterrenkundige Edmond Halley (1656 –1742), ook al een Brit, een levensverwachtingstabel gebaseerd op de sterftecijfers van de Poolse stad Breslau (nu gekend als Wrocław). Op die manier begon de wetenschap met het verzamelen en beschrijven van feiten. Zo kwamen bijvoorbeeld ook de eerste statistieken bij de firma's die levensverzekeringen afsloten. De gegevens die verzameld werden, konden ook gebruikt worden om lijfrenten te berekenen. Het woord statistiek werd trouwens voor het eerst gebruikt in 1672 en is afgeleid van het Latijnse woord status (staat).
1672
Maar het bleef niet bij tellen. Vanaf de 17e eeuw werd kansrekening of waarschijnlijkheidsrekening gebruikt om statistische gegevens te ontleden en statistische hypothesen te formuleren.
De Zwitserse wiskundige Jakob Bernoulli (1654 –1705) en zijn
Franse collega Pierre-Simon Laplace (1749 –1827) hebben de beschrijvende statistiek via de waarschijnlijkheidsrekening in de wiskunde opgenomen.
Zo ontstond de wiskundige of verklarende statistiek.
1814
De eerste zinvolle, systematische en doelgerichte bewerking van statistisch materiaal vinden we in een werk uit 1835 met een lange titel : Sur l’homme et le développement de ses facultés ; essai d’une physique sociale. Dat werk is van de hand van onze landgenoot Adolphe Quetelet (1796 –1874). Daarin publiceerde hij talrijke statistische gegevens over de fysieke eigenschappen van de mens. Hij legde het verband tussen misdadigheid en leeftijd, geslacht, opvoeding, seizoen enz. Hij riep ook het eerste internationale statistische congres bij elkaar in 1855 in Brussel. Quetelet wordt onder andere daardoor de stichter van de moderne statistiek genoemd.
1835
Na 1940 werd het mogelijk om met een moderne computer zeer grote hoeveelheden gegevens te verwerken en op die gegevens statistische methodes toe te passen. De statistiek is daarmee de meest toegepaste tak van de wiskunde geworden. Economie, sociologie, psychologie, biologie, het verzekeringswezen, meteorologie en de verkeerspolitiek zijn enkele van de talrijke disciplines waarvoor statistiek onmisbaar is geworden.
We vermelden ook graag de bijdrage die Florence Nightingale (1820 –1910) leverde aan de statistiek. Zij staat bekend als the lady with the lamp, een bijnaam die ze kreeg toen ze als verpleegster gewonde Engelse soldaten verzorgde tijdens de Krimoorlog. Maar ze was ook een wiskundige, die sterk beïnvloed was door het werk van Quetelet. Op wiskundig gebied werd ze vooral bekend door haar diagram waarmee ze de sterftegevallen in de Britse militaire hospitalen in beeld bracht (zie hierboven). De oppervlakten van de cirkelsegmenten geven de verhoudingen weer van het aantal doden. Met dit diagram wilde ze de Engelse politici duidelijk maken dat de sterfte onder de soldaten eerder een gevolg was van slechte hygiënische omstandigheden dan van oorlogsgeweld. Zo kon ze de autoriteiten overtuigen om te investeren in hygiënische hervormingen in de militaire hospitalen.
Wiskunde wordt aan de lopende band gebruikt in het dagelijkse leven. Zo ook aan de lopende band … Aan het einde van zo’n band zit een controletoestel dat het gewicht controleert. Als er een afwijking van meer dan 10 gram is, wordt het pakje verwijderd. Statistieken helpen het bedrijf om een antwoord te vinden op vragen als ‘Hoeveel % van de afgeleverde pakken bevat minder dan 1 kg ?’. Maar je kunt ook omgekeerd redeneren en je afvragen hoe de machines afgesteld moeten worden opdat slechts één procent van de pakken suiker in de recyclagebak verdwijnt.
1 Voorbeeld
Een bioloog heeft heel zorgvuldig de lengte (in cm) van 200 snoeken gemeten. De resultaten vind je in de onderstaande tabel.
Verwerkt in een frequentietabel met bijbehorend histogram geeft dat : lengte (in cm) absolute frequentie relatieve frequentie lengte (in cm) absolute frequentie relatieve frequentie
[ 65, 66[ 1 0,5% [ 78, 79[ 16 8%
De oppervlaktes van de staven van het histogram stellen de fracties waarnemingen van de lengten van de vissen voor. De totale som van die fracties is 100% of 1.
Stellen we nu de grafische voorstelling van de fracties geïdealiseerd voor door de grafiek van een functie, dan is die functie een wiskundig model voor de (relatieve) frequentieverdeling van de waarnemingen van de lengte van 200 snoeken.
De kromme ligt volledig boven de x -as (fracties zijn steeds positief) en de totale oppervlakte onder de kromme is precies 1 ( = 100%).
Wanneer we de fractie snoeken met een lengte tussen 70 cm en 76 cm wensen te kennen, berekenen we de oppervlakte onder de dichtheidskromme (dat is bij benadering de relatieve frequentie) tussen x = 70 en x = 76.
Die oppervlakte bedraagt 0,3188 of 31,88% (berekening via ICT). Ze stelt ook de kans voor dat een aselect gekozen snoek een lengte heeft tussen 70 en 76 cm.
Dit benadert vrij goed het resultaat 32% van het histogram (3% + 4% + 5% + 6% + 6,5% + 7,5%).
Een dichtheidskromme beschrijft het algemeen patroon van een verdeling.
Het is een kromme : – die zich altijd op of boven de x -as bevindt ; – waarvan de oppervlakte tussen de kromme en de x -as gelijk is aan 1.
De oppervlakte onder de kromme in een willekeurig interval is de kans dat de waarnemingen binnen dat interval liggen.
De dichtheidskromme in het vorige voorbeeld kan beschouwd worden als de grafiek van een functie met het functievoorschrift : f ( x )= 1 4,74√2π e 1 2 x 77,5 4,74 2
Dat is het voorschrift van een normale verdeling. De grafieken van normale verdelingen zijn symmetrische, ééntoppige, klokvormige dichtheidskrommen. Ze hebben allemaal dezelfde globale vorm.
Het algemeen voorschrift voor een normale verdeling is : f ( x )= 1 σ √2π e 1 2 x µ σ 2 met m het gemiddelde en s de standaardafwijking van de populatie.
Omdat dit functievoorschrift volledig bepaald is door m en s, hebben we een kortere notatie ingevoerd.
De normale verdeling met verwachting (= gemiddelde) m en standaardafwijking s, is N( m, s)
Als een populatievariabele normaal verdeeld is met gemiddelde m en standaardafwijking s, dan noteren we dit verkort als : X ∼ N( m, s)
We gebruiken dus een hoofdletter, zoals X , om een populatievariabele (een populatiekenmerk) aan te duiden. Kleine letters, zoals x , duiden op de specifieke numerieke waarde van een populatievariabele.
In veel gevallen zijn echter m en s niet gekend en benaderen we (schatten we) m door x en s door s
De voorwaarden waaronder dit mag gebeuren en de foutenmarges (variabiliteit) die hierdoor ontstaan, laten we voorlopig achterwege.
De normale verdeling is zonder twijfel de meest gebruikte verdeling in de statistiek. Van heel wat gegevens is immers geweten dat ze normaal verdeeld zijn : lengte van mensen, dieren of objecten, het IQ , de effectieve inhoud van machinaal gevulde verpakkingen, meetfouten, sportprestaties … KLASSEMENT VOETBAL
Anderzijds mogen we hieruit niet concluderen dat alles normaal verdeeld zou zijn. Typische voorbeelden van niet-normaal verdeelde gegevens zijn : de leeftijd bij overlijden van mens of dier, het inkomen … Maar ook bij niet-normaal verdeelde gegevens speelt de normale verdeling een belangrijke rol. Veronderstel dat je uit een reeks gegevens waarvan je niet weet of ze normaal verdeeld zijn, 100 keer een steekproef neemt en daar telkens het gemiddelde van berekent, dan weet je al dat die gemiddelden niet gelijk zullen zijn, maar een zekere variabiliteit zullen vertonen. Al die gemiddelde waarden zijn echter te beschrijven met een normale verdeling. Wanneer mogen we stellen dat een gegeven reeks waarnemingen (aan de hand van bijvoorbeeld een histogram) al dan niet normaal verdeeld zijn ?
Bij de normale verdeling met gemiddelde m en standaardafwijking s hanteren we de volgende vuistregel :
68,3% van de waarnemingen ligt binnen het interval [ m – s, m + s]
95,5% van de waarnemingen ligt binnen het interval [ m – 2s, m + 2s]
99,7% van de waarnemingen ligt binnen het interval [ m – 3s, m + 3s]
Die regel wordt verklaard op blz. 113.
68,3% van de data
95,5% van de data
99,7% van de data
Om na te gaan of een reeks waarnemingen eventueel normaal verdeeld is, ga je als volgt te werk : –Berekenhetgemiddelde x endestandaardafwijking s vandewaarnemingen.
–Ganaofbijbenadering68%vandewaarnemingenbinnenhetinterval [ x s , x + s ] ligt.
–Ganaofbijbenadering95%vandewaarnemingenbinnenhetinterval [ x 2 s , x + 2 s ] ligt.
–Ganaofbijbenadering99,7%vandewaarnemingenbinnenhetinterval [ x 3 s , x + 3 s ] ligt.
Is aan die voorwaarden voldaan, dan kun je de relatieve frequenties van die waarnemingen benaderend beschrijven door de normale verdeling N ( x , s )
Taak : ga na of het voorbeeld van blz. 99 die waarden sterk benadert.
Een groep leerlingen uit het laatste jaar van een scholengemeenschap trok dit jaar tijdens de paasvakantie naar Rome.
Voor de cursus statistiek deed de leerkracht wiskunde een aselecte steekproef van 80 reistassen die hij een voor een woog.
De resultaten (in kg) vind je in volgende tabel :
Verwerkt in een frequentietabel met bijbehorend histogram geeft dat :
Inhetinterval [ x s , x + s ]=[8,94;14,28] liggen 54reistassenof67,5%.
Inhetinterval [ x 2 s , x + 2 s ]=[6,27;16,95] liggen 78reistassenof97,5%.
Inhetinterval [ x 3 s , x + 3 s ]=[3,60;19,62] liggen aldegewogenreistassenof100%.
M.a.w.wemogenaannemendatdemassavanalle reistassenvandegroepnormaalverdeeldismet gemiddelde11,61kgenstandaardafwijking2,67kg.
Probleemstelling
Een koffiebranderij heeft een nieuwe vulmachine gekocht voor het vullen van pakjes koffie van 1 kg.
Omdat de machine nog moet worden afgesteld, besluit de koffiebrander 80 pakjes koffie te vullen waarbij hij de machine instelt op 1005 gram. De resultaten (afgerond op 1 gram) zijn :
– Bereken het gemiddelde en de standaardafwijking.
– Teken het bijbehorend histogram. Neem als klassenbreedte 1 gram.
– Is de 68-95-99,7-regel hier van toepassing ?
– In de veronderstelling dat de massa van de pakjes koffie normaal verdeeld is, teken die normale verdeling en bereken :
• hoeveel % van de pakken koffie (bij benadering) 1 kg bevat ;
• hoeveel % van de pakken koffie tussen 1000 gram en 1010 gram bevat ;
• hoeveel % van de pakken minder dan 1 kg bevat.
– Benader m door x en s door s
Breng de gegevens in het rekenblad in, selecteer de kolommen en maak er lijsten van.
De lijsten krijgen de naam lijst1 (gegevens) en lijst2 (frequenties).
Geef dan via het invoerveld volgende commando’s in:
Staafdiagram[ lijst1,lijst2]
m = gemiddelde[ lijst1,lijst2]
N = SteekproefSD[ lijst1,lijst2]
Zo wordt het staafdiagram (histogram) getekend met als klassenbreedte 1.
De waarde 1004,45 verschijnt in het algebravenster.
De waarde 4,07 verschijnt in het algebravenster.
Gebruik nadien het icoontje van waarschijnlijkheidsrekening in het CAS-venster om het volgende te realiseren:
Hoeveel % van de pakken koffie bevat (bij benadering) 1 kg?
Antwoord :
5,39 % van de pakken koffie bevat (bij benadering) 1 kg.
Hoeveel % van de pakken koffie weegt tussen 1000 gram en 1010 gram?
Hoeveel % van de pakken bevat minder dan 1 kg?
Antwoord :
77,65 % van de pakken koffie weegt tussen 1000 g en 1010 g.
Antwoord :
13,71% van de pakken koffie bevat minder dan 1 kg.
We laten in het functievoorschrift f ( x )= N (µ, σ )=
verdeling m variëren terwijl we s constant houden ( s = 1).
We merken dat de grafieken van al die normale verdelingen met constante s op een verschuiving na gelijk zijn.
Als we de grafiek van de normale verdeling
y = N( 0, 1) als referentiepunt nemen, dan wordt die grafiek naar rechts verschoven over een afstand m als m > 0 en naar links verschoven over een afstand | m | als m < 0.
We
(
variëren terwijl we m constant houden ( m = 0)
We merken dat de grafieken van al die normale verdelingen met constante m qua vorm gelijk zijn.
Als we de grafiek van de normale verdeling
y = N( 0, 1) als referentiepunt nemen, dan wordt die grafiek uitgerokken met factor 1 σ volgens de richting van de y -as en met factor s volgens de richting van de x -as.
Op een verschuiving volgens de x -as en een eventuele uitrekking volgens de assen na, hebben alle normale verdelingen dezelfde vorm.
Bij bepaalde berekeningen herleiden we trouwens de waarnemingen van de normale verdeling N( m, s) met verwachting m en standaardafwijking s naar de normale verdeling N( 0, 1) met verwachting 0 en standaardafwijking 1. Die omzetting wordt standaardisering genoemd. Om een waarde te standaardiseren wordt de verwachtingswaarde ervan afgetrokken en vervolgens gedeeld door de standaardafwijking.
Als x een waarneming is uit N( m, s), dan is z de gestandaardiseerde waarde van x met z = x µ
Een gestandaardiseerde waarde wordt ook een z -score genoemd.
Een z -score geeft aan hoeveel standaardafwijkingen de oorspronkelijke waarneming van het gemiddelde verwijderd is en in welke richting. Waarnemingen groter dan het gemiddelde geven een positieve z -score, waarnemingen die kleiner zijn dan het gemiddelde een negatieve. z -scores worden o.a. gebruikt om waarnemingen uit verschillende populaties en/of steekproeven met elkaar te vergelijken. De z -score is immers een onbenoemde grootheid.
Voorbeeld :
Robbe zit in klas A bij meester Kappa en behaalde op zijn laatste toets wiskunde 14 op 20. Het klasgemiddelde was 11 met een standaardafwijking 3.
Katrien, de zus van Robbe, zit in klas B bij juf Lambda en behaalde op haar laatste toets wiskunde 23 op 30. Het klasgemiddelde was 19 met een standaardafwijking 5.
Wie heeft er nu relatief gezien het beste gewerkt ?
–De z -scorevanRobbeis: z Robbe = 14 11 3 = 1
–De z -scorevanKatrienis: z Katrien = 23 19 5 = 0,8
Antwoord :
z Robbe > z Katrien, dus is het resultaat van Robbe relatief gezien beter.
De normale verdeling met m = 0 en s = 1 noemen we de standaardnormale verdeling. Populatievariabelen met een standaardnormale verdeling worden aangeduid met de hoofdletter Z
De kansen bij een normale verdeling worden bepaald door de oppervlakte onder de curve te berekenen. Dat kan op twee manieren : ofwel via een ingewikkelde integraal (die niet rechtstreeks te berekenen is), ofwel met behulp van ICT (de grafische rekenmachine of computersoftware). Voor de standaardnormale verdeling bestaat er echter een tabel waaruit je de kansen rechtstreeks kunt aflezen. Die tabel vind je op de volgende bladzijde.
Hoe moet je die tabel lezen ?
Bekijk de figuur die boven de tabel staat. Bij een gegeven z geeft die tabel de bijbehorende oppervlakte onder de grafiek van de standaardnormale verdeling links van z Met andere woorden : de tabel geeft je het percentage waarnemingen dat (of de kans dat een willekeurige populatiewaarde) kleiner is dan een gegeven waarde z .
In symbolen noteren we : F( z ) = P( Z ⩽ z )
Voorbeeld 1 :
Gegeven : Een populatievariabele die een standaardnormale verdeling volgt.
Gevraagd : Bereken het percentage waarnemingen dat kleiner is dan 1,53.
In symbolen : F( 1,53) = P( Z ⩽ 1,53)
Oplossing :
Zoek de waarde 1,53 in de tabel. Voor de eerste twee cijfers kijk je in de linkerkolom van de tabel en ga je daar op zoek naar de rij die overeenstemt met waarde 1,5. Daarna schuif je op naar rechts tot de kolom die overeenkomt met 0,03.
Het percentage waarnemingen kleiner dan 1,53 of de kans dat een waarneming kleiner is dan 1,53 bedraagt dus 93,699%.
Tabel : de standaardnormale verdeling
Voorbeeld 2 :
Gegeven : Een populatievariabele die een standaardnormale verdeling volgt.
Gevraagd : Bereken het percentage waarnemingen gelegen
tussen –1,03 en 0,84.
In symbolen : P( –1,03 ⩽ Z ⩽ 0,84)
Oplossing : Omdat dit niet rechtstreeks af te lezen is in de tabel, herschrijven we het gevraagde.
P( –1,03 ⩽ Z ⩽ 0,84) = P( Z ⩽ 0,84) – P( Z ⩽ –1,03)
= F( 0,84) – P( Z ⩽ –1,03)
Nu is de grafiek van de standaardnormale verdeling symmetrisch t.o.v. de y -as, zodat :
P( Z ⩽ –1,03) = P( Z ⩾ 1,03) = 1 – P( Z < 1,03) = 1 – F( 1,03) P( –1,03 ⩽ Z ⩽ 0,84) = F( 0,84) – ( 1 – F( 1,03))
= F( 0,84) + F( 1,03) – 1
= 0,79955 + 0,84849 – 1
= 0,64804
Het percentage waarnemingen gelegen tussen –1,03 en 0,84 of de kans dat een waarneming ligt tussen –1,03 en 0,84 bedraagt dus 64,804%.
Voorbeeld 3 :
Gegeven : Een populatievariabele die een normale verdeling volgt met gemiddelde m = 20 en standaardafwijking s = 4.
Gevraagd : Bereken het percentage waarnemingen die groter zijn dan 22.
In symbolen : P( X ⩾ 22)
Oplossing : Door over te gaan op de standaardnormale verdeling kunnen we problemen i.v.m. andere normale verdelingen dan de standaardnormale terugbrengen naar de standaardnormale.
Voorbeeld 1 : thee
Gegeven : In een fabriek worden pakjes thee machinaal gevuld. De massa van die pakjes is normaal verdeeld met gemiddelde massa m = 255 gram en standaardafwijking σ = 4 gram.
Gevraagd : Bereken een symmetrisch interval rond m waarbinnen zich 90%, respectievelijk 95% en 99% van de massa van de pakjes thee bevindt.
Oplossing : Voor het 90%-interval moeten we a bepalen zodat : P( m – a s < X < m + a s) = 90%
P (µ a σ< X <µ + a σ )= 0,90
P a < X µ σ < a = 0,90
P ( a < Z < a )= 0,90 wegenssymmetrie(ziefiguur)
P (Z < a )= 0,95 ICT
a = 1,6448 =⇒ a ≈ 1,645
In de praktijk gebruiken we meestal 1,65.
De a -waarde noteren we meestal als z 90% en algemeen kunnen we stellen dat bij een normale verdeling 90% van de waarnemingen zich situeert binnen het (symmetrisch rond m gelegen) interval [ m – 1,65 s, m + 1,65 s]
Op een analoge manier vinden we z 95% = 1,96 en z 99% = 2,58 zodat we kunnen stellen dat 95% van de waarnemingen zich bevindt binnen het interval [ m – 1,96 s, m + 1,96 s] en 99% van de waarnemingen binnen het interval [ m – 2,58 s, m + 2,58 s]
Algemeen
a % van de waarnemingen bij een normale verdeling ligt binnen het interval [ m – z a · s, m + z a · s] met o.a. z 90% = 1,65 ; z 95% = 1,96 ; z 99% = 2,58.
Toegepast op het voorbeeld geeft dit de volgende resultaten :
90% van de pakjes thee heeft een massa binnen het interval :
[ 255 – 1,65 4 ; 255 + 1,65 4] = [ 248,4 ; 261,6]
95% van de pakjes thee heeft een massa binnen het interval :
[ 255 – 1,96 4 ; 255 + 1,96 4] = [ 247,16 ; 262,84]
99% van de pakjes thee heeft een massa binnen het interval :
[ 255 – 2,58 4 ; 255 + 2,58 4] = [ 244,68 ; 265,32]
Voorbeeld 2 : 68-95-99,7 %-regel
Gegeven : De diameter van de schroeven, die in de productieafdeling van een bepaalde firma gemaakt worden, kan beschouwd worden als een normaal verdeelde variabele met gemiddelde m = 4 mm en standaardafwijking s = 0,2 mm.
Gevraagd :
a Hoeveel procent van de schroeven hebben een diameter gelegen in het interval
[ m – s, m + s] = [ 4 – 0,2 ; 4 + 0,2] = [ 3,8 ; 4,2]?
b En in de intervallen [ m – 2s, m + 2s] = [ 3,6 ; 4,4] en [ m – 3s, m + 3s] = [ 3,4 ; 4,6]?
Oplossing :
a P( m – s < X < m + s)
= P( 3,8 < X < 4,2)
= 0,683
= 68,3%
Hieruit volgt dat z 68,3% = 1.
b P( m – 2s < X < m + 2s)
= P( 3,6 < X < 4,4)
= 0,955 = 95,5%
Hieruit volgt dat z 95,5% = 2.
P( m – 3s < X < m + 3s)
= P( 3,4 < X < 4,6)
= 0,997
= 99,7%
Hieruit volgt dat z 99,7% = 3.
Uit dit voorbeeld blijkt waar de 68%-95%-99,7%-regel bij de normale verdelingen vandaan komt.
Voorbeeld 3 : honden
Gegeven : De massa van een bepaald hondenras is normaal verdeeld met gemiddelde massa m = 8,2 kg en s = 1,1 kg.
Gevraagd : a Bereken een symmetrisch interval rond m waarbinnen zich 95% van de massa van dit hondenras bevindt.
b Boven welke minimumgewichtsgrens bevindt zich 95% van de massa van dit hondenras ?
c Beneden welke maximumgewichtsgrens bevindt zich 95% van de massa van dit hondenras ?
Oplossing :
X ∼ N( m = 8,2 kg, s = 1,1 kg)
a Voor het symmetrisch interval rond m maken we gebruik van de gevonden z -waarde in vorig voorbeeld : 95 % van de honden van dit hondenras heeft een massa (in kg) binnen het interval :
[ m – z 95% s, m + z 95% s]
= [ m – 1,96s ; m + 1,96s]
= [ 8,2 – 1,96 1,1 ; 8,2 + 1,96 1,1]
= [ 6,044 ; 10,356]
b Voor het bepalen van de minimumgewichtsgrens moeten we a zo bepalen dat :
P( X > a ) = 95% of
P( X ⩽ a ) = 5%
waaruit
a = 6,39 kg
Taak : verklaar waarom a = m – 1,645 s
c Voor het bepalen van de maximumgewichtsgrens moeten we a zo bepalen dat :
P( X < a ) = 95%
waaruit
a = 10,01 kg
Taak : verklaar waarom a = m + 1,645 s
Ontdekking van de normale verdeling
De ontdekking van de normale verdeling wordt toegeschreven aan Abraham de Moivre (1667 –1754), die sinds 1685 in Londen woonde en een goede vriend was van Isaac Newton.
de Moivre voorzag in zijn levensonderhoud door voor gegoede burgers hun winstkansen bij kansspelen te berekenen. In 1718 publiceerde hij zijn werk ‘The Doctrine of Chances’ over kansberekeningen bij kansspelen. de Moivre ontdekte de normale verdeling door kansen te berekenen bij experimenten waarbij de kans op elk van de twee mogelijke uitkomsten even groot is, zoals bij het bord van Galton. In 1733 publiceerde hij een artikel waarin hij het kanshistogram van de binomiale verdeling benaderde door een vloeiende klokvormige kromme. Die vloeiende kromme beschrijft de normale verdeling. Daarin gaf hij ook de twee vuistregels van de normale verdeling : 2 3 van de waarnemingen wijkt niet meer dan een standaardafwijking af van het gemiddelde en 95% niet meer dan twee standaardafwijkingen.
Foutenkromme in de astronomie
Het artikel van de Moivre bleef onopgemerkt tot Karl Pearson het in 1924 herontdekte. Intussen werd de normale verdeling ook gevonden door Laplace en Gauss. Pierre Simon Laplace (1749 –1827) gebruikte de normale verdeling in 1783 om de verdeling van meetfouten te beschrijven.
Later gebruikte de beroemde Duitse wiskundige Carl Friedrich Gauss (1777 –1855) de normale verdeling ook om gegevens uit de astronomie te analyseren. Toen omstreeks 1800 de Italiaan Piazzi de eerste planetoïde (Ceres) ontdekte, was Gauss directeur van het observatorium in Göttingen. Gauss slaagde erin, uitgaande van een gering aantal gegevens, de baan van Ceres nauwkeurig te berekenen. Hij gebruikte hiervoor de methode van de kleinste kwadraten en ontdekte zo de theorie van de normale verdeling. Hij slaagde erin om een functie te bepalen die precies dezelfde grafiek heeft als de klokvormige frequentiekromme van de normale verdeling. Het resultaat verscheen in het artikel ‘Bestimmung der Genauigkeit der Beobachtingsfehler’ (1816) :
Sindsdien noemen we die kromme de gausscurve Gauss gebruikte zijn kennis van statistiek om de beursevolutie te voorspellen. Naar verluidt brachten zijn beleggingen op de beurs meer op dan wat hij verdiende als professor in Göttingen.
Sociale statistiek
In 1835 publiceerde de Belgische wiskundige Adolphe Quetelet (1796 –1874) vele statistische gegevens over de fysieke eigenschappen van de mens in zijn werk ‘Sur l’homme et le développement de ses facultés. Essai d’une physique sociale’.
Hij was de eerste persoon die de normale verdeling toepaste op sociale gegevens.
Hij verzamelde gegevens over de borstomvang van Schotse soldaten en de lengte van Franse soldaten. Hij constateerde dat beide normaal verdeeld waren.
Aanvankelijk hield Quetelet zich bezig met sterrenkunde. Via de meetfoutentheorie maakte hij kennis met de normale verdeling. Hij was ervan overtuigd dat niet alleen meetfouten ontstonden als gevolg van het toeval, maar dat heel wat aspecten van het menselijk leven ook bepaald worden door het toeval.
Quetelet definieerde de gemiddelde mens als iemand waarbij alle lichaamsmaten een gemiddelde grootte hebben. Volgens hem moest dit ideaaltype mens het onderwerp van studie zijn in de sociale statistiek. Niet iedereen was het hierover met hem eens. Hij riep ook het eerste Internationale Statistische Congres bij elkaar in 1853 in Brussel.
Quetelet kan beschouwd worden als de vader van de sociale wetenschappen.
Mathematische statistiek
De Britse geleerde Francis Galton (1822 –1911), een neef van Charles Darwin, was geen wiskundige maar een wetenschapper. Hij was niet zoals Quetelet geïnteresseerd in het gemiddelde, maar juist in de afwijkingen van het gemiddelde. Hij wilde laten zien dat bij veel menselijke kenmerken, die voor het grootste deel door erfelijkheid zijn bepaald, afwijkingen naar boven en naar beneden een logisch verschijnsel zijn. Hij paste statistische methoden toe bij de analyse van sociale gegevens en erfelijke eigenschappen (eugenetica). Galton ontwierp zijn knikkerbord om bij lezingen te illustreren hoe een reeks opeenvolgende toevallige gebeurtenissen (naar links of naar rechts vallen) tot een normale verdeling leiden. Hij werkte met het begrip standaarddeviatie als maat voor de spreiding van de normale verdeling. In 1892 introduceerde hij de begrippen regressie en correlatiecoëfficiënt, een maat voor de correlatie tussen statistische variabelen (bijvoorbeeld lengte en gewicht).
Hij was een man uit de praktijk die deze begrippen vorm en inhoud gaf. Hij was echter geen theoreticus die de begrippen in een groter geheel kon plaatsen. Dat laatste was het werk van Karl Pearson. Galton richtte aan het Londense University College een leerstoel in de eugenetica op en zorgde zo voor de ontwikkeling van de wiskundige statistiek.
Florence Nightingale (1820 –1910)
Florence Nightingale
Ten slotte is ook de bijdrage van Florence Nightingale een vermelding waard. Ze was een uitstekende wiskundige die sterk beïnvloed was door het werk van Quetelet. Ze is niet alleen bekend geworden om haar verplegend werk, maar ook door het pool- of roosdiagram waarmee ze de sterftegevallen in de Britse militaire hospitalen ten tijde van de Krimoorlog in 1855 in beeld bracht (zie hiernaast). In de figuur zijn de oppervlakten van de cirkelsegmenten de maat voor de slachtoffers. Een dergelijk diagram was nog niet eerder ontworpen. Met dit diagram wilde Nightingale de Engelse politici duidelijk maken dat de sterfte onder de soldaten een gevolg was van slechte hygiënische omstandigheden en veel minder van het oorlogsgeweld. Zo kon zij, gebruikmakend van haar statistische gegevens en voorstellingen, de autoriteiten ervan overtuigen te investeren in hygiënische hervormingen in de militaire hospitalen.
Gegeven :
Een machine vult pakken met suiker. De massa suiker die door de machine afgeleverd wordt, is normaal verdeeld met m = 1015 gram en s = 10 gram.
Gevraagd :
– Hoeveel % van de afgeleverde pakken bevat minder dan 1 kg ?
– Boven welke gewichtsgrens ligt 10% van de pakken suiker ?
– Stel dat het mogelijk is om de afstelling van het vulapparaat (d.w.z. de gemiddelde hoeveelheid m) te veranderen zonder dat de standaarddeviatie verandert. Hoe moet het gemiddelde gekozen worden opdat slechts 1% van de pakken suiker een massa heeft van minder dan 1 kg ?
Oplossing :
We lossen de opgave op met zowel ICT als met de tabel van de standaardnormale verdeling. Het is logisch dat bij oefeningen een van beide methoden volstaat.
Het vulgewicht van de pakjes suiker kunnen we grafisch voorstellen door de normale verdeling
N( m = 1015, s = 10).
Hoeveel % van de afgeleverde pakken bevat minder dan 1 kg ?
P ( X < 1000)= ?
P ( X < 1000)= P X µ σ < 1000 1015 10
= P (Z < 1,5)
= P (Z > 1,5)
= 1 P (Z 1,5)
= 1 Φ (1,5)
= 0,06681
Antwoord : 6,68%
MetGeoGebra:
X ∼ N (µ = 1015, σ = 10)
P ( X a )= Normaal (µ, σ , a )
P ( X 1000)= Normaal (1015,10,1000)= 6,68%
Boven welke gewichtsgrens ligt 10% van de pakken suiker ?
P( X > ?) = 10% = 0,1
P ( X > x )= 0,1
P Z > x 1015 10 = 0,1
P Z x 1015 10 = 0,9 terugzoekentabel
P Z x 1015 10 = Φ (1,28)
x 1015 10 = 1,28
x = 1027,8
Antwoord : 1027,8 gram
MetGeoGebra:
P ( X a ) > b =⇒ a = InverseNormaal (µ, σ , b )
P ( X a ) > 90% =⇒ a = InverseNormaal (1015,10,0,90)= 1027,8
Stel dat het mogelijk is om de afstelling van het vulapparaat (d.w.z. de gemiddelde hoeveelheid m) te veranderen zonder dat de standaarddeviatie verandert. Hoe moet het gemiddelde gekozen worden opdat slechts 1% van de pakken suiker een massa heeft van minder dan 1 kg ?
Bepaal µ zodatP ( X 1000) = 1% = 0,01
P Z 1000 µ 10 = 0,01 wegenssymmetrie
P Z 1000 µ 10 = 0,01
P Z < 1000 µ 10 = 0,99 terugzoekentabel
P Z < 1000 µ 10 = Φ (2,33)
1000 µ 10 = 2,33
µ = 1023,3
Antwoord : 1023,3 gram
Met Geogebra :
Gegeven : Een partij granaatappelen is normaal verdeeld met een gemiddelde massa van m = 135 gram en s = 15 gram. We wensen die partij op te splitsen in 4 massaklassen die allemaal evenveel granaatappelen bevatten.
Gevraagd : Bepaal de grenzen van die vier klassen.
Oplossing : X ∼ N( m = 135 gram, s = 15 gram)
We moeten nu de waarden a , b en c bepalen waarvoor geldt :
P( X < a ) = 25%
P( a ⩽ X < b ) = 25%
P( b ⩽ X < c ) = 25%
P( c ⩽ X ) = 25% of nog :
P( X < a ) = 25%
P( X < b ) = 50%
P( X < c ) = 75%
Antwoord :
De grenzen om de partij granaatappelen op te splitsen in 4 massaklassen zijn : klasse 1 : granaatappelen met een massa kleiner dan 124,88 gram
klasse 2 : granaatappelen met een massa tussen 124,88 en 135 gram
klasse 3 : granaatappelen met een massa tussen 135 en 145,12 gram
klasse 4 : granaatappelen met een massa groter dan 145,12 gram
Gegeven : De diameter van een reeks machinaal vervaardigde wrijvingsringen is normaal verdeeld met gemiddelde m = 16,02 mm en standaardafwijking s = 0,14 mm. De toegelaten speling rond het gemiddelde bedraagt 0,18 mm.
Gevraagd : Bereken hoeveel procent van de ringen wordt afgekeurd.
Oplossing : P( X > 16,02 + 0,18) + P( X < 16,02 – 0,18) = ?
P ( X > 16,02 + 0,18)+ P ( X < 16,02 0,18)
= P ( X > 16,2)+ P ( X < 15,84)
= 1 P (15,84 X 16,2)
= 1 P 15,84 16,02 0,14 Z 16,2 16,02 0,14
= 1 P ( 1,286 Z 1,286)
wegenssymmetrie
= 1 2 P (0 Z 1,286)
= 1 2 P (Z 1,286) 0,5
= 2 2
· P (Z 1,286)
·
= 2 2
Φ (1,286)
= 2 2 0,90077
= 0,19846
Antwoord : 19,85% van de ringen wordt afgekeurd.
Op een lopende band van een industriële bakkerij worden dagelijks honderden gebakjes gemaakt waarvan de massa normaal verdeeld is. Bereken de gemiddelde massa en de standaardafwijking van zo’n gebakje als je weet dat 10% van de gebakjes een massa heeft die kleiner is dan 60 gram en 95% een massa heeft die kleiner is dan 69 gram.
Oplossing :
X ∼ N( m = ?, s = ?)
P ( X < 69)= 0,95
P ( X < 60)= 0,1
P Z < 69 µ σ = 0,95
P Z < 60 µ σ = 0,1
Antwoord :
De gemiddelde massa is 63,94 gram en de standaardafwijking 3,07 gram.
Grafische controle :
• genereren van een steekproef
Met het commando ToevalsgetalNormaal( µ, σ) kun je in GeoGebra een enkelvoudige aselecte steekproef (EAS) simuleren uit een normaal verdeelde toevalsveranderlijke X ∼ N( µ, σ).
We simuleren een steekproef met grootte 70 uit een normaal verdeelde grootheid X ∼ N( µ = 80, σ = 7).
Nadien berekenen we het gemiddelde en de standaardafwijking van die steekproef met de commando’s :
gemiddelde :
= gemidd(lijst waarnemingen)
standaardafwijking :
= stafw(lijst waarnemingen)
• nagaan of die steekproef inderdaad een steekproef is uit een normaalverdeling
Via een ‘quantile-quantile plot’ (QQ-plot), ook wel ‘normal probability plot’ genaamd, kun je nagaan of een dataset gegevens bevat uit een normaal verdeelde kansvariabele of niet.
Liggen alle punten van de quantile-quantile plot min of meer op een rechte lijn, dan mag je aannemen dat de dataset gegevens bevat uit een normaal verdeelde populatie.
In GeoGebra teken je een quantile-quantile plot met het commando :
kwantielplot(lijst)
Om informatie over een onbekende populatie te krijgen, moet je steekproeven trekken. Elke steekproef levert je informatie over de onbekende populatie. Zo kun je van elke steekproef die je genomen hebt, het steekproefgemiddelde en de standaardafwijking berekenen.
Als je steekproeven neemt van gelijke grootte en bijvoorbeeld van elke genomen steekproef het gemiddelde berekent, dan vormen die gemiddelden een steekproevenverdeling. Die steekproevenverdeling is normaal verdeeld.
Voorbeeld :
Gegeven is de verzameling van de eerste 1000 natuurlijke getallen.
We doen hieruit 30 aselecte trekkingen van 40 getallen en bepalen hiervan steeds het gemiddelde.
Trekking 1 : We vinden voor de waarden van de dertig gemiddelden :
Stellen we die gemiddelden voor op een QQ-plot :
Dan zien we dat die steekproefgemiddelden inderdaad normaal verdeeld zijn.
• Je kent de definitie van een dichtheidskromme.
Een dichtheidskromme beschrijft het algemeen patroon van een verdeling.
Het is een kromme die zich altijd op of boven de x -as bevindt en waarvan de oppervlakte onder de kromme gelijk is aan 1.
De oppervlakte onder de kromme in een willekeurig interval is de kans dat de waarnemingen binnen dat interval liggen.
• Je weet dat normale verdelingen symmetrische, ééntoppige, klokvormige dichtheidskrommen zijn die allemaal dezelfde globale vorm hebben.
• Je weet dat het algemeen functievoorschrift voor een normale verdeling f ( x )= 1 σ √2π e 1 2 x µ σ 2 is met m het gemiddelde en s de standaardafwijking.
Notatie : N( m, s)
Als een populatievariabele normaal verdeeld is met gemiddelde m en standaardafwijking s, dan noteren we dit verkort als : X ∼ N( m, s)
• Je kent de 68-95-99,7-regel.
Bij de normale verdeling met gemiddelde m en standaardafwijking s geldt :
68,3% van de waarnemingen ligt binnen het interval [ m – s, m + s]
95,5% van de waarnemingen ligt binnen het interval [ m – 2s, m + 2s]
99,7% van de waarnemingen ligt binnen het interval [ m – 3s, m + 3s]
• Je kent de betekenis van m en s in het functievoorschrift van de normale verdeling.
Als we de grafiek van de normale verdeling y = N( 0, 1) als referentiepunt nemen, dan wordt die grafiek naar rechts verschoven over een afstand m als m > 0 en naar links verschoven over een afstand | m | als m < 0 (bij constante s) en dan wordt die grafiek uitgerokken met factor 1 σ volgens de richting van de y -as en met factor s volgens de richting van de x -as (bij constante m). De waarde van s geeft aan of de curve breed (bij een grote standaardafwijking) of spits is.
• Je kent de betekenis van een z-score.
Als x een waarneming is uit N( m, s), dan is z de gestandaardiseerde waarde of z -score van x als z = x µ σ . Een z -score geeft aan hoeveel standaardafwijkingen de oorspronkelijke waarneming van het gemiddelde verwijderd is en in welke richting.
• Je weet dat de standaardnormale verdeling een normale verdeling is met m = 0 en s = 1.
• Je kent de betekenis van enkele kritieke z-waarden.
symmetrisch gebied rond het populatiegemiddelde m , uitgedrukt in de vorm [ m – a s, m + a s]
percentage van de populatie in het gebied [ m – a s, m + a s]
Ook in het bedrijfsleven heeft statistiek een vaste plaats veroverd. Zo staan momenteel o.a. kwaliteitsprogramma’s om de rendabiliteit te verhogen erg in de belangstelling en in die moderne kwaliteitszorg spelen statistische methoden en technieken een belangrijke rol. De methoden die in het begin van de 20e eeuw ontwikkeld werden, zijn operationeel gemaakt in het kwaliteitsprogramma Statistische Procesbeheersing (SPC – Statistical Process Control).
Vooral in Japan werd na de Tweede Wereldoorlog SPC toegepast in productieprocessen, administratie, aan- en verkoop, planning enz. Vaak waren die processen gebaseerd op het ‘3 sigma-principe’ dat 99,73% van de producten geen mankementen mag vertonen. Je kunt dit vergelijken met de 68-95-99,7-regel : ‘productie moet binnen het gebied [μ – 3σ, μ + 3σ ] liggen’. 99,73% lijkt een goed resultaat, maar dat betekent toch dat er per miljoen stuks 2700 mankementen vertonen. Dat zou onder meer betekenen dat in een gemiddelde Amerikaanse bank per dag zo’n 54 000 cheques verloren zouden gaan, dat in een gemiddeld telecombedrijf per maand zo’n 4000 facturen verkeerd opgesteld zouden worden en dat, gezien de vele schakelingen binnenin, zowat geen enkele computer foutloos zou werken.
Daarom werd in 1987 door Motorola een nieuw verbeteringsprogramma opgestart onder de naam ‘6 sigma’. Dit systeem houdt in dat er per miljoen producten slechts 3,4 fouten zouden zijn. Je kunt dit vergelijken met een uitbreiding van de 68-95-99,7-regel : ‘productie ligt nu binnen het gebied [μ – 6σ, μ + 6σ ]’. Op die manier wordt dus verwezen naar zesmaal de standaarddeviatie, vandaar de naam ‘zes sigma’.
Het systeem kreeg vooral bekendheid toen het in 1996 door General Electric werd ingevoerd. Dit bedrijf investeerde enorm veel geld in de implementatie van six sigma : $ 200 miljoen in het 1e jaar, $ 400 miljoen in het 2e en 3e jaar. De besparingen waren echter indrukwekkend : $ 150 miljoen in het eerste jaar, $ 600 miljoen in het 2e jaar, $ 1200 miljoen in het 3e jaar en ondertussen zijn die besparingen al opgelopen tot $ 6,6 miljard per jaar.
De tijd dat in het bedrijfsleven beslissingen t.a.v. kwaliteit gebaseerd waren op aanvoelen en ervaring is voorbij. Nu regeren systemen waarbij geschikte informatie wordt verzameld en gemeten en waarbij wordt bepaald hoe die informatie gebruikt kan worden. En hierbij speelt statistiek een doorslaggevende rol.
Gegeven : Z ∼ N( 0, 1)
Gevraagd :
Bereken met de tabel van de standaardnormale verdeling en controleer met ICT.
a P( Z ⩽ 2,22)
b P( Z < –1,1)
c P( –1,1 < Z < 3)
d P( Z > 3)
e P( Z ⩾ –1,59)
Gegeven : X ∼ N( 80, 10)
Gevraagd : Bereken met behulp van de tabel van de standaardnormale verdeling en controleer met ICT.
a P( X > 95)
b P( 90 ⩽ X ⩽ 100)
c P( X ⩾ 80)
d P( 70,5 < X < 85,5)
e P( X ⩽ 90)
Gegeven : Z ∼ N( 0, 1)
Gevraagd :
Bereken a met twee decimalen als gegeven is :
a P( Z ⩽ a ) = 65%
b P( 1 < Z < a ) = 15%
c P( –1 ⩽ Z ⩽ a ) = 35%
d P( Z > a ) = 55%
e P( a < Z < 1) = 25%
f P( –a < Z < a ) = 45%
: X ∼ N( 80, 10) Gevraagd : Bereken a met drie decimalen als gegeven is : a
De tijd die 90 studenten nodig hebben voor een laboproef is zorgvuldig opgemeten. Die tijden (uitgedrukt in minuten) staan in de volgende tabel.
a Bereken het gemiddelde en de standaardafwijking.
b Teken het bijbehorende histogram. Neem als klassenbreedte 2 minuten.
c Is de 68-95-99,7-regel hier van toepassing ?
d In de veronderstelling dat die tijden normaal verdeeld zijn, teken die normale verdeling en bereken :
• hoeveel % van de studenten minder dan 1 uur nodig had voor de proef ;
• hoeveel % van de studenten meer dan 1 uur, maar minder dan 75 minuten nodig had voor de proef ;
• hoeveel % van de studenten langer werkte dan 75 minuten. Benader m door x en s door s .
In een fabriek worden op machinale wijze appelen verpakt (per zes stuks). De massa van 70 pakken wordt tot op een gram nauwkeurig gewogen. De resultaten zijn :
a Bereken het gemiddelde en de standaardafwijking.
b Teken het bijbehorende histogram. Neem als klassenbreedte 10 gram.
c Is de 68-95-99,7-regel hier van toepassing ?
d Als we veronderstellen dat de massa van die pakken normaal verdeeld is, teken dan die normale verdeling en bereken :
• hoeveel % van de pakken minder weegt dan 1,1 kg ;
• hoeveel % van de pakken meer weegt dan 1,2 kg ;
• hoeveel % van de pakken tussen 1,1 kg en 1,2 kg weegt.
Benader m door x en s door s .
Een consumentenorganisatie doet een controle op de massa van pakken hondenvoer. Daartoe wegen ze 50 zakken die normaal gezien 500 gram moeten bevatten. De resultaten (in gram) staan in de volgende tabel.
a Bereken het gemiddelde en de standaardafwijking.
b Als we veronderstellen dat de massa van die pakken normaal verdeeld is, hoeveel % van de pakken bevat dan niet de gewenste hoeveelheid van 500 gram ? Benader m door x en s door s
In een bepaalde volksgroep is de gemiddelde lengte van jongens van 10 jaar 1,43 m en de standaardafwijking bedraagt 6 cm. Voor jongens van 18 jaar bedragen die getallen respectievelijk 1,77 m en 8 cm.
Pieter, 10 jaar, meet 1,45 m en Nicolas, 18 jaar, meet 1,795 m. Wie van de twee is relatief de grootste ?
Op het rapport van Christophe staan naast zijn punten ook het klasgemiddelde en de standaardafwijking. Hieronder vind je een deel van zijn rapport.
a Standaardiseer (= z -score) de scores van Christophe voor elk vak .
b Voor welk vak heeft Christophe relatief (= vergeleken met de rest van zijn klas) het beste gewerkt ?
c Voor welk vak heeft Christophe relatief het minst goed gewerkt ?
Als een nijlpaard gemiddeld 2300 kg weegt met een standaardafwijking van 300 kg, een zebra gemiddeld 290 kg met een standaardafwijking van 45 kg en een konijn gemiddeld 4,7 kg met een standaardafwijking van 0,3 kg, welk dier weegt dan relatief t.o.v. zijn soortgenoten het zwaarst, respectievelijk het lichtst : een nijlpaard van 2420 kg, een zebra van 320 kg of een konijn van 4,85 kg ?
Een wiskundewedstrijd op 100 punten waarvan de uitslag als normaal verdeeld beschouwd mag worden, heeft als gemiddelde 70 punten en als standaardafwijking 15 punten. Annelore behaalde 58 punten, Bea 91 punten. De z -score van Greet was –1, die van Daisy 1,6. De uitslag van Evert was zo dat 30% van de andere deelnemers een betere uitslag behaalden.
a Standaardiseer de scores van Annelore en Bea.
b Hoeveel % van de deelnemers behaalde een score tussen die van Annelore en Bea ?
c Wat was het resultaat van Greet, Daisy en Evert ?
Onderstaande figuur toont de grafieken van drie normale verdelingen .
a Welke verdeling heeft het kleinste gemiddelde ?
b Welke verdeling heeft het grootste gemiddelde ?
c Welke verdeling heeft de kleinste standaardafwijking ?
d Welke verdeling heeft de grootste standaardafwijking ?
e Welke verdeling heeft als gemiddelde 2 en als standaardafwijking 3 ?
f Welke verdeling heeft als gemiddelde 4 en als standaardafwijking 2 ?
g Welke verdeling heeft als gemiddelde 6 en als standaardafwijking 4 ?
Welke normale verdeling hoort bij welke grafiek ?
a X 1 ∼ N( 4, 2)
b X 2 ∼ N( 4, 3)
c X 3 ∼ N( 8, 2)
d X 4 ∼ N( 8, 3)
Een fabrikant produceert vier verschillende types duikflessen. Ze onderzoeken per type duikfles hoeveel minuten een duiker de duikfles onder identieke omstandigheden kan gebruiken. In de onderstaande grafiek zijn de resultaten van dit onderzoek weergegeven, waarbij we in elk van de vier types een normale verdeling vaststellen. Welke van de volgende uitspraken is dan niet juist ?
tijd(inminuten)
(A) De kans dat een duiker een duikfles niet langer dan 40 minuten kan gebruiken, is het grootst bij een duikfles van type 4.
(B) De kans dat een duiker een duikfles na 80 minuten nog steeds kan gebruiken, is het grootst bij een duikfles van type 1.
(C) Een duikfles van type 1 kan gemiddeld even lang gebruikt worden als een duikfles van type 2.
(D) Een duiker kan een duikfles van type 3 gemiddeld het langst gebruiken.
Toelatingsexamen tandarts 2015, vraag 10
Vooraf : voor een standaard normaal verdeelde toevalsvariabele Z geldt de 68-95-99,7-vuistregel : P( –1 < Z < 1) ≈ 0,68 ; P( –2 < Z < 2) ≈ 0,95 ; P( –3 < Z < 3) ≈ 0,997.
De toevalsveranderlijke X 1 is normaal verdeeld met gemiddelde 10 en standaardafwijking 4 (grafiek 1).
De toevalsveranderlijke X 2 is ook normaal verdeeld maar met gemiddelde 11 en standaardafwijking 3 (grafiek 2).
De corresponderende grafieken snijden elkaar in de punten met x -coördinaat s ≈ 8,44 en t ≈ 16,13 (zie figuur).
Welke van de volgende vier uitspraken is vals ?
(A) P( X 1 > t ) < 0,16 en P( X 2 > s ) < 0,84
(B) P( X 1 > 14) = P( X 2 > 14)
(C) P( X 1 < 6) < 0,17 en P( X 2 > 17) < 0,03
(D) P( X 1 > t ) = P( X 2 > t )
De massa van een lading geplukte peren is normaal verdeeld met m = 120 gram en s = 20 gram. De teler wil de peren in 5 gewichtsklassen verdelen die allemaal evenveel peren bevatten. Wat is de klassengrens van de 20% peren die het zwaarst wegen ?
De tijd om in het labo chemie een bepaalde proef uit te voeren is normaal verdeeld met een gemiddelde van 54 minuten en een standaardafwijking van 8 minuten.
a In hoeveel procent van de gevallen duurt de proef langer dan één uur ?
b Hoeveel tijd moet een leerkracht chemie voor de proef voorzien opdat hij met een zekerheid van 90% kan stellen dat de proef binnen de gestelde tijd klaar is ?
De massa van eieren is normaal verdeeld met parameters :
m = 58 gram en s = 8 gram.
Eieren die tot de hoogste 10% in massa behoren, krijgen label A.
Welke massa moet een ei minstens hebben om het label A te krijgen ?
De lengte van de snoeken uit het voorbeeld op pagina 99 is normaal verdeeld met m = 77,5 cm en s = 4,7 cm.
a Welk percentage van die snoeken zal langer zijn dan 82 cm ?
b Duid de overeenkomstige oppervlakte aan op de grafiek van de normale dichtheidsfunctie die de lengte van de snoeken beschrijft.
c De 25% kleinste snoeken wordt terug in het water geworpen. Hoe lang moet een snoek dan minstens zijn om op de markt te komen ?
d De 10% langste snoeken krijgt het etiket ‘super-snoek’. Vanaf welke lengte is een snoek ‘super’ ?
Het aantal wafels dat door een handelaar verkocht wordt op de wekelijkse marktdag is normaal verdeeld met m = 275 en s = 25.
a Wat is de kans dat de handelaar tijdens een marktdag meer dan 235 wafels verkoopt ?
b Wat is de kans dat hij sommige klanten niet kan helpen als hij 310 wafels meebrengt naar de markt ?
c Hoeveel wafels moet hij meebrengen als hij wenst dat de kans om klanten te moeten teleurstellen ten hoogste gelijk mag zijn aan 0,01 ?
De duur van een zwangerschap (uitgedrukt in dagen) is normaal verdeeld met een gemiddelde van 266 dagen en een variantie van 256 dagen.
a Bereken het percentage zwangerschappen dat korter is dan 220 dagen.
b Bereken het percentage zwangerschappen dat minder dan 282 dagen maar meer dan 245 dagen zal duren.
De slaapduur bij een verdovingsmiddel is normaal verdeeld met m = 6 uur en s = 1,5 uur.
Mag een anesthesist bij toediening van dit middel voor 99% zeker zijn dat de patiënt minstens 3 uur verdoofd blijft ?
Glaucoom is een veel voorkomende ziekte van het oog, die in de meeste gevallen gepaard gaat met een te hoge druk binnen in het oog. Door verhoogde oogdruk kan beschadiging van de oogzenuw optreden met als gevolg uitschakeling van een deel van het gezichtsveld.
De oogdruk is in een normale populatie normaal verdeeld met een gemiddelde van 16 mmHg (kwikdruk) en een standaardafwijking van 5 mmHg. De druk wordt gemeten door middel van een tonometer. Er is sprake van verhoogde oogdruk vanaf 21 mmHg. Welk percentage van de bevolking heeft een oogdruk van meer dan 21 mmHg ?
De lichaamslengten van pasgeboren baby’s zijn normaal verdeeld met een gemiddelde m = 52,23 cm en een standaardafwijking s = 2,42 cm.
Als 99% van de pasgeborenen een lichaamslengte heeft die rond het gemiddelde valt, dan kun je de anderen echt als uitzonderlijk beschouwen. Hoe klein (of hoe groot) moet een pasgeboren kind zijn om tot de 1% uitzonderlijke lengten te behoren ?
De massa van een lading geplukte tomaten is normaal verdeeld met m = 120 gram en s = 20 gram.
Wat is de kans dat, als Lise willekeurig een tomaat pakt, die minder weegt dan 100 gram ?
De score op een test bij een selectieproef is normaal verdeeld met een gemiddelde van 236 punten en een standaardafwijking van 7 punten.
Vanaf welk puntenaantal is een kandidaat geslaagd als slechts 20% van de deelnemers mag doorgaan met de selectieprocedure ?
Een examen economie staat op 60 punten en wordt afgenomen bij 500 studenten. De scores op het examen zijn normaal verdeeld met een gemiddelde van 38 punten en een standaardafwijking van 5 punten.
Evert, die 43 op 60 behaalde, beweert dat hij bij de beste 100 is. Heeft hij gelijk ?
Veronderstel dat de levensduur van een vaatwasser normaal verdeeld is met een gemiddelde van 7 jaar en een standaardafwijking van 2 jaar. Een firma wil de garantieperiode zo bepalen dat de kans dat de vaatwasser stukgaat voor het verstrijken van de garantieperiode hoogstens 0,15 is.
Hoeveel jaar (oplossing uitdrukken in volledige jaren) mag de garantie dan maximaal duren ?
Op een fruitveiling zijn er door een vergissing te veel mango’s aangevoerd. Om de mangoprijs stabiel te houden besluiten ze om de kleinste mango’s niet te veilen. Via een steekproef vinden ze dat het gewicht van de mango’s normaal verdeeld is met een gemiddelde van 340 gram en een standaardafwijking van 30 gram.
a De 20% lichtste mango’s worden niet op de markt gebracht. Hoeveel moet een mango minstens wegen om geveild te worden ?
b Van de geveilde mango’s krijgen de 30% grootste (zwaarste) het label ‘xtra’. Vanaf welk gewicht is een mango ‘xtra’ ?
a Een variabele X is normaal verdeeld met gemiddelde m = 486 en s = 13. Binnen welk symmetrisch interval rond m ligt dan 70% van de waarnemingen ?
b Een variabele X is normaal verdeeld met gemiddelde m = 23 en s = 0,8. Binnen welk symmetrisch interval rond m ligt 85% van de waarnemingen ?
De tijd die een schoonmaakploeg nodig heeft om in een bungalowpark een bungalow te poetsen, is normaal verdeeld met een gemiddelde van 115 minuten en een standaardafwijking van 20 minuten.
Bereken :
a de kans dat de poetsbeurt langer dan 140 minuten zal duren;
b de tijdsduur t zodat in 92% van de gevallen de poetsbeurt niet langer duurt dan die tijd t
Zoek telkens het gevraagde.
GEGEVEN GEVRAAGD
a X ∼ N( m = ? , s = 5)
P( X ⩽ 20) = 72,57% m
b X ∼ N( m = ? , s = 12)
P( X ⩾ 80) = 74,75%
c X ∼ N( m = 67 , s = ? )
P( 85 < X < 90)
P( X < 70) = 64,62% s
* d X ∼ N( m = 110 , s = ? )
P( 100 < X < 116) = 48,91% s
e X ∼ N( m , s)
P( X ⩽ 50) = 22,66%
P( X > 52) = 59,87%
f X ∼ N( m , s)
P( X ⩽ 250) = 72,18%
m en s
In een fabriek worden flessen automatisch gevuld. De inhoud van de flessen is normaal verdeeld rond de ingestelde vulinhoud. De standaardafwijking bedraagt 6 cm3. De fabrikant wenst dat 90% van de flessen een minimale inhoud van 500 cm3 heeft.
Op welke vulinhoud moet de machine worden ingesteld ?
Een vulmachine die pakken pasta vult, staat ingesteld op een gemiddelde van 505 gram per pak. We mogen veronderstellen dat het vullen gebeurt volgens een normale verdeling met m = 505 gram en een onbekende s
Bij nauwkeurig nawegen van een groot aantal pakken pasta blijkt 15% van de pakken minder dan 500 gram te bevatten.
Bereken de standaarddeviatie van de vulmachine.
Als Thomas thuis om 7.50 u. vertrekt naar school, is hij in 4% van de gevallen te laat voor de les die om 8.30 u. begint. Vertrekt hij om 7.45 u., dan is hij slechts in 1% van de gevallen te laat. In de veronderstelling dat de reistijd van Thomas naar school normaal verdeeld is, hoe laat moet hij dan thuis vertrekken om in niet meer dan 0,5% van de gevallen te laat te komen ?
De snelheden van wagens die op een bepaalde plaats van de autosnelweg passeren, zijn normaal verdeeld. Observaties tonen dat 95% van de wagens daar trager rijdt dan 120 km/h en 10% trager dan 90 km/h.
a Vind de gemiddelde snelheid van de wagens.
b Zoek het percentage van de wagens dat sneller rijdt dan 105 km/h.
In een fabriek worden machinaal kousen gemaakt. In de veronderstelling dat de lengte van de kousen normaal verdeeld is, bepaal dan de gemiddelde lengte en de standaardafwijking van de lengte van een kous als je weet dat 10,6% van de kousen een lengte heeft kleiner dan 44,5 cm en 5,3% een lengte heeft tussen 44,5 cm en 44,6 cm.
Als de brandduur van een bepaald type spaarlamp als normaal verdeeld mag worden beschouwd, bepaal dan de gemiddelde brandduur en de standaardafwijking als je weet dat 84,1% van de lampen langer brandt dan 6000 uur, maar slechts 2,3% van de lampen langer brandt dan 6700 uur.
De inhoud van potten honing is normaal verdeeld. Op welke gemiddelde inhoud (uitgedrukt in cl) is de vulmachine ingesteld en wat bedraagt de standaardafwijking als je weet dat 9,1% van de potten een inhoud heeft van meer dan 510 cl en 2,3% van de potten een inhoud heeft van minder dan 500 cl ? Machinaal gevulde flessen melk hebben een inhoud die normaal verdeeld is met een gemiddelde van 1,01 liter en een standaardafwijking van 65 ml.
a Bereken een symmetrisch interval van m waarbinnen zich respectievelijk 90%, 95% en 99% van de inhouden van de gevulde flessen bevindt.
b Bepaal de grenswaarde waarboven zich 90%, respectievelijk 95% en 99% van de inhouden van de gevulde flessen bevindt.
Ga via een quantile-quantile plot na dat de volgende gegevens afkomstig zijn uit een normaal verdeelde populatie. Bereken het gemiddelde en de standaardafwijking van de steekproef.
Genereer een steekproef van 200 gegevens uit een normaal verdeelde toevalsveranderlijke, bereken het steekproefgemiddelde en de standaardafwijking en ga via een quantile-quantile plot na dat de gegenereerde dataset inderdaad afkomstig is uit een normaal verdeelde populatie.
De Belgische wiskundige Adolphe Quetelet publiceerde in Lettres sur la théorie des probabilités, appliquée aux sciences morales et politiques (1846) de volgende gegevens over de borstomtrek van 5738 Schotse soldaten.
a Bereken het gemiddelde en de standaardafwijking van de steekproef.
b Teken het bijbehorende histogram. Neem als klassenbreedte 1 duim.
c Zoek m.b.v. GeoGebra de normale verdeling die bij dit histogram hoort.
d Bepaal aan de hand van die normale verdeling het percentage Schotse soldaten met een borstomtrek tussen 38 en 43 duim.
Onderzoeksopdracht.
Simuleer 35 aselecte steekproeven uit een normale verdeling met gemiddelde 210 en standaardafwijking 8. Bereken van elke steekproef het gemiddelde en stel die gemiddelden voor op een QQ-plot.
Gegeven : voor een standaard normaal verdeelde toevalsveranderlijke Z geldt : P( 0 < Z < 1,28) = 0,400 (afgeronde waarde tot op 3 decimalen).
Het nettogewicht van boontjes in blik van een bepaalde firma is normaal verdeeld met een standaardafwijking σ = 8 (uitgedrukt in gram). We stellen vast dat 10% van de geproduceerde blikken minder dan 200 gram boontjes bevat. Wat is de beste benadering voor het gemiddelde nettogewicht µ (uitgedrukt in gram) van de geproduceerde blikken ?
(A) 214
Toelatingsexamen arts 2022, vraag 8
Quetelet en de BMI
(B) 212
(C) 210
Nog dagelijks wordt gebruikgemaakt van een begrip dat in 1870 door de Gentenaar Quetelet ingevoerd werd : de queteletindex, beter bekend als de bodymassindex (of BMI). Die wordt als volgt berekend :
Volgens de WGO (Wereldgezondheidsorganisatie) worden de waarden als volgt geïnterpreteerd :
Hier komt het introductie tekstje.
Witregels worden manueel ingegeven.
We schakelen even over naar de verkiezingen … Redacties van kranten of tv-zenders houden niet enkel van peilingen voor de verkiezingen maar evenzeer van exitpolls, live opgenomen bij de stemlokalen.
Stel dat bij een peiling aan 2000 Vlamingen gevraagd werd voor welke partij ze zouden stemmen voor het Europees Parlement. Hiervan geven 514 ondervraagden als antwoord ‘partij A’. Dankzij betrouwbaarheidsintervallen kun je berekenen dat er 95% kans is dat tussen de 23,8% en 27,6% van de Vlamingen zal kiezen voor partij A (en zo kun je inschatten wie uiteindelijk deze zitjes in Brussel zal invullen).
Betrouwbaarheidsintervallen vormen een van de twee meest gangbare types van formele statistische inferentie. Zij zijn toepasbaar wanneer het doel is een populatieparameter te schatten.
Het tweede type inferentie richt zich op een heel ander doel: het beoordelen van het door de data verschafte bewijsmateriaal ten gunste van een of andere bewering over de populatie. Hypothese- of significantietoetsen zijn, o.a. in de politiek, de economie, de medische en chemische wereld, een veelgebruikte statistische techniek. Ze worden vaak aangewend om een gevestigde norm eventueel te weerleggen, bijvoorbeeld om aan te tonen dat een nieuw geneesmiddel een betere kans biedt op genezing dan het klassieke geneesmiddel.
Het is een techniek die toelaat conclusies te trekken over een hele populatie gebaseerd op steekproefgegevens, conclusies waarvan we niet zeker zijn maar waarvan we het risico op een verkeerde uitspraak onder controle hebben. In de volgende paragrafen zullen we deze techniek toelichten met een paar voorbeelden en hierbij aandacht besteden aan de typische statistische denkwijze.
Voorbeeld :
Een fabrikant van metalen cilinders beweert dat de buitendiameter van de cilinders normaal verdeeld is met m = 11,6 cm en s = 0,4 cm. De laatste tijd komen er van de klanten nogal wat klachten dat sommige van de cilinders te breed zijn; volgens hen is de gemiddelde buitendiameter groter dan 11,6 cm.
Om geen klanten te verliezen en om zeker te zijn dat de productie goed verloopt, besluit de fabrikant een steekproef te nemen van 25 cilinders. Die steekproef levert een gemiddelde buitendiameter van 11,7 cm op. Wat moet de fabrikant hieruit besluiten ?
Over de grootte van de buitendiameters van de metalen cilinders zijn twee hypothesen naar voren gebracht.
H 0 : m = 11,6 cm, de nulhypothese
H 1 : m > 11,6 cm, de alternatieve hypothese
Toetsen betekent beslissen, namelijk beslissen of een vooraf geformuleerde uitspraak (een hypothese) als juist of als onjuist moet worden beschouwd. De uitspraak waarvan de juistheid wordt onderzocht, noemen we de nulhypothese
Als we op basis van verzamelde gegevens (bijvoorbeeld een steekproef) concluderen dat de nulhypothese niet geloofwaardig is, aanvaarden we het andere geformuleerde standpunt: de alternatieve hypothese
Het nagaan of een bewering kan kloppen op basis van een steekproef, noemen we een hypothese- of significantietest.
Na het formuleren van de hypothese stellen we een grootheid op waarmee de toets wordt uitgevoerd. Bij dit voorbeeld kiezen we als stochast X : de gemiddelde grootte van de buitendiameter van 25 metalen cilinders.
Als H 0 juist is, is X normaal verdeeld met µ = 11,6en σ = 0,4 √25 = 0,08 √n -wet
Op grond van de kansverdelingen kunnen we overgaan tot het opstellen van een beslissingsschema, waarin voor iedere waarde van X wordt aangegeven welke beslissing wordt genomen.
De verzameling van waarden van X , waarvoor H 0 wordt verworpen ten gunste van H 1, noemen we de kritieke zone of het verwerpingsgebied V. De complementaire verzameling, dit is de verzameling van waarden van X waarvoor we H 0 niet verwerpen, noemen we het aanvaardingsgebied A.
Om tot een verdeling te komen in een verwerpingsgebied en een aanvaardingsgebied is een criterium nodig. Dit wordt gegeven door een kans α : de kans op een fout van de eerste soort (verwerpingsfout).
Fouten bij de toetsing – de keuze van α
De volgende situaties kunnen optreden : beslissing op grond van de steekproef H 0 niet verwerpen H 0 verwerpen
werkelijke situatie
H 0 is waar juiste beslissing 1 – α fout van de eerste soort α
H 1 is waar fout van de tweede soort b juiste beslissing 1 – b
In twee gevallen komen we tot een juiste uitspraak, in twee gevallen tot een foutieve. De consequenties van de twee soorten fouten zijn echter over het algemeen niet gelijkwaardig. Een fout van de eerste soort is meestal ernstiger dan een fout van de tweede soort. Het beoordelen van de ernst van beide fouten is echter een taak van de fabrikant, niet van de statisticus.
De grootte van de kans op een fout van de eerste soort, behorend bij een bepaald kritiek gebied, duiden we aan met α en noemen we het significantieniveau
P (H0 verwerpen | H0 waaris)= α,hetsignificantieniveau
De keuze van α wordt meestal vooraf bepaald en is een zaak die van externe factoren afhangt en van de vraag hoe schadelijk het is de nulhypothese ten onrechte te verwerpen. In de praktijk kiezen we meestal α = 10%, α = 5% of α = 1%.
De grootte van de kans op een fout van de tweede soort (doorlatingsfout), behorend bij een bepaald kritiek gebied, duiden we aan met b
P (H0 nietverwerpen | H1 waaris)= β
De kans dat H 0 wordt verworpen terwijl H 1 juist is, bedraagt 1 – b en noemen we het onderscheidingsvermogen
P (H0 verwerpen | H1 waaris)= 1 β ,hetonderscheidingsvermogen
Veronderstel even dat het productieproces van de metalen cilinders H 0 inderdaad verkeerd is en m = 11,8.
Dan kunnen we de fout van de tweede soort visueel voorstellen als volgt :
y
Uit de bovenstaande grafiek leid je het volgende af : verklein je de kans op een fout van de eerste soort, dan vergroot je de kans op een fout van de tweede soort.
De fabrikant besluit om de kans op een type I-fout kleiner dan 5% te houden. Hij besluit dus om de nulhypothese te verwerpen op het 5%-significantieniveau of α = 0,05.
De (rechter)grenswaarde g r van het aanvaardingsgebied is in dit geval :
P ( X g r )= α
P ( X g r )= 0,05
1 P ( X < g r )= 0,05
P ( X < g r )= 0,95
ICT g r = 11,7316
Dat betekent dat de fabrikant de nulhypothese blijft aanvaarden zolang de gemiddelde buitendiameter van een steekproef van 25 cilinders kleiner is dan g r = 11,73 cm.
V = [ 11,73 ; +∞[ Zie grafiek op de vorige bladzijde.
A = ] 0 ; 11,73[
De gevonden waarde was hier 11,7 < g r . 11,7
∈ A, dus de fabrikant aanvaardt de nulhypothese en zal het productieproces niet bijsturen. Dat betekent echter niet dat de nulhypothese juist is.
Voorbeeld :
In het vorige voorbeeld is de fabrikant zijn productieproces pas gaan toetsen na een klacht van zijn klanten, die beweerden dat de gemiddelde buitendiameter van de cilinders groter was dan 11,6 cm.
Een goede fabrikant wacht niet op klachten en doet preventief zelf regelmatig een aantal steekproeven om de kwaliteit van zijn product na te gaan. Bij een slechte productie zijn er nu echter twee mogelijkheden. Ofwel zijn de gemiddelde buitendiameters te breed, ofwel zijn de gemiddelde buitendiameters te smal.
Het formuleren van de hypothese
Over de grootte van de buitendiameters van de metalen cilinders gelden nu de volgende twee hypothesen:
H 0 : m = 11,6 cm, de nulhypothese. Het productieproces werkt normaal.
H 1 : m ≠ 11,6 cm, de alternatieve hypothese. Het productieproces is verstoord en levert buitendiameters die ofwel breder ofwel smaller zijn dan 11,6 cm.
Wanneer we enkel groter dan (>) of kleiner dan (<) formuleren bij de alternatieve hypothese, spreken we van een eenzijdige toets. In het andere geval spreken we van een tweezijdige toets.
Geval 1 : H 0 : m = µ0 versus H 1 : µ > µ0 rechts eenzijdige toets
Geval 2 : H 0 : m = µ0 versus H 1 : µ < µ0 links eenzijdige toets
Geval 3 : H 0 : m = µ0 versus H 1 : µ ≠ µ0 tweezijdige toets
De toetsingsgrootheid
Na het formuleren van de hypothese stellen we, net zoals in het vorige geval, een grootheid op waarmee de toets wordt uitgevoerd. We kiezen als stochast X de gemiddelde grootte van de buitendiameter van n (= de grootte van de steekproef) metalen cilinders.
Als H 0 juist is, dan is X normaal verdeeld met m = 11,6 en s = 0,4 √n
De fabrikant besluit ook hier een steekproefgrootte van 25 stuks te nemen, m.a.w. X is normaal verdeeld met m = 11,6 en s = 0,08.
De fabrikant besluit om ook hier de kans op een type I-fout kleiner dan 5% te houden. De nulhypothese wordt dus verworpen op het 5%-significantieniveau, m.a.w. α = 0,05.
De grenswaarden g l en g r van het aanvaardingsgebied zijn in dit geval :
P ( X g l )= P ( X g r )= 1 2 α
P ( X g l )= 0,025 en P ( X g r )= 0,025
P ( X g l )= 0,025 en P ( X < g r )= 0,975
ICT
g l = 11,44 en g r = 11,76
Dat betekent : als de fabrikant bij een aselecte steekproef van 25 stuks als gemiddelde buitendiameter een waarde vindt gelegen in het interval [ g l , g r ] = [ 11,44 ; 11,76], dan zal hij de nulhypothese aanvaarden.
Wanneer de productielijn correct is afgesteld, dan heeft hij immers 95% ( = 1 – α) betrouwbaarheid dat de gevonden gemiddelde waarde in dit interval ligt (100% zekerheid is er nooit).
Vindt hij een waarde binnen dit interval, dan wil dat niet zeggen dat de productielijn correct is afgesteld.
Er bestaat immers nog altijd een zekere kans b dat hij zich vergist.
Vindt hij een waarde buiten dit interval, dan wil dat evenmin zeggen dat de productielijn foutief is afgesteld.
Er bestaat immers nog altijd een zekere kans α dat hij zich vergist.
Taak : herneem dit voorbeeld met n = 64 en α = 0,01.
– Formuleer een nulhypothese H 0 en een alternatieve hypothese H 1
– Bepaal de toetsingsgrootheid.
– Bepaal de steekproefomvang n . In de voorbeelden en opgaven is n meestal gegeven, in de praktijk zullen we n vaak moeten kiezen. – Kies een waarde voor α, de kans op een fout van de eerste soort. Ook hier zal de waarde van α in de voorbeelden en opgaven gegeven zijn, maar zullen we in de praktijk moeten overwegen op welk significantieniveau we wensen te testen.
– Bepaal het kritieke gebied (en de bijbehorende grenswaarden) uit de verdeling van de toetsingsgrootheid onder H 0.
– Bepaal de steekproefuitkomst van de toetsingsgrootheid en bekijk met behulp van het kritieke gebied of de nulhypothese al dan niet moet worden verworpen.
Toets voor het gemiddelde m van een normale verdeling : links eenzijdige toets tweezijdige toets rechts eenzijdige toets
nulhypothese en alternatieve hypothese
Voorbeeld :
We hernemen de situatie van de klanten die klagen en de steekproef van 25 cilinders die een gemiddelde buitendiameter x van 11,7 cm oplevert.
We kunnen nu de situatie omdraaien en ons de vraag stellen : ‘Wat is de kans in een normale situatie op een gemiddelde buitendiameter van 11,7 cm of groter ?’ Op basis van die kans, P -waarde genoemd, wordt dan een beslissing genomen.
Het formuleren van de hypothese
Ook hier wordt een nulhypothese versus een alternatieve hypothese geformuleerd. We nemen net zoals bij het beginprobleem :
H 0 : m = 11,6 cm, de nulhypothese
H 1 : m > 11,6 cm, de alternatieve hypothese
Na het formuleren van de hypothese stellen we, net zoals in de vorige gevallen, een grootheid op waarmee de toets wordt uitgevoerd. We kiezen als stochast X ook hier de gemiddelde grootte van de buitendiameter van 25 (= de grootte van de steekproef) metalen cilinders.
Onder H 0 is X normaal verdeeld met µ = 11,6en σ = 0,4 √n = 0,08 .
Het waargenomen gemiddelde x is nu 11,7 cm. We stellen ons de vraag hoe groot de kans is om onder H 0 een gemiddelde waarde groter of gelijk aan x te vinden.
P -waarde = P = P X x
= P X 11,7
= 1 P X < 11,7
ICT = 0,1056 = 10,56%
Via GeoGebra kan dit ook rechtstreeks met het commando
ZTestGemiddelde ( x , s, n , m0, ">").
We verwerpen, zoals in de vorige gevallen, de nulhypothese op het 5%-significantieniveau. We stellen dus α = 0,05.
In het voorbeeld is P = 0,1056 > α = 0,05.
Dat betekent dat in meer dan 10% van de gevallen bij een steekproef van 25 stuks, de gemiddelde diameter groter zal zijn dan 11,7 cm. Die situatie is niet zo uitzonderlijk en bijgevolg aanvaarden we de nulhypothese die stelt dat het productieproces zodanig is opgesteld dat de gemiddelde diameter van de cilinders 11,6 cm is.
– Formuleer een nulhypothese H 0 en een alternatieve hypothese H 1
– Bepaal de toetsingsgrootheid.
– Bepaal de steekproefomvang n en kies een waarde voor α.
– Bepaal de P -waarde van de steekproef.
– Vergelijk de P -waarde met α en ga na of de nulhypothese al dan niet moet worden verworpen.
Toets van het gemiddelde :
links eenzijdige toets tweezijdige toets rechts eenzijdige toets
Toepassing 1 :
De eigenaar van een hamburgerkraam beweert dat zijn hamburgers minstens 200 gram wegen (met een standaardafwijking van 20 gram). De consumentenbond doet een controleproef en heeft 25 hamburgers gewogen. Die 25 hamburgers hadden een gemiddeld gewicht van 188 gram. Toets (eenzijdig) of de eigenaar van het hamburgerkraam gelijk kan hebben met zijn uitspraak (α = 1%).
Oplossing : – formuleren van de hypothesen
H 0 : de hamburgers wegen minstens 200 gram : µ ⩾ 200
H 1 : de hamburgers wegen minder dan 200 gram : µ < 200
– de toetsingsgrootheid
X is het gemiddelde gewicht van 25 hamburgers.
X is normaal verdeeld N µ = 200; σ = 20 √25 = 4 .
– methode 1 : via grenswaarden
We bepalen de linkergrenswaarde (via ICT) van het aanvaardingsgebied bij α = 1%.
P X k 0,01
k = 190,7
Dat betekent dat, wanneer het gemiddelde gewicht van 25 hamburgers meer weegt dan 190,7 gram, de nulhypothese wordt aanvaard. Bedraagt het gemiddelde gewicht minder dan 190,7 gram, dan wordt ze verworpen.
In ons geval is 188 < 190,7 en wordt de nulhypothese dus verworpen. Wij vermoeden (zeker zijn we immers nooit) dat de eigenaar van het hamburgerkraam ongelijk heeft.
– methode 2 : via de P -waarde
P-waarde (via ICT) = 0,00135 < α = 0,01
Dat betekent dat in 0,135% van de gevallen bij een steekproef van 25 stuks, het gemiddeld gewicht kleiner of gelijk zal zijn dan 188 gram. Die situatie is zo uitzonderlijk dat we de nulhypothese verwerpen. Wij vermoeden op basis van de P-waarde dat de eigenaar van het hamburgerkraam ongelijk heeft.
Toepassing 2 :
Arthur is verantwoordelijk voor de machine die flesjes frisdrank vult van 33 cl. De machine staat ingesteld op een vulinhoud van 33,5 cl en heeft een standaardafwijking van 4 cl.
Bij een controle van 40 flesjes vindt Arthur een gemiddelde van 34,7 cl. Moet hij op basis van die controle de vulmachine bijstellen of niet ? (toets tweezijdig met α = 5%)
Oplossing :
– formuleren van de hypothesen
H 0 : de machine is correct afgesteld: µ=33,5
H 1 : de machine is niet correct afgesteld: µ≠33,5
– de toetsingsgrootheid
X is de gemiddelde inhoud van 40 flesjes.
X is normaal verdeeld N µ = 33,4; σ = 4 √40 .
– methode 1 : via grenswaarden
We bepalen de grenswaarde (via ICT) van het aanvaardingsgebied bij α = 5% (d.i. 2,5% links en 2,5% rechts).
De linkergrenswaarde is 32,26 en de rechtergrenswaarde 34,74.
Dat betekent dat als de gemiddelde vulinhoud van 40 flesjes frisdrank zich bevindt tussen de waarden 32,26 en 34,74, de nulhypothese aanvaard wordt. In het andere geval wordt ze verworpen.
In ons geval is 32,26 < 34,7 < 34,74 en wordt de nulhypothese aanvaard. Op basis van die steekproef zal Arthur de vulmachine niet bijstellen.
– methode 2 : via de P -waarde
P-waarde = 0,0578 > α = 0,05
Dat betekent dat de kans om een gemiddelde vulinhoud van 34,7 cl te vinden bij een steekproef van 40 flesjes frisdrank 5,78% bedraagt. Omdat die kans groter is dan 5% beschouwen we dit niet als uitzonderlijk en aanvaarden we de nulhypothese. De vulmachine moet dus niet worden bijgesteld.
• Je kent de werkwijze om een hypothese te toetsen.
– De hypothese formuleren.
De uitspraak waarvan de juistheid wordt onderzocht, noemen we de nulhypothese.
Als we op basis van verzamelde gegevens concluderen dat de nulhypothese niet geloofwaardig is, aanvaarden we het andere geformuleerde standpunt : de alternatieve hypothese.
– De toetsingsgrootheid vaststellen.
– De kritieke zone of het verwerpingsgebied bepalen.
Op grond van de kansverdelingen kunnen we overgaan tot het opstellen van een beslissingsschema, waarin voor iedere waarde van X wordt aangegeven welke beslissing wordt genomen.
De verzameling van waarden van X , waarvoor H0 wordt verworpen ten gunste van H 1, noemen we de kritieke zone of het verwerpingsgebied.
De complementaire verzameling, dit is de verzameling van waarden van X waarvoor we H 0 niet verwerpen, noemen we het aanvaardingsgebied.
• Je kent het verschil tussen een fout van de eerste soort (H0 is waar en H0 verwerpen) en een fout van de tweede soort (H1 is waar en H0 niet verwerpen).
beslissing op grond van de steekproef H 0 niet verwerpen H 0 verwerpen
H 0 is waar juiste beslissing 1 – α fout van de eerste soort α
werkelijke situatie
H 1 is waar fout van de tweede soort b juiste beslissing 1 – b
• Je kent het verschil tussen een eenzijdige en een tweezijdige toets.
links eenzijdige toets tweezijdige toets rechts eenzijdige toets
nulhypothese en alternatieve hypothese
• Je kent de betekenis van de P-waarde : de kans om onder H0 een gemiddelde waarde groter of gelijk aan het waargenomen gemiddelde te vinden.
links eenzijdige toets tweezijdige toets rechts eenzijdige toets
nulhypothese en alternatieve hypothese
H0 : µ = µ0
H1 : µ<µ0
H0 : µ = µ0
H1 : µ = µ0
H0 : µ = µ0 H1 : µ>µ0 P = P ( X
H0 verwerpen als P α P α P α
• Je kunt hypothesen toetsen via de grenswaarden en via de P-waarde.
Abraham Wald (1902-1950), grondlegger van de statistische beslissingstheorie
Abraham Wald werd in 1902 geboren in een Joodse familie in Hongarije. Omdat hij op zaterdag (sabbat) geen les mocht volgen van zijn ouders, werd hij niet toegelaten op school. Abraham Wald kreeg thuis onderricht van enkele leden van de familie, die bekwame leraars waren.
Na WO I werd een deel van Hongarije aan Roemenië gegeven, hieronder ook de geboortestad Cluj van Abraham Wald. Wald werd toegelaten tot de universiteit van Cluj, waar hij werd opgemerkt wegens zijn uitzonderlijke wiskundige begaafdheid.
In 1927 ging hij studeren aan de universiteit van Wenen, waar hij in 1931 onder de supervisie van Karl Menger doctoreerde met een werk over meetkunde. In het Wenen van de jaren 30 was er voor een jonge Joodse man geen mogelijkheid om een academische positie te verwerven, hoe getalenteerd hij ook was. Om een beetje financiële zekerheid te hebben nam Wald de betrekking van wiskundeleraar aan bij Karl Schlesinger, een bekende Oostenrijkse bankier en economist. Tussen 1931 en 1937 publiceerde hij 21 documenten over meetkunde, die Menger beschreef als ‘... deep, beautiful and of fundamental importance ’, en 10 documenten over economie en econometrie.
Toen in 1938 de Nazi’s Oostenrijk binnenvielen, kwam het leven van de Joodse geleerde in gevaar. The Cowles Commission nodigde hem uit naar de Verenigde Staten om daar onderzoek op het gebied van econometrie te verrichten. In de zomer van 1938 verliet Wald Oostenrijk om in de Verenigde Staten te gaan wonen. Op die manier ontsnapte hij als enige van zijn familie aan de gaskamers van Auschwitz.
Van 1938 tot 1941 studeerde hij als lid van de Carnegie Corporation statistiek aan de Columbia University in New York. In 1941 werd hij verbonden als lector aan die universiteit en hij bleef er bij de staf tot aan zijn dood. Ondertussen werkte hij ook mee aan militaire projecten met de Statistical Research Group van de Columbia University. Hij gebruikte zijn kennis van de statistiek om voor de U.S. Navy een methode te ontwikkelen die nuttige informatie gaf over de kwetsbaarheid van verschillende delen van een vliegtuig door het afweergeschut. Wald en zijn team ontwikkelden een basistheorie : ‘sequential probability ratio test (SPRT)’, nu bekend als betrouwbaarheidsinterval.
In Wenen legde Wald zich vooral toe op zuivere wiskunde, meestal meetkunde, en op econometrie. Zijn belangrijkste werk echter ligt in de statistiek. Hij ontwikkelde een veralgemening van het probleem Gamblers Ruin, dat een belangrijke rol speelt in de statistiek en bij gokspelen in het casino. Hij was de eerste die het probleem van ‘toetsen van hypothesen’ oploste. De meeste vondsten publiceerde hij in Annals of Mathematical Statistics (1939) en in Sequential Analysis (1947)
Niet alleen als statisticus maar ook als leraar had Abraham Wald een belangrijke invloed : ‘he was a master at deriving complicated results in amazingly simple ways ’. De notities die de studenten namen tijdens zijn colleges aan de Columbia University werden wegens hun uitzonderlijke helderheid gebruikt door de studenten in de statistiek van verschillende andere universiteiten in de Verenigde Staten.
Aan zijn schitterende carrière kwam abrupt een einde. In 1950 ontving hij een uitnodiging van de Indiase regering om lezingen over statistiek te geven in dat land. Tijdens zijn tournee in India kwam Wald samen met zijn vrouw om bij een vliegtuigcrash. Zijn laatste werk in verband met de statistische beslissingstheorie was het monumentale Statistical Decision Functions (1950)
Een fabrikant van lampen beweert dat de lampen een gemiddelde brandduur van 1800 uur hebben met een standaardafwijking van 120 uur. Om het gemiddelde te toetsen, nemen we een steekproef van 80 stuks.
De steekproef levert een gemiddelde waarde van 1750 uur. Heeft de fabrikant gelijk of niet ? ( toets eenzijdig α = 0,05)
Een fabrikant van lightproducten beweert dat zijn producten slechts 140 calorieën bevatten (met een standaardafwijking van 20 calorieën) per pakje van 200 gram. Bij een serie controleproeven heeft de consumentenbond 20 pakjes onderzocht. Die 20 pakjes bleken gemiddeld een voedingswaarde van 155 calorieën te bevatten.
Toets of de fabrikant gelijk kan hebben met zijn uitspraak ( α = 1%).
Een kweker heeft een aardbeienveld. De opbrengst X in gram per plant is normaal verdeeld met m = 240 gram en s = 60 gram.
In een poging om een hogere opbrengst per plant te bekomen, test de aardbeienkweker op een proefveldje een nieuwe bemestingsmethode uit. Wat blijkt ?
De 16 planten op het proefveldje leveren gemiddeld 260 gram op ( s nog steeds 60 gram).
Toets of de bemestingsmethode overtuigende resultaten heeft opgeleverd. Kies α = 0,05 en toets tweezijdig.
In een medisch labo worden capsules machinaal gevuld met een bepaalde vloeistof. Wanneer de machine correct staat afgesteld, is de inhoud van de capsules te beschouwen als een normaal verdeelde kansvariabele X met gemiddeld 8 ml vloeistof en standaardafwijking 0,3 ml. Om aan de kwaliteitsnormen te voldoen, zou er in elke capsule tussen 7,3 ml en 8,7 ml vloeistof moeten zitten.
a Hoeveel % van de capsules voldoet aan de kwaliteitsnorm, in de veronderstelling dat de machine correct staat afgesteld ?
b Regelmatig wordt de afstelling van de vulmachine gecontroleerd. Een steekproef van 36 capsules levert een gemiddelde inhoud van 8,5 ml. Toets of de machine nog correct is ingesteld of niet. Toets tweezijdig en kies α = 1%.
Een fabrikant brengt een exclusief parfum op de markt in flesjes van 200 ml. De vulmachine vult de flesjes waarvan de inhoud normaal verdeeld is met standaardafwijking s = 5 ml en een gemiddelde van m = 204 ml. Regelmatig neemt de fabrikant een steekproef van 25 flesjes en controleert hij de inhoud. Als het gemiddelde toeneemt, dan gaat dat ten koste van zijn winstmarge. Anderzijds kost een te laag gemiddelde hem op termijn klanten.
a Hoeveel % van de flesjes bevat minstens 200 ml, in de veronderstelling dat de machine correct staat afgesteld ?
b Wanneer een steekproef een gemiddelde inhoud van 202 ml oplevert, wat is dan de conclusie van de fabrikant op het 5%-significantieniveau ?
c Wanneer een steekproef een gemiddelde inhoud van 202 ml oplevert, wat is dan de conclusie van de fabrikant op het 1%-significantieniveau ?
Op de lopende band van een montagebedrijf is de assembleertijd van een stuk in minuten normaal verdeeld met een gemiddelde van m = 32 minuten en s = 6 minuten. Het afdelingshoofd beweert dat na een interne reorganisatie de assembleertijd is teruggedrongen naar een gemiddelde van m = 28 minuten en zelfde s.
Die bewering wordt getoetst door de assembleertijd van 16 stuks op te meten. Om 16 stuks te assembleren was een totaaltijd nodig van 468 minuten.
a Toets tweezijdig met α = 5% of de reorganisatie zinvol was.
b Toets eenzijdig met α = 5% of de bewering van het afdelingshoofd juist is.
In een fabriek worden assen vervaardigd waarbij de gemiddelde diameter ingesteld wordt op 7,6 mm.
De diameters van de geproduceerde assen zijn normaal verdeeld met standaardafwijking 0,4 mm. Ter controle nemen ze een steekproef van 50 assen en ze vinden als gemiddelde een waarde van 7,4 mm. Indien de diameters te veel afwijken, dan wordt het productieproces stopgezet. Ga na, met α = 1%, of het productieproces zal worden stopgezet.
In een fabriek worden balken geproduceerd die een massa van 12,4 ton moeten kunnen dragen. De productie is zodanig ingesteld dat de balken gemiddeld een massa van 12,7 ton aankunnen met een standaardafwijking van 200 kg.
a Hoeveel % van de balken heeft een draagkracht van minder dan 12,4 ton ?
b Dagelijks wordt een steekproef genomen van 16 balken en wordt hun draagkracht getest. Als we een significantieniveau van 2% wensen, bepaal dan de minimale gemiddelde draagkracht die deze steekproef moet hebben vooraleer het productieproces wordt bijgesteld.
c Dankzij nieuwe technologieën zijn ze erin geslaagd om de draagkracht van de balken te verhogen. De fabrikant denkt dat zijn balken nu een gemiddelde massa van 13,1 ton aankunnen (bij eenzelfde standaardafwijking). Een steekproef bij 25 balken levert een gemiddelde draagkracht op van 13,01 ton. Kan de fabrikant met die gegevens zijn vermoeden staven op het 5%-significantieniveau ? En op het 1%-significantieniveau ?
Een fabrikant vermoedt dat de vulmachine in zijn atelier afgesteld staat op minimaal 103 gram met een standaardafwijking van 4 gram. In werkelijkheid staat de machine afgesteld op 100 gram (eveneens met standaardafwijking 4 gram).
a Als de fabrikant (eenzijdig) de gemiddelde waarde van 16 stuks gaat testen op het 5%-significantieniveau, hoe groot bedraagt dan de fout van de tweede soort ?
b Als de fabrikant gaat testen op het 1%-significantieniveau, hoe groot is dan het onderscheidingsvermogen ?
c De fabrikant doet nu een steekproef van 16 stuks en vindt een gemiddelde waarde van 101 gram. Wat is zijn besluit op het 1%-significantieniveau ?
d Krijgt hij hetzelfde besluit als een steekproef van 25 stuks ook een gemiddelde waarde van 101 gram zou opleveren ?
Een fruitteler beweert dat een partij appelen gemiddeld minstens 215 gram weegt met een standaardafwijking van 10 gram. Warre neemt lukraak 25 appelen uit de bakken en weegt ze na. De gemeten waarden (in gram) zijn:
Gelooft hij de fruitteler betreffende de gemiddelde massa van zijn appelen op het 5%-significantieniveau ?
(Warre veronderstelt dat de waarde voor de standaardafwijking inderdaad juist is.)
Een gezaghebbend tijdschrift publiceert dat het geboortegewicht in Vlaanderen normaal verdeeld is met een gemiddelde van 3,3 kg en een standaardafwijking van 0,55 kg. Een gynaecoloog heeft de indruk dat het gemiddelde geboortegewicht in zijn kliniek groter is dan 3,3 kg. Om zijn hypothese te toetsen houdt hij gegevens bij van dertig kinderen. De gynaecoloog vindt voor het gemiddelde van zijn steekproef 3,483 kg. Mag hij op basis van dit resultaat besluiten dat het gemiddelde geboortegewicht in zijn kliniek groter is dan 3,3 kg ? ( Neem α = 0,05)
Volgens het etiket op een fles wijn bedraagt het alcoholpercentage van die wijnsoort 13%. In werkelijkheid is het alcoholpercentage van een willekeurige fles wijn natuurlijk niet precies 13%. In de ene fles is het percentage groter en in de andere fles kleiner dan 13%. Neem aan dat het alcoholpercentage van de totale hoeveelheid wijn normaal verdeeld is met m = 13% en standaardafwijking s = 0,6%. Om na te gaan of de aanduiding op het etiket klopt, onderzoekt de voedingsmiddeleninspectie 24 flessen van deze wijnsoort. De steekproef levert een gemiddeld alcoholpercentage van 12,71% op. Wat besluit de inspectie op het 1%-significantieniveau ?
Bakker Bol beweert dat zijn broden 800 gram wegen ( s = 18 g). Een kritische consument gelooft dat niet zonder meer en weegt een paar broden. Ze zijn alle lichter dan 800 gram. Maar dat is nog niet genoeg bewijsmateriaal. De klant besluit om dertig broden te kopen. De gemeten waarden (in gram) zijn :
1 d me = 64 km/h ; Q1 = 55 km/h ; Q3 = 74 km/h
e x = 64,58 km/h ; s = 12,96 km/h
f 49%
g 68% ; 96% ; 100%
2 d me = 65 gram ; Q1 = 59 gram ; Q3 = 76 gram
e x = 67,06 gram
f
g 37 h 20,9%
i
j
e 4
f 50
g 4,12%
h 94,15%
5 d Q1 = 21,75 jaar ; Q2 = 26 jaar ; Q3 = 30 jaar ;
x = 25,66 jaar ; s = 5,46 jaar
f 7
g 51,25%
h 30%
6 De partij wordt goedgekeurd.
7 a x = 10,96 euro ; s = 5,10 euro
b x = 14,94 euro ; s = 3,74 euro
c x = 15,35 euro ; s = 4,72 euro
8 b symmetrie rond klasse [ 35, 38]
c 61 is een uitschieter (lekke band van Raf).
d met uitschieter : x = 35,63 minuten
s = 6,26 minuten
zonder uitschieter : x = 35,20 minuten
s = 5,35 minuten
9 120 km/h
15
b de smaak van ijs
c 600 (willekeurig) gekozen personen
16 a systematisch met vast begin
b getrapt aselect
19 a alcoholgehalte
b leeftijd
c talent
d leeftijd
e intelligentie, inzicht
3 De normale verdeling (blz. 124)
1 a 0,98679
b 0,13567
c 0,86298
d 0,00135
e 0,94408
2 a 6,68%
b 13,59%
c 50%
d 53,78%
e 84,13%
3 a a = 0,39
b a = 2,38
c a = 0,02
d a = –0,13
e a = –0,23
f a = 0,60
4 a a = 86,745
b a = 63,551
c a = 63,551
d a = 99,600
5 a x = 71,35 minuten ; s = 9,95 minuten
c ja
d 12,22% ; 50% ; 34,44%
6 a x = 1135,86 gram ; s = 47,03 gram
c ja
d 22,3% ; 8,6% ; 69,1%
7 a x = 508,16 gram ; s = 9,46 gram
b 19,4%
8 Pieter
9 a z Engels = –0,111 ; z Frans = 0,129 ; z Fysica = 0,375 ;
z Wiskunde = 0,371
b Fysica
c Engels
10 relatief zwaarst : zebra
relatief lichtst : nijlpaard
11 a z Annelore = –0,8 ; z Bea = 1,4
b 70,74%
c x Greet = 55 ; x Daisy = 94 ; x Evert = 78
12 a blauw
e blauw
b groen f rood
c rood
d groen
g groen
40 a [ 903, 1117] ; [ 883, 1137] ; [ 843, 1177]
927 ml ; 903 ml ; 859 ml
4 Toetsen van hypothesen (blz. 217)
1 Nulhypothese ( H0 : µ = 1800 uur) wordt niet aanvaard ; de fabrikant heeft ongelijk.
2 Nulhypothese ( H0 : µ = 140 cal) wordt niet aanvaard, de fabrikant heeft ongelijk.
3 Nulhypothese ( H0 : µ = 240 gram) wordt aanvaard, de bemestingsmethode overtuigt niet.
4 a 98%
b Nulhypothese ( H0 : µ = 8 ml) wordt niet aanvaard, de machine is waarschijnlijk niet correct afgesteld.
5 a 78,8%
b Nulhypothese ( H0 : µ = 204 ml) op 5%-niveau wordt niet aanvaard.
c Nulhypothese ( H0 : µ = 204 ml) op 1%-niveau wordt aanvaard.
6 a Nulhypothese ( H0 : µ = 32 minuten) wordt niet verworpen, men kan zich terecht afvragen of de reorganisatie zinvol was.
b Nulhypothese ( H0 : µ = 28 minuten) wordt aanvaard, de bewering van het afdelingshoofd kan juist zijn.
7 Nulhypothese ( H0 : µ = 7,6 mm) wordt niet aanvaard, het productieproces wordt stopgezet.
8 a 6,7%
b 12,597 ton
c Nulhypothese ( H0 : µ = 13,1 ton) verwerpen op 5%-niveau ; aanvaarden op 1%-niveau.
9 a 8,8%
b 75%
c De fabrikant denkt nog steeds dat de machine goed is afgesteld.
d De fabrikant besluit dat de machine niet goed is afgesteld.
10 Nulhypothese ( H0 : µ = 215 gram) wordt niet aanvaard, Warre gelooft de fruitteler niet.
11 Nulhypothese ( H0 : µ = 3,3 kg) wordt niet aanvaard, het gemiddelde geboortegewicht ligt vermoedelijk hoger.
12 Nulhypothese ( H0 : p = 0,13) wordt niet aanvaard, de aanduiding op het etiket klopt niet.
13 Nulhypothese ( H0 : µ = 800 gram) wordt aanvaard, er is niet voldoende bewijsmateriaal om een klacht in te dienen.
U uitbijter 61, 74 uitkomst 10
uitkomstenverzameling 10 uitschieter 61, 74 uniforme kansverdeling 15
V variantie 80 variatiebreedte 61 vereniging 11 verklarende statistiek 92 verschil 11 verwerpingsfout 140 verwerpingsgebied 140 voorwaardelijke kans 37, 38 vrijheidsgraden 70
W waarneming 62
Z
z-score 108 zekere gebeurtenis 10