VBTL 5/6 Kansrekenen en statistiek eco en wet - inkijk methode (materiaal VBTL) by die Keure

LEERBOEK

Kansrekenen i Statistiek

D-ﬁnaliteit economie en wetenschappen

Philip Bogaert

Filip Geeurickx

Marc Muylaert

Roger Van Nieuwenhuyze

Erik Willockx

CARTOONS

Dave Vanroye

Hoe gebruik je VBTL ?

Dit boek bevat drie hoofdstukken. Elk hoofdstuk is opgebouwd uit verschillende paragrafen met aan het einde een handige samenvatting.

Deﬁnities vind je op een rode achtergrond. Eigenschappen vind je op een groene achtergrond. Methodes, rekenregels en formules vind je op een zachtblauwe achtergrond.

Wiskunde is een eeuwenoude wetenschap. De geschiedenis van de wiskunde en de herkomst van bepaalde begrippen worden zachtpaars afgedrukt.

De nummers van de oefeningen hebben een gele kleur. Een sterretje duidt op een extra uitdaging. Maak ook kennis met voorbeeldvragen uit ijkingstoetsen en toelatingsexamens.

ICT is een ideaal hulpmiddel. Bij dit boek hoort een webpagina van GeoGebra, gevuld met heel wat digitale oefeningen en applets. Die vind je terug via www.polpo.be. 1

Achteraan in dit boek vind je de oplossingen

Wat moet je kennen en kunnen ?

Op het einde van elk hoofdstuk zie je een handig overzicht van wat je moet kennen en kunnen

2 *

Welkom in de boeiende studie van kansrekenen en statistiek. Bij kansrekenen leggen we de klemtoon op kansbomen en de formule van Laplace die enkel geldt als de uitkomsten bij een kansexperiment even waarschijnlijk zijn. We maken ook kennis met kruistabellen en voorwaardelijke kansen.

Statistiek is de wetenschap van het verzamelen, ordenen en interpreteren van gegevens. In het dagelijkse leven kom je voortdurend data, statistieken en resultaten van statistische gegevens tegen. Met kennis en inzicht in de statistische wetenschap ben je beter in staat om daarmee om te gaan en kun je ze op hun (on)waarde taxeren.

De deductieve of beschrijvende statistiek is het deel van de statistiek dat verzamelde data, afkomstig van een steekproef of van de populatie, probeert samen te vatten in een beknopte weergave om globale patronen en kenmerken te ontdekken.

De inductieve statistiek bestaat enerzijds uit de verklarende statistiek en anderzijds uit de inferentiële statistiek. Verklarende statistiek maakt gebruik van de kansrekening ; inferentiële statistiek probeert algemene uitspraken binnen een zeker betrouwbaarheidsniveau te formuleren over de gehele populatie, op basis van een beperkt aantal gegevens : de steekproef.

Inhoud

Kansrekenen i Statistiek

1

4

2

3

Kansrekenen 1.1 Rekenen met kansen 9 1.2 Kruistabellen en voorwaardelijke kansen 35 Geschiedenis van de kansrekening 55

Beschrijvende statistiek 2.1 Instap 61 2.2 Begrippen uit de beschrijvende statistiek 62 2.3 Representativiteit 71 2.4 Randomisatie 75 2.5 Verschil tussen samenhang en causaliteit 76 2.6 Variabiliteit 78 2.7 Paradox van Simpson 81 Geschiedenis van de statistiek 92

De normale verdeling 3.1 Histogrammen – dichtheidskrommen 99 3.2 Normale verdelingen 101 3.3 Graﬁsche betekenis van μ en σ 107 3.4 De standaardnormale verdeling 108 3.5 Toepassingen 117 3.6 Steekproevenverdeling 122

Toetsen van hypothesen 4.1 Werkwijze 139 4.2 Eenzijdige of tweezijdige toetsen 142 4.3 Toetsingsprocedure via grenswaarden 143 4.4 P-waarde 144 4.5 Toetsingsprocedure via de P-waarde 145 4.6 Toepassingen 146 Bijlagen 155 Oplossingen 157 Trefwoordenregister 163

Kansrekenen

Kan kansrekenen je een wereldreis opleveren ? We maken even tijd voor een van de beroemdste problemen uit de kansrekening.

Bij een quizprogramma ben jij de winnaar. Proﬁciat ! De presentator neemt je mee naar drie deuren. Achter een van die deuren zit een wereldreis. Achter de twee andere bevindt zich niets. Jammer dat je niet weet achter welke deur wat zit. Je kiest, maar voordat jouw deur wordt opengemaakt, komt de presentator eventjes tussen. Hij, die wel weet waar de wereldreis zich bevindt, helpt een beetje (?) door een deur te openen waar niets achter zit. Je zenuwen begeven het bijna als de presentator zegt dat je nu nog van idee mag veranderen. Wat doe je ? Blijf je bij je eerste idee of kies je de andere deur, die nog niet geopend is ?

Kansrekenen

1.1 Rekenen met kansen 1 Kansexperimenten 9 2 Uitkomst en uitkomstenverzameling 10 3 Gebeurtenissen 10 4 Relatieve frequentie en kans 12 5 Uniforme kansverdeling : formule van Laplace 15 6 Enkele toepassingen op de regel van Laplace 16 7 Niet-uniforme kansverdeling 17 8 Statistisch bepalen van kansen 19 9 Kansbomen 20 10 Samenvatting 25 11 Oefeningen 26 1.2 Kruistabellen en voorwaardelijke kansen 1 Kruistabellen 35 2 Voorwaardelijke kansen 37 3 Voorwaardelijke kansen en kansbomen 40 4 Productwet van de kansrekening 43 5 Afhankelijke en onafhankelijke gebeurtenissen 45 6 Toepassing 46 7 Samenvatting 47 8 Oefeningen 48 Geschiedenis van de kansrekening 55 Wat moet je kennen en kunnen ? 58 1

1.1 Rekenen met kansen

1 Kansexperimenten

De mens is al lange tijd gefascineerd door het toeval en probeert onzekere verschijnselen te benaderen met een model. Zo kan niemand voorspellen of het opgooien van een correct muntstuk ‘munt’ zal opleveren. Wel aanvaardt iedereen dat bij veel keren opgooien het aantal keren ‘munt’ de helft van het aantal worpen zal zijn. In gewone taal zeggen we dat de kans om munt te werpen 1 op 2 is.

De bedoeling van kansrekenen is precies dit soort voorspellingen te doen over allerlei ‘experimenten’ waarvan de afloop door het toeval wordt beheerst. We spreken over kansexperimenten.

Als je een zuivere dobbelsteen opgooit, mag je wel verwachten dat hij zal neervallen, maar niet dat bijvoorbeeld ‘drie’ boven zal liggen. Het is onmogelijk de afloop van dit experiment te voorspellen maar we kunnen soms zinnige informatie geven over de afloop van een groot aantal herhaalde experimenten over dit verschijnsel.

– Bij 6000 worpen met een normale dobbelsteen mogen we, ruw geschat, zowat in 1000 gevallen een ‘drie’ verwachten.

– Als we 1300 maal een kaart trekken uit een spel van 52 kaarten, dan zal het aantal getrokken ‘azen’ ongeveer 100 bedragen.

– Uit de statistieken blijkt dat in België 51,35% van de pasgeboren baby’s jongens zijn.

Het is dus duidelijk dat het uitvoeren van herhaalde experimenten ons veel kan leren over verschijnselen die door het toeval beheerst worden. Het is dan wel noodzakelijk een aantal afspraken en begrippen in te voeren.

De dobbelstenen waarmee alles begon

Ridder de Méré, een dobbelaar, schrijft in 1654 een brief met vragen aan Blaise Pascal, de wiskundige en ﬁlosoof. “Het paar dobbelstenen dat mij geld in het laatje gebracht had, deed het mij nog sneller weer verliezen”, schreef jonker de Méré. Bij het zoeken naar een antwoord op de puzzel van de Méré begon Pascal de beginselen van kansen waarschijnlijkheidsrekening te bestuderen. Hij besprak de vraagstukken met Pierre de Fermat, jurist en raadsheer bij de rechtbank van Toulouse, maar daarnaast een wiskundige bolleboos. Met die brief begon de geschiedenis van de waarschijnlijkheidsrekening. Ridder de Méré had enige tijd goed geboerd door te wedden op de waarschijnlijkheid dat hij met vier worpen van de dobbelsteen minstens één zes kon krijgen. Hij won meer dan hij verloor. Maar toen hij overging op de weddenschap dat twee dobbelstenen in een reeks van 24 worpen hem op zijn minst één dubbele zes zouden bezorgen, verloor hij meer dan hij won. de Méré berekende dat de kans op een zes bij het werpen van een dobbelsteen 1 6 is, bij vier worpen zou de kans dus 4 6 == 2 3 moeten zijn. Op diezelfde manier redeneerde hij voor twee dobbelstenen. De kans op één dubbele zes bij het werpen van twee dobbelstenen is 1 36 , bij 24 worpen zou de kans dus 24 36 == 2 3 moeten zijn. Dit valse spoor leidt tot de conclusie dat de tweede weddenschap even goed is als de eerste. Maar dat is niet zo, zoals de Méré aan den lijve ondervond.

Bij gebrek aan een methode van kansrekening kan de Méré niets anders dan een heel groot aantal worpen uitvoeren en dan de aantekeningen bekijken. Ook bij de Grieken was het dobbelen een bekend gokspel. De drie broers Zeus, Poseidon en Hades dobbelden om het heelal : Zeus won de hemelen, Poseidon de zeeën en Hades, de verliezer, kreeg de onderwereld.

9 1 Kansrekenen

2 Uitkomst en uitkomstenverzameling

Het uitvoeren van een experiment geeft aanleiding tot een uitkomst. We noteren de mogelijke uitkomsten door ui , met i ∈ N0 omdat we ons alleen beperken tot kansexperimenten met een eindig aantal uitkomsten.

Bij het gooien van een dobbelsteen kunnen we één, twee, drie, , zes ogen zien verschijnen. We leggen de afloop van dit experiment vast door een van de getallen 1, 2, 3, 4, 5, 6 op te schrijven. We zeggen dat dit de zes mogelijke uitkomsten van het experiment zijn.

De uitkomstenverzameling ( of het universum) U is de verzameling van alle mogelijke uitkomsten van het experiment.

U = { u 1, u 2, , un }

Voorbeelden :

De uitkomstenverzameling bij het experiment ‘gooien met een correcte dobbelsteen’ is :

U = { 1, 2, 3, 4, 5, 6 } ⟹ #U = 6

De uitkomstenverzameling bij het experiment ‘opgooien van een correct muntstuk’ is :

U = { k , m } ⟹ #U = 2

met k : kruis gooien en m : munt gooien

De uitkomstenverzameling bij het experiment ‘gooien met twee correcte dobbelstenen’ is :

U = {( 1, 1); ( 1, 2); ( 2, 1); ; ( 6, 6)} ⟹ #U = 36

3 Gebeurtenissen

Bij het gooien met een correcte dobbelsteen is U = { 1, 2, 3, 4, 5, 6 }.

Veronderstel dat iemand 3 euro krijgt als hij bij zijn worp een even aantal ogen gooit. Hij heeft dan natuurlijk bijzondere belangstelling voor een deelverzameling A = { 2, 4, 6 } van U.

Die deelverzameling A noemen we een gebeurtenis.

– De uitkomsten die een volkomen kwadraat zijn, vormen de deelverzameling B = { 1, 4 } – De uitkomsten die priemgetallen zijn, vormen de deelverzameling C = { 2, 3, 5 }

B en C zijn ook gebeurtenissen van het experiment ‘gooien met een dobbelsteen’. Er zijn bij dit experiment in het totaal 26 = 64 gebeurtenissen. Verklaar dit ! gebeurtenis

Bij het uitvoeren van een kansexperiment met uitkomstenverzameling U is een gebeurtenis een deelverzameling van U.

Notatie : – We stellen een gebeurtenis voor met de hoofdletters A, B, C …

– Voor een gebeurtenis A geldt dus : A ⊂ U.

Beschouw opnieuw de gebeurtenis A = { 2, 4, 6 }

Veronderstel dat je een dobbelsteen opwerpt en als uitkomst 2 bekomt.

Omdat 2 ∈ A zeggen we dat de gebeurtenis A optreedt of dat A gerealiseerd wordt.

Enkele bijzondere gebeurtenissen :

a De zekere gebeurtenis

De uitkomstenverzameling U van een experiment is een deelverzameling van zichzelf. We noemen ze de zekere gebeurtenis.

Je merkt op dat bij het gooien met een dobbelsteen U = { 1, 2, 3, 4, 5, 6 } steeds gerealiseerd wordt. U is dus een zekere gebeurtenis.

–

b De onmogelijke gebeurtenis

De lege verzameling ∅ is een deelverzameling van U. We noemen ze de onmogelijke gebeurtenis

Inderdaad : wat ook de uitkomst van een experiment is, die uitkomst kan nooit tot ∅ behoren, ∅ kan zich dus onmogelijk voordoen, ∅ wordt nooit gerealiseerd.

Voorbeeld :

Een zeven werpen met een correcte dobbelsteen is een onmogelijke gebeurtenis.

c Elementaire of enkelvoudige gebeurtenis

Een deelverzameling van U die uit één enkele uitkomst bestaat, een singleton van U dus, noemen we een elementaire of enkelvoudige gebeurtenis

Als U = { u 1, u 2, …, un }, dan zijn E1 = { u 1}, E2 = { u 2}, … , En = { un} elementaire gebeurtenissen.

Voorbeeld :

Bij het experiment ‘gooien met een dobbelsteen’ zijn { 1}, { 2}, , { 6} gebeurtenissen die individuele uitkomsten beschrijven, het zijn de 6 elementaire gebeurtenissen van U = { 1, 2, 3, 4, 5, 6 }

d Afgeleide gebeurtenissen

Doorsnede van 2 gebeurtenissen

Beschouw 2 gebeurtenissen A en B van een uitkomstenverzameling U.

A ∩ B = { u ∈ U | u ∈ Aen u ∈ B}

De gebeurtenis A ∩ B doet zich voor enkel en alleen als A en B zich beide voordoen.

Vereniging van 2 gebeurtenissen

A ∪ B = { u ∈ U | u ∈ Aof u ∈ B}

De gebeurtenis A ∪ B treedt op als en slechts als de gebeurtenis A en/of de gebeurtenis B zich voordoet.

Verschil van 2 gebeurtenissen

A \ B = { u ∈ U | u ∈ Aen u / ∈ B}

De gebeurtenis A ⧵ B doet zich voor enkel en alleen als A zich voordoet en B niet.

Tegengestelde of complement van een gebeurtenis

A = { u ∈ U | u / ∈ A}

A doet zich voor enkel en alleen als A zich niet voordoet.

Merk op dat U = ∅ en ∅ = U.

Disjuncte gebeurtenissen

We zeggen dat twee gebeurtenissen elkaar uitsluiten of disjunct zijn als hun doorsnede de onmogelijke gebeurtenis is.

A en B zijn disjunct ⟺ A ∩ B = ∅

Twee disjuncte gebeurtenissen kunnen dus nooit tegelijkertijd optreden.

Voorbeeld :

2 verschillende elementaire gebeurtenissen, 2 tegengestelde gebeurtenissen.

11 1 Kansrekenen

A B U A ∩ B A B U A B U A U A B U A ∪ B A ⧵ B A

Voorbeeld :

Bij het gooien met een dobbelsteen beschouwen we de volgende gebeurtenissen :

A : even aantal ogen A = { 2, 4, 6 }

B : aantal ogen is een kwadraat B = { 1, 4 }

4 Relatieve frequentie en kans

De Deltawerken :

Voordat de overstromingsramp in 1953 plaatsvond, waren de dijken in Nederland op een hoogte dat je zo’n ramp gemiddeld een keer in 300 jaar kon verwachten. Met de afsluiting van de Oosterschelde zijn de Deltawerken voltooid. De dijken zijn nu op deltahoogte. Dat houdt in dat een dijkhoogte is gekozen waarbij een ramp zoals in 1953 gemiddeld één keer in de 10 000 jaar kan voorkomen. Bij de berekening van hoogte van dijken maken ingenieurs gebruik van kansrekening. Hierbij worden kansen gebruikt die gebaseerd zijn op meetgegevens of ervaringen. Zulke kansen heten empirische kansen. Hoe groot schat je de kans dat een ramp als in 1953 volgend jaar plaatsvindt ? En in het jaar 2035 ?

a Relatieve frequentie van een gebeurtenis

Als bij n experimenten de gebeurtenis A zich n maal voordoet, dan noemen we de relatieve frequentie van A het getal f A = n A n of f A = hetaantalkeerdatdegebeurteniszichvoordoet hetaantalkeerdathetexperimentuitgevoerdwordt

In de beschrijvende statistiek heb je al kennisgemaakt met het begrip relatieve frequentie. We herhalen even met een voorbeeld.

Bij een onderzoek naar het gebruik van internet bij jongeren, werd aan 1200 leerlingen van het vijfde jaar gevraagd hoeveel keer per dag ze iets posten op hun sociale media. De resultaten staan in de volgende frequentietabel.

A ∩ B = { 4 } B ⧵ A = { 1 }

A ∪ B = { 1, 2, 4, 6 } A = { 1, 3, 5 } A ⧵ B = { 2, 6 } B = { 2, 3, 5, 6 }

We kiezen willekeurig een leerling van het vijfde jaar. Omdat 168 leerlingen op 1200 niets posten, zeggen we dat de kans op gebeurtenis A, leerling post 0 keer per dag, gelijk is aan 168 1200 = 0,14.

Notatie : P ( leerling post 0 keer per dag) = 0,14 = 14%

De letter P komt van probabilitas, dit is het Latijnse woord voor ‘kans’.

P ( leerling post maximaal 2 keer per dag) = 840 1200 = 70%

b Kans op een gebeurtenis

Je ziet dat de kans op een gebeurtenis niets anders is dan de relatieve frequentie van die gebeurtenis.

In het kanshistogram hiernaast staan de kansen die uit de tabel volgen.

De som van alle kansen is 1.

empirische kans

De empirische kans op een gebeurtenis A = P (A) = frequentievanA totalefrequentie

Kansen geef je aan met getallen tussen 0 en 1. Zo ontstaat de kansschaal in de volgende figuur.

KANSSCHAAL

onmogelijk

Het is een jaar lang windstil in Vlaanderen.

Je gooit kruis

bij het tossen met een muntstuk.

Morgen gaat de zon op in Vlaanderen.

posts per dag

13 1 Kansrekenen AANTAL POSTS PER DAG ABSOLUTE FREQUENTIE n A RELATIEVE FREQUENTIE f A = n A n 0 168 0,14 1 312 0,26 2 360 0,30 3 216 0,18 4 72 0,06 5 36 0,03 6 36 0,03 1200 = n 1

zeker 0 1 0,5 0,10 0,20 0,30 0 1 2 3 4 5 6

kans

c Schatten van de kans op een gebeurtenis

Voorbeeld 1 : geldstukken gooien

Annelies gooit 10 keer met een geldstuk. Ze krijgt drie keer munt en zeven keer kruis. “Dat is onmogelijk”, zegt ze, “die munt is niet zuiver”.

Enkele klasgenoten van Annelies hebben elk met een geldstuk gegooid. Ze telde het aantal keren ‘munt’. De resultaten staan in de tabel.

Bereken telkens de relatieve frequentie van de gebeurtenis ‘munt’. Van welk getal zal de relatieve frequentie van de gebeurtenis ‘munt’ op den duur weinig verschillen als nog veel vaker wordt gegooid ?

Bij een kansexperiment kun je de kans schatten door het experiment een groot aantal keren uit te voeren en de relatieve frequentie te berekenen. De ervaring leert dat de relatieve frequentie een steeds betere schatting geeft van de kans naarmate je het experiment vaker uitvoert. Die eigenschap heet de wet van de grote getallen (zie blz. 18)

Zo komt de relatieve frequentie van de gebeurtenis ‘munt’ steeds dichter bij 0,5 te liggen. De kans op munt is gelijk aan 0,5 of ook P( munt) = P( kruis) = 0,5.

Voorbeeld 2 : kaarten trekken

Als je 1300 keer een kaart zou trekken uit een spel van 52 kaarten ( met terugleggen en telkens goed door elkaar schudden), dan zal het aantal getrokken azen ongeveer 100 bedragen. De relatieve frequentie van de gebeurtenis A ‘een aas trekken uit een spel van 52 kaarten’ is dan gelijk aan 100 1300 = 1 13

Dit is wat we bedoelen als we kortweg zeggen : “De kans op een aas is 1 13 ”.

We weten dit ook door de symmetrie ( elke kaart speelt dezelfde rol)

Aangezien 4 van de 52 kaarten azen zijn en er geen enkele reden is om aan te nemen dat bepaalde kaarten meer kans maken om getrokken te worden dan andere, is de kans dat je een aas trekt gelijk aan 4 52 = 1 13

Voorbeeld 3 : gooien met 1 dobbelsteen

Op dezelfde manier weten we dat de kans om met één dobbelsteen een 6 te gooien gelijk is aan 1 6 omdat alle uitkomsten even waarschijnlijk zijn als de dobbelsteen niet vervalst is.

Dit blijkt ook uit een computersimulatie ( zie figuur) van het werpen van 1 dobbelsteen, waarbij eerst voor 60 worpen en daarna voor 8000 worpen telkens de frequentie grafisch geïllustreerd wordt d.m.v. een histogram. De uniforme verdeling ( alle uitkomsten zijn even waarschijnlijk) komt goed naar voren bij een zeer groot aantal worpen.

aantal worpen 100 150 200 250 300 350 400 450 500 frequentie 41 83 108 117 143 182 186 230 246

Voorbeeld 4 : gooien met 2 dobbelstenen

We bekijken nu de computersimulatie van het werpen met 2 dobbelstenen.

Hoeveel verschillende uitkomsten ( voor de som van de ogen) zijn er ?

Niet elk van die uitkomsten is even waarschijnlijk. Welke uitkomst heeft de grootste kans ?

De niet-uniforme verdeling (niet alle uitkomsten zijn even waarschijnlijk) komt goed tot uiting bij een zeer groot aantal worpen. Hoe gaan we de kans op een gebeurtenis berekenen bij een uniforme en een niet-uniforme verdeling ?

5 Uniforme kansverdeling : formule van Laplace

Als de uitkomstenverzameling U n elementen telt en alle uitkomsten even waarschijnlijk zijn, dan is de kans op elke uitkomst ui ( elementaire gebeurtenis) gelijk aan 1 n

P ({ u i }) = P ( u i ) = 1 n =⇒

n i = 1 P ( u i ) = 1

Voor een gebeurtenis A met p elementen is de kans gelijk aan p n

Formule van Laplace :

P (A) = p n

P ( A) lees je als : de kans van A of de waarschijnlijkheid van A of de probabiliteit van A. De formule van Laplace wordt vaak anders opgeschreven :

P (A) = p n = aantalvoorAgunstigeuitkomsten aantalmogelijkeuitkomsten = #A #U

Gevolgen : • P( U) = 1 en P( ∅) = 0

• ∀ A ⊂ U : 0 ⩽ P( A) ⩽ 1

Je hebt hier een voorbeeld van een theoretische kansberekening. Een theoretische kans kun je precies berekenen zonder het kansexperiment uit te voeren, statistisch cijfermateriaal te raadplegen of metingen te doen. Het is dan belangrijk een overzicht te hebben van alle mogelijke uitkomsten. Vervolgens zoek je de gunstige uitkomsten en bereken je de kans.

In de praktijk vinden we heel wat gevallen van uniforme kansverdelingen :

– het gooien van een zuivere dobbelsteen ;

– het trekken van een knikker uit een vaas ;

– het opgooien van een zuiver muntstuk ;

– het trekken van de hoofdprijs van een tombola ;

– het bepalen van een nummer in een eerlijk roulettespel ;

– het kiezen van een te controleren exemplaar uit een voorraad van geproduceerde stukken ;

– het aanwijzen van een proefpersoon op een lijst met mogelijke namen ;

– het trekken van een kaart uit een goed geschud spel.

15 1 Kansrekenen

6 Enkele toepassingen op de regel van Laplace

Voorbeeld 1 : dobbelstenen

Bij het gooien met een zuivere dobbelsteen beschouwen we de gebeurtenis A : een aantal ogen gooien dat deelbaar is door 3. Bereken de kans van A.

Oplossing :

We vinden dat A = { 3, 6 } ⟹ # A = 2

We weten dat # U = 6

Omdat het hier gaat om een uniforme kansverdeling kunnen we de formule van Laplace toepassen : P (A) = 2 6 = 1 3

Voorbeeld 2 : twee dobbelstenen

We gooien met twee zuivere dobbelstenen. Beschouw de gebeurtenis A : de som van het aantal ogen op de twee stenen is gelijk aan 6. Bereken de kans van A.

Oplossing :

In dit geval is U = { 1, 2, 3, 4, 5, 6 } × { 1, 2, 3, 4, 5, 6 }

Dus U = {( 1, 1); ( 1, 2); ( 2, 1); ( 2, 2); ; ( 6, 6)} ⟹ # U = 36

We vinden de gebeurtenis A = {( 1, 5); ( 2, 4); ( 3, 3); ( 4, 2); ( 5, 1)} ⟹ # A = 5

Volgens de formule van Laplace is dus : P (A) = 5 36 .

Voorbeeld 3 : knikkers

We trekken blindelings een knikker uit een vaas die 3 rode en 7 witte knikkers bevat. Wat is de kans dat de getrokken knikker rood is ?

Oplossing :

We kunnen veronderstellen dat alle knikkers evenveel kans hebben om getrokken te worden. We hebben hier dus te maken met een uniforme kansverdeling.

Beschouw de gebeurtenis A : een rode knikker trekken ⟹ # A = 3

Uit het gegeven leiden we af dat # U = 10

Volgens de formule van Laplace is P (A) = 3 10 = 30%.

Pierre-Simon Laplace (1749 – 1827)

Laplace wordt geboren op 23 maart 1749 in Beaumont-en-Auge (Normandië) als zoon van een landbouwer. Hij gaat naar school tot zijn zestiende. Al vlug is duidelijk dat wiskunde zijn roeping is en in 1769 wordt hij wiskundeleraar aan de militaire school in Parijs. Daar was in 1784 en 1785 een zekere Napoleon Bonaparte een van zijn leerlingen. Laplace hield zich vooral bezig met de waarschijnlijkheidstheorie en de sterrenkunde.

In 1794 wordt hij professor in de wiskunde aan de École Polytechnique in Parijs, waar de beste studenten worden opgeleid tot ingenieurs en legerofﬁcieren. Als Napoleon in 1799 aan de macht komt, benoemt hij Laplace tot minister van Binnenlandse Zaken. Als dank draagt Laplace zijn meesterwerk Mécanique Céleste (hemelmechanica) aan Napoleon op.

In 1812 publiceert hij zijn Théorie Analytique des probabilités. Dit boek bevat een overzicht van de kansrekening uitgewerkt door zijn voorgangers Fermat, Pascal, Bernoulli, aangevuld met zijn eigen bevindingen.

In verband met kansrekening schreef Laplace het volgende : “De waarschijnlijkheidstheorie is in de grond niets anders dan het gezond verstand gereduceerd tot cijfers. Ze stelt ons in staat precies weer te geven van wat grote genieën instinctief voelen zonder dat ze er rekenschap van geven.”

Laplace overlijdt in Parijs op 5 maart 1827, precies 100 jaar na zijn grote voorganger Newton.

Laplace

7 Niet-uniforme kansverdeling

De klassieke kansberekening volgens Laplace laat ons in de steek als de symmetrie verbroken wordt, zoals bij een verzwaarde dobbelsteen. De uitkomsten zijn niet meer even waarschijnlijk. In dit geval is het onmogelijk de kans te kennen zonder te steunen op relatieve frequenties.

Voorbeeld 1 : de vervalste dobbelstenen

Voor een normale dobbelsteen verwachten we intuïtief dat in een lange reeks herhaalde experimenten de relatieve frequentie van ‘zes ogen gooien’ niet veel van 1 6 zal afwijken. Dit werd aangetoond met een computersimulatie op blz. 14. Wat echter te denken van een vervalste dobbelsteen die aan één zijde verzwaard is ?

Om dit geval te onderzoeken zetten we een reeks van 1500 herhaalde experimenten op. Na elk groepje van 30 worpen en later na elk groepje van 150 worpen bepalen we het totale aantal zessen en de relatieve frequentie van de gebeurtenis : een zes gooien.

We stellen de resultaten grafisch voor t.o.v. een rechthoekige basis. Op de x -as duiden we de omvang ( aantal worpen) aan, op de y -as de relatieve frequentie. We stellen vast dat de relatieve frequenties in het begin grote schommelingen ondergaan, maar op het einde niet sterk meer veranderen. We constateren dat op den duur vrij kleine schommelingen optreden rond een getal dat tussen 0,3300 en 0,335 ligt, dus ongeveer gelijk is aan

Dit intuïtief aanvoelen krijgt een ruggensteuntje van de experimentele wet van de grote aantallen die zegt dat bij een toenemend aantal pogingen de relatieve frequentie van een bepaalde gebeurtenis zich meer en meer stabiliseert. We nemen hier de relatieve frequentie over een lange periode als waarde voor de kans, bij gebrek aan symmetrieoverwegingen. We kunnen dus stellen dat de kans op zes ogen in dit geval gelijk is aan 1 3 .

17 1 Kansrekenen

1 3 0,29 0,30 0,31 0,32 0,33 0,34 0,35 0,36 0,37 30 300 600 900 1200 1500 frequentie omvang x y

AANTAL WORPEN TOTAAL AANTAL ZESSEN RELATIEVE FREQUENTIE 30 60 90 120 150 180 210 240 270 300 450 600 750 900 1050 1200 1350 1500 11 19 28 35 47 58 71 79 89 103 155 206 251 298 349 401 448 502 0,3667 0,3167 0,3111 0,2917 0,3133 0,3222 0,3381 0,3292 0,3296 0,3433 0,3444 0,3433 0,3347 0,3311 0,3324 0,3342 0,3319 0,3347

Op dezelfde manier bepalen we de kans op de andere uitkomsten. De kansverdeling voor de vervalste dobbelsteen ziet er als volgt uit :

Hieruit blijkt dat kant 1 van de dobbelsteen lichtjes verzwaard is, waardoor 1 minder vaak voorkomt en de overstaande kant 6 daarentegen meer. We berekenen de kans op gebeurtenis A : ten minste 2 ogen gooien.

Voorbeeld 2 : afgekeurde objecten bij industriële productie

De volgende tabel geeft het aantal verworpen producten aan bij achtereenvolgens 10 reeksen van 25, 10 reeksen van 250 en 10 reeksen van 2500 voorwerpen, alsook de corresponderende relatieve frequenties van afkeuring.

Voor n = 25 varieert het percentage tussen 0 en 16; voor n = 250 tussen 3,2 en 8,8; voor n = 2500 tussen 5,4 en 6,4. We zien duidelijk het effect van het vermeerderen van het aantal waarnemingen in de reeks, namelijk de grotere stabiliteit van de relatieve frequentie. We stellen vast dat de ware waarde van de relatieve frequentie bij 6% gelegen is. We kunnen hieruit besluiten dat de kans op een afgekeurd object 0,06 is.

Besluiten :

1 Experimentele wet van de grote aantallen : De relatieve frequentie van een gebeurtenis bij herhaalde experimenten heeft de neiging steeds minder af te wijken van een zeker reëel getal als het aantal experimenten toeneemt. De relatieve frequentie gaat zich meer en meer stabiliseren.

2 De kans op een gebeurtenis : Bij een experiment met een niet-uniforme kansverdeling is de kans op een gebeurtenis, het reëel getal waarrond de relatieve frequenties van de gebeurtenis gesitueerd zijn bij een zeer groot aantal herhalingen van het experiment. We nemen de relatieve frequentie over een lange periode als waarde voor de kans, bij gebrek aan symmetrieoverwegingen.

3 De kansverdeling :

– De som van alle kansen van alle uitkomsten moet 1 zijn.

– De kans van een gebeurtenis A ≠ ∅ is de som van de kansen van de uitkomsten in A.

4 Enkele gevallen waarbij de kansverdeling met deze methode van de relatieve frequentie bepaald zal worden :

– bij het opgooien van een vervalste dobbelsteen of een verbogen muntstuk ;

– bij kwaliteitscontroles van nieuwe gloeilampen is de kans op een defecte lamp heel wat kleiner dan de kans op een niet-defecte lamp ;

– voor de diensten van het openbaar vervoer is het belangrijk dat de kans dat trein of bus op tijd aankomt veel groter is dan de kans dat ze niet op tijd zijn ;

– bij het opgooien van een duimspijker kan deze op 2 manieren terechtkomen. De kans dat de punt omhoog wijst is niet gelijk aan de kans van het andere geval.

ui 1 2 3 4 5 6 P( ui ) 1 9 5 36 5 36 5 36 5 36 1 3 som = 1

2)+ P

3)+ P (4)+ P (5)+ P

32 36

1 9

⇒

A)= 1 1 9 = 8 9 Wepassenhierde

toe:P

= {2,3,4,5,6} =⇒ P (A)= P (

(

= 8

= {

} =⇒ P A =

P (

complementregel

(

)+ P (

AANTAL RELATIEVE FREQUENTIE AANTAL RELATIEVE FREQUENTIE AANTAL RELATIEVE FREQUENTIE 1 4 0 0 1 1 2 0 1 1 4% 16% 0% 0% 4% 4% 8% 0% 4% 4% 12 14 17 11 22 9 15 14 21 8 4,8% 5,6% 6,8% 4,4% 8,8% 3,6% 6,0% 5,6% 8,4% 3,2% 157 152 157 136 152 135 143 160 149 153 6,28% 6,08% 6,28% 5,44% 6,08% 5,40% 5,72% 6,40% 5,96% 6,12%

8 Statistisch bepalen van kansen

Voorbeeld 1 : kans op een meisje

Veel mensen denken dat bij een zwangerschap de kans op een meisje 0,5 is.

De enige manier om de kans op een meisje te bepalen, is de statistieken raadplegen. Hieruit blijkt dat in Vlaanderen de kans op een meisje ongeveer 0,4887 is en niet 0,5. Er worden immers ongeveer 48,87 % meisjes geboren en 51,13 % jongens.

Voorbeeld 2 : sterftetafels en overlevingskansen

Ten behoeve van het verzekeringswezen hebben ze sterftetabellen i.v.m. overlevingskansen van bepaalde leeftijdsgroepen opgesteld, zoals in gebruik in de actuariële wiskunde. Herleid op 1 miljoen inwoners registreerden ze het aantal overlevenden ( Lx ) en bijgevolg ook het aantal sterfgevallen ( Dx ) per leeftijdscategorie.

De resultaten staan in de tabellen van bijlage 1 en 2 blz. 138 en 139.

a Gebruik de tabel om de kans af te lezen dat een pasgeboren jongen 80 jaar oud zal worden. Zelfde vraag voor een meisje.

Antwoord : –

Voor een jongen is de kans : L80 L0 = 571123

1000000 = 0,571123 ≈ 57,11%

– Voor een meisje is de kans : L80 L0 = 722256 1000000 = 0,722256 ≈ 72,23%

b Wie heeft de grootste kans om 100 jaar te worden : een meisje van 16 of een vrouw van 80 ?

Antwoord :

De vrouw van 80 is al een eind onderweg en heeft dus logisch gezien meer kans om 100 jaar te worden dan een meisje van 16.

Uit de tabel lezen we af dat de kans om 100 jaar te worden voor een meisje van 16 is :

L100

L16 = 34710 996041 = 0,03484796 ≈ 3,48%

Analoog is de kans om 100 jaar te worden voor een vrouw van 80 :

L100

L80 = 34710 722256 = 0,04805775 ≈ 4,81%

c Bereken de kans dat een jongen van 16 de leeftijd van 65 jaar niet bereikt.

Antwoord :

Uit de tabel lezen we af dat de kans om 65 jaar te worden voor een jongen van 16 is :

L65

L16 = 870382

994950 = 0,87479974 ≈ 87,48%

De kans dat een jongen van 16 geen 65 jaar oud wordt, is 1 0,8748 = 0,1252 = 12,52%

19 1 Kansrekenen

Opmerking :

Die overlevingskansen moeten wel gerelativeerd worden, want de levensverwachting verandert in functie van de tijd. Dankzij de vooruitgang van de geneeskunde en de verbetering van de levensomstandigheden, is de levensverwachting in België tijdens de twintigste eeuw met meer dan 40 % toegenomen. Ook nu weten we niet precies hoe de sterftetafels er binnen 50 of 100 jaar zullen uitzien.

Verder gaan die overlevingskansen over ‘gemiddelde Belgen’. Extra informatie kan de kansen sterk veranderen : weet je bijvoorbeeld dat de betrokkene rookt, dan zakt zijn of haar levensverwachting een heel stuk !

9 Kansbomen

Voorbeeld 1 : kinderen en kansen

In een gezin worden twee kinderen geboren. Neem aan dat bij elke geboorte de kans op een jongen gelijk is aan 0,5113 en de kans op een meisje 0,4887.

Bereken nu de kans :

a dat het eerste kind een jongen en het tweede kind een meisje is. b dat het kinderen van hetzelfde geslacht zijn.

Antwoord :

De kansboom bij deze opgave ziet er als volgt uit :

1e kind

0,5113 jongen

0,4887

2e kind

0,5113

0,4887

jongen meisje meisje

0,5113

0,4887

a De kans dat het eerste kind een jongen is en het tweede een meisje :

0,5113 0,4887 = 0,2499 ≈ 24,99%

b De kans dat het twee jongens zijn : 0,5113 0,5113 = 0,26142769 ≈ 26,14%

De kans dat het twee meisjes zijn : 0,4887 0,4887 = 0,23882769 ≈ 23,88%

jongen meisje

De kans op twee kinderen van hetzelfde geslacht : 0,26142769 + 0,23882769 = 0,5002554 ≈ 50,03%

Uit deze opgave onthouden we volgende regels :

1 De som van de kansen bij de takken die uit eenzelfde vertakkingspunt vertrekken, is altijd gelijk aan 1.

2 Wanneer we in een kansboom verdergaan langs een bepaalde tak, moeten we de kansen van de deeltakken vermenigvuldigen.

3 Wanneer verschillende takken goed zijn, moeten we de kansen van die takken optellen.

Taak : bereken de gevraagde kansen opnieuw als je aanneemt dat de kans op een jongen gelijk is aan de kans op een meisje. Vergelijk je antwoorden met de vorige.

Voorbeeld 2 : knikkers

In een bak zitten drie witte, vier zwarte en drie rode knikkers.

We nemen lukraak een eerste knikker, leggen hem niet terug en nemen dan lukraak een tweede knikker.

Bereken de kans dat de tweede getrokken knikker rood is.

Antwoord :

De kansboom ziet er als volgt uit : eerste knikker tweede knikker

Is dit toevallig ?

Bereken bijvoorbeeld de kans dat de derde knikker een rode is (als de eerste twee knikkers niet worden teruggelegd ) en vergelijk met de kans dat de eerste knikker een rode is, namelijk 3 10

21 1 Kansrekenen

w z r w z r w z r w z r 3 10 3 10 4 10 2 9 3 9 3 9 4 9 4 9 3 9 3 9 3 9 2 9 De kans dat de eerste knikker wit is en de tweede rood = 3 10 3 9 = 1 10

kans dat de eerste knikker rood is en de tweede rood = 3 10 · 2 9 = 1 15

kans dat de eerste knikker zwart is en de tweede rood = 4 10 3 9 = 2 15

kans dat de tweede getrokken knikker rood is = 1 10 + 1 15 + 2 15 = 3 10

is ook gelijk is aan 3 10

Merk op dat de kans dat de eerste getrokken knikker rood

Voorbeeld 3 : schaken

Annelies en Bert schaken 18 maal tegen elkaar. Daarvan wint

Annelies 9 partijen, Bert wint er 6 en drie spelletjes eindigen met remise. Ze spelen nu nog driemaal tegen elkaar.

Bereken telkens de kans van de volgende gebeurtenissen.

a De drie partijen worden gewonnen door Annelies.

b Twee partijen eindigen op remise.

c Bert wint minstens één keer.

Antwoord :

We beschouwen de volgende gebeurtenissen elk met hun empirische kans, afgeleid uit hun relatieve frequentie.

c De kans dat Bert minstens 1 partij wint = 1 de kans dat Bert geen enkele partij wint (complementregel).

De kans dat Bert een partij niet wint is 2 3 . Hieruit volgt dat de kans dat Bert geen enkel van de 3 spellen wint

A : Annelies wint P (A) = 9 18 = 1 2 B : Bert wint P (B) = 6 18 = 1 3 C : Het spel eindigt met remise P (C) = 3 18 = 1 6 SPEL 1 A B C A B C A B C C B A C B A C B A C B A C B A C B A C B A C B A C B A A B C 1 2 1 3 1 6 1 3 1 2 1 6 1 3 1 2 1 6 1 3 1 2 1 6 1 3 1 2 1 6 1 3 1 2 1 6 1 3 1 2 1 6 1 3 1 2 1 6 1 3 1 2 1 6 1 3 1 2 1 6 1 3 1 2 1 6 1 3 1 2 1 6 1 3 1 2 1 6 SPEL 2 SPEL 3

Annelies de 3 partijen wint = 1 2 · 1 2 · 1 2 = 1 8 = 12,5%

De kans

2 partijen met remise eindigen en Annelies 1 partij wint = 3 · 1 6 · 1 6 · 1 2 = 1 24 De kans dat 2 partijen met remise eindigen en Bert 1 wint = 3 1 6 1 6 1 3 = 1 36 De kans dat 2 partijen met remise eindigen is dus 1 24 + 1 36 = 5 72 ≈ 6,94%

kans dat

dat

= 2 3 2 3 2 3 = 2 3 3 = 8 27. De kans dat Bert minstens 1 partij wint is: 1 8 27 = 19 27 ≈ 70,37%

Voorbeeld 4 : trekkingen met terugleggen

In een vaas zitten 4 gele en 2 rode knikkers. We trekken 3 knikkers met terugleggen.

Bereken de kans op precies 1 rode knikker.

In dit geval gaat het om een samengesteld experiment, waarbij de drie deelexperimenten onafhankelijk zijn, omdat een getrokken knikker teruggelegd wordt. P(

In een vaas zitten 4 gele en 2 rode knikkers. We trekken 3 knikkers zonder terugleggen. Bereken de kans op precies 1 rode knikker.

Oplossing :

P( 1 rode knikker) = P( GGR) + P( GRG) + P( RGG) = 1 5 + 1 5 + 1 5 = 3 5 = 60%

In dit geval gaat het om een samengesteld experiment, waarbij de drie deelexperimenten afhankelijk zijn.

Na het trekken van de eerste knikker blijven er nog 5 knikkers over.

23 1 Kansrekenen

G R G R G R G R G G R R G R 1 3 1 3 2 3 2 3 2 3 1 3 1 3 2 3 2 3 1 3 1 3 2 3 2 3 1 3 AANTAL GELE AANTAL RODE KANS 3 0 8 27 2 1 4 27 2 1 4 27 1 2 2 27 2 1 4 27 1 2 2 27 1 2 2 27 0 3 1 27 Oplossing : P( 1 rode knikker) = P( GGR) + P( GRG) + P( RGG) = 4 27 + 4 27 + 4 27 = 4 9 ≈ 44,4%

1 rode en 2 gele knikkers) = 3 P (R) P (G) P (G) = 3 4 27 = 4 9 Voorbeeld 5 : trekkingen zonder terugleggen

G R G R G R G G R R G G R 1 1 1 5 1 4 3 4 1 4 3 4 4 5 1 3 2 5 1 2 1 2 2 3 3 5 AANTAL GELE AANTAL RODE KANS 3 0 1 5 2 1 1 5 2 1 1 5 1 2 1 15 2 1 1 5 1 2 1 15 1 2 1 15

Voorbeeld 6 : lotto

Bij de lotto krijg je 6 getallen van 1 tot 45. Onder het toeziend oog van een deurwaarder en televisiekijkers rollen er dan op de eerstvolgende woensdag of zaterdag zes balletjes uit een doorzichtige ‘trommel’ waarin 45 genummerde balletjes aan het dansen waren.

Bereken de kans om 6 getallen juist te hebben.

Oplossing :

Let op : de volgorde van de zes getallen is van geen tel. Er is dus geen ‘eerste’ aangekruist getal, geen tweede enz. Er zijn gewoon 6 aangekruiste en 39 niet-aangekruiste getallen.

Vul de volgende kansboom verder aan :

GOKVERSLAVING

Het is bij wet verboden aan jongeren onder de 18 om deel te nemen aan kansspelen. Ook het lottospel kan verslavend werken. Een gokverslaafde is eerder geneigd om te gokken en vaker te spelen bij spelen waar de uitslag direct bekend is. Hoe merk je dat het de slechte kant uitgaat ? Als je langer speelt dan je van plan was, als je tegen anderen liegt over je gokgedrag en als je (wanneer je niet gokt) altijd aan gokken denkt. Een gewaarschuwd persoon is er twee waard !

De kans dat het eerste balletje een van de zes aangekruiste getallen draagt, is volgens de regel van Laplace 6 45

Als het eerste balletje een van de zes is, dan zitten er nog 44 balletjes in de trommel waarvan 5 goede.

In het andere geval zitten er ook nog 44 balletjes in, maar de 6 goede zijn er nog allemaal.

Zo vinden we dat de kans om de 6 getallen juist te hebben gelijk is aan 6 45 · 5 44 · 4 43 · 3 42 · 2 41 · 1 40 = 1

8145060 (productregel).

… … juist juist juist fout fout fout juist fout enz. eerste getal tweede getal derde getal 6 45 5 44 39 45

-18

10 Samenvatting

• Je kent de methodes om kansen te berekenen:

1 uniforme kansverdeling

Alle uitkomsten zijn even waarschijnlijk.

Formule van Laplace: P (A) = #A #U = aantalvoorAgunstigeuitkomsten aantalmogelijkeuitkomsten

2 niet-uniforme kansverdeling

De uitkomsten zijn niet meer even waarschijnlijk.

– De kans op een gebeurtenis is het reëel getal waarrond de relatieve frequenties van de gebeurtenis gesitueerd zijn bij een zeer groot aantal herhalingen van het experiment.

– De relatieve frequentie van een gebeurtenis A die zich n A maal voordoet bij n experimenten is

f A = n A n

– Hierbij gelden volgende regels :

• De som van alle kansen van alle uitkomsten moet 1 zijn.

• De kans van een gebeurtenis A ≠ ∅ is de som van de kansen van de uitkomsten in A.

3 kansbomen

Hierbij gelden volgende regels :

– De som van de kansen bij de takken die uit eenzelfde vertakkingspunt vertrekken, is altijd gelijk aan 1.

– Wanneer we in een kansboom verdergaan langs een bepaalde tak, moeten we de kansen van de deeltakken vermenigvuldigen. Dit noemen we de productregel voor kansen. Die regel wordt gebruikt wanneer ‘en’ in de formulering van de boom voorkomt.

– Wanneer verschillende takken goed zijn, moeten we de kansen van die takken optellen. Dit noemen we de somregel. Die regel gebruiken we wanneer ‘of’ in de formulering van de kans voorkomt.

4 complementregel

AlsAen Acomplementairegebeurtenissenzijn,dangeldt:P (A)+ P (A)= 1.

25 1 Kansrekenen

11 Oefeningen

Kruis of munt.

a Geef de uitkomstenverzameling van het experiment ‘opgooien van 3 geldstukken’.

b Geef de volgende gebeurtenissen door opsomming. Maak een boomdiagram en bereken de kans op elke gebeurtenis.

A : ten hoogste tweemaal kruis gooien

B : driemaal hetzelfde resultaat gooien

c Omschrijf de volgende gebeurtenissen met woorden en door opsomming. Bereken daarna de kans op elke gebeurtenis.

A,A ∪ B,A ∩ B,A \ B

Geef de uitkomstenverzameling van het experiment ‘drie knikkers na elkaar trekken uit een bak die drie knikkers met verschillende kleur ( rood, groen, blauw) bevat’ als :

a elke trekking gebeurt met terugleggen ;

b elke trekking gebeurt zonder terugleggen.

Een voorwerp heeft de vorm van een regelmatig achtvlak met zijvlakken a 1, a 2, , a 8.

Aan de gebeurtenis { a 1 }, zijvlak a 1 blijft boven liggen bij het gooien, wordt 0,16 als kans toegekend.

Alle andere elementaire gebeurtenissen { ai } hebben dezelfde kans. Bepaal die kans.

Beschouw het experiment ‘kiezen van een cijfer met behulp van dit rad’. We veronderstellen bovendien dat het rad nooit zal stilstaan op een scheidingslijn.

a Geef de uitkomstenverzameling.

b Bepaal de kans van elke elementaire gebeurtenis. Is de kansverdeling uniform ?

c Bepaal de kans van de gebeurtenis A : het getrokken cijfer is even of deelbaar door 3.

Kun je hier de formule van Laplace toepassen ?

Bij het opgooien van een punaise observeren we de ligging ervan als ze op de tafel neergekomen is. Het blijkt dat de uitkomstenverzameling U = { punt omhoog, punt omlaag }

We werpen de punaise 3000 maal. Bij 1800 worpen valt de punt naar beneden. Welke waarde geef je dan aan de kans op ‘punt omhoog’ en aan de kans op ‘punt omlaag’ ?

We trekken een kaart uit een spel van 52 kaarten. Beschouw de gebeurtenissen A en B.

A : trekken van een hartenkaart

B : trekken van een aas

a Hoe zou je de volgende gebeurtenissen beschrijven ?

A ∪ B,A ∩ B,B \ A, A ∩ B

b Bereken de kans van elke gebeurtenis.

c Toon aan : A ∪ B

1 2 3 6 5 4 3 2 1 4

= A ∩ B

5 6

In een school bestaat de leerlingenraad uit 15 leerlingen. 10 leerlingen zijn van de derde graad, waarvan 5 jongens en 5 meisjes. 5 leerlingen zijn van de tweede graad, waarvan 3 jongens en 2 meisjes. We kiezen hieruit een voorzitter voor de leerlingenraad.

Wat is de kans dat het een jongen is ?

De kans dat een bepaalde scheikundeproef lukt, is volgens de ervaring 0,32. a Bereken de kans dat de proef vier keer achter elkaar mislukt.

b Bereken de kans dat de proef minstens drie van de vier keer lukt.

c Bereken de kans dat de proef minstens één van de vier keer lukt.

d De scheikundeleraar demonstreert de proef een aantal keren. Hij wil dat de kans dat de proef minstens eenmaal lukt groter is dan 0,96. Zoek met je rekentoestel uit hoeveel keren hij de proef minstens moet doen.

In een urne zitten drie ballen, genummerd met de getallen 1, 2 en 3. Er wordt lukraak een bal uit de urne genomen. Het getal dat op de bal staat, wordt genoteerd en de bal wordt terug in de urne gelegd. Op dezelfde manier wordt een tweede en een derde trekking gedaan.

Als de som van de drie genoteerde getallen 6 is, wat is dan de kans dat de bal met het nummer 2 drie keer werd getrokken ?

De frisdrankautomaat in de refter van onze school is tijdens de afgelopen 12 weken 5 dagen defect geweest. Hoe groot is de kans dat hij de volgende schooldag defect is ( vijfdagenweek)?

In de kruistabel hiernaast zijn van de leerlingen van klas 4E de kenmerken ‘geslacht’ en ‘leeftijd’ verwerkt.

a Bereken P ( leerling is een jongen van 14 jaar)

b Bereken P ( meisje is 16 jaar) = P ( 16 jaar onder de voorwaarde ‘meisje’)

c P ( leerling van 15 jaar is een jongen)

Opmerking :

Kijk goed uit wat de totale frequentie is, want soms moet je je beperken tot een kleinere groep.

Een universitaire afdeling heeft 80 studenten. Van die studenten volgen er 20 logica, 30 volgen psychologie en 40 volgen geen van beide. We kiezen lukraak een student.

a Wat is de kans dat hij enkel psychologie volgt ?

b Wat is de kans dat hij logica of psychologie volgt ?

1 27 Kansrekenen

7 8 9 10 11 GESLACHT

VAN DE LEERLINGEN UIT 4E leeftijd 14 15 16 17 jongen 1 8 2 1 12 meisje 3 6 4 1 14 4 14 6 2 26 12

EN LEEFTIJD

We gooien met 3 zuivere dobbelstenen.

a Bepaal de kans dat het product van het aantal ogen op de 3 stenen gelijk is aan 12.

b Bepaal de kans dat de som van het aantal ogen op de 3 stenen ten minste gelijk is aan 5.

c Bepaal de kans dat we met de 3 geworpen getallen een rekenkundige rij met verschil 1 kunnen vormen.

Twee koppels gaan samen naar het theater. Ze zetten zich willekeurig op 4 naast elkaar liggende plaatsen. Hoe groot is de kans dat niemand naast z’n partner zit ?

Stel dat we een spelletje darts spelen met een doel zoals in de figuur hiernaast.

Als we een pijltje gooien en de schijf S raken, wat is dan de kans dat we in de roos zitten ?

In een loopwedstrijd met drie deelnemers is de kans dat deelnemer a wint drie keer die van b . De kans dat deelnemer b wint, is twee keer die van c Bepaal de kans op winnen van elk van de deelnemers a , b en c .

Een lifter wil zich van plaats O naar A begeven. Hij doet dit door lukraak een van de drie wegen te nemen die uit O vertrekken. Vanuit de knooppunten B1, B2, B3 kiest hij opnieuw lukraak uit de aangegeven wegen (zie figuur). Wat is de kans dat de lifter in A aankomt ?

In een doos zitten kaartjes waarop getallen van drie cijfers geschreven staan. Voor het eerste cijfer zijn er vier mogelijkheden : 1, 2, 3 of 4. Het aantal kaartjes van elk type is zodanig berekend dat iemand die lukraak een kaartje uit de doos neemt, een kans 0,425 heeft op een getal beginnend met 1, een kans 0,25 op een getal beginnend met 2, een kans 0,20 op een getal beginnend met 3 en een kans 0,125 op een getal beginnend met 4. Bereken de kans om een kaartje te trekken waarop :

a het eerste cijfer even is ;

b het getal kleiner is dan 400.

Jeroen, Lien en Wouter vormen een quizploeg. Om een vraag over sport op te lossen, heeft Jeroen een kans 0,8, Lien een kans 0,7 en Wouter een kans 0,6.

Bereken de kans dat hun ploeg de sportvraag oplost.

Met een verbogen geldstuk is de kans om kruis te gooien gelijk aan 0,3. Met een tweede verbogen geldstuk is de kans om munt te gooien 0,25.

Bereken de kans om tweemaal hetzelfde resultaat te krijgen als elk geldstuk eenmaal opgegooid wordt.

13 14 14 12 9 6 S 4 15 16 17 * O A B3 B2 B1 18 19 20

Een vaas bevat 24 blauwe en 16 groene knikkers. Michiel neemt er willekeurig en na elkaar 3 knikkers uit.

Bereken eerst met terugleggen en nadien zonder terugleggen de kans op precies 2 groene knikkers.

Gebruik voor beide gevallen een kansboom.

Een inwoner van stad A trekt elke dag met de wagen naar stad B om zijn dagtaak te vervullen. Daarbij heeft hij de keuze tussen twee wegen (a en b ) die hem ongeveer even snel naar de tussenliggende stad C brengen. Vandaar neemt hij meestal de hoofdweg (d ) naar B. Bij grote drukte kan hij echter ook gebruikmaken van twee alternatieve wegen (c en e ).

A C B

b c d e

De keuze van het gevolgde traject hangt voor een deel van de omstandigheden af, maar de ervaring leert dat weg a tweemaal meer wordt benut dan weg b en dat weg d driemaal zo vaak wordt gebruikt als c en e

a Bereken P( a ), P( b ), P( c ), P( d ) en P( e )

b Hoe groot is de kans dat de inwoner van stad A de volgende werkdag het traject ae volgt ? Gebruik hiervoor een kansboom.

In een loterij met 5000 biljetten zijn er 250 prijzen.

Wat is de kans :

a dat we met één biljet prijs hebben ?

b dat we met 2 biljetten twee prijzen hebben ?

c dat we met 2 biljetten minstens één prijs hebben ?

We trekken op aselecte wijze twee kaarten uit een spel van 52 kaarten zonder terugleggen. Bereken de kans :

a dat de tweede getrokken kaart een aas is ; b dat de twee kaarten azen zijn.

Een muntstuk wordt 4 maal geworpen. Bereken de kans van de volgende gebeurtenissen :

a 4 maal kruis gooien ; b meer kruis dan munt gooien.

Er zal een kindje geboren worden en je weet nog niet of het een jongen is of een meisje. Gebruik de sterftetabellen en het feit dat 48,87% van de pasgeborenen meisjes zijn om de kans te bepalen dat het kind de leeftijd van 18 jaar bereikt. Stel een kansboom op.

Een man en een vrouw van 28 jaar huwen. Wat is de kans dat ze hun gouden bruiloft (50 jaar gehuwd) samen zullen vieren ?

1 29 Kansrekenen

21 * 22 23

24 25 26 27

Wie heeft de grootste kans om 90 jaar te worden : een meisje van 16 of een man van 75 ? Raadpleeg de sterftetafels om het probleem op te lossen.

Een landbouwer huurt een groot stuk weiland van een oud koppel. De man is 70 jaar en de vrouw is 67 jaar oud.

Hij weet dat de erfgenamen andere plannen hebben met het stuk grond wanneer beide eigenaars sterven. Wat is de kans dat hij het stuk weiland nog 15 jaar kan gebruiken ? Stel een kansboom op met behulp van de sterftetafels.

Het verjaardagsprobleem.

Neem aan dat de verjaardagen op aselecte wijze verdeeld zijn over de 365 dagen van het jaar. Als je te maken hebt met mensen waarvan je de verjaardag niet kent, bereken dan :

a de kans dat een bepaalde persoon vandaag jarig is ; b de kans dat twee bepaalde personen vandaag jarig zijn ; c de kans dat twee bepaalde personen op dezelfde dag jarig zijn ; d de kans dat in een groep van drie personen er minstens twee dezelfde verjaardag hebben ; e de kans dat een bepaalde persoon jarig is op 29 februari.

Vier vrienden komen elke maand samen en ze hebben de lekkere gewoonte om dan telkens pralines te eten. De afspraak is dat er geloot wordt wie de volgende keer voor pralines zorgt. Ze doen hiervoor telkens 4 knikkers (3 witte en 1 zwarte) in een zakje. Wie de zwarte knikker trekt, moet de volgende keer een doos pralines meebrengen. Een jaar lang werkt dit systeem goed tot iemand opmerkt dat het eigenlijk niet eerlijk is ; wie de eerste knikker nam, zou minder kans op de zwarte knikker hebben dan de tweede, die minder dan de derde … Immers, de eerste heeft een kans van een op vier om de zwarte knikker te krijgen, bij de tweede is die kans, indien hij aan beurt komt, een op drie. Wat denk je hiervan ?

Stel het trekken van de knikkers voor in een boom en bereken hiermee de kans dat de eerste die trekt de zwarte neemt, dat de tweede de zwarte neemt

Het probleem van Chevalier de Méré

Toon aan (zoals Pascal deed voor de Méré) dat de kans op minstens 1 zes bij 4 worpen met 1 dobbelsteen groter is dan de kans op minstens 1 dubbele zes bij 24 worpen met 2 dobbelstenen.

Hint : bereken eerst de kansen van de tegengestelde ( complementaire) gebeurtenissen.

Voor kerstavond spreken drie broers af dat elkeen één cadeautje koopt zonder er een naam op te plakken. De cadeaus worden blindelings en aselect aan een broer toegewezen. Wat is de kans dat niemand zijn eigen cadeau krijgt?

Los dit probleem opnieuw op met respectievelijk vier en vijf broers.

28 29 30 * 31 32 * 33

Vier worpen met een (onvervalste) dobbelsteen geven a , b , c en d ogen.

a Bereken de kans dat het product a · b · c · d even is.

b Bereken de kans dat de som a + b + c + d even is.

Bereken de kans dat je met één gewone dobbelsteen en een viervlaksdobbelsteen eenzelfde aantal ogen gooit.

Toon gooit met twee identieke dobbelstenen een 3 en een 5. Jonas mag nu gooien en moet proberen om minstens 3 of hoger met de ene dobbelsteen en 5 of hoger met de andere dobbelsteen te gooien.

Hoeveel kans heeft hij?

In het damestennis wordt vaak ‘best of three’ gespeeld. Dat wil zeggen : wie het eerst twee sets wint, wint de partij. Tot nu toe heeft Annelies 60% van alle sets die ze tegen Bea gespeeld heeft, gewonnen.

Hieronder zie je de kansboom waarin is aangegeven hoe de partij kan verlopen.

a Neem de kansboom over en werk hem af.

b Bereken de kans dat Bea de partij wint.

Urne A bevat een wit en een zwart bolletje. Urne B bevat 5 zwarte en 3 witte bolletjes en urne C bevat 4 zwarte en 4 witte bolletjes.

Simon neemt eerst een bolletje uit urne A. Is het bolletje zwart, dan neemt hij daarna een bolletje uit urne B. Is het bolletje uit urne A echter wit, dan neemt hij het tweede bolletje uit urne C.

a Bepaal de kans dat Simon twee witte bolletjes uit de urnen haalt.

b Bepaal de kans dat Simon twee bolletjes van verschillende kleur trekt.

Op een tafel staan twee vazen. In de eerste vaas zitten 4 groene en 2 blauwe ballen, in de tweede vaas één groene en één blauwe bal. We trekken aselect uit de eerste vaas een bal en werpen die in de tweede vaas. Nadien trekken we uit de tweede vaas een bal. Wat is de kans dat de tweede bal blauw is ?

1 31 Kansrekenen

A B B A B A A A A A B A B set 1 0,6 set 2 set 3 winnaar

34 35 36 37 38 39

Uit een bak met 3 gele en 7 paarse bollen wordt één bol getrokken. Aan Bram wordt gevraagd welke kleur die bol heeft. Bram liegt echter 2 van de 3 keer. Bram zegt : “De bol is geel”. Bereken de kans dat de bol effectief geel is.

Een muis gaat van haar hol (H) naar de kaas (K) en terug. Wat is de kans dat ze de muizenval (V) niet passeert ?

Je leerkracht wiskunde heeft 2 kinderen. Uit betrouwbare bron weet je dat er zeker een jongen bij is. Je wilt je leerkracht bedanken voor de bijlessen over kansrekening die je kreeg. Terwijl je twee geschenkjes uitzoekt voor de twee kinderen, vraag je je af wat de kans is dat ze allebei een jongen zijn.

In de videogame Nine Lives heeft de kat Felix negen levens. Hij maakt gevaarlijke sprongen die hem een leven kunnen kosten. Bij de n-de sprong belandt Felix met kans 1 n netjes op zijn poten, in het andere geval verliest hij een leven. Wat is de kans dat Felix na 10 sprongen nog niet alle levens opgebruikt heeft ?

2021 eerste ronde, vraag 20 © Vlaamse Wiskunde Olympiade vzw

Aida dobbelt met drie speciale, kubusvormige dobbelstenen. Van twee dobbelstenen is de ontvouwing gegeven. De derde dobbelsteen heeft op elk zijvlak drie of vier ogen en heeft in totaal 20 ogen. Wat is de kans dat de som van de gegooide ogen gelijk is aan 12 ?

H K V

(A) 0 (B) 1 10 (C) 1 9 (D) 8 9 (E) 9 10 VWO

(A) 1 54 (B) 1 18 (C) 1 9 (D) 7 54 (E) 1 6 VWO 2021

27 ©

vzw 40 41 42 43 44

eerste ronde, vraag

Vlaamse Wiskunde Olympiade

Kaya en Mina willen door loting bepalen wie het laatste ijsje krijgt. Ze hebben een muntstuk met verschillende kansen op kop of munt bij het tossen. Kaya kiest kop en Mina kiest munt. Hoe kunnen ze toch eerlijk loten ?

(A) Ze tossen drie keer en kiezen de kant die het vaakst voorkomt.

(B) Ze tossen een aantal keer tweemaal na elkaar tot ze twee verschillende kanten krijgen. Ze kiezen de laatste kant.

(D) Ze tossen een aantal keer driemaal na elkaar tot ze drie dezelfde kanten krijgen. Ze kiezen de laatste kant.

(E) Het is niet mogelijk om eerlijk te loten met dat oneerlijke muntstuk.

VWO 2021 tweede ronde, vraag 28 © Vlaamse Wiskunde Olympiade vzw

In Arendland bestaat een gsm-nummer uit zes cijfers en in Buizerdland uit zeven cijfers. Elk cijfer van 0 tot en met 9 kan overal voorkomen. Zo is 000000 een gsm-nummer in Arendland en 1234567 een gsm-nummer in Buizerdland. De kans dat een gsm-nummer in Arendland op 1 eindigt is:

(A) 10 keer groter dan de kans dat een gsm-nummer in Buizerdland op 1 eindigt ;

(B) 10 keer kleiner dan de kans dat een gsm-nummer in Buizerdland op 1 eindigt ;

(D) 106 keer kleiner dan de kans dat een gsm-nummer in Buizerdland op 1 eindigt ;

(E) even groot als de kans dat een gsm-nummer in Buizerdland op 1 eindigt.

VWO 2022 eerste ronde, vraag 24 © Vlaamse Wiskunde Olympiade vzw

In een vaas zitten 10 ballen die genummerd zijn met de getallen 1 tot en met 10. Dennis neemt lukraak drie ballen uit de vaas, in volgorde en zonder terugleggen. Wat is de kans dat het getal op de derde bal het gemiddelde is van de getallen op de eerste twee ballen?

(A) 1 10 (B)

VWO 2023 tweede ronde, vraag 29 © Vlaamse Wiskunde Olympiade vzw

In een doos zitten dubbel zoveel rode ballen als witte ballen. Als we lukraak twee ballen uit de doos nemen, is de kans dat ze een verschillende kleur hebben gelijk aan 7 15 . Hoeveel witte ballen zitten in de doos?

(A) 4

(B) 5 (C) 6

IJkingstoets burgerlijk ingenieur augustus 2022, oefening 29

(D) 7

Je beschikt over een speciale dobbelsteen met 10 (in plaats van 6) vlakken. Op elk vlak staat een verschillend getal

(1, 2, …, 10) en elk vlak heeft evenveel kans om geworpen te worden. Als je 5 keer gooit met die dobbelsteen, wat is dan de kans dat je precies 3 keer een 7 gooit ?

(A) 0,00081

(B) 0,0021

IJkingstoets burgerlijk ingenieur juli 2022, oefening 27

(D) 0,021

1 33 Kansrekenen

1 15 (C) 1 18 (D) 1 20 (E) 1 30

45 46 47 48

We gooien met drie identieke, niet-vervalste kubusvormige dobbelstenen met op elke zijde van de dobbelsteen een verschillend aantal ogen van 1 tot en met 6. Noem N het aantal ogen van de dobbelsteen met het grootste aantal ogen. Wat is de kans dat N gelijk is aan 5 ?

Jef gooit vier keer met een niet-vervalste kubusvormige dobbelsteen. Elke zijde van de dobbelsteen bevat een verschillend aantal ogen van 1 tot en met 6. Wat is de kans dat hij na vier worpen evenveel keer even als oneven ogen gooide ?

ijkingstoets 2022-2023, faculteit ingenieurswetenschappen KU Leuven, oefening 3.23

Bij een dobbelspel wordt 5 keer met een eerlijke dobbelsteen gegooid. Indien op de dobbelsteen 1 of 2 ogen zichtbaar zijn, dan ontvang je hiervoor een negatieve score van –0,25. Indien op de dobbelsteen een 5 of 6 tevoorschijn komt, dan krijg je hiervoor een positieve score van +1,0. Voor een 3 of een 4 krijg je een score van 0,0. De score van het spel is de som van de scores behaald in de 5 worpen samen. Wat is de kans dat je een score hebt die minstens 3 punten bedraagt ? (A)

Oefenmodules ijkingstoets 2022-2023, faculteit ingenieurswetenschappen KU Leuven, oefening 6.15

(A) 7 216 (B) 21 216 (C) 61 216 (D) 91 216 IJkingstoets burgerlijk ingenieur juli

oefening 19

2021,

(A) 6,25% (B) 16,66…% (C) 37,5% (D) 50%

Oefenmodules

11 35 (B) 16 35 (C) 21 35 (D) 26 35

50 51 52

1.2 Kruistabellen en voorwaardelijke kansen

1 Kruistabellen

Voorbeeld 1 :

In een school werd aan de leerlingen gevraagd of ze soms met de fiets naar school komen of niet.

Dit waren de resultaten :

• In de eerste graad (G1) komen 72 leerlingen soms met de fiets (F), 94 nooit (F).

• In de tweede graad (G2) komen 88 leerlingen soms met de fiets, 76 nooit.

• In de derde graad (G3) komen 67 leerlingen soms met de fiets, 103 nooit.

We kunnen die gegevens mooi weergeven in een tabel.

Die voorstelling noemen we een kruistabel

De getallen op de randen noemen we marginale waarden van de tabel.

Zo een tabel is handig bij het berekenen van kansen.

Een leerkracht spreekt willekeurig een leerling van de school aan. Wat is de kans dat :

• die leerling per fiets komt ?

aantal mogelijkheden : 500

aantal gunstige : 227

P(F) = 227

500 = 45,4%

• die leerling een leerling uit de tweede graad is ?

aantal mogelijkheden : 500

aantal gunstige : 164

P(G2) = 164

500 = 32,8%

• die leerling een leerling uit de derde graad is die nooit met de fiets komt ?

aantal mogelijkheden : 500

aantal gunstige : 103

P(G3

∩ F)= 103

500 = 20,6%

35 1 Kansrekenen

G1 G2 G3 totaal F 72 88 67 227 F 94 76 103 273 totaal 166 164 170 500

Voorbeeld 2 :

Bij een nachtelijk bosspel krijgen de deelnemers drie attributen. Elke deelnemer krijgt een kompas (K), een stafkaart (S) of gps (G) en een zaklamp (Z) of walkietalkie (W).

De verdeling van de attributen vind je in volgende tabel.

Een wandelaar in het bos komt een deelnemer van het bosspel tegen. Wat is de kans dat :

• de deelnemer een stafkaart bij zich heeft ?

P(S) = 21 85 = 24,7%

• de deelnemer een zaklamp bij zich heeft ?

P(Z) = 60 85 = 70,6%

• de deelnemer een walkietalkie en gps bij zich heeft ?

P(W ∩ G) = 3 85 = 3,5%

• de deelnemer geen kompas bij zich heeft ?

P (K)= 21 + 16 85 = 37 85 = 43,5%

• de deelnemer een kompas of gps bij zich heeft ?

P(K ∪ G) = 48 + 16 85 = 64 85 = 75,3%

• de deelnemer een zaklamp en walkietalkie bij zich heeft ?

P(Z ∩ W) = 0 85 = 0,0%

• de deelnemer een zaklamp of stafkaart bij zich heeft ?

P(Z ∪ S) = 32 + 15 + 13 + 6 85 = 66 85 = 77,6%

• de deelnemer geen stafkaart maar wel een zaklamp bij zich heeft ?

P (S ∩ Z)= 32 + 13 85 = 45 85 = 52,9%

K S G totaal Z 32 15 13 60 W 16 6 3 25 totaal 48 21 16 85

2 Voorwaardelijke kansen

Voorbeeld 1 :

Van 500 leerlingen uit het laatste jaar van het secundair onderwijs zijn twee zaken geregistreerd : hun geslacht ( J of M) en of ze al dan niet een bril dragen ( B of B)

De resultaten staan in de volgende tabel.

We nemen uit die groep studenten lukraak een persoon.

– We berekenen de kans dat het een meisje is.

P (M)= #M #U = 200 500 = 40%

– We berekenen nu de kans dat het gekozen meisje een bril draagt. Door de extra informatie (een meisje) verandert het aantal gunstige uitkomsten evenals het totale aantal uitkomsten. Er zijn 200 meisjes, waaronder 68 met een bril. De kans dat het lukraak gekozen meisje een bril draagt, is

68 200 = 34%

We noemen die laatste kans een voorwaardelijke kans en noteren die als volgt :

P (B | M)

(Lees : de kans dat een student een bril draagt op voorwaarde dat het om een meisje gaat)

MerkopdatP (B | M)= 68 200 = 68 500 200 500 = P (B ∩ M)

P (M)

Analoogvindje:P (B | J)= 184

300 = P (B ∩ J)

P (J)

Bij het berekenen van een kans waarbij we ons moeten beperken tot een bepaalde groep, deel je door de totale frequentie van die groep. Zo’n kans heet een voorwaardelijke kans.

37 1 Kansrekenen

B B totaal J 116 184 300 M 68 132 200 totaal 184 316 500

We kunnen de tabel herschrijven tot een kansentabel.

De kansen in de rand (blauwe vakjes) noemen we de marginale kansen van de kruistabel.

voorwaardelijke kans

Beschouw een kansexperiment met universum U.

A en B zijn gebeurtenissen met P( A) ≠ 0.

De kans op een gebeurtenis B als een gebeurtenis A zich heeft voorgedaan, noemen we een voorwaardelijke kans en noteren we als

P (B | A) metP (B | A)= P (A ∩ B)

P (A)

Opmerking :

Let op: P( B | M) ≠ P( M | B)

P( M | B) betekent immers de kans dat de student een meisje is op voorwaarde dat ze een bril draagt

P (M | B

Voorbeeld 2 :

∩

) = 68 500 184 500 = 68 184

Een urne bevat 12 identieke balletjes, genummerd van 1 tot 12. We trekken volledig willekeurig een balletje uit de urne en richten onze aandacht op de volgende gebeurtenissen :

B1 : een nummer trekken groter dan 6 ; B1 = { 7, 8, 9, 10, 11, 12 }

B2 : een oneven nummer trekken ; B2 = { 1, 3, 5, 7, 9, 11 }

A : een nummer trekken dat een viervoud is ; A = { 4, 8, 12 }

Aangezien de kansverdeling uniform is, weten we dat :

P (B1 )= 6 12 = 1 2 enP (B2 )= 6 12 = 1 2 enP (A)= 3 12 = 1 4

Wat worden die kanswaarden als de bijkomende inlichting wordt gegeven dat het getrokken nummer een viervoud is ?

• P (B1 | A)= P (B1 ∩ A) P (A) = 2 12 3 12 = 2 3

We kunnen het vorige resultaat gemakkelijk begrijpen : de verzameling telt drie viervouden waarvan er twee groter zijn dan 6.

• P (B2 | A)= P (B2 ∩ A) P (A) =

B B totaal J 23,2% 36,8% 60% M 13,6% 26,4% 40% totaal 36,8% 63,2% 100%

0 3 12

0 A A ∩ B B U

Voorbeeld 3 :

Op een zomersportkamp kiest elke deelnemer een watersport (surfen (S), zeilen (Z) of waterskiën (W)) en een racketsport (badminton (B), tennis (T) of padel (P)). De aantallen van de gemaakte keuzes staan in de volgende tabel.

Bereken de kans dat een deelnemer:

• badmintont.

P(B) = 55 135 = 40,7%

• niet zeilt.

P (Z)= 68 + 19 135 = 64,4%

• padelt en surft.

P (P ∩ S)= 8 135 = 5,9%

• tennist als je weet dat hij ook waterskiet.

P (T | W)= P (T ∩ W) P (W) = 8 19 = 42,1%

• waterskiet als je weet dat hij ook tennist.

P (W | T)= P (W ∩ T) P (T) = 8 44 = 18,2%

• zeilt of niet padelt.

P (Z ∪ P)= 55 + 44 + 23 135 = 90,4%

• badmintont en niet surft.

P (B ∩ S)= 17 + 6 135 = 17,0%

• niet zeilt als je weet dat hij badmintont.

P (Z | B)= P (Z ∩ B) P (B) = 32 + 6 55 = 69,1%

• padelt als je weet dat hij niet zeilt.

P (P | Z)= P (P ∩ Z) P (Z) = 8 + 5 68 + 19 = 14,9%

• niet surft als je weet dat hij niet tennist.

P (S | T)= P (S

39 1 Kansrekenen

S Z W totaal B 32 17 6 55 T 28 8 8 44 P 8 23 5 36 totaal 68 48 19 135

+ 6 +

+ 5 55 + 36 =

∩ T) P (T)

56,0%

3 Voorwaardelijke kansen en kansbomen

Voorbeeld 1 :

In het bergdorp Oetz in het Oostenrijkse Tirol leven gedurende het toeristische hoogseizoen vier keer zoveel toeristen als autochtonen. 60% van de toeristen draagt een folkloristische hoed, typisch voor de streek.

Daarentegen draagt slechts 30% van de plaatselijke bevolking een tirolerhoed. Als je op straat een persoon met een tirolerhoed tegenkomt, wat is dan de kans dat hij een toerist is ? Oplossing :

Antwoord : als je op straat in Oetz een persoon met een tirolerhoed tegenkomt, dan is de kans 8 op 9 dat die persoon een toerist is.

Voorbeeld 2 :

Twee vazen bevatten paarse (P) en oranje (O) bollen. Vaas A bevat 3 paarse en 7 oranje bollen. Vaas B bevat 6 paarse en 4 oranje bollen. Je kiest volledig willekeurig een van de vazen en daarna neem je twee bollen (zonder teruglegging) uit die vaas. Beide bollen blijken paars te zijn (PP). Wat is de kans dat je vaas A gekozen had ?

Antwoord : de kans dat je vaas A koos, is 1 op 6.

T H H H H T 4 5 1 5 3 5 2 5 3 10 7 10 T: toerist

T H P (T | H)= P (T ∩ H) P (H) = 4 5 3 5 4 5 3 5 + 1 5 3 10

: geen toeris H: draagt hoed : draagt geen hoed

Oplossing

A B 1 2 3 10 7 10 6 10 4 10 1 2 2 9 7 9 3 9 6 9 5 9 4 9 6 9 3 9 P (A | PP)= P (A ∩ PP) P (PP) = 1 2 3 10 2 9 1 2 3 10 2 9 + 1 2 6 10 5 9 = 1 6

Voorbeeld 3 : lichaamslengte

In een tennisclub is de lichaamslengte van 15% van de mannen en van 5% van de vrouwen groter dan 185 cm. 60% van de leden zijn mannen. Een lid van de club wordt willekeurig uitgekozen.

Bereken de kans dat het om een vrouw gaat, als we weten dat diegene die gekozen werd meer dan 185 cm meet.

Oplossing :

De kansboom ziet eruit als volgt :

Op dezelfde manier vinden we :

Voorbeeld 4 : een kankertest

Veronderstel dat een test voor kanker de eigenschap heeft dat 90% van de mensen die kanker hebben positief reageren en 5% van de mensen die geen kanker hebben ook positief reageren.

Veronderstel bovendien dat in een bepaald ziekenhuis 1% van de patiënten kanker heeft.

Kies willekeurig een patiënt in dat ziekenhuis en laat hem de test ondergaan.

Als hij positief reageert op de test, wat is dan de kans dat hij kanker heeft ?

Oplossing :

K : een persoon van het ziekenhuis heeft kanker.

K : een persoon van het ziekenhuis heeft geen kanker.

T : een getest persoon van het ziekenhuis reageert positief.

T : een getest persoon van het ziekenhuis reageert niet positief.

We stellen een kansboom van het probleem op.

41 1 Kansrekenen

0,60 0,40 0,15 M (man) V (vrouw) L185 L185 L185 L185 0,85 0,05 0,95 (groter dan 185 cm)

(V | L185 )= P (V) · P (L185 | V) P (L185 ) = 0,40 · 0,05 0,60 0,15 + 0,40 0,05 = 2 11 ≈ 18%

P (M | L185

P (

P (L185

= 0,60 0,15 0,60 · 0,15 + 0,40 · 0,05 = 9 11 ≈ 82%

(

)

L185 |

)

0,05 0,95 0,9 0,1 0,01 0,99 K T T T T K

Uit de boom lezen we af dat de kans dat een getest persoon positief reageert gelijk is aan

De kans dat een persoon kanker heeft en positief reageert op de test is gelijk aan P(T ∩ K) = 0,01 · 0,9

De kans dat iemand kanker heeft als hij positief reageert, is gelijk aan

Dit is een verrassend resultaat.

Enerzijds is de diagnosetest zeer betrouwbaar want in 90% van de gevallen waarin kanker aanwezig is, zou de test dit aan het licht brengen.

Anderzijds zou slechts in 15,4% van de gevallen waarin de test kanker aanwijst, werkelijk kanker aanwezig zijn.

Dit relativeert heel sterk de betekenis van de testuitslag.

Opmerking :

In plaats van een kansboom op te stellen, kunnen we het probleem ook oplossen aan de hand van een kanstabel.

P (T)= P (K ∩ T)+ P (K ∩ T)=

0,01

0,9

0,99

0,05

P (K | T)= P (K ∩ T) P (T) = 0,01 ·

0,01 0,90 + 0,99 0,05 = 2 13 ≈ 15,4%

0,90

T T totaal K 0,9 0,01 = 0,009 0,1 0,01 = 0,001 0,01 K 0,05 0,99 = 0,0495 0,95 0,99 = 0,9405 0,99 totaal 0,009 + 0,0495 = 0,0585 0,001 + 0,9405 = 0,9415 1 P (K | T)= P (K ∩ T) P (T) = 0,009 0,0585 ≈ 15,4%

4 Productwet van de kansrekening

Als voorwaardelijke kansen rechtstreeks bepaald kunnen worden, dan levert de definitie een goed middel om de kans op de doorsnede van 2 gebeurtenissen te bepalen.

UitP (B | A)= P (A ∩ B) P (A) metP (A) = 0volgtimmersdat

Voorbeeld :

In een bak zitten drie witte, vier zwarte en drie rode knikkers. We nemen lukraak een eerste knikker, leggen die niet terug en nemen dan lukraak een tweede knikker. De kansboom van dit experiment ziet er als volgt uit :

43 1 Kansrekenen

P (A ∩ B)= P (A) P (B | A) ofP (AenB)= P (A) P (B | A)

W1 : 1e knikker is wit ; W2 : 2e knikker is wit ; analoog voor R1, R2, Z1, Z2 3 P(W1) = 10 2 P(W2 | W1) = 9 4 P(Z2 | W1) = 9 3 P(Z2 | Z1) = 9 4 P(Z2 | R1) = 9 3 P(R2 | W1) = 9 3 P(W2 | Z1) = 9 3 P(R2 | Z1) = 9 3 P(W2 | R1) = 9 2 P(R2 | R1) = 9 4 P(Z1) = 10 3 P(R1) = 10 W1 Z1 R1 W2 Z2 R2 W2 Z2 R2 W2 Z2 R2 P (W1 enW2 )= P (W1 ) · P (W2 | W1 )= 3 10 · 2 9 = 1 15 P (W1 enZ2 )= P (W1 ) P (Z2 | W1 )= 3 10 4 9 = 2 15 P (W1 enR2 )= P (W1 ) P (R2 | W1 )= 3 10 3 9 = 1 10 P (Z1 enW2 )= P (Z1 ) · P (W2 | Z1 )= 4 10 · 3 9 = 2 15 P (Z1 enZ2 )= P (Z1 ) P (Z2 | Z1 )= 4 10 3 9 = 2 15 P (Z1 enR2 )= P (Z1 ) P (R2 | Z1 )= 4 10 3 9 = 2 15 P (R1 enW2 )= P (R1 ) · P (W2 | R1 )= 3 10 · 3 9 = 1 10 P (R1 enZ2 )= P (R1 ) · P (Z2 | R1 )= 3 10 · 4 9 = 2 15 P (R1 enR2 )= P (R1 ) P (R2 | R1 )= 3 10 2 9 = 1 15                                                                                  som = 1

Merk op dat in een kansboom vanaf de tweede vertakking altijd voorwaardelijke kansen op de takken staan. De kans van elke uitkomst wordt dan gevonden door toepassing van de productregel op de getallen, vermeld op de ‘boomtakken’.

Opmerkingen :

1 OmdatP (A | B)= P (A ∩ B) P (B) metP (B) = 0,geldtdusookdatP (A ∩ B)= P (B) · P (A | B)

2 De productregel kan ook uitgebreid worden voor 3 of meer gebeurtenissen.

P (A ∩ B ∩ C)= P [(A ∩ B) ∩ C]

= P (A ∩ B) · P (C | A ∩ B)

= P (A) · P (B | A) · P (C | A ∩ B)

Algemeen : P (A1 ∩ A2 ∩ ∩ An )= P (A1 ) P (A2 | A1 ) P (An | A1 ∩ A2 ∩ ∩ An 1 )

Voorbeeld :

We zoeken de kans om met één rooster winnaar van rang 1 (6 nummers juist) te worden bij de lotto.

Li = de i -de getrokken bal is de goede

P (winnaar rang 1)

= P (L1

5 Afhankelijke en onafhankelijke gebeurtenissen

Voorbeeld 1 : dragen van een bril

We keren terug naar het voorbeeld van blz. 37 : het onderzoek naar het dragen van een bril bij 500 leerlingen van het laatste jaar secundair.

We vinden

68 200 = 34%

De twee kansen zijn verschillend van elkaar. De kans op het dragen van een bril wordt blijkbaar gewijzigd als we weten dat de onderzochte proefpersoon een meisje is. We zeggen daarom dat in de groep van 500 leerlingen de gebeurtenissen B en M afhankelijk zijn.

Merk op dat : P(B ∩ M) = 68 500 = 0,136

P(B) = 184 500

P(M) = 200 500

Hieruit volgt dat : P(B) · P(M) = 184 500 · 200 500 = 0,1472

VoordeafhankelijkegebeurtenissenBenMisP(B ∩ M) = P(B) P(M)

Voorbeeld 2 : gooien met dobbelstenen

Josefien gooit met een witte en een zwarte dobbelsteen. We beschouwen de volgende gebeurtenissen : A : een even aantal ogen gooien met de witte dobbelsteen. B : het werpen van 5 of 6 ogen met de zwarte dobbelsteen.

We vinden : P(A) = 18 36 = 1 2 P(A | B)=

Hieruit blijkt dat het optreden van B geen invloed heeft op de kans van A en is ook het optreden van A zonder invloed op de kans van B. We noemen de gebeurtenissen A en B onafhankelijke gebeurtenissen.

45 1 Kansrekenen

B B totaal J 116 184 300 M 68 132 200 totaal 184 316 500

P (B)=

500

P (B

M)=

184

36,8%

1 2

1 3

6 12

P(A) = P(A | B) P(B) = 12 36

P(B | A)=

18 =

P(B) = P(B | A)

MerkopdatP(A ∩ B) = 6 36 = 1 6 ,P(A) = 1 2 enP(B) = 1 3 ,zodatP(A ∩ B) = P(A) · P(B).

Algemeen :

• IndiengeldtdatP(A) = P(A | B)noemenwedegebeurtenissenAenBonafhankelijk.

HetoptredenvangebeurtenisBheeftgeenenkeleinvloedopdekansvangebeurtenisA.

Volgensdeproductregelgeldt:P(A ∩ B) = P(B) P(A | B)

ZijnAenBonafhankelijk,dangeldt:P(A | B) = P(A),zodatP(A ∩ B) = P(A) · P(B)

Bovendiengeldt:P(B | A) = P(A ∩ B) P(A) = P(A) P(B) P(A) = P(B)

• IndiengeldtdatP(A) = P(A | B)ofP(B) = P(B | A),dannoemenwedegebeurtenissenAenBafhankelijk.

HetoptredenvandegebeurtenisBheeftwelinvloedopdekansvangebeurtenisA.

Indatgevalgeldt:P(A ∩ B) = P(A) P(B)

6 Toepassing

Gegeven : Voor drie gebeurtenissen A, B, C (schematisch voorgesteld) geldt :

Gevraagd :

1 Bereken : aP (A\ (B ∪ C))

bP A ∩ B ∩ C

cP (B | A)

dP (A ∪ B) ∩ C

2 Welke van volgende uitspraken zijn waar ? Verklaar.

e A en B zijn disjunct

f A en C zijn disjunct

g B en A zijn onafhankelijk

h B en C zijn onafhankelijk

P(A)

3 P(B)

1 2 P(C)

1 4

A B C

= 1

P(A ∩ B) = 1 6

Oplossing :

Stel de kansen visueel voor op het venndiagram.

P(A \ B) = 1 3 1 6 = 1 6

P(B \ A) = 1 2 1 6 = 1 3

aP (A\ (B ∪ C)) = P (A\B) = 1 6

bP A ∩ B ∩ C = P (C) = 1 4

cP (B | A) = P (A ∩ B) P (A) = 1 6 1 3 = 1 2

dP (A ∪ B) ∩ C = P A ∪ B ∪ C = P A ∪ B = 1 P (A ∪ B) = 1 3

eA ∩ B = ∅ =⇒ AenBzijnnietdisjunct

fA ∩ C = ∅ =⇒ AenCzijndisjunct

gP(A ∩ B) = P(A) P(B) = 1 3 1 2 = 1 6 =⇒ AenBzijnonafhankelijk

h P (B ∩ C)= P (∅)= 0

P (B) P (C)= 1 2 1 4 = 1 8 =⇒ BenCzijnnietonafhankelijk A

7 Samenvatting

• Je weet wat een voorwaardelijke kans betekent.

P (B | A)= P (A ∩ B) P (A) alsP (A) = 0

P (A | B)= P (A ∩ B) P (B) alsP (B) = 0

• Je kent de productwet van de kansrekening.

P(A ∩ B) = P(A) P(B | A)

P(A ∩ B ∩ C) = P(A) P(B | A) P(C | A ∩ B)

P(A1 ∩ A2 ∩ ... ∩ An ) = P(A1 ) P(A2 | A1 ) ... P(An | A1 ∩ A2 ∩ ... ∩ An 1 )

• Je kan kansen berekenen met behulp van kansbomen en kruistabellen.

• Je weet wat de betekenis is van marginale kans.

• Je weet wanneer gebeurtenissen afhankelijk of onafhankelijk zijn.

AenBzijnonafhankelijkalsP (A)= P (A | B) ofP (B)= P (B | A).

Indatgevalgeldt:P (A ∩ B)= P (A) · P (B)

AenBzijnafhankelijkalsP (A) = P (A | B) ofP (B) = P (B | A)

Indatgevalgeldt:P (A ∩ B) = P (A) P (B)

47 1 Kansrekenen

B C 1 6 1 6 1 3 1 4 1 12

8 Oefeningen

De ouders van firma Q mogen voor hun kinderen voor het komend kerstfeestje een geschenk kiezen. De keuze bestaat uit een blokkendoos (BD), een boerderij (BO), een poppenset (PS) of een trein (TR). Al die keuzes bestaan in twee uitvoeringen : in hout (H) of in kunststof (K).

De keuzes zijn als volgt :

Als de kerstman een kind aanspreekt, wat is de kans dat het kind :

a een blokkendoos heeft gekozen ?

b houten speelgoed heeft gekregen ?

c een trein in kunststof heeft gevraagd ?

d geen poppenset heeft gekozen ?

e een boerderij of een trein heeft gekregen ?

f een blokkendoos uit hout of een trein uit hout heeft gevraagd ?

g geen houten speelgoed en geen boerderij heeft gekozen ?

h houten speelgoed of een blokkendoos heeft gekregen ?

Bij een schooluitstap zorgt de school voor een broodje en een drankje voor elk kind. Bij de broodjes kun je kiezen uit een broodje kaas (K), ham (H), tonijn (T) of veggie (V). Bij de drankjes mag elk kind kiezen uit water (W), frisdrank (F) of appelsap (A).

In de volgende tabel heb je een overzicht van de lunchpakketten die worden klaargemaakt.

Als een leraar een leerling aanspreekt, wat is de kans dat die :

a een broodje met kaas in zijn lunchpakket heeft ?

b water als drankje gekozen heeft ?

c een broodje met ham en frisdrank gekozen heeft ?

d geen tonijn gevraagd heeft ?

e appelsap of frisdrank drinkt ?

f water drinkt of een broodje kaas eet ?

g geen veggiebroodje of water gekregen heeft ?

h geen frisdrank in zijn lunchpakket heeft maar wel een broodje met ham ?

BD BO PS TR totaal H 32 48 19 37 136 K 18 20 28 18 84 totaal 50 68 47 55 220

K H T V totaal W 22 16 9 3 50 F 38 31 12 22 103 A 8 8 3 13 32 totaal 68 55 24 38 185

1 2

Gegeven is de volgende kruistabel :

Gevraagd : Bereken volgende kansen.

a P (R)

Gegeven is de volgende kruistabel:

Gevraagd : Bereken volgende kansen.

In een pretpark wordt op het einde van de achtbaan aan de bezoekers gevraagd hoelang ze moesten aanschuiven voordat ze op de attractie konden. De resultaten worden volgens leeftijd bijgehouden. De antwoorden van vandaag vind je in volgende tabel :

a Als je (vandaag) willekeurig iemand aanspreekt, wat is de kans dat hij meer dan een kwartier heeft moeten aanschuiven ?

b Als je willekeurig iemand aanspreekt, wat is de kans dat die persoon jonger is dan 16 jaar ?

c Je spreekt iemand aan ouder dan 50 jaar. Wat is de kans dat die persoon langer dan een half uur heeft moeten aanschuiven ?

d De persoon die je aanspreekt, moest minder dan een kwartier aanschuiven. Wat is de kans dat hij ouder is dan 16 ?

1 49 Kansrekenen

R S T totaal K 4 10 6 20 L 5 15 10 30 M 6 25 9 40 totaal 15 50 25 90

T ∩ M) e P (L) f P (R ∪ S) g P (K ∩ L) h P (K ∩ L)

b P (L) c P (

∪

(

A B C D totaal E 11 5 19 9 44 F 6 16 10 6 38 G 5 9 37 37 88 totaal 22 30 66 52 170

a P (B ∩

b P (A)

)

F ∪ D)

P (B ∩ E)

P (G ∩ A)

P (C ∪ G)

P D ∩ (F ∪ G)

P (B \ F)

P (G \ D)

c P (E ∪ G

(

leeftijd ⩽ 16 16 < leeftijd < 50 leeftijd ⩾ 50 totaal wachttijd ⩽ 5 min 95 65 10 170 5 min < wachttijd ⩽ 15 min 100 60 30 190 15 min < wachttijd ⩽ 30 min 85 50 25 160 30 min < wachttijd 20 0 20 40 totaal 300 175 85 560

3 4 5

Tijdens de driedaagse in Parijs mogen de leerlingen van de school zelf kiezen welk museum ze willen bezoeken.

Ze kunnen kiezen uit Musée Rodin, Musée d’Orsay en Centre Pompidou. De verdeling dit jaar is als volgt :

a Na de reis spreek je (willekeurig) een leerling aan. Wat is de kans dat die leerling Musée d’Orsay bezocht ?

b Aan een van de jongens vraag je welk museum hij heeft bezocht. Wat is de kans dat hij het Centre Pompidou niet heeft bezocht ?

c Je spreekt met een leerling die vol enthousiasme bezig is over het bezoek aan het museum van Rodin. Wat is de kans dat het een meisje is ?

Gegeven is de volgende kruistabel :

Vul volgende kruistabel aan en bereken de gevraagde kansen.

Musée Rodin Musée d’Orsay Centre Pompidou totaal jongens 12 12 11 35 meisjes 8 28 19 55 totaal 20 40 30 90

S T U V totaal X 10 50 7 18 85 Y 13 19 4 19 55 totaal 23 69 11 37 140

P Y ∩ (U ∪ V) c P (X ∩ T) d P (Y ∪ S) e P (X | S) f P (T | Y) g P (X | S ∪ V) h P (U | Y)

Bereken volgende kansen

(S ∩ X) b

Vul volgende kruistabel aan en bereken de gevraagde kansen.

Vul telkens de kruistabel in aan de hand van de gegevens.

•

• P (G)= 0,6

• P (K ∩ G)= 0,15

• P (F ∩ L)= P (F)

• P (L ∩ H)= 0,25

•

Aan de leerlingen van het vijfde jaar werd gevraagd of ze het boek (B) of de serie (S) Bridgerton gelezen respectievelijk gezien hadden.

Hun antwoorden schematisch voorgesteld waren :

a Herschik die gegevens in tabelvorm.

b Bepaal P(B | S)enP(S | B).

1 51 Kansrekenen

K1 K2 K3 K4 totaal R1 10 67 R2 64 44 54 190 R3 11 21 40 totaal 85 95 370 a P (K2 | R2)

(R2 | K3)

c P (K1 | R1) d P (R1 | K1)

)

e P (K3 | R2) f P (R3 | K2) g P (K2 ∩ K4 | R3) h

(R1 | K1 ∪ K3

E F G H totaal K L totaal 100

P (K)= 0,3

•

(

)= 0,2

b R S T totaal X Y Z totaal 400

P (Y)= 0,3

P (U | X)=

P (S ∪ T)= P (S ∪ R)= 0,6

• P (E ∩ L)= P (

∩ K)

•

0,7 •

P (R | X)= 0,2

P (Y | R)= 0,6

P (S | Y)= 0

P (Z ∩ T)= 0,15

S 35 23 9 7 B U

B B totaal S S totaal

Bereken :

a P (∅ | A)

b P (A | U)

c P (U | A)

De kans van een gebeurtenis A is 0,6 en de kans van A ∪ B is 0,8.

a Bepaal P(B) als A en B onafhankelijk zijn.

b Bepaal P(B) als A en B disjunct zijn.

d P (A | A)

Aan de leerlingen van de derde graad werd gevraagd of ze lid zijn van een sportclub (S), muziek beoefenen (M) of lid zijn van een jeugdbeweging (J). De resultaten waren :

Bepaal :

a P (S | J)

b P (M | S)

c P (J | M)

d P (J | S ∩ M)

e P (S | M ∩ J)

Juul, Gijs en Staf gaan schieten op de kermis. Zij doen dit al jaren en hebben hun scores heel goed bijgehouden. Uit hun succes tot nu toe leiden ze af dat de kans om raak te schieten respectievelijk 20%, 25% en 35% bedraagt. Elk vuurt eenmaal naar het doel.

a Wat is de kans dat een van hen raak schiet ?

b In dat geval, wat is de kans dat het de slechtste schutter was ?

Urne A bevat 3 zwarte bolletjes en 1 witte, een andere urne B bevat 2 zwarte en 4 witte. We nemen willekeurig een bolletje uit urne A en werpen dit in urne B. We trekken daarna een bolletje uit B en dit blijkt zwart te zijn. Bereken de kans dat het witte bolletje werd verwisseld van vaas.

Op een tafel staan twee vazen. De ene vaas bevat 3 paarse en 5 oranje bollen, de andere vaas 2 paarse en 6 oranje bollen. Je kiest op aselecte wijze een vaas, trekt daaruit een bol en die blijkt paars te zijn. Hoe groot is de kans dat de volgende bol, die je uit dezelfde vaas trekt, ook paars is ?

Op een tafel staan drie vazen. Vaas A bevat 3 paarse en 2 oranje bollen, vaas B 3 paarse en 4 oranje bollen en vaas C 3 paarse en 3 oranje bollen. We trekken op aselecte wijze een bol uit vaas A én een bol uit vaas B en werpen die in vaas C. Nadien trekken we op aselecte wijze een bol uit vaas C en die blijkt paars te zijn.

Wat is de kans dat er zowel uit vaas A als vaas B een paarse bol getrokken was ?

Op een tafel staan drie vazen. Vaas A bevat één paarse en één oranje bol, vaas B bevat twee paarse bollen en vaas C twee oranje bollen. We trekken op aselecte wijze een bol uit vaas A en werpen die in vaas B. Nadien trekken we een bol uit vaas B en werpen die in vaas C. Ten slotte trekken we een bol uit vaas C en die blijkt paars te zijn. Hoe groot is de kans dat de eerste bol die getrokken is uit vaas A oranje was ?

S 22% 2% 3% 11% 5% 10% 4% 43% M U J

13 14 15 16 17 18 19

In drie identieke vazen bevinden zich blauwe en groene ballen. Vaas A bevat 24 blauwe en 16 groene ballen, vaas B bevat 32 blauwe en 48 groene ballen en in vaas C bevinden zich 5 blauwe en 15 groene ballen. Een onschuldige hand trekt uit een willekeurige vaas een willekeurige bal. De bal wordt naar een andere plaats gebracht en we stellen vast dat die bal blauw is. Wat is de kans dat die bal uit vaas A komt ?

Bij het verlaten van een feestzaal kun je je laten onderwerpen aan een alcoholtest zodat je kunt nagaan of je mag rijden of niet. De test is echter niet 100% betrouwbaar: ze reageert slechts positief bij 94% van de mensen die te veel gedronken hebben en ze reageert ook bij 8% van de mensen die niet te veel gedronken hebben. Als je weet dat tijdens de avond 40% van de aanwezigen te veel gedronken heeft, bereken dan de kans dat als de test negatief reageert die persoon toch te veel gedronken heeft.

Drie identieke kasten A, B en C hebben elk twee laden. In allebei de laden van A ligt een goudstuk, in allebei de laden van C ligt een zilverstuk. In de ene lade van B ligt een goudstuk en in de andere een zilverstuk. Je opent een lade van een kast en je vindt een goudstuk. Wat is de kans dat je te maken hebt met kast B ?

Op het instrumentenbord van een wagen gaat normaal een rood waarschuwingslampje branden wanneer de oliedruk te laag is. Bij een bepaald model gaat dit lampje, wanneer de oliedruk te laag is, slechts branden in 98% van de gevallen. Anderzijds gaat het in 1% van de gevallen echter ten onrechte (zonder de minste reden) branden. Bovendien is geweten dat er bij dit wagenmodel 4% kans is dat de oliedruk te laag is. Veronderstel dat je op weg bent met zo’n wagen en het waarschuwingslampje gaat branden. Wat is de kans dat de oliedruk werkelijk te laag is ?

Uw buur heeft een nogal verouderd en wispelturig alarmtoestel tegen inbraak. Wanneer er in zijn huis ingebroken wordt, is er 95% kans dat het alarm in werking treedt.

Tijdens de laatste 8 weken is het echter zevenmaal, telkens zonder reden, in werking getreden.

Uit politierapporten weet je dat de kans dat er op een dag in een huis in uw wijk ingebroken wordt, 0,0005 is.

Als het alarmtoestel van uw buur morgen in werking treedt, wat is de kans dat er werkelijk ingebroken wordt ?

In een fabriek worden uitlaten voor auto’s geproduceerd. De ervaring heeft geleerd dat er onder de uitlaten geproduceerd door één productielijn juist 3% niet voldoet aan de gestelde normen. Om die uitlaten te ontdekken wordt de volledige productie onderworpen aan een trekproef.

We weten dat bij die proef 1% uitlaten die aan de normen voldoen toch worden afgekeurd en 2% uitlaten die niet aan de normen voldoen toch worden goedgekeurd.

Een consument heeft een goedgekeurde uitlaat voor zijn wagen. Wat is de kans dat de aangekochte uitlaat niet aan de normen voldoet ?

1 53 Kansrekenen

20 21 22 23 24 25

In een magazijn bevinden zich 4 partijen (A, B, C, D) onderdelen waarvan er respectievelijk 5%, 5%, 8% en 10% defect zijn. De etiketten van de verpakkingen zijn echter verloren geraakt. We kiezen lukraak een van de partijen en nemen hieruit een staal van 10 onderdelen (te beschouwen als aselecte trekkingen met terugleggen, vanwege het grote aantal onderdelen). We stellen vast dat twee daarvan defect zijn. Wat is de kans dat het hier gaat om een partij met 5% defecte onderdelen ?

Vaas A bevat 9 balletjes genummerd van 1 tot en met 9. Vaas B bevat 5 balletjes genummerd van 1 tot en met 5. Er wordt lukraak een balletje getrokken. Bereken de kans dat het balletje uit vaas A komt als het getrokken cijfer even is.

15% van de bevolking van een bepaalde regio in Centraal-Afrika is besmet met het aidsvirus. Een willekeurige persoon uit de regio wordt onderworpen aan een hiv-test. Die test wordt gebruikt om bloed te testen op aanwezigheid van het hiv-virus. In feite detecteert de test antilichamen die worden aangemaakt wanneer het aidsvirus in het bloed aanwezig is. Wanneer er antilichamen in het bloed zitten, is de hiv-test positief met een kans van 0,995 en negatief met een kans van 0,005. Is de persoon niet besmet met het hiv-virus, dan geeft de test toch een positief resultaat in 1% van de gevallen en een negatief (dus correct) resultaat met een kans van 0,99. Hoe groot is de kans dat een persoon daadwerkelijk hiv-besmet is als de test positief uitvalt ?

Hieronder zie je een gedeeltelijk ingevulde kanstabel. De gebeurtenissen B en D zijn onafhankelijk, net als de gebeurtenissen C en E. Onderzoek of de gebeurtenissen A en D ook onafhankelijk zijn.

Voor een groep van 400 personen blijkt iedereen of bloedgroep AB of bloedgroep O te hebben. Van elk van die personen is de resusfactor (Rh+ of Rh–) gekend. Toon op twee manieren aan dat de gebeurtenissen ‘bloedgroep O’ en ‘resusfactor positief’ afhankelijk zijn.

Bij een bepaalde populatie is griep de meest voorkomende ziekte. De kans dat iemand uit die populatie griep heeft is 1%. Mensen met griep hebben 54,5% kans om koorts te hebben. Mensen zonder griep (maar met mogelijk een andere ziekte) hebben 4,5% kans om koorts te hebben. Beschouw een willekeurige persoon uit de populatie. De persoon heeft koorts. Wat is de kans dat de persoon griep heeft?

(A) 1%

(B) 10,9%

Oefenmodules ijkingstoets 2022-2023, faculteit ingenieurswetenschappen KU Leuven, oefening 3.22

(D) 54,5%

Ineenwoonzorgcentrumzijn40%vandebewonersmannelijken60%vrouwelijk.Erbreekteenbesmettingdoor eenvirusuit.Voordevrouwelijkebewonersisdekansopbesmetting

A B C totaal D E 0,3 totaal 0,4 0,5 1

AB O totaal Rh+ 30 310 340 Rh– 10 50 60 totaal 40 360 400

1 2 .

1 3

1 4

10% (B) 12% (C) 15% (D) 16% Toelatingsexamen arts 2021, vraag 4 26 27 28 29 30 31 32

envoordemannelijkebewoners

Alseenvrouwbesmetis,isdekansopoverlijden

.Alseenmanbesmetis,isdekansopoverlijden

Hoegrootisdekansdateenlukraakgekozenbewonervanhetcentrumoverlijdttengevolgevanditvirus? (A)

Geschiedenis van de kansrekening

Kansspelen bestaan al duizenden jaren. In de prehistorie werd er al gespeeld en gegokt met een sprongbeen, een voorloper van onze huidige dobbelsteen. In Ur, een stad in het oude Mesopotamië, is een bordspel teruggevonden met dobbelstenen in de vorm van een viervlak. Op Egyptische grafschilderingen uit 3500 voor Christus zijn er mensen te zien die met astralagi of hielbotjes dobbelden. Ook bij de Grieken was het dobbelen een bekend gokspel (de drie broers Zeus, Poseidon en Hades dobbelden zelfs om de heerschappij over het heelal : Zeus won de hemelen, Poseidon de zeeën en Hades, de verliezer, kreeg de onderwereld).

De eerste vraagstukken over telproblemen treffen we aan in India in de 12e eeuw bij Bhaskara II (1114–1185). Toch duurde het tot de 14e eeuw voordat wiskundigen zich echt met gokspelletjes zouden bezighouden. Een eerste belangrijke vraagstuk, het ‘partijenvraagstuk’, vinden we in een Italiaans geschrift van 1380, maar een oplossing kwam er niet. “Twee partijen spelen een balspel waarbij punten gescoord kunnen worden. Ze hebben allebei evenveel kans om een punt te scoren. Er is geen tijdsduur voor het spel vastgelegd en de partij die als eerste 6 punten gescoord heeft, wint de pot van 60 dukaten. Wegens slechte weersomstandigheden moet het spel bij de stand 5–3 gestaakt worden. Er wordt besloten om de pot te verdelen. De vraag is hoe dat moet gebeuren.” Twee Italianen onderzochten dit een eeuw later, maar ze kwamen tot een andere oplossing : wiskundige Luca Pacioli (1445–1517) en zijn collega Girolamo Cardano (1501–1576), die eigenlijk arts was van opleiding. Die laatste was de auteur van het boek over kansspelen Liber de ludo alaeae, en dat was de eerste praktische start voor de kansrekening.

Halfweg de 17e eeuw kreeg de Franse wiskundige Blaise Pascal (1623–1662) het bovenstaande partijenvraagstuk voorgelegd door de Franse edelman en verwoed gokker Chevalier de Méré. Die schotelde hem ook andere kansproblemen voor die hij zelf niet kon oplossen. Pascal stortte zich samen met Pierre de Fermat (1601–1665) op de vraagstukken en rond 1655 waren de meeste ervan opgelost. Noem de twee heren dus gerust de grondleggers van de kansrekening zoals we die tegenwoordig nog steeds beoefenen.

55 1 Kansrekenen

Girolamo Cardano

Onder invloed van de handel en de ontdekkingsreizen kwamen tussen de 15e en de 17e eeuw in Italië en in Holland de eerste verzekeringsmaatschappijen op. Er ontstond daarbij behoefte aan werken met kansen om de risico’s op uitbetaling te berekenen. De Nederlandse geleerde Christiaan Huygens (1629–1695) publiceerde in 1657 zijn boek over kansrekening Van rekeningh in Spelen van Geluck Verscheidene problemen over kansspelen werden in deze publicatie opgelost.

Ook de albekende Duitser

Gottfried Wilhelm Leibniz (1646–1716) deed zijn duit in het zakje met zijn boek De arte combinatoria van 1666; daar voerde hij de benaming variatie in. Raadspensionaris van Holland Johan de Witt (1625–1672) paste Huygens’ ideeën toe op het verzekeringswezen. In zijn Waerdije van Lijfrenten naar Proportie van Losrenten uit 1671 berekende hij de sterftekansen die gebruikt werden bij het afsluiten van levensverzekeringen.

De Engelse koopman John Graunt (1620–1674) maakte in 1662 voor het eerst schattingen van dergelijke sterftekansen. Dat was een hele prestatie, want systematisch bevolkingsgegevens bijhouden deden ze toen nog niet. Hij zorgde er ook voor dat de eerste firma’s die levensverzekeringen afsloten, gebruik konden maken van zijn statistieken. Zijn gegevens werden ook gebruikt om lijfrenten te berekenen. We kunnen dus stellen dat de eerste systematische behandeling van de kansrekening dateert uit het midden van de 17e eeuw.

John Graunt Christiaan Huygens

In de 18e eeuw werd de theoretische basis gelegd van deze ontluikende wetenschap door de Zwitserse wiskundige

Jakob Bernoulli (1654–1705) in zijn werk Ars conjectandi Daarin werd voor het eerst gewerkt met kansen tussen 0 en 1.

In dit werk is ook het boek van Huygens opgenomen en aangevuld met onder meer een grondige behandeling van de combinatieleer. Aan Bernoulli hebben we ook de benaming permutatie te danken. Ook de Britse wiskundige Abraham de Moivre (1667–1754) zette de studie van Huygens voort in zijn boek Doctrine of Chances, dat hij publiceerde in 1716.

De kansrekening werd een autonome wetenschap dankzij Gauss (1777–1855) en vooral dankzij Pierre-Simon Laplace (1749–1827) met zijn beroemde werk Théorie analytique des probabilités, dat in 1812 het signaal was voor een buitengewone ontwikkeling van de jonge wetenschap.

In dit boek wordt de kans ingevoerd via de formule die je ook op blz. 15 vindt.

In de 20e eeuw is tegen deze vorm van de definitie gereageerd door terug te grijpen naar het begrip relatieve frequentie, dat in feite ook al Pascal en Fermat had geïnspireerd.

Tegenwoordig wordt algemeen uitgegaan van een axiomatisch systeem dat we danken aan de Russische wiskundige Andrej Kolmogorov (1903–1987) met zijn werk Grundbegriffe der Warscheinlichkeitsrechnung (1933). Sindsdien werd het wiskundige instrument op punt gesteld ten dienste van andere wetenschappen en van de techniek. De bepaling van risico’s speelt tegenwoordig een belangrijke rol voor bedrijven, vooral voor financiële instellingen zoals banken en verzekeringsmaatschappijen.

57 1 Kansrekenen

Andrej Kolmogorov Jakob Bernoulli Karl Friedrich Gauss

Kansrekenen 1

58 WAT MOET JE KENNEN EN KUNNEN ?

pagina Ik weet wat een kansexperiment is en ik ken de betekenis van gebeurtenis, uitkomst en uitkomstenverzameling. 9 Ik ken de betekenis van de zekere gebeurtenis, de onmogelijke gebeurtenis, elementaire of enkelvoudige gebeurtenis en de afgeleide gebeurtenissen. 10 Ik ken de definitie van disjuncte gebeurtenissen. 11 Ik ken het verband tussen relatieve frequentie en empirische kans. 12 Ik ken de formule van Laplace en kan die toepassen. 15 Ik kan kansen berekenen met behulp van kruistabellen en boomdiagrammen. 35 Ik ken de betekenis van marginale kansen in een kruistabel. 35 Ik ken de definitie van voorwaardelijke kans. 38 Ik kan voorwaardelijke kansen berekenen met behulp van kruistabellen en boomdiagrammen. 40 Ik ken de productwet van de kansrekening en kan ze toepassen 43 Ik ken het verschil tussen afhankelijke en onafhankelijke gebeurtenis. 45

Beschrijvende statistiek 2

Wiskunde wordt aan de lopende band gebruikt in het dagelijkse leven. Na het plukken van de appelen in de boomgaard worden die verwerkt. Sommige worden ‘premium’ ingepakt per 6, andere worden in bulk aangeboden en de vruchten die te veel afwijken van het ideale proﬁel verdwijnen in appelsap. Zullen we aan de hand van gezonde Belgische appelen onze tanden zetten in de basisbegrippen van de statistiek ?

2.1 Instap 61 2.2 Begrippen uit de beschrijvende statistiek 1 Voorbeeld 62 2 Histogram en ogief 63 3 Uitwerking met GeoGebra 66 4 Centrummaten 67 5 Spreidingsmaten 70 2.3 Representativiteit 1 Inleiding 71 2 Aselect met randomgetallen 72 3 Gestratiﬁceerd aselect 72 4 Getrapt aselect 72 5 Systematisch met aselect begin 73 6 Steekproeffouten 73 7 Uitschieters 73 2.4 Randomisatie 75 2.5 Verschil tussen samenhang en causaliteit 1 Samenhang of causaliteit 76 2 Een derde variabele 77 2.6 Variabiliteit 1 Voorbeeld 78 2 Steekproef versus populatie 80 2.7 Paradox van Simpson 81 2.8 Samenvatting en oefeningen 1 Samenvatting 82 2 Oefeningen 84 Geschiedenis van de statistiek 92 Wat moet je kennen en kunnen ? 96 2

Beschrijvende statistiek

2.1 Instap

Een frisdrankfabrikant wil zijn machinepark renoveren en doet daarom een test met twee types vulmachines.

Hij laat beide types 40 flessen frisdrank van 1 liter vullen en meet nadien de inhoud van elke fles tot op één milliliter nauwkeurig. De resultaten vind je in de onderstaande grafieken.

Welk type vulmachine is het best ?

– Bij vulmachine A zijn er slechts 6 flessen die 1 liter frisdrank bevatten.

– Bij vulmachine B bevat meer dan de helft van de flessen de gevraagde liter frisdrank.

De fabrikant zou nu van beide reeksen van 40 flessen de gemiddelde inhoud kunnen berekenen.

Voor vulmachine A is dat 993 ml, voor vulmachine B juist 1000 ml of 1 liter. Een gemiddelde berekenen is een manier om een reeks waarnemingen in één getal samen te vatten. We noemen het gemiddelde dan ook een centrummaat omdat ze centraal gelegen is. Ken je nog andere centrummaten ?

Wanneer we de reeksen iets nauwkeuriger bekijken, zien we dat het verschil tussen de hoogste waarde en de laagste waarde bij vulmachine B veel groter is dan bij vulmachine A. Het verschil tussen de hoogste en de laagste waarde noemen we de variatiebreedte. De variatiebreedte is een van de spreidingsmaten die je in de tweede graad al hebt geleerd. Ken je nog andere ?

De laagste waarde bij vulmachine B is wel zeer laag, namelijk 955 ml. Een extreem lage waarde noemen we een uitbijter, een extreem hoge waarde noemen we een uitschieter

De vraag die we ons moeten stellen, is: moeten we rekening houden met die extreme waarden of niet ?

Die waarden beïnvloeden immers het gemiddelde en de variatiebreedte.

De lage waarde zou het resultaat kunnen zijn van een verkeerde meting of van het verkeerd noteren van het waarnemingsresultaat. In een dergelijk geval moet je de uitbijter inderdaad verwijderen. Anderzijds kan die waarneming ook juist zijn en kan die kleine vulinhoud te wijten zijn aan het slecht functioneren van de vulmachine wegens bijvoorbeeld een plaatselijke verstopping. In dat geval moet de waarde opgenomen worden in de statistische verwerking.

Kortom, uitbijters en uitschieters mag je niet zomaar verwijderen uit een reeks waarnemingen zonder verder onderzoek naar het waarom van die extreme waarde.

Ozon

Toen het gat in de ozonlaag boven de Zuidpool rond 1985 werd ontdekt, bleek dat dit fenomeen al 10 jaar lang trouw opgemeten werd, maar dat die lage ozonconcentraties stelselmatig als foutieve metingen door een statistisch computerprogramma werden verwijderd.

61 2 Beschrijvende statistiek

vulmachine A 1020 1010 1000 990 980 970 960 0 vulmachine B 1020 1010 1000 990 980 970 960 0

2.2 Begrippen uit de beschrijvende statistiek

1 Voorbeeld

Om zijn appels te kunnen indelen in groot (zwaar) en klein (licht) besluit een fruitboer om de pluk van vandaag van een van zijn bomen te wegen. Er worden 72 appels gewogen, de resultaten (in gram) zijn de volgende :

enkelvoudige aselecte steekproef

Al de appels van één appelboom vormen samen de populatie appels van die boom. Al de appels van alle appelbomen uit de boomgaard samen vormen de populatie appels van de fruitteler. De 72 gewogen appels vormen één steekproef uit die populatie. Omdat we mogen veronderstellen dat de fruitteler totaal willekeurig een appelboom uit de boomgaard heeft gekozen en de gewogen appels totaal willekeurig zijn geplukt, spreken we van een enkelvoudige aselecte steekproef. De 72 metingen van de massa van een appel noteren we als x1, x2, x3, …, x72 en noemen we de waarnemingen. Samen vormen ze de data van de steekproef.

Studietip :

Het is nuttig om de voornaamste begrippen van de statistiek te herhalen.

Een enkelvoudige aselecte steekproef met grootte n is een steekproef van n eenheden uit de populatie die zo gekozen is dat elke andere steekproef van n eenheden uit die populatie evenveel kans heeft om gekozen te worden. We gebruiken voor ‘enkelvoudige aselecte steekproef’ de afkorting EAS.

Je vindt ze terug in VBTL 3/4 STATISTIEK

316 294 278 219 281 269 344 282 266 254 205 221 312 293 355 298 325 251 303 232 264 325 321 221 242 268 252 273 352 273 288 332 302 222 245 295 241 304 316 328 285 276 282 202 244 272 248 242 314 336 220 291 251 231 199 317 179 279 234 302 298 238 248 237 237 249 280 132 252 242 259 278

2 Histogram en ogief

Om de massa van de appels grafisch voor te stellen, verdelen we de gevonden waarnemingen in klassen. De lichtste appel weegt 132 gram, de zwaarste 355 gram. Als klassenbreedte nemen we 20 gram en als beginklasse [ 120, 140[ . De grenzen van de intervallen noemen we klassengrenzen

Opmerkingen:

– Bij een groot aantal waarnemingen of als precieze gegevens van minder belang zijn, kun je gegevens in klassen indelen. Dat laat je toe waarnemingen te groeperen en geeft ook een beter overzicht.

De klassenbreedte is de afstand tussen de twee grenzen van een klasse. In veel gevallen is de klassenbreedte van alle klassen gelijk, maar dat hoeft niet altijd zo te zijn.

– De beginklasse is de eerste klasse waarbij de frequentie niet nul is.

Frequenties van waarnemingen kun je absoluut of relatief noteren :

• De absolute frequentie is het aantal keer dat een bepaalde waarneming voorkomt.

• De relatieve frequentie is de verhouding van de absolute frequentie tot het totale aantal ( n )

Soms wordt de relatieve frequentie in percentages uitgedrukt.

– Met een frequentietabel geef je een overzicht van de absolute en/of relatieve frequenties.

Om onderscheid te kunnen maken, krijgen de klassen een volgnummer of index i .

63 2 Beschrijvende statistiek

index i klasse klassenmidden absolute frequentie n i relatieve frequentie f i = n i n 1 [ 120, 140[ 130 1 1,4% 2 [ 140, 160[ 150 0 0,0% 3 [ 160, 180[ 170 1 1,4% 4 [ 180, 200[ 190 1 1,4% 5 [ 200, 220[ 210 3 4,2% 6 [ 220, 240[ 230 10 13,9% 7 [ 240, 260[ 250 15 20,8% 8 [ 260, 280[ 270 11 15,3% 9 [ 280, 300[ 290 12 16,7% 10 [ 300, 320[ 310 9 12,5% 11 [ 320, 340[ 330 6 8,3% 12 [ 340, 360[ 350 3 4,2% n = 72

–

a Histogram

Grafisch kun je waarnemingen voorstellen door middel van een histogram. Je start met een klassenindeling op de x -as waarbij elk interval de basis (= de breedte) vormt van een rechthoek. De hoogte (= de lengte) van de rechthoek is zodanig dat de oppervlakte van de rechthoek evenredig is met het aantal waarnemingen in de klasse waarop die rechthoek staat. Zijn alle klassen even breed, dan kun je als hoogte de absolute of relatieve frequentie nemen.

Voorbeeld :

16 14 12 10 8 6 4 2 0 130 150 170 190 210 230 250 270 290 310 330 350 Een andere beginklasse of een andere klassenbreedte leidt tot een ander histogram.

klassenbreedte

25 gram, beginklasse [ 125, 150[ klasse klassenmidden absolute frequentie [ 125, 150[ 137,5 1 [ 150, 175[ 162,5 0 [ 175, 200[ 187,5 2 [ 200, 225[ 212,5 7 [ 225, 250[ 237,5 15 [ 250, 275[ 262,5 13 [ 275, 300[ 287,5 16 [ 300, 325[ 312,5 10 [ 325, 350[ 337,5 6 [ 350, 375[ 362,5 2 18 16 14 12 10 8 6 4 2 0 112,5 137,5 162,5 187,5 212,5 237,5 262,5 287,5 312,5 337,5 362,5 387,5

b Frequentiekromme of frequentiepolygoon

Verbinden we de opeenvolgende middens van de bovenzijden van de rechthoeken van het histogram door middel van lijnstukken, dan ontstaat de frequentiepolygoon

We hebben de gewoonte om aan beide zijden nog een klasse met frequentie 0 toe te voegen, zodat de polygoon begint en eindigt op de x -as. We kunnen ofwel een gebroken lijn, ofwel een vloeiende lijn tekenen. We spreken dan respectievelijk van een frequentiepolygoon of een frequentiekromme.

c Ogief of sompolygoon

Soms zijn we niet enkel geïnteresseerd in de mate waarin de waarnemingen in klassen verdeeld zijn, maar willen we ook weten hoe vaak een waarneming ‘groter dan …’ of ‘kleiner dan …’ een bepaalde waarde is.

Hoeveel appels wogen minder dan 200 gram ?

Welk percentage appels woog meer dan 300 gram ?

In dat geval zijn cumulatieve (absolute of relatieve) frequenties handiger.

De grafische voorstelling van cumulatieve frequenties gebeurt meestal met een ogief of sompolygoon. Om een ogief te tekenen, ga je als volgt te werk :

– Start met een klassenindeling op de x -as.

– Zet bij de rechtergrens van elke klasse de cumulatieve (absolute of relatieve) frequentie uit.

Verbind de opeenvolgende punten met lijnstukken.

Bij de linkergrens van de eerste klasse is de cumulatieve frequentie nul.

65 2 Beschrijvende statistiek

index i klasse klassenmidden absolute frequentie n i relatieve frequentie f i = n i n cumulatieve absolute frequentie cn i cumulatieve relatieve frequentie cf i = cn i n 1 [ 120, 140[ 130 1 1,4% 1 1,4% 2 [ 140, 160[ 150 0 0,0% 1 1,4% 3 [ 160, 180[ 170 1 1,4% 2 2,8% 4 [ 180, 200[ 190 1 1,4% 3 4,2% 5 [ 200, 220[ 210 3 4,2% 6 8,3% 6 [ 220, 240[ 230 10 13,9% 16 22,2% 7 [ 240, 260[ 250 15 20,8% 31 43,1% 8 [ 260, 280[ 270 11 15,3% 42 58,3% 9 [ 280, 300[ 290 12 16,7% 54 75,0% 10 [ 300, 320[ 310 9 12,5% 63 87,5% 11 [ 320, 340[ 330 6 8,3% 69 95,8% 12 [ 340, 360[ 350 3 4,2% 72 100%

–

16 14 12 10 8 6 4 2 0 110 130 150 170 190 210 230 250 270 290 310 330 350 370 80 70 60 50 40 30 20 10 0 110 130 150 170 190 210 230 250 270 290 310 330 350 0 1 1 2 3 6 16 31 42 54 63 69 72

3 Uitwerking met GeoGebra

We brengen de gegevens in het rekenblad van GeoGebra in. Nadien selecteren we de gegevens en klikken we op de werkbalk op het icoontje onderzoek één variabele. Vervolgens kiezen we voor analyseer en dan voor histogram

We krijgen dan het volgende te zien :

Vervolgens klikken we op het kleine icoontje voor opties en vinken we bepaal manueel de klassengrenzen aan. We kiezen dan als start 120 en als breedte 20.

Als je dan ook frequentietabel en frequentiepolygoon aanvinkt, dan krijg je dit scherm :

We krijgen dan volgend histogram :

Om het ogief te krijgen, wordt cumulatief aangevinkt.

Je merkt ook dat de cumulatieve absolute frequenties worden weergegeven in de frequentietabel.

4 Centrummaten

Statistische gegevens worden vaak samengevat in een paar karakteristieke getallen. Je kunt dan data met elkaar vergelijken als ze in dezelfde dimensie staan.

Met centrummaten probeer je het ‘midden’ van een verdeling aan te geven. Een centrummaat is een getal waarrond de waarnemingen zich situeren.

a Modus en mediaan

De modus (mo) van een serie waarnemingsgetallen is het getal met de grootste absolute frequentie.

De mediaan (me) is het middelste waarnemingsgetal nadat alle waarnemingsgetallen naar grootte zijn gerangschikt. Bij een even aantal waarnemingen neem je voor de mediaan het gemiddelde van de middelste. 50% van de waarnemingsgetallen is kleiner dan de mediaan, 50% is groter.

mediaan van de getallen die kleiner zijn dan de mediaan, is het eerste kwartiel

Een boxplot is een grafische voorstelling van die gegevens.

Merk op dat je bij de berekening van de kwartielen met ICT resultaten krijgt die soms licht afwijken van elkaar.

67 2 Beschrijvende statistiek

132 179 199 202 205 219 220 221 221 222 231 232 234 237 237 238 241 242 242 242 244 245 248 248 249 251 251 252 252 254 259 264 266 268 269 272 273 273 276 278 278 279 280 281 282 282 285 288 291 293 294 295 298 298 302 302 303 304 312 314 316 316 317 321 325 325 328 332 336 344 352 355 Mediaan : me = 272 + 273 2 = 272,5 De

25%

De mediaan van

getallen

kwartiel 25% van de waarnemingen

groter

kwartiel. 132 179 199 202 205 219 220 221 221 222 231 232 234 237 237 238 241 242 242 242 244 245 248 248 249 251 251 252 252 254 259 264 266 268 269 272 273 273 276 278 278 279 280 281 282 282 285 288 291 293 294 295 298 298 302 302 303 304 312 314 316 316 317 321 325 325 328 332 336 344 352 355 Eerste kwartiel : Q1 = 242 + 242 2 = 242 Derde kwartiel : Q3 = 298 + 302 2 = 300

van de waarnemingen is kleiner dan het eerste kwartiel.

die groter zijn dan de mediaan, is het derde

dan het derde

b Gemiddelde

Het gemiddelde is de som van alle waarnemingsgetallen, gedeeld door het totale aantal waarnemingen.

Tijdens de Gentse feesten verkopen twee markt- kramers elk 60 T-shirts. De ene verkoopt ze voor € 5 per stuk, bij de andere

betaal je € 10 voor 3 stuks. Op het einde van de dag hebben ze samen € 300 + € 200 = € 500. Gemiddeld verkopen ze De verdwenen 20 euro van onze redactieVBTL

Eigenschappen van het gemiddelde

Voorbeeld 2 :

Ze besluiten de volgende dag samen te werken en de T-shirts te verkopen tegen € 8 voor twee stuks. Aan het eind van de dag zijn alle 120 T-shirts verkocht en de opbrengst blijkt € 480 te zijn. Ze gaan op zoek naar de ontbrekende € 20 en beschuldigen elkaar van diefstal. De volgende dag staan ze weer elk apart aan hun kraam… Wat ging er fout?

Voorbeeld 1 :

Als de gemiddelde massa van een aantal pakjes koffie, gewogen in kg, gelijk is aan 0,254 kg, dan zal de gemiddelde massa van die pakjes koffie gewogen in gram, 254 gram zijn.

M.a.w. we hebben elke waarneming en dus ook het gemiddelde vermenigvuldigd met factor 1000.

De resultaten van een examen aardrijkskunde kunnen zowel op 100 als op 20 gequoteerd worden.

Uit deze tabel blijkt dat als je de waarnemingen deelt door 5, ook het gemiddelde gedeeld wordt door 5.

Als alle waarnemingen xi met een factor a worden vermenigvuldigd, dan wordt het gemiddelde met dezelfde factor vermenigvuldigd.

in symbolen: ax = a x

x n n = 1 n n i

x = x 1 + x 2 + ... +

= 1 x

Inhetvoorbeeldis x = 269,66...

Bewijs : ax = 1 n n i = 1 (ax i ) = 1 n (ax 1 + ax 2 + ... + ax n ) = a n ( x 1 + x 2 + ... + x n ) = a 1 n ( x 1 + x 2 + ... + x n ) = a x test aardrijkskunde resultaat op 100 resultaat op 20 97,5 19,5 Emma 95,0 19,0 Simon 90,0 18,0 Robbe 85,0 17,0 Sofie 72,5 14,5 Laura 67,5 13,5 Thomas 60,0 12,0 Tuur 52,5 10,5 Lise 77,5 15,5 gemiddelde : 5 : 5

Als bij alle waarnemingen xi een vaste waarde b wordt opgeteld, dan is het nieuwe gemiddelde gelijk aan het oude gemiddelde vermeerderd met de term b

in symbolen: x + b = x + b

Bewijs : x + b = 1 n n i = 1 ( x i + b )

= 1 n ( x 1 + b + x 2 + b + + x n + b )

= 1 n ( x 1 + x 2 + + x n )+ 1 n ( b + b + b + + b )

n termen

= x + 1 n nb = x + b

Voorbeeld :

Het gemiddelde maandloon in een firma bedraagt 2317 euro.

Omdat de firma het voorbije kwartaal een uitzonderlijke omzet heeft gerealiseerd, krijgt elke werknemer deze maand een bonus van 125 euro.

Bereken het gemiddelde maandloon voor deze maand.

x nieuw =(2317 + 125) euro = 2442euro

Opmerking :

De vorige twee eigenschappen kunnen we symbolisch samenvatten als: ax

Voorbeeld :

Een verzekeringsbureau is van plan de brandverzekeringspremies te verhogen. Elke premie wordt 2% duurder en wordt ook verhoogd met een vast bedrag van 1 euro. Als je weet dat de gemiddelde premie nu 412,5 euro bedraagt, hoeveel bedraagt dan de gemiddelde premie na de tariefverhoging ?

x nieuw =(1,02 · 412,5 + 1) euro = 421,75euro

De som van de afwijkingen van een reeks waarnemingen t.o.v. hun rekenkundig gemiddelde is nul.

in symbolen: n i = 1 ( x i x ) = 0

Bewijs : n i = 1 ( x i x ) = x 1 x + x 2 x + ... + x n x

= ( x 1 + x 2 + + x n ) ( x + x + + x )

n termen

= n x n x

= 0

Opmerking :

Het gemiddelde is het evenwichtspunt van de verdeling : positieve en negatieve afwijkingen t.o.v. het gemiddelde houden elkaar in evenwicht.

69 2 Beschrijvende statistiek

+ b = a · x

5 Spreidingsmaten

Een spreidingsmaat geeft aan of de waarnemingen dicht bij elkaar of juist ver uit elkaar liggen. Het is een maat voor het al dan niet ‘dichtbij of verder weg liggen’ van de waarnemingen t.o.v. de centrummaat.

Spreidingsbreedte (of variatiebreedte)

De spreidingsbreedte is het verschil tussen het grootste en het kleinste waarnemingsgetal.

In het voorbeeld met de appels is de spreidingsbreedte gelijk aan ( 355 – 132) g = 223 g.

(Inter)kwartielafstand

De kwartielafstand is het verschil tussen het derde en het eerste kwartiel.

In het voorbeeld is de kwartielafstand gelijk aan Q3 – Q1 = ( 300 – 242) g = 58 g.

Variantie en standaardafwijking

Om de spreiding van de waarnemingen t.o.v. het gemiddelde te berekenen, zijn er verschillende mogelijkheden. Je zou de gemiddelde som kunnen nemen van alle afwijkingen t.o.v. het gemiddelde, maar je weet dat dit nul is en dus niet bruikbaar.

1 n n i = 1 ( x i x ) = 0

Je zou de gemiddelde som kunnen nemen van de absolute waarden van de afwijkingen t.o.v. het gemiddelde zodat positieve en negatieve waarden elkaar niet langer kunnen neutraliseren. Het werken met een som van absolute waarden is wiskundig echter niet altijd zo eenvoudig bij theoretische berekeningen.

1 n n i = 1 | x i x |

Als alternatief wordt meestal de volgende vorm gebruikt: s 2 = 1 n 1 n i = 1 ( x i x )2

De variantie s 2 van een steekproef wordt gedefinieerd als de som van de kwadratische afwijkingen van de waarnemingen tot het gemiddelde, gedeeld door het aantal waarnemingen min één. We noemen de variantie ook wel de gemiddelde kwadratische afwijking

De standaardafwijking s of standaarddeviatie is de wortel uit de variantie, s = 1 n 1 n i = 1 ( x i x )2 .

In het voorbeeld met de appels is de standaardafwijking s = 42,41 g (berekend via ICT).

De standaardafwijking is de meest gebruikte karakteristiek voor spreiding en wordt meestal samen met het gemiddelde gebruikt om de kenmerkende eigenschappen van een verdeling van gegevens te beschrijven.

De standaardafwijking van een reeks waarnemingen geeft aan in hoeverre die van elkaar en van het gemiddelde verschillen. Hoe groter de standaardafwijking, hoe groter de afwijking van de waarnemingen t.o.v. het gemiddelde.

Opmerking :

Waarom delen door n – 1 en niet door n ? We illustreren dit met een voorbeeld.

Beschouw zes getallen waarvan het gemiddelde gelijk is aan 8.

Verder ken je vijf van de zes getallen, namelijk 2, 5, 6, 8 en 15.

Op basis van die gegevens en het feit dat de som van de afwijkingen van de zes getallen t.o.v. het gemiddelde steeds nul is, kun je het zesde getal bepalen.

( x 8)+(2 8)+(5 8)+(6 8)+(8 8)+(15 8)= 0

⇐⇒

Als het gemiddelde en vijf van de zes getallen gekend zijn, dan ligt het zesde getal onherroepelijk vast.

Algemeen kunnen we stellen dat als je van n getallen het gemiddelde en n –1 getallen kent, het laatste (het n -de) getal te bepalen is. M.a.w. zodra je n –1 getallen gekozen hebt, kun je het laatste getal niet meer kiezen.

Het getal n –1 noemen we het aantal vrijheidsgraden van de variantie of van de standaardafwijking.

Het belang van het aantal vrijheidsgraden komt tot uiting wanneer je bepaalde karakteristieken (parameters) van een verdeling wil gaan schatten. Maar dat valt buiten dit deel van de cursus …

x 8 6 3 2 + 0 + 7 = 0

x = 12

⇐⇒

2.3 Representativiteit

1 Inleiding

Als je soep maakt en je wilt weten of de smaak goed is, dan neem je er een soeplepel van en je proeft. Op basis van die ene schep trek je de conclusie of de soep te pikant of te flauw is. Je baseert je conclusie voor de hele kom soep (= populatie) op die ene soeplepel (= steekproef). Dat mag je doen op voorwaarde dat je eerst goed geroerd hebt en dat de rest van de soep dan heel waarschijnlijk net zo smaakt als die ene lepel.

Tijdens elke fase van een statistisch onderzoek kunnen moeilijkheden optreden. Omdat elke stap zijn invloed heeft op de volgende, moet je zeer omzichtig te werk gaan. Het belangrijkste probleem bij de organisatie van een steekproef is het waarborgen van de representativiteit. Gebeurt dat niet, dan zullen de verdere resultaten en conclusies van het onderzoek, hoe nauwgezet ook uitgevoerd, weinig betrouwbaar of zelfs misleidend zijn.

Een steekproef is representatief als ze een weerspiegeling is van de populatie, m.a.w. een steekproef is representatief als ze beschouwd kan worden als de ‘populatie in het klein’.

Hoe bekom je een representatieve steekproef ?

Het uitgangspunt voor het realiseren van een representatieve steekproef is dat elk element uit de populatie dezelfde kans moet hebben om in de steekproef opgenomen te worden.

Er bestaan verschillende methodes voor het genereren van een representatieve steekproef. We vermelden er hieronder enkele :

– aselect met randomgetallen – gestratificeerd aselect

– getrapt aselect

– systematisch met aselect begin

Opgelet : je hebt nooit een waterdichte, 100% zekere garantie dat de steekproef ook werkelijk representatief is voor de te onderzoeken variabele.

In tegenstelling tot representatieve steekproeven bestaan er ook niet-representatieve steekproeven. De meest gekende onder die laatste is de zogenaamde convenience sampling. Dat is een techniek van steekproeftrekking waarbij het gemak voor de onderzoeker een grote rol speelt. Voorbeelden hiervan zijn: straatenquêtes, enquêtes bij de receptie van een vakantieverblijf, enquêtes via internet …

71 2 Beschrijvende statistiek

2 Aselect met randomgetallen

Voorbeeld :

In een school met 600 leerlingen wil de directie de mening van de leerlingen kennen over een aantal aanpassingen in het schoolreglement. Ze besluit een steekproef van 40 leerlingen te nemen, die dan samen met de directie mee van gedachten mogen wisselen.

De 600 leerlingen van de school krijgen elk een nummer (van 1 tot 600) en uit die 600 nummers worden er willekeurig 40 uitgeloot. Op die manier krijgen we een gelote steekproef of een aselecte steekproef op basis van randomgetallen.

Algemeen :

Ken aan elk element uit de populatie een getal toe. Selecteer nu de steekproefelementen op basis van volkomen toevallige getallen (random numbers). Op die manier heeft elk element van de populatie evenveel kans om geselecteerd te worden.

Opmerking :

Bij die methode is het mogelijk dat alle leerlingen uit één bepaalde graad komen of dat één bepaalde graad oververtegenwoordigd is.

3 Gestratiﬁceerd aselect

Voorbeeld :

In de school uit het vorige voorbeeld zitten 270 leerlingen in de eerste graad, 150 leerlingen in de tweede graad en 180 leerlingen in de derde graad. De directeur stelt voor om via een gelote steekproef 18 leerlingen te kiezen uit de eerste graad, via een andere gelote steekproef 10 leerlingen uit de tweede graad en via een derde gelote steekproef 12 leerlingen uit de derde graad. Op die manier is elke graad vertegenwoordigd in dezelfde verhouding als de hele schoolpopulatie.

Algemeen :

Deel de populatie op in een aantal homogene deelgroepen of subpopulaties. Uit elke deelgroep wordt dan een aselecte steekproef genomen met steekproefgroottes in dezelfde verhouding als de onderlinge verhouding van de grootte van de subpopulaties. Op die manier krijg je een gestratificeerde aselecte steekproef. Een voordeel van stratificeren is dat de steekproef nauwkeuriger is.

4 Getrapt aselect

Voorbeeld :

Om organisatorische redenen en om het lesgebeuren niet te veel te storen, besluit de directie om per graad twee klassen te selecteren. Uit die klassen worden dan respectievelijk de 18 leerlingen van de eerste graad, de 10 leerlingen van de tweede graad en de 12 leerlingen van de derde graad gekozen.

Algemeen :

Net zoals bij de gestratificeerde steekproef delen we de populatie op in een aantal homogene deelgroepen of subpopulaties. Uit elke deelgroep worden dan lukraak enkele kleinere deelpopulaties gekozen waaruit een aselecte steekproef genomen wordt met steekproefgroottes in dezelfde verhouding als de onderlinge verhouding van de grootte van de subpopulaties. Dit noemen we getrapt aselect

5 Systematisch met aselect begin

Voorbeeld :

Omdat de directeur uit de school niet houdt van al het tijdverlies dat gepaard gaat met het trekken van steekproeven, besluit hij de volgende eenvoudige methode te hanteren. Hij maakt via de computer een lijst van alle 600 leerlingen gesorteerd (en genummerd) volgens leeftijd. Nu kiest hij ergens een willekeurig nummer, bijvoorbeeld 257. De leerlingen die nu in aanmerking komen om geraadpleegd te worden, zijn de nummers:

Algemeen :

Genereer één random getal. De andere steekproefelementen volgen hieruit door met vaste stapgrootte door de hele populatie te lopen.

6 Steekproeffouten

Bij het uitvoeren van een steekproefonderzoek kunnen een aantal fouten optreden. Die fouten kunnen verschillende oorzaken hebben en opgesplitst worden in twee soorten : de steekproeffout en de niet-steekproeffout.

Steekproeffouten

Steekproeffouten treden op doordat je niet de hele populatie maar slechts een deel ervan bekijkt.

De grootte van de fout is afhankelijk van de grootte van de steekproef en van het homogene karakter van de populatie. Hoe homogener de populatie en hoe groter de steekproef, hoe kleiner de steekproeffout.

De inductieve statistiek houdt via de variabiliteit rekening met dit soort fouten.

Niet-steekproeffouten

Niet-steekproeffouten splitsen op hun beurt op in non-responsfouten en responsfouten.

Non-responsfouten ontstaan doordat mensen niet willen meewerken aan enquêtes.

Voorbeelden van responsfouten zijn: – codeerfouten : dat zijn fouten in de gegevensverwerking zoals tikfouten (dit zijn dus fouten gemaakt door de onderzoeker);

– interviewfouten : die ontstaan wanneer er een slechte communicatie is tussen de interviewer en de geïnterviewde. De een begrijpt de vraag slecht of de ander interpreteert het antwoord verkeerd ; – respondentfouten : die ontstaan wanneer de geïnterviewde foutieve of onware antwoorden geeft.

7 Uitschieters

Thomas wil de elasticiteit van een botsballetje onderzoeken en besluit om een botsballetje 70 keer van op een meter hoogte te laten vallen. Hierbij meet hij op een centimeter nauwkeurig tot op welke hoogte het balletje telkens terugbotst.

Zijn metingen vind je in volgende tabel :

73 2 Beschrijvende statistiek

… 182 197 212 227 242 257 272 287 302 317 332 …

78 82 82 79 79 85 82 83 80 83 79 76 83 76 57 80 76 79 81 82 80 78 80 80 74 53 83 86 79 85 82 78 81 74 80 78 78 72 80 83 82 81 87 77 78 87 81 80 86 84 84 84 76 80 73 60 80 78 78 73 84 71 81 80 81 79 79 82 74 83

Wanneer hij die waarden uitzet in een histogram, vindt hij volgend resultaat :

Op de drie waarnemingen uiterst links na, vindt hij een min of meer symmetrisch interval rond de waarde 80. Die drie waarnemingen die blijkbaar sterk afwijken van de rest noemen we uitschieters. Omdat het uitschieters zijn naar beneden toe, worden ze ook wel uitbijters genoemd.

We bekijken de gegevens nogmaals in een ander diagram waarbij de gegevens chronologisch zijn voorgesteld :

Bij de berekening van het gemiddelde vindt Thomas de waarde 78,99 cm en een standaardafwijking van 5,9 cm.

Laat hij echter de drie uitbijters achterwege in zijn berekeningen, dan vindt hij een gemiddelde waarde van 79,99 cm en een kleinere standaardafwijking van 3,6 cm.

Hij vraagt zich af wat hij moet doen. Mag hij die drie uitschieters zomaar verwijderen uit zijn reeks gegevens of niet ?

Uitschieters en uitbijters mogen nooit zomaar uit een reeks waarnemingen worden verwijderd. Alleen wanneer je met zekerheid weet dat ze te wijten zijn aan codeerfouten (bv. tikfouten) of aan meetfouten mag je ze uit de dataset verwijderen.

Bij een grondige controle van zijn experiment merkt Thomas dat de ondergrond waarop hij het balletje liet botsen op een bepaalde plaats een oneffenheid vertoont. Doordat de botsbal op die plaats terechtkwam, was de weerbots opvallend minder. Hij besluit dan ook dat die waarnemingen te wijten zijn aan een meetfout en hij verwijdert ze uit zijn dataset.

Taak : we merken op dat de uitschieters invloed hebben op het gemiddelde en de standaardafwijking.

Ga na wat de invloed is van de uitschieters bij de mediaan.

12 10 8 6 4 2 0 52 55 58 61 64 67 70 73 76 79 82 85 88 100 90 80 70 60 50 40 30 20 10 0 0 10 20 30 40 50 60 70

2.4 Randomisatie

Voorbeeld:

Een farmaceutisch bedrijf wil een nieuw medicijn testen en doet daarvoor een beroep op een groep proefpersonen : mannen en vrouwen tussen de 20 en 60 jaar. De proefpersonen zullen opgedeeld worden in twee groepen. De ene groep (groep A) krijgt het nieuw te testen medicijn toegediend, de andere groep (groep B) gewoon een placebo. De techniek waarin proefpersonen op basis van toeval worden ingedeeld in verschillende groepen, noemen we randomisatie.

Situatie 1: simpele randomisatie

Deze situatie komt overeen met het opgooien van een muntstuk. In praktijk genereert de computer willekeurig een getal tussen 0 en 10. Bij 5 of lager wordt de proefpersoon ingedeeld in groep A, bij een getal hoger dan 5 bij groep B.

Bij dit systeem van randomiseren kan het gebeuren dat de ene groep opvallend groter is dan de andere, daar waar we liever twee even grote groepen nastreven.

Situatie 2 : blokrandomisatie

Om het nadeel van ongelijke groepen te vermijden, kun je randomiseren in blokken. Een blok bestaat uit een zekere grootte, bijvoorbeeld 10 personen. In elk blok komen evenveel A’tjes als B’tjes voor. De proefpersonen krijgen al naargelang ze zich aanmelden de op voorhand vastgelegde groep toebedeeld.

Voorbeeld:

eerste 10 proefpersonen

volgende 10 proefpersonen

randomisatie

ABAABBBABA

BAAABBBAAB

BABAABBABA

AAABBAABBB

Situatie 3 : gestratificeerde blokrandomisatie

Nu kan het nog steeds gebeuren dat in beide groepen mannen en vrouwen en/of de verschillende leeftijdsgroepen niet evenredig verdeeld zijn. Dit lossen we op door op voorhand verschillende lijstjes te maken. Al naargelang de personen zich aanmelden en al naargelang de doelgroep waartoe zij behoren, worden ze in de aangewezen proefgroep ingedeeld.

Voorbeeld:

proefpersoon

lijst 1 man, 20-30 jaar

lijst 2 man, 31-40 jaar

lijst 3 man, 41-50 jaar

lijst 4 man, 51-60 jaar

lijst 5 vrouw, 20-30 jaar

lijst 6 vrouw, 31-40 jaar

lijst 7 vrouw, 41-50 jaar

lijst 8 vrouw, 51-60 jaar

randomisatie

AABABBBAAB

BAABBBAAAB

AABBAABBBA

BABABBBAAA

BBABBAAAAB

AAABAABBBB

BAABBAABBA

ABBABAABBA

75 2 Beschrijvende statistiek

2.5 Verschil tussen samenhang en causaliteit

1 Samenhang of causaliteit

Inleidende voorbeelden : – Miel wil als voetballer goed presteren. Daarom gaat hij alle dagen een aantal kilometer lopen.

De voetbalploeg van Miel werd op het einde van het seizoen dan ook kampioen.

– Mats verzorgt dit jaar groenten in een serre. Hij is zijn planten een aantal dagen vergeten water te geven en dit bij hoge temperaturen. Zijn planten zijn allemaal verdord.

Bij het voorbeeld van Miel is er een samenhang (of correlatie of verband) tussen de opgedreven trainingen van Miel en het kampioen spelen, maar dit is niet de oorzaak van het feit dat zijn ploeg kampioen speelt. Kampioen spelen hangt immers niet alleen van Miel af.

In het voorbeeld van Mats is het gedrag van Mats rechtstreeks de oorzaak van wat er met de planten gebeurt. Hier spreken we van een causaal verband (of causaliteit).

causaliteit

Causaliteit is een principe binnen de statistiek waarbij binnen twee variabelen een rechtstreeks verband is. Een verandering van de ene variabele veroorzaakt een verandering van de andere.

Nog enkele voorbeelden:

–

Er is een verband tussen gewelddadige videospelletjes en het agressief gedrag van bepaalde jongeren, maar er is geen oorzakelijk of causaal verband.

– Er is een causaal verband tussen het te snel rijden en het aantal ongevallen.

– Er is geen causaal verband tussen het aantal ooievaars en het aantal geboorten van baby’s.

2 Een derde variabele

Voorbeeld 1:

Als je een aansteker op zak hebt (variabele X), dan is de kans op longkanker groter (variabele Y).

Soms lijkt het dat er een causaal verband is omdat er een derde variabele (of confounding variabele) is die beide variabelen beïnvloedt.

Het feit dat je een aansteker op zak hebt, is geen directe oorzaak van longkanker. De derde variabele is hier het feit dat je rookt (variabele Z). Dat roken impliceert dat je een aansteker op zak hebt en het beïnvloedt ook je kans op longkanker.

Voorbeeld 2 :

Als er aan onze Belgische kust meer ijsjes verkocht worden (variabele X), dan stijgt het aantal verdrinkingen in zee (variabele Y).

Er is mogelijk geen directe samenhang tussen X en Y. Er is wel een derde variabele die invloed heeft op zowel de afhankelijke variabele Y als de onafhankelijke variabele X. Die derde variabele is de temperatuur (variabele Z). Als de temperatuur stijgt, dan zullen er meer ijsjes verkocht worden. Als de temperatuur stijgt, dan zullen er meer mensen gaan zwemmen.

2 Beschrijvende statistiek

2.6 Variabiliteit

1 Voorbeeld

Sofie moet als onderzoeksopdracht voor het vak wetenschappen de kwaliteit van het water van de plaatselijke Molenvijver nagaan. Zij neemt gedurende tien weken elke dag een staal water en berekent de hoeveelheid chloor (uitgedrukt in mg/liter) die er in het water aanwezig is.

Hieronder vind je de resultaten.

Dankzij de cursus beschrijvende statistiek kan zij die gegevens verwerken en via ICT berekent zij de volgende karakteristieken :

• De kleinste waarde of het minimum : 93,36 mg/liter

mg/liter

• De gemiddelde waarde: 121,61 mg/liter

• De standaardafwijking: 12,29 mg/liter

Omdat zij die gegevens ook grafisch wil voorstellen d.m.v. een histogram, stelt zij een frequentietabel op.

Als klassenbreedte neemt zij 3 mg/liter en als eerste klasse kiest zij [ 93, 96[ . klasse klassen-

138,52 134,75 125,07 93,36 118,47 128,67 110,08 133,97 111,14 124,85 120,84 128,22 102,86 113,43 118,15 141,26 124,33 115,14 107,01 123,30 123,76 130,94 112,47 113,10 115,84 116,31 152,54 119,80 95,75 135,27 123,80 99,78 143,12 113,71 139,71 115,23 123,49 117,67 102,90 127,03 113,78 124,81 118,05 122,42 105,22 149,61 137,13 123,55 133,31 122,92 129,35 110,38 139,81 120,13 125,21 122,76 130,88 102,88 119,57 120,73 114,38 102,36 120,38 125,10 121,40 122,13 144,32 120,06 107,77 126,94

• De grootste waarde of het maximum : 152,54

midden absolute frequentie [ 93, 96[ 94,5 2 [ 96, 99[ 97,5 0 [ 99, 102[ 100,5 1 [ 102, 105[ 103,5 4 [ 105, 108[ 106,5 3 [ 108, 111[ 109,5 2 [ 111, 114[ 112,5 6 [ 114, 117[ 115,5 5 [ 117, 120[ 118,5 6 [ 120, 123[ 121,5 10 [ 123, 126[ 124,5 11 [ 126, 129[ 127,5 4 [ 129, 132[ 130,5 3 [ 132, 135[ 133,5 3 [ 135, 138[ 136,5 2 [ 138, 141[ 139,5 3 [ 141, 144[ 142,5 2 [ 144, 147[ 145,5 1 [ 147, 150[ 148,5 1 [ 150, 153[ 151,5 1 12 10 8 6 4 2 0 94,5 97,5 100,5 103,5 106,5 109,5 112,5 115,5 118,5 121,5 124,5 127,5 130,5 133,5 136,5 139,5 142,5 145,5 148,5 151,5

Hamza en Otis hebben als onderzoeksopdracht voor wetenschappen dezelfde opdracht gekozen als Sofie. Ook zij namen gedurende dezelfde tien weken elke dag een staal water uit de Molenvijver (weliswaar niet op exact dezelfde plaats als Sofie en/of niet op hetzelfde tijdstip van de dag).

De vraag die zich bij het bekijken van de drie onderzoeksopdrachten onmiddellijk stelt, is : wie heeft het beste gewerkt ?

Antwoord : ze hebben alle drie even goed gewerkt !

Sofie, Hamza en Otis hebben elk een steekproef genomen van het water van de Molenvijver. Welnu, steekproeven uit eenzelfde populatie leveren verschillende resultaten op. Dit fenomeen noemen we steekproefvariabiliteit. Variabiliteit heeft als gevolg dat je uit een steekproefresultaat nooit met 100% zekerheid besluiten kunt trekken over de hele populatie.

79 2 Beschrijvende statistiek

119,78 103,45 103,35 122,06 107,33 147,54 106,02 123,58 111,31 124,19 110,55 102,01 121,40 118,05 130,32 121,11 125,01 114,63 119,51 112,79 117,70 100,77 125,81 128,72 123,48 130,72 118,81 132,31 104,64 120,24 116,38 131,05 117,26 116,21 117,14 115,76 116,20 107,73 122,11 107,85 111,29 137,24 121,62 126,30 106,38 118,38 131,90 124,34 122,77 114,91 120,07 127,25 123,85 120,94 122,61 127,57 93,15 134,11 127,69 130,54 117,56 103,39 111,05 108,54 122,47 127,18 112,10 132,46 97,03 134,75 Met : minimum = 93,15 mg/liter maximum = 147,54 mg/liter gemiddelde = 118,92 mg/liter standaardafwijking = 10,33 mg/liter 12 10 8 6 4 2 0 94,5 97,5 100,5 103,5 106,5 109,5 112,5 115,5 118,5 121,5 124,5 127,5 130,5 133,5 136,5 139,5 142,5 145,5 148,5 En hieronder vind je de meetresultaten van Otis : 113,54 111,96 114,91 125,69 141,81 117,59 112,33 110,25 123,92 111,84 110,51 135,50 123,93 107,94 124,34 123,14 105,76 129,36 127,49 99,13 100,87 131,87 146,46 117,80 128,50 103,79 110,46 107,68 98,09 130,62 120,08 132,72 140,75 120,82 104,67 101,43 133,83 109,06 139,33 105,14 115,90 121,60 116,82 133,23 118,81 118,66 111,07 118,60 114,61 101,28 115,33 114,28 119,86 135,21 139,21 130,43 140,31 118,55 100,31 125,10 131,33 113,12 114,48 129,26 122,23 122,27 111,49 106,05 140,32 124,56 Met : minimum = 98,09 mg/liter maximum = 146,46 mg/liter gemiddelde = 119,70 mg/liter standaardafwijking = 11,98 mg/liter 8 7 6 5 4 3 2 1 0 97,5 100,5 103,5 106,5 109,5 112,5 115,5 118,5 121,5 124,5 127,5 130,5 133,5 136,5 139,5 142,5 145,5

De resultaten van Hamza zijn :

2 Steekproef versus populatie

Karakteristieken die we berekenen op basis van een steekproef noemen we (toevals)variabelen. Die getallen zijn niet absoluut want een andere steekproef kan andere waarden voor die variabelen opleveren.

Indien we karakteristieken van de volledige populatie berekenen, spreken we van parameters. Parameters zijn constanten die iets zeggen over de hele populatie.

Voorbeeld :

Cijfers van een of andere rijksdienst of van de Algemene Directie Statistiek zijn vaak parameters : het percentage werklozen in Vlaanderen, de verdeling van de schoolgaande jeugd over de verschillende richtingen in het secundair onderwijs, het aantal wagens in België … Cijfers afkomstig van een enquête zijn altijd toevalsvariabelen.

Afspraken:

Voor karakteristieken gebaseerd op steekproefresultaten gebruiken we kleine letters :

x ishet gemiddelde vaneensteekproef

s 2 isde variantie vaneensteekproef

s isde standaardafwijking opbasisvaneensteekproef

steekproefgemiddelde en steekproefvariantie

Voor de karakteristieken van een populatie gebruiken we Griekse letters :

m is het populatiegemiddelde

s is de standaardafwijking op basis van de hele populatie

populatiegemiddelde en populatievariantie

n n i = 1 x i voorgegroepeerdegegevens: x = 1 n k i = 1 n i x i n = k i = 1 n i isdegroottevandesteekproef

1 n 1 n i = 1 ( x i x )2 voorgegroepeerdegegevens: s 2 = 1 n 1 k i = 1 n i ( x i x )2

gemiddelde: x = 1

variantie: s 2 =

µ = 1 N N i = 1 x i σ 2 = 1 N N i = 1 x i µ 2 met N :groottepopulatie

2.7 Paradox van Simpson

Iedereen kent de uitspraak ‘met cijfers en statistiek kun je alles bewijzen’. Een leuk voorbeeld hiervan is de paradox van Simpson die aantoont dat je soms een ander resultaat krijgt als je (dezelfde) cijfers anders voorstelt.

Voorbeeld :

Een producent van frisdranken wil een nieuwe smaak op de markt brengen. Bij de productie van de nieuwe smaak ontwikkelen ze twee varianten: A en B. De marketing manager wil nagaan welke smaak de consumenten verkiezen.

Hij liet 300 proefpersonen smaak A drinken en vroeg hen of ze het product lekker vonden en/of ze het product eventueel zouden kopen. Hetzelfde deed hij bij 750 proefpersonen voor smaak B.

De resultaten staan in volgende tabel :

Omgezet in percentages :

de marketing manager dat smaak B te prefereren is boven smaak A.

De productiemanager is hiermee echter niet akkoord. Ook hij heeft ditzelfde onderzoek geanalyseerd en heeft een onderscheid gemaakt tussen mannen en vrouwen. Hij komt tot volgende tabel :

Omgezet in percentages :

81 2 Beschrijvende statistiek

smaak A smaak B aantal proefpersonen 300 750 vind het lekker zou het kopen 207 520 zou het niet kopen 93 230

smaak A smaak B vind het lekker zou het kopen 69,0% 69,3% zou het niet kopen 31,0% 30,7%

onderzoek besluit

Uit dit

man vrouw smaak A smaak B smaak A smaak B aantal proefpersonen 220 220 80 530 vind het lekker zou het kopen 150 145 57 375 zou het niet kopen 70 75 23 155

man vrouw smaak A smaak B smaak A smaak B vind het lekker zou het kopen 68,2% 65,9% 71,3% 70,8% zou het niet kopen 31,8% 34,1% 28,8% 29,2% Uit

die cijfers blijkt duidelijk dat zowel mannen als vrouwen smaak A verkiezen boven smaak

2.8 Samenvatting en oefeningen

1 Samenvatting

• Je kent de volgende begrippen uit de beschrijvende statistiek: populatie, steekproef, waarnemingen, data, klassen, klassenbreedte, klassengrenzen, frequentietabel, uitschieter en uitbijter.

• Je kent het verschil tussen absolute frequentie en relatieve frequentie.

– De absolute frequentie is het aantal keer dat een bepaalde waarneming voorkomt.

– De relatieve frequentie is de verhouding van de absolute frequentie tot het totale aantal.

• Je kunt waarnemingen grafisch voorstellen d.m.v. een histogram.

• Je kunt een frequentiepolygoon of frequentiekromme construeren.

• Je kunt cumulatieve frequenties voorstellen in een ogief.

• Je kent de betekenis van de volgende centrummaten: mediaan, eerste kwartiel, derde kwartiel, gemiddelde.

• Je kunt een boxplot tekenen.

• Je kent de eigenschappen van het gemiddelde en je kunt die bewijzen.

– Als alle waarnemingen xi met een factor a worden vermenigvuldigd, verandert het gemiddelde met dezelfde factor. In symbolen: a x = a x

– Als bij alle waarnemingen xi een vaste waarde b wordt opgeteld, dan is het nieuwe gemiddelde gelijk aan het oude gemiddelde vermeerderd met de term b .

In symbolen: x + b = x + b

– De vorige twee eigenschappen kunnen we symbolisch samenvatten als ax + b = a · x + b

– De som van de afwijkingen van een reeks waarnemingen tot hun rekenkundig gemiddelde is nul.

In symbolen: n i = 1 ( x i x ) = 0

• Je kent de betekenis van de volgende spreidingsmaten: spreidingsbreedte of variatiebreedte, kwartielafstand, variantie, standaardafwijking of standaarddeviatie.

• Je weet dat een steekproef representatief is als ze een weerspiegeling is van de populatie.

• Je kent verschillende methodes voor het genereren van een representatieve steekproef.

• Je kent het belang van randomisatie en representativiteit bij steekproeven.

• Je kent het verschil tussen samenhang en causaliteit.

• Je kent het verschil tussen steekproeffouten en niet-steekproeffouten.

• Je weet dat steekproeven uit eenzelfde populatie verschillende resultaten kunnen opleveren (steekproefvariabiliteit).

• Je kent het verschil tussen variabelen en parameters.

– Variabelen zijn karakteristieken die we berekenen op basis van een steekproef. Die getallen zijn niet absoluut want een andere steekproef kan andere waarden voor die variabelen opleveren.

– Parameters zijn constanten die iets zeggen over de hele populatie.

• Je kent de volgende formules en kunt ze toepassen.

niet-gegroepeerdewaarnemingen: x = 1 n n i = 1 x i

83 2 Beschrijvende statistiek

i = 1

x i

s 2 = 1 n

(

x )

1 n k i = 1 n i x i

2 = 1 n 1 k i = 1 n i ( x i x )2 populatie: µ = 1 N N i = 1 x i σ 2 = 1 N N i = 1 x i µ 2 met N :groottepopulatie

gegroepeerdewaarnemingen: x =

2 Oefeningen

Deze oefeningen kunnen zowel met de grafische rekenmachine als met Excel of GeoGebra opgelost worden.

Bij een snelheidscontrole werd van 100 auto’s de snelheid opgetekend. Hieronder vind je de resultaten (in km/h).

a Verdeel in klassen en maak een frequentietabel.

b Teken het histogram en de enkelvoudige frequentiepolygoon.

c Teken het ogief.

d Bereken de mediaan en de kwartielen en teken de boxplot.

e Bereken het rekenkundig gemiddelde en de standaardafwijking.

f Hoeveel procent van de auto’s reed sneller dan het gemiddelde ?

g Hoeveel procent van de snelheden zit in [ x s , x + s ], [ x 2 s , x + 2 s ] en [ x 3 s , x + 3 s ] ?

Op het erf van de oma van Robbe lopen heel wat kippen. Robbe besluit om gedurende een week alle eieren te wegen. Hier zie je de resultaten (in gram).

a Verdeel in klassen en maak een frequentietabel.

b Teken het histogram en de enkelvoudige frequentiepolygoon.

c Teken het ogief.

d Bereken de mediaan en de kwartielen en teken de boxplot.

e Bereken het rekenkundig gemiddelde en de standaardafwijking.

f Hoeveel procent van de eieren zit in [ x s , x

61 50 68 80 79 86 39 62 78 52 57 45 43 53 56 40 58 60 67 61 61 61 81 64 63 59 89 75 94 57 85 46 71 76 88 64 59 73 60 74 48 55 47 61 65 65 61 91 44 56 34 82 50 57 74 71 75 72 49 52 73 69 54 62 67 72 67 54 88 71 66 75 75 57 54 78 51 46 74 73 91 82 81 66 65 70 65 52 44 75 70 72 68 53 80 61 55 55 60 60

65 54 71 82 81 67 62 75 64 76 87 44 65 80 56 52 59 51 64 68 60 49 48 57 59 68 64 92 49 60 45 62 64 69 64 40 84 54 61 76 64 64 83 67 66 73 78 75 53 56 62 90 78 94 61 76 72 58 65 69 86 50 74 78 89 74 70 58 89 74

+ s ] , [ x 2 s , x + 2 s ] en [ x 3 s , x + 3 s ] ? 1 2

Dit zijn de resultaten (op 150 punten) van een aantal leerlingen op de wiskundeolympiade:

a Verdeel in klassen en maak een gegroepeerde frequentietabel.

b Teken het histogram en de enkelvoudige frequentiepolygoon.

c Teken het ogief.

d Bereken alle kwartielen, het rekenkundig gemiddelde en de standaardafwijking.

e Teken de boxplot.

f Hoeveel leerlingen behaalden 88 punten ?

g Hoeveel leerlingen behaalden meer dan 75 punten maar minder dan 90 ?

h Hoeveel % van de leerlingen behaalde meer dan 95 punten ?

i Hoeveel leerlingen zitten boven het klasgemiddelde ?

j Hoeveel procent van de leerlingen zit in [ x s , x + s ] en [ x 2 s , x + 2 s ] ?

In onderstaande tabel worden de resultaten van het verspringen (in m) van leerlingen gegeven in een les lichamelijke opvoeding.

a Verdeel in klassen en maak een gegroepeerde frequentietabel.

b Teken het histogram en de enkelvoudige frequentiepolygoon.

c Teken het ogief.

d Bereken alle kwartielen, het rekenkundig gemiddelde en de standaardafwijking.

e Hoeveel leerlingen sprongen 5,20 m ver ?

f Hoeveel leerlingen sprongen verder dan 5,30 m maar minder ver dan 6,10 m ?

g Hoeveel % van de leerlingen sprong verder dan 6 m ?

h Hoeveel % van de leerlingen zit in [ x 2 s , x + 2 s ] ?

2 85 Beschrijvende statistiek

91 78 46 84 65 91 73 98 72 83 92 94 78 68 90 79 89 63 90 70 98 70 54 71 76 72 100 71 65 86 88 110 116 75 83 92 100 86 73 93 88 84 59 65 76 76 80 82 89 75 66 107 96 80 85 83 117 85 62 70 77 64 69 69 71 73 80 88 87 57 53 79 51 82 80 88 79 64 121 118 91 117 118 59 121 90 88 121 125 105 123 82 66 139 65 75 55 105 85 74 88 54 69 116 131 95 87 85 106 93

3,76 5,62 5,00 5,10 5,12 5,52 5,24 5,89 5,63 4,25 5,12 5,95 4,15 5,85 4,45 5,25 4,03 5,15 5,21 5,55 3,77 5,30 5,19 5,65 3,78 5,35 5,23 4,20 4,50 5,39 5,20 4,75 4,55 4,80 5,03 4,79 5,32 4,85 5,09 6,20 5,42 4,25 5,48 4,21 6,05 4,95 5,30 4,25 5,37 3,77 5,49 4,93 5,21 4,59 5,51 5,24 5,75 4,23 5,10 5,41 3,79 5,37 3,76 4,70 5,29 4,55 5,63 4,86 4,60 4,78 5,21 4,83 5,80 4,09 5,39 4,05 5,99 5,50 4,50 5,45 4,76 4,86 5,20 5,83 4,93 5,07 4,35 5,17 4,45 6,10 5,12 4,73 5,09 6,24 5,05 4,69 5,13 5,84 4,74 5,71 5,45 4,29 4,58 5,61 4,99 5,42 5,00 5,58 4,39 4,94 5,79 5,17 4,95 5,21 6,19 4,42 6,40 5,90 5,30 5,20 5,37 4,73 5,55 4,76 5,41 4,52 5,21 4,80 4,51 5,30 5,19 4,81 5,04 6,35 5,24 5,36 5,79 5,48 4,87 5,70 5,15 4,35 4,25 5,72 4,75 4,60 5,63 5,18 4,62 5,26 4,92 5,10 4,87 5,70 5,30 4,95 5,95 5,20 5,43 5,65 5,49 5,28 4,00 4,80 5,69 5,21 4,50 4,90 5,25 5,11 4,55

Resultaten verspringen

tijdens de lessen lo

3 4

De leeftijd van moeders (in jaren) werd opgetekend als ze hun eerste kind kregen.

a Maak een gegroepeerde frequentietabel.

b Teken het histogram en de enkelvoudige frequentiepolygoon.

c Teken het ogief.

d Bepaal het gemiddelde, de mediaan, de standaardafwijking en de kwartielen.

e Teken de boxplot.

f Hoeveel moeders kregen op 22 jaar hun eerste kindje ?

g Hoeveel % van de moeders kreeg hun eerste kindje na hun 25e levensjaar ?

h Hoeveel % van de moeders kreeg hun eerste kindje als ze meer dan 22 jaar maar minder dan 30 jaar waren ?

De inhoud van voorverpakte voedingswaren moet volgens een EU-richtlijn van 1976 aan strenge eisen voldoen. Regelmatig zijn er ook steekproeven en controles. Die situeren zich op twee niveaus :

Criterium 1 : individuele controle

Bij een steekproef van 50 stuks wordt de partij goedgekeurd als slechts 2 stuks onder de norm vallen. De partij wordt afgekeurd als 5 stuks onder de norm vallen. In het andere geval wordt een nieuwe steekproef genomen.

Bij frisdrankverpakkingen van 1 liter is de norm 985 ml.

Criterium 2 : controle van het gemiddelde

Ze berekenen het gemiddelde van een steekproef van 50 stuks uit de partij en de partij wordt goedgekeurd als x aangeduide inhoud – 0,379 s en wordt afgekeurd als x < aangeduide inhoud – 0,379 s

De voedingswareninspectie controleert 50 eenliterflessen van een bepaald merk en noteert volgende inhouden (in ml) :

Doorstaat de steekproef het eerste respectievelijk het tweede criterium ?

86 21 16 19 25 16 26 32 34 19 20 28 31 38 20 29 24 26 25 32 23 31 20 18 15 31 32 30 29 28 17 22 22 22 29 27 28 31 33 26 37 20 22 25 29 31 32 30 30 22 23 25 17 18 16 24 25 26 32 34 28 29 30 32 24 20 19 31 35 20 29 26 22 19 22 25 24 21 26 29 30

996 988 1000 1008 1008 994 1014 1005 1017 993 1012 981 996 1007 989 1011 985 1002 1005 1013 992 986 983 990 992 997 994 1003 995 1004 986 993 995 999 995 986 991 986 995 998 995 995 1009 997 997 998 995 1016 986 992

5 6

Een snackbar ontvangt 20 klanten tussen 11.00 u. en 12.00 u. Hun (individuele) rekening bedroeg (in euro) :

a Bereken het gemiddelde verbruik en de standaardafwijking van het verbruik van de eerste reeks klanten.

b Bereken het gemiddelde verbruik en de standaardafwijking van het verbruik van de tweede reeks klanten.

c Bereken het gemiddelde verbruik en de standaardafwijking van het verbruik van alle klanten.

d Maak een boxplot van het verbruik van de eerste reeks klanten, van het verbruik van de tweede reeks klanten en van alle klanten samen. Wat kun je hieruit concluderen ?

Raf gaat met de fiets naar school. Gedurende 12 weken (= 60 waarnemingen) heeft hij bijgehouden hoeveel minuten hij erover doet om van thuis naar school te fietsen. De resultaten vind je in volgende tabel :

a Verdeel in klassen en maak een histogram van de gegevens.

b Merk je symmetrie ? Zo ja, rond welke waarde ?

c Zijn er uitschieters ? Kun je die verklaren als je achteraf verneemt dat Raf eenmaal een lekke band heeft gehad ?

d Bereken het rekenkundig gemiddelde en de standaardafwijking. Doe dit eenmaal met de uitschieter en eenmaal zonder de uitschieter.

2 87 Beschrijvende statistiek

10,20 6,20 13,50 19,70 19,20 7,90 8,40 7,10 6,10 7,40 22,40 6,00 10,60 18,60 6,40 8,60 8,60 9,60 12,80 9,80

16,70 14,30 15,40 14,60 8,80 8,90 20,80 7,40 13,30 17,40 12,30 19,50 15,90 18,40 13,00 14,70 15,10 12,30 12,90 17,40 9,90 21,40 16,90 14,10 17,00 21,70 20,20 13,20 12,60 12,10

Tussen 12.00 u. en 13.00 u. ontvangt dezelfde snackbar 30 klanten met een individueel verbruik van (in euro) :

42 36 36 38 35 32 41 26 39 30 38 36 37 44 31 43 27 34 23 32 32 34 32 35 34 43 61 37 34 28 38 32 33 36 43 47 30 36 48 39 36 42 40 33 34 27 32 36 31 27 24 34 29 40 36 37 41 35 36 36

7 8

Een reiziger reist van A naar B. Zijn gemiddelde snelheid daarbij is precies 60 km/h. Hoelang moet de reiziger over de terugreis doen om gemiddeld over de heen- en terugreis op 90 km/h uit te komen ?

In een klas van 16 leerlingen was het gemiddelde op een toets wiskunde 6,2. In een andere klas van 26 leerlingen werd dezelfde toets afgenomen en was het gemiddelde 6,6. Wat is het gemiddelde op die toets over de twee klassen heen ?

Voor het vak geschiedenis zitten twee klasgroepen A en B samen. In de groep A zitten 12 leerlingen. Op de laatste overhoring behaalde die groep een gemiddelde van 6,5. Groep B behaalde een gemiddelde van 7 en het gemiddelde van beide groepen samen was 6,7. Hoeveel leerlingen telt groep B ?

28 Amerikanen stappen een wisselkantoor binnen met gemiddeld 1250 dollar op zak. Voor één dollar krijgen ze 90 eurocent.

a Hoeveel euro hebben de Amerikanen gemiddeld nadat ze het wisselkantoor buitenkomen en ze al hun dollars omgewisseld hebben in euro ?

b Hoeveel euro hebben de Amerikanen samen ?

Bewijs de volgende eigenschappen.

a Als alle waarnemingen xi met een positieve factor a worden vermenigvuldigd, dan wordt de standaardafwijking met dezelfde factor vermenigvuldigd.

b De standaardafwijking verandert niet wanneer bij alle waarnemingen een vast getal b wordt opgeteld.

c s 2 = n n 1      n i = 1 x 2 i n x 2      9 10 11 12 13 *

Geef voor elk van de volgende gevallen aan of je de genoemde verzameling beschouwt als een steekproef of als een populatie. Verklaar en motiveer je keuze.

a De leerkrachten die aanwezig zijn op de laatste klassenraad.

b De 150 personen die geïnterviewd zijn bij een straatenquête.

c De 420 leden van de zwemvereniging.

d De 48 klanten die vandaag de elektrozaak om de hoek bezochten.

e De 210 bewoners van de Stationsstraat.

f De 120 automobilisten die moesten stoppen voor een alcoholcontrole.

g De 1200 leerlingen van een school.

h Alle personen boven de 60 jaar in jouw gemeente.

Een ijsjesfabrikant wil een nieuwe smaak ijs op de Vlaamse markt lanceren.

Hij heeft twee smaakvarianten ontwikkeld en wil 600 mensen aan een blinde smaaktest onderwerpen. In die test krijgt elke proefpersoon de twee smaakvarianten

A en B in identieke verpakking en in willekeurige volgorde voorgeschoteld.

Elke proefpersoon moet aangeven of hij smaak A of smaak B verkiest.

a Beschrijf de populatie.

b Beschrijf de variabele die we in deze studie bestuderen.

c Wat is de steekproef ?

Geef voor elk van de volgende gevallen aan over welke soort steekproef het gaat. Verklaar je antwoord.

a Bij een onderzoek i.v.m. de veiligheid in een bepaalde straat besluit de enquêteur om de bewoners van alle huisnummers deelbaar door 5 te bevragen.

b I.v.m. een peiling over een politiek thema kiezen we eerst willekeurig een stad en nadien kiezen we hierin een bevolkingsgroep naar geslacht en leeftijd in dezelfde verhouding als de totale Belgische bevolking.

c In een bedrijf werken 42 werknemers. Wanneer de directie de mening van die werknemers wil weten, neemt ze de alfabetisch genummerde personeelslijst en de lottocijfers van deze week om er zo zes werknemers uit te halen.

De verdeling van het aantal leden van een hobbyclub naar leeftijd en geslacht vind je in volgende tabel.

We willen een gestratificeerde aselecte steekproef nemen van 40 leden. In welke mate zijn de groepen vertegenwoordigd ?

2 89 Beschrijvende statistiek

14 15 16 17 leeftijd man vrouw 0 – 12 jaar 40 24 13 – 18 jaar 80 40 19 – 30 jaar 64 40 30 jaar en ouder 8 16

Is er een causaal verband of is er enkel samenhang ?

samenhang causaliteit

a Een schilder heeft een ongeluk met zijn wagen, waardoor hij zijn pols breekt. Daardoor kan hij niet meer werken en lijdt hij inkomensverlies.

b Je speelt erg vaak spelletjes op je smartphone. Daardoor heb je vaker last van slaapproblemen.

c Een vandaal steekt een band stuk van een taxi. Daardoor komt een CEO te laat op een afspraak en mist zo een miljoenendeal.

d Je onderzoekt de invloed van het prestatievermogen van een persoon en de duur van zijn nachtrust.

e Je laat je op erg jonge leeftijd vaccineren tegen polio (kinderverlamming). Daardoor is de kans heel erg klein dat je zult overlijden aan polio.

f Hoe meer zonnebrillen er verkocht worden, hoe meer ijsjes er verkocht zullen worden. Wat zou een derde variabele (of confounding variabele) kunnen zijn bij volgende correlaties ?

a Als er meer drank verkocht wordt op de kermis, dan stijgt het aantal ongelukken.

b Als personen een hoog inkomen hebben, dan stijgt het aantal verkochte luxewagens.

c Als ouders een hoger opgeleid diploma hebben, dan presteren hun kinderen beter op school.

d Als een persoon meer uren slaapt, dan zal zijn prestatievermogen de dag nadien stijgen.

e Als een leerling meer uren studeert, dan stijgen de examenresultaten.

18 19

Voor het testen van een nieuw medicijn melden zich 80 proefpersonen. De gegevens (geslacht – leeftijd) vind je in volgende tabel.

a Laat de computer willekeurig bij elke persoon de letter A of B plaatsen. Ga nadien na hoeveel personen er in elke groep zitten, hoeveel mannen en vrouwen er in elke groep zitten en wat de gemiddelde leeftijd is in elke groep.

b Verdeel de proefpersonen in twee gelijke groepen met een min of meer gelijke verdeling naar geslacht en leeftijd. (Neem voor de leeftijd twee groepen : leeftijd jonger dan 40 en leeftijd ouder of gelijk aan 40).

Een farmaceutisch bedrijf heeft tegen een nieuw virus twee medicijnen ontwikkeld. Het bedrijf wil beide medicijnen testen op een aantal proefpersonen plus een controlegroep. Verdeel onderstaande groep personen in drie gelijkwaardige groepen naar leeftijd (jonger dan 35, ouder of gelijk aan 35) en geslacht (M / V).

2 91 Beschrijvende statistiek

V - 24 M - 42 V - 27 M - 38 V - 52 V - 39 M - 50 V - 47 V - 56 M - 21 V - 30 V - 49 M - 21 V - 30 M - 57 M - 44 V - 38 V - 39 V - 20 V - 47 V - 38 V - 33 V - 26 V - 58 M - 36 V - 54 V - 37 M - 55 V - 21 V - 36 V - 42 V - 51 V - 28 V - 48 M - 54 M - 27 M - 32 M - 44 V - 52 V - 21 M - 28 V - 22 V - 40 M - 55 V - 33 M - 48 M - 40 M - 37 M - 50 M - 33 V - 22 M - 42 V - 53 V - 28 V - 36 M - 32 V - 27 M - 46 V - 23 V - 45 V - 54 V - 26 M - 36 V - 57 V - 60 V - 41 V - 36 V - 39 M - 36 M - 22 M - 40 V - 38 M - 54 M - 58 V - 36 V - 59 V - 37 V - 49 V - 23 M - 38

M - 50 V - 29 M - 43 V - 44 M - 49 M - 43 M - 48 M - 29 M - 28 M - 40 V - 49 M - 50 M - 34 V - 50 M - 41 V - 23 M - 33 V - 50 M - 42 M - 31 V - 26 V - 32 M - 46 M - 47 V - 33 M - 39 M - 22 V - 33 V - 34 V - 39 V - 35 V - 26 M - 50 M - 32 M - 43 V - 21 V - 35 M - 41 M - 48 V - 37 M - 22 M - 50 V - 44 V - 30 M - 21 V - 50 V - 32 M - 41 M - 32 M - 40 M - 28 M - 38 M - 43 M - 30 M - 48 M - 50 V - 21 V - 46 V - 31 M - 45 20 21

Geschiedenis van de statistiek

Wat is statistiek ?

Statistiek omvat de wetenschap, de methodiek en de techniek van het verzamelen, bewerken en interpreteren van gegevens in verband met massaverschijnselen. Het statistisch onderzoek bestaat uit drie fasen.

– Een steekproef opstellen.

– De gegevens van de steekproef verzamelen, rangschikken en samenvatten. Dat onderdeel noemen we de beschrijvende statistiek

– Op basis van die steekproef besluiten trekken omtrent de hele populatie. Dat noemen we de verklarende statistiek

J AAR 1

KEIZER AUGUSTUS

In de 11e eeuw liet Willem de Veroveraar in Engeland het Domesday Book opstellen.

In dat boek werd de verdeling van de bevolking over de verschillende standen weergegeven, maar ook de verdeling van de veestapel en van de landbouwgronden werd er keurig in genoteerd.

Historici halen daar vandaag nog waardevolle inlichtingen uit.

Je kunt voor het eerst spreken van statistiek wanneer landen gegevens begonnen te verzamelen over allerlei zaken : de samenstelling van de bevolking, eigendommen en inkomsten, het bedrag van geïnde belastingen, het aantal weerbare mannen (geschikt om oorlog te voeren), het aantal vaklui en werktuigen, het aantal stuks vee ...

Dergelijke informatie kon je verkrijgen door eenvoudigweg te tellen, wat al in de tijd van de Romeinen gebruikelijk was. Bekend is de volkstelling die ten tijde van Christus door keizer Augustus werd bevolen.

Ook nu komen er nog tellingen voor. Zo vindt er bij ons in België om de tien jaar een volkstelling plaats ; de allereerste was er al in 1846. In ons land is dat de taak van Statbel, het Belgische statistiekbureau (statbel.fgov.be).

10 66

WILLEM DE VEROVERAAR

1662

Het eerste, zeg maar echt statistische materiaal vinden we terug in Engeland.

Dat hebben we te danken aan zakenman John Graunt (1620 –1674) en aan Thomas Robert Malthus (1766 –1834), die bekendstaat om zijn pessimistische visie over de bevolkingsgroei. De Londense lakenkoopman John Graunt publiceerde in 1662 zijn boek Natural and Political Observations, waarin een statistische analyse stond van de wekelijkse lijst van sterftegevallen in en rond Londen, de zogenaamde Bills of mortality.

In 1693 maakte de sterrenkundige Edmond Halley (1656 –1742), ook al een Brit, een levensverwachtingstabel gebaseerd op de sterftecijfers van de Poolse stad Breslau (nu gekend als Wrocław). Op die manier begon de wetenschap met het verzamelen en beschrijven van feiten. Zo kwamen bijvoorbeeld ook de eerste statistieken bij de firma's die levensverzekeringen afsloten. De gegevens die verzameld werden, konden ook gebruikt worden om lijfrenten te berekenen. Het woord statistiek werd trouwens voor het eerst gebruikt in 1672 en is afgeleid van het Latijnse woord status (staat).

1672

93 2 Beschrijvende statistiek

EDMOND HALLEY JOHN GRAUNT

Maar het bleef niet bij tellen. Vanaf de 17e eeuw werd kansrekening of waarschijnlijkheidsrekening gebruikt om statistische gegevens te ontleden en statistische hypothesen te formuleren.

De Zwitserse wiskundige Jakob Bernoulli (1654 –1705) en zijn

Franse collega Pierre-Simon Laplace (1749 –1827) hebben de beschrijvende statistiek via de waarschijnlijkheidsrekening in de wiskunde opgenomen.

Zo ontstond de wiskundige of verklarende statistiek.

1814

De eerste zinvolle, systematische en doelgerichte bewerking van statistisch materiaal vinden we in een werk uit 1835 met een lange titel : Sur l’homme et le développement de ses facultés ; essai d’une physique sociale. Dat werk is van de hand van onze landgenoot Adolphe Quetelet (1796 –1874). Daarin publiceerde hij talrijke statistische gegevens over de fysieke eigenschappen van de mens. Hij legde het verband tussen misdadigheid en leeftijd, geslacht, opvoeding, seizoen enz. Hij riep ook het eerste internationale statistische congres bij elkaar in 1855 in Brussel. Quetelet wordt onder andere daardoor de stichter van de moderne statistiek genoemd.

1835

bpost

Jakob Bernoulli

PIERRE-SIMON LAPLACE ADOLPHE QUETELET

Na 1940 werd het mogelijk om met een moderne computer zeer grote hoeveelheden gegevens te verwerken en op die gegevens statistische methodes toe te passen. De statistiek is daarmee de meest toegepaste tak van de wiskunde geworden. Economie, sociologie, psychologie, biologie, het verzekeringswezen, meteorologie en de verkeerspolitiek zijn enkele van de talrijke disciplines waarvoor statistiek onmisbaar is geworden.

We vermelden ook graag de bijdrage die Florence Nightingale (1820 –1910) leverde aan de statistiek. Zij staat bekend als the lady with the lamp, een bijnaam die ze kreeg toen ze als verpleegster gewonde Engelse soldaten verzorgde tijdens de Krimoorlog. Maar ze was ook een wiskundige, die sterk beïnvloed was door het werk van Quetelet. Op wiskundig gebied werd ze vooral bekend door haar diagram waarmee ze de sterftegevallen in de Britse militaire hospitalen in beeld bracht (zie hierboven). De oppervlakten van de cirkelsegmenten geven de verhoudingen weer van het aantal doden. Met dit diagram wilde ze de Engelse politici duidelijk maken dat de sterfte onder de soldaten eerder een gevolg was van slechte hygiënische omstandigheden dan van oorlogsgeweld. Zo kon ze de autoriteiten overtuigen om te investeren in hygiënische hervormingen in de militaire hospitalen.

95 2 Beschrijvende statistiek

FLORENCE NIGHTINGALE

CORONA

1858

2020

Beschrijvende statistiek 2

96 WAT MOET JE KENNEN EN KUNNEN ?

pagina Ik weet wat een enkelvoudige aselecte steekproef is. 62 Ik kan gegevens van een steekproef voorstellen met of zonder ICT door middel van een histogram, ogief of frequentiekromme. 63 Ik ken de definitie van verschillende centrummaten zoals modus, mediaan en gemiddelde. 67 Ik ken de definitie van verschillende spreidingsmaten zoals spreidingsbreedte, kwartielafstand en standaardafwijking. 70 Ik weet wat representativiteit van een steekproef betekent. 71 Ik ken enkele technieken om een representatieve steekproef te bekomen. 72 Ik weet wat randomisatie betekent. 75 Ik ken enkele technieken om proefpersonen bij een experiment te randomiseren. 75 Ik ken het verschil tussen samenhang en causaliteit. 76 Ik weet wat variabiliteit van een steekproef betekent. 78 Ik ken het verschil tussen een steekproef en de populatie. 80

De normale verdeling 3

Wiskunde wordt aan de lopende band gebruikt in het dagelijkse leven. Zo ook aan de lopende band … Aan het einde van zo’n band zit een controletoestel dat het gewicht controleert. Als er een afwijking van meer dan 10 gram is, wordt het pakje verwijderd. Statistieken helpen het bedrijf om een antwoord te vinden op vragen als ‘Hoeveel % van de afgeleverde pakken bevat minder dan 1 kg ?’. Maar je kunt ook omgekeerd redeneren en je afvragen hoe de machines afgesteld moeten worden opdat slechts één procent van de pakken suiker in de recyclagebak verdwijnt.

De normale verdeling

3.1 Histogrammen – dichtheidskrommen 1 Voorbeeld 99 2 Dichtheidskrommen 100 3.2 Normale verdelingen 1 Algemeen voorschrift 101 2 De 68-95-99,7-regel 102 3 Voorbeeld 103 4 Toepassing met ICT 104 3.3 Graﬁsche betekenis van m en σ 1 Betekenis van m 107 2 Betekenis van s 107 3.4 De standaardnormale verdeling 1 Standaardisering : de z-score 108 2 De standaardnormale verdeling 109 3 Enkele kritieke z-waarden 112 3.5 Toepassingen 1 Suiker 117 2 Granaatappelen 119 3 Wrijvingsringen 119 4 De industriële bakkerij 120 5 Genereren van een steekproef 121 3.6 Steekproevenverdeling 122 3.7 Samenvatting en oefeningen 1 Samenvatting 123 2 Oefeningen 125 Wat moet je kennen en kunnen ? 137 3

3.1 Histogrammen – dichtheidskrommen

1 Voorbeeld

Een bioloog heeft heel zorgvuldig de lengte (in cm) van 200 snoeken gemeten. De resultaten vind je in de onderstaande tabel.

Verwerkt in een frequentietabel met bijbehorend histogram geeft dat : lengte (in cm) absolute frequentie relatieve frequentie lengte (in cm) absolute frequentie relatieve frequentie

[ 65, 66[ 1 0,5% [ 78, 79[ 16 8%

99 3 De normale verdeling

77,8 70,2 81,2 71,2 75,2 69,6 81,6 77,0 69,4 81,6 75,0 81,5 70,9 75,9 83,7 83,5 78,9 79,3 76,4 83,7 81,3 80,8 69,1 80,5 80,0 84,6 85,3 78,7 82,9 86,3 73,0 82,5 71,6 74,3 71,9 81,4 76,2 82,2 77,9 79,0 87,9 74,4 81,1 77,6 78,2 82,9 76,7 78,0 79,4 75,1 73,4 76,1 83,9 68,7 75,6 79,7 72,9 75,2 82,8 76,4 78,9 68,0 74,1 78,3 80,9 74,3 84,1 73,5 77,8 70,3 85,1 73,3 80,5 67,5 76,8 78,3 71,0 77,7 69,4 85,5 80,1 70,4 79,1 80,3 74,1 72,7 77,8 82,2 87,8 78,9 72,7 77,5 75,9 79,3 71,9 74,8 80,0 76,0 72,2 74,8 70,2 74,9 78,7 84,2 84,6 83,3 74,6 72,0 82,0 72,3 74,9 81,8 78,8 81,3 77,0 67,0 76,9 75,5 77,8 74,6 83,4 73,3 79,5 79,6 82,3 78,6 73,0 76,8 73,7 74,1 81,1 72,1 79,3 80,5 75,4 73,8 79,0 68,3 73,6 83,0 75,3 79,7 77,2 79,7 65,4 71,0 78,9 76,7 82,1 80,7 78,9 84,1 75,4 72,8 76,3 85,4 73,3 77,9 82,4 75,8 74,2 77,6 79,3 80,7 73,1 75,7 77,0 77,2 86,0 89,8 71,9 76,6 75,2 81,9 81,7 72,3 78,5 76,8 76,9 76,8 75,5 86,5 85,0 80,9 78,7 83,3 84,9 66,3 73,2 78,6 77,6 77,9 71,9 79,9 88,2 72,2 70,7 76,1 79,5 80,2

68, 69[ 3 1,5%

12 6%

69, 70[ 4 2% [ 82, 83[ 10 5%

70, 71[ 6 3% [ 83, 84[ 8 4%

71, 72[ 8 4% [ 84, 85[ 6 3%

72, 73[ 10 5% [ 85, 86[ 5 2,5%

73, 74[ 12 6% [ 86, 87[ 3 1,5%

74, 75[ 13 6,5% [ 87, 88[ 2 1%

75, 76[ 15 7,5% [ 88, 89[ 1 0,5%

76, 77[ 16 8% [ 89, 90[ 1 0,5%

77, 78[ 17 8,5% 9% 8% 7% 6% 5% 4% 3% 2% 1% 0%

89,8 cm

= 77,5 cm

= 4,7

[ 66, 67[ 1 0,5% [ 79, 80[ 15 7,5% [ 67, 68[ 2 1% [ 80, 81[ 13 6,5% [

[ 81, 82[

[

min = 65,4 cm max =

2 Dichtheidskrommen

De oppervlaktes van de staven van het histogram stellen de fracties waarnemingen van de lengten van de vissen voor. De totale som van die fracties is 100% of 1.

Stellen we nu de grafische voorstelling van de fracties geïdealiseerd voor door de grafiek van een functie, dan is die functie een wiskundig model voor de (relatieve) frequentieverdeling van de waarnemingen van de lengte van 200 snoeken.

De kromme ligt volledig boven de x -as (fracties zijn steeds positief) en de totale oppervlakte onder de kromme is precies 1 ( = 100%).

Wanneer we de fractie snoeken met een lengte tussen 70 cm en 76 cm wensen te kennen, berekenen we de oppervlakte onder de dichtheidskromme (dat is bij benadering de relatieve frequentie) tussen x = 70 en x = 76.

Die oppervlakte bedraagt 0,3188 of 31,88% (berekening via ICT). Ze stelt ook de kans voor dat een aselect gekozen snoek een lengte heeft tussen 70 en 76 cm.

Dit benadert vrij goed het resultaat 32% van het histogram (3% + 4% + 5% + 6% + 6,5% + 7,5%).

dichtheidskromme

Een dichtheidskromme beschrijft het algemeen patroon van een verdeling.

Het is een kromme : – die zich altijd op of boven de x -as bevindt ; – waarvan de oppervlakte tussen de kromme en de x -as gelijk is aan 1.

De oppervlakte onder de kromme in een willekeurig interval is de kans dat de waarnemingen binnen dat interval liggen.

100

9% 8% 7% 6 % 5% 4% 3% 2% 1% 0%

60,0 65,0 70,0 75,0 80,0 85,0 90,0 95,0

3.2 Normale verdelingen

1 Algemeen voorschrift

De dichtheidskromme in het vorige voorbeeld kan beschouwd worden als de grafiek van een functie met het functievoorschrift : f ( x )= 1 4,74√2π e 1 2 x 77,5 4,74 2

Dat is het voorschrift van een normale verdeling. De grafieken van normale verdelingen zijn symmetrische, ééntoppige, klokvormige dichtheidskrommen. Ze hebben allemaal dezelfde globale vorm.

Het algemeen voorschrift voor een normale verdeling is : f ( x )= 1 σ √2π e 1 2 x µ σ 2 met m het gemiddelde en s de standaardafwijking van de populatie.

Omdat dit functievoorschrift volledig bepaald is door m en s, hebben we een kortere notatie ingevoerd.

De normale verdeling met verwachting (= gemiddelde) m en standaardafwijking s, is N( m, s)

Als een populatievariabele normaal verdeeld is met gemiddelde m en standaardafwijking s, dan noteren we dit verkort als : X ∼ N( m, s)

We gebruiken dus een hoofdletter, zoals X , om een populatievariabele (een populatiekenmerk) aan te duiden. Kleine letters, zoals x , duiden op de specifieke numerieke waarde van een populatievariabele.

In veel gevallen zijn echter m en s niet gekend en benaderen we (schatten we) m door x en s door s

De voorwaarden waaronder dit mag gebeuren en de foutenmarges (variabiliteit) die hierdoor ontstaan, laten we voorlopig achterwege.

De normale verdeling is zonder twijfel de meest gebruikte verdeling in de statistiek. Van heel wat gegevens is immers geweten dat ze normaal verdeeld zijn : lengte van mensen, dieren of objecten, het IQ , de effectieve inhoud van machinaal gevulde verpakkingen, meetfouten, sportprestaties … KLASSEMENT VOETBAL

Anderzijds mogen we hieruit niet concluderen dat alles normaal verdeeld zou zijn. Typische voorbeelden van niet-normaal verdeelde gegevens zijn : de leeftijd bij overlijden van mens of dier, het inkomen … Maar ook bij niet-normaal verdeelde gegevens speelt de normale verdeling een belangrijke rol. Veronderstel dat je uit een reeks gegevens waarvan je niet weet of ze normaal verdeeld zijn, 100 keer een steekproef neemt en daar telkens het gemiddelde van berekent, dan weet je al dat die gemiddelden niet gelijk zullen zijn, maar een zekere variabiliteit zullen vertonen. Al die gemiddelde waarden zijn echter te beschrijven met een normale verdeling. Wanneer mogen we stellen dat een gegeven reeks waarnemingen (aan de hand van bijvoorbeeld een histogram) al dan niet normaal verdeeld zijn ?

101 3 De normale verdeling

ALGEMEEN PLOEG M M+ M– M* D+ D– D+/– PTN 1 Union 15 9 2 4 30 16 14 31 2 KAA Gent 15 8 1 6 27 15 12 30 3 Anderlecht 15 8 2 5 24 11 13 29 4 Club Brugge 15 9 5 1 28 16 12 28 5 Antwerp 15 7 4 4 29 24 5 25 6 STVV 15 6 6 3 17 19 –2 21 7 KV Kortrijk 15 5 4 6 14 12 2 21 8 Charleroi 15 5 4 6 17 16 1 21 9 KRC Genk 15 6 7 2 17 19 –2 20 10 Standard 15 5 8 2 21 30 –9 17

2 De 68-95-99,7-regel

Bij de normale verdeling met gemiddelde m en standaardafwijking s hanteren we de volgende vuistregel :

68,3% van de waarnemingen ligt binnen het interval [ m – s, m + s]

95,5% van de waarnemingen ligt binnen het interval [ m – 2s, m + 2s]

99,7% van de waarnemingen ligt binnen het interval [ m – 3s, m + 3s]

Die regel wordt verklaard op blz. 113.

68,3% van de data

95,5% van de data

99,7% van de data

Om na te gaan of een reeks waarnemingen eventueel normaal verdeeld is, ga je als volgt te werk : –Berekenhetgemiddelde x endestandaardafwijking s vandewaarnemingen.

–Ganaofbijbenadering68%vandewaarnemingenbinnenhetinterval [ x s , x + s ] ligt.

–Ganaofbijbenadering95%vandewaarnemingenbinnenhetinterval [ x 2 s , x + 2 s ] ligt.

–Ganaofbijbenadering99,7%vandewaarnemingenbinnenhetinterval [ x 3 s , x + 3 s ] ligt.

Is aan die voorwaarden voldaan, dan kun je de relatieve frequenties van die waarnemingen benaderend beschrijven door de normale verdeling N ( x , s )

Taak : ga na of het voorbeeld van blz. 99 die waarden sterk benadert.

102

68,3% 95,5% 99,7% m – 3s m – 2s m – s m m + s m + 2s m

m – 3s m – 2s m – s m m + s m + 2s m + 3s

3 Voorbeeld

Een groep leerlingen uit het laatste jaar van een scholengemeenschap trok dit jaar tijdens de paasvakantie naar Rome.

Voor de cursus statistiek deed de leerkracht wiskunde een aselecte steekproef van 80 reistassen die hij een voor een woog.

De resultaten (in kg) vind je in volgende tabel :

Verwerkt in een frequentietabel met bijbehorend histogram geeft dat :

Inhetinterval [ x s , x + s ]=[8,94;14,28] liggen 54reistassenof67,5%.

Inhetinterval [ x 2 s , x + 2 s ]=[6,27;16,95] liggen 78reistassenof97,5%.

Inhetinterval [ x 3 s , x + 3 s ]=[3,60;19,62] liggen aldegewogenreistassenof100%.

M.a.w.wemogenaannemendatdemassavanalle reistassenvandegroepnormaalverdeeldismet gemiddelde11,61kgenstandaardafwijking2,67kg.

103 3 De normale verdeling

11,1 8,7 12,4 14,9 14,7 16,0 6,6 11,2 14,2 9,2 10,1 7,7 7,4 9,5 9,9 6,7 10,4 10,8 12,1 10,9 8,3 9,8 8,1 10,9 11,7 11,9 11,0 17,1 7,6 10,0 5,6 15,3 8,7 10,2 13,6 12,9 13,9 13,2 8,5 9,1 11,0 10,9 15,0 11,6 11,4 10,6 16,5 13,9 17,4 10,2 15,8 7,9 13,1 14,0 16,4 11,6 10,5 13,4 10,9 13,6 13,5 12,6 9,5 11,2 12,1 13,1 12,1 9,6 16,3 13,0 12,0 13,8 13,9 10,3 9,6 14,5 8,9 8,1 13,5 13,3

(in kg) absolute frequentie relatieve frequentie [ 5,5; 6,5[ 1 1,3% [ 6,5; 7,5[ 3 3,8% [ 7,5; 8,5[ 6 7,5% [ 8,5; 9,5[ 6 7,5% [ 9,5; 10,5[ 12 15,0% [ 10,5; 11,5[ 13 16,3% [ 11,5; 12,5[ 9 11,3% [ 12,5; 13,5[ 8 10,0% [ 13,5; 14,5[ 10 12,5% [ 14,5; 15,5[ 5 6,3% [ 15,5; 16,5[ 4 5,0% [ 16,5; 17,5[ 3 3,8% min = 5,6

max = 17,4

x = 11,61

s = 2,67

18,0 % 16,0 % 14,0 % 12,0 % 10,0 % 8,0 % 6,0 % 4,0 % 2,0 % 0,0 % 6 7 8 9 10 11 12 13 14 15 16 17 18 5

massa

4 Toepassing met ICT

Probleemstelling

Een koffiebranderij heeft een nieuwe vulmachine gekocht voor het vullen van pakjes koffie van 1 kg.

Omdat de machine nog moet worden afgesteld, besluit de koffiebrander 80 pakjes koffie te vullen waarbij hij de machine instelt op 1005 gram. De resultaten (afgerond op 1 gram) zijn :

– Bereken het gemiddelde en de standaardafwijking.

– Teken het bijbehorend histogram. Neem als klassenbreedte 1 gram.

– Is de 68-95-99,7-regel hier van toepassing ?

– In de veronderstelling dat de massa van de pakjes koffie normaal verdeeld is, teken die normale verdeling en bereken :

• hoeveel % van de pakken koffie (bij benadering) 1 kg bevat ;

• hoeveel % van de pakken koffie tussen 1000 gram en 1010 gram bevat ;

• hoeveel % van de pakken minder dan 1 kg bevat.

– Benader m door x en s door s

104

hoeveelheid koffie (afgerond op 1 gram) aantal pakjes = absolute frequentie relatieve frequentie 995 1 1,25% 996 1 1,25% 997 2 2,50% 998 3 3,75% 999 4 5,00% 1000 3 3,75% 1001 6 7,50% 1002 2 2,50% 1003 9 11,25% 1004 6 7,50% 1005 13 16,25% 1006 4 5,00% 1007 7 8,75% 1008 8 10,00% 1009 4 5,00% 1010 2 2,50% 1011 2 2,50% 1012 1 1,25% 1013 1 1,25% 1014 0 0,00% 1015 1 1,25%

Uitwerking met GeoGebra

Breng de gegevens in het rekenblad in, selecteer de kolommen en maak er lijsten van.

De lijsten krijgen de naam lijst1 (gegevens) en lijst2 (frequenties).

Geef dan via het invoerveld volgende commando’s in:

Staafdiagram[ lijst1,lijst2]

m = gemiddelde[ lijst1,lijst2]

N = SteekproefSD[ lijst1,lijst2]

Zo wordt het staafdiagram (histogram) getekend met als klassenbreedte 1.

De waarde 1004,45 verschijnt in het algebravenster.

De waarde 4,07 verschijnt in het algebravenster.

Gebruik nadien het icoontje van waarschijnlijkheidsrekening in het CAS-venster om het volgende te realiseren:

105 3 De normale verdeling

Hoeveel % van de pakken koffie bevat (bij benadering) 1 kg?

Antwoord :

5,39 % van de pakken koffie bevat (bij benadering) 1 kg.

Hoeveel % van de pakken koffie weegt tussen 1000 gram en 1010 gram?

Hoeveel % van de pakken bevat minder dan 1 kg?

Antwoord :

77,65 % van de pakken koffie weegt tussen 1000 g en 1010 g.

Antwoord :

13,71% van de pakken koffie bevat minder dan 1 kg.

106

3.3 Graﬁsche betekenis van m en s

1 Betekenis van μ

We laten in het functievoorschrift f ( x )= N (µ, σ )=

verdeling m variëren terwijl we s constant houden ( s = 1).

We merken dat de grafieken van al die normale verdelingen met constante s op een verschuiving na gelijk zijn.

Als we de grafiek van de normale verdeling

y = N( 0, 1) als referentiepunt nemen, dan wordt die grafiek naar rechts verschoven over een afstand m als m > 0 en naar links verschoven over een afstand | m | als m < 0.

2 Betekenis van σ

(

variëren terwijl we m constant houden ( m = 0)

We merken dat de grafieken van al die normale verdelingen met constante m qua vorm gelijk zijn.

Als we de grafiek van de normale verdeling

y = N( 0, 1) als referentiepunt nemen, dan wordt die grafiek uitgerokken met factor 1 σ volgens de richting van de y -as en met factor s volgens de richting van de x -as.

107 3 De normale verdeling

1 σ √2π e 1 2 x µ σ 2

van de normale

in het functievoorschrift f ( x )= N

µ, σ )= 1 σ √2π e 1 2 x µ σ 2 van de normale

laten

(

verdeling

> 0)

x y 6 4 2 2 4 6 -0,1 0,1 0,2 0,3 0,4 0,5 0 0 x y 6 4 2 2 4 6 0,1 0,2 0,3 0,4 0,5 0,6 0 0

3.4 De standaardnormale verdeling

1 Standaardisering : de z-score

Op een verschuiving volgens de x -as en een eventuele uitrekking volgens de assen na, hebben alle normale verdelingen dezelfde vorm.

Bij bepaalde berekeningen herleiden we trouwens de waarnemingen van de normale verdeling N( m, s) met verwachting m en standaardafwijking s naar de normale verdeling N( 0, 1) met verwachting 0 en standaardafwijking 1. Die omzetting wordt standaardisering genoemd. Om een waarde te standaardiseren wordt de verwachtingswaarde ervan afgetrokken en vervolgens gedeeld door de standaardafwijking.

Als x een waarneming is uit N( m, s), dan is z de gestandaardiseerde waarde van x met z = x µ

Een gestandaardiseerde waarde wordt ook een z -score genoemd.

Een z -score geeft aan hoeveel standaardafwijkingen de oorspronkelijke waarneming van het gemiddelde verwijderd is en in welke richting. Waarnemingen groter dan het gemiddelde geven een positieve z -score, waarnemingen die kleiner zijn dan het gemiddelde een negatieve. z -scores worden o.a. gebruikt om waarnemingen uit verschillende populaties en/of steekproeven met elkaar te vergelijken. De z -score is immers een onbenoemde grootheid.

Voorbeeld :

Robbe zit in klas A bij meester Kappa en behaalde op zijn laatste toets wiskunde 14 op 20. Het klasgemiddelde was 11 met een standaardafwijking 3.

Katrien, de zus van Robbe, zit in klas B bij juf Lambda en behaalde op haar laatste toets wiskunde 23 op 30. Het klasgemiddelde was 19 met een standaardafwijking 5.

Wie heeft er nu relatief gezien het beste gewerkt ?

–De z -scorevanRobbeis: z Robbe = 14 11 3 = 1

–De z -scorevanKatrienis: z Katrien = 23 19 5 = 0,8

Antwoord :

z Robbe > z Katrien, dus is het resultaat van Robbe relatief gezien beter.

108

2 De standaardnormale verdeling

De normale verdeling met m = 0 en s = 1 noemen we de standaardnormale verdeling. Populatievariabelen met een standaardnormale verdeling worden aangeduid met de hoofdletter Z

De kansen bij een normale verdeling worden bepaald door de oppervlakte onder de curve te berekenen. Dat kan op twee manieren : ofwel via een ingewikkelde integraal (die niet rechtstreeks te berekenen is), ofwel met behulp van ICT (de grafische rekenmachine of computersoftware). Voor de standaardnormale verdeling bestaat er echter een tabel waaruit je de kansen rechtstreeks kunt aflezen. Die tabel vind je op de volgende bladzijde.

Hoe moet je die tabel lezen ?

Bekijk de figuur die boven de tabel staat. Bij een gegeven z geeft die tabel de bijbehorende oppervlakte onder de grafiek van de standaardnormale verdeling links van z Met andere woorden : de tabel geeft je het percentage waarnemingen dat (of de kans dat een willekeurige populatiewaarde) kleiner is dan een gegeven waarde z .

In symbolen noteren we : F( z ) = P( Z ⩽ z )

Voorbeeld 1 :

Gegeven : Een populatievariabele die een standaardnormale verdeling volgt.

Gevraagd : Bereken het percentage waarnemingen dat kleiner is dan 1,53.

In symbolen : F( 1,53) = P( Z ⩽ 1,53)

Oplossing :

Zoek de waarde 1,53 in de tabel. Voor de eerste twee cijfers kijk je in de linkerkolom van de tabel en ga je daar op zoek naar de rij die overeenstemt met waarde 1,5. Daarna schuif je op naar rechts tot de kolom die overeenkomt met 0,03.

Het percentage waarnemingen kleiner dan 1,53 of de kans dat een waarneming kleiner is dan 1,53 bedraagt dus 93,699%.

109 3 De normale verdeling

z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 … 1,0 0,84134 0,84375 0,84614 0,84849 0,85083 0,85314 0,85543 0,85769 0,85993 0,86214 1,1 0,86433 0,86650 0,86864 0,87076 0,87286 0,87493 0,87698 0,87900 0,88100 0,88298 1,2 0,88493 0,88686 0,88877 0,89065 0,89251 0,89435 0,89617 0,89796 0,89973 0,90147 1,3 0,90320 0,90490 0,90658 0,90824 0,90988 0,91149 0,91308 0,91466 0,91621 0,91774 1,4 0,91924 0,92073 0,92220 0,92507 0,92647 0,92785 0,92922 0,93056 0,93189 1,5 0,93319 0,93448 0,93574 0,93822 0,93943 0,94062 0,94179 0,94295 0,94408 1,6 0,94520 0,94630 0,94738 0,94950 0,95053 0,95154 0,95254 0,95352 0,95449 1,7 0,95543 0,95637 0,95728 0,95818 0,95907 0,95994 0,96080 0,96164 0,96246 0,96327 1,8 0,96407 0,96485 0,96562 0,96638 0,96712 0,96784 0,96856 0,96926 0,96995 0,97062 1,9 0,97128 0,97193 0,97257 0,97320 0,97381 0,97441 0,97500 0,97558 0,97615 0,97670 …

F( 1,53) = P( Z ⩽ 1,53) = 0,93699 = 93,699% z 0,92364 0,93699 0,94845

Tabel : de standaardnormale verdeling

110

F( z ) = P( Z ⩽ z ) z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 0,50000 0,50399 0,50798 0,51197 0,51595 0,51994 0,52392 0,52790 0,53188 0,53586 0,1 0,53983 0,54380 0,54776 0,55172 0,55567 0,55962 0,56356 0,56749 0,57142 0,57535 0,2 0,57926 0,58317 0,58706 0,59095 0,59483 0,59871 0,60257 0,60642 0,61026 0,61409 0,3 0,61791 0,62172 0,62552 0,62930 0,63307 0,63683 0,64058 0,64431 0,64803 0,65173 0,4 0,65542 0,65910 0,66276 0,66640 0,67003 0,67364 0,67724 0,68082 0,68439 0,68793 0,5 0,69146 0,69497 0,69847 0,70194 0,70540 0,70884 0,71226 0,71566 0,71904 0,72240 0,6 0,72575 0,72907 0,73237 0,73565 0,73891 0,74215 0,74537 0,74857 0,75175 0,75490 0,7 0,75804 0,76115 0,76424 0,76730 0,77035 0,77337 0,77637 0,77935 0,78230 0,78524 0,8 0,78814 0,79103 0,79389 0,79673 0,79955 0,80234 0,80511 0,80785 0,81057 0,81327 0,9 0,81594 0,81859 0,82121 0,82381 0,82639 0,82894 0,83147 0,83398 0,83646 0,83891 1,0 0,84134 0,84375 0,84614 0,84849 0,85083 0,85314 0,85543 0,85769 0,85993 0,86214 1,1 0,86433 0,86650 0,86864 0,87076 0,87286 0,87493 0,87698 0,87900 0,88100 0,88298 1,2 0,88493 0,88686 0,88877 0,89065 0,89251 0,89435 0,89617 0,89796 0,89973 0,90147 1,3 0,90320 0,90490 0,90658 0,90824 0,90988 0,91149 0,91308 0,91466 0,91621 0,91774 1,4 0,91924 0,92073 0,92220 0,92364 0,92507 0,92647 0,92785 0,92922 0,93056 0,93189 1,5 0,93319 0,93448 0,93574 0,93699 0,93822 0,93943 0,94062 0,94179 0,94295 0,94408 1,6 0,94520 0,94630 0,94738 0,94845 0,94950 0,95053 0,95154 0,95254 0,95352 0,95449 1,7 0,95543 0,95637 0,95728 0,95818 0,95907 0,95994 0,96080 0,96164 0,96246 0,96327 1,8 0,96407 0,96485 0,96562 0,96638 0,96712 0,96784 0,96856 0,96926 0,96995 0,97062 1,9 0,97128 0,97193 0,97257 0,97320 0,97381 0,97441 0,97500 0,97558 0,97615 0,97670 2,0 0,97725 0,97778 0,97831 0,97882 0,97932 0,97982 0,98030 0,98077 0,98124 0,98169 2,1 0,98214 0,98257 0,98300 0,98341 0,98382 0,98422 0,98461 0,98500 0,98537 0,98574 2,2 0,98610 0,98645 0,98679 0,98713 0,98745 0,98778 0,98809 0,98840 0,98870 0,98899 2,3 0,98928 0,98956 0,98983 0,99010 0,99036 0,99061 0,99086 0,99111 0,99134 0,99158 2,4 0,99180 0,9202 0,99224 0,99245 0,99266 0,99286 0,99305 0,99324 0,99343 0,99361 2,5 0,99379 0,99396 0,99413 0,99430 0,99446 0,99461 0,99477 0,99492 0,99506 0,99520 2,6 0,99534 0,99547 0,99560 0,99573 0,99585 0,99598 0,99609 0,99621 0,99632 0,99643 2,7 0,99653 0,99664 0,99674 0,99683 0,99693 0,99702 0,99711 0,99720 0,99728 0,99736 2,8 0,99744 0,99752 0,99760 0,99767 0,99774 0,99781 0,99788 0,99795 0,99801 0,99807 2,9 0,99813 0,99819 0,99825 0,99831 0,99836 0,99841 0,99846 0,99851 0,99856 0,99861 3,0 0,99865 0,99869 0,99874 0,99878 0,99882 0,99886 0,99889 0,99893 0,99896 0,99900 3,1 0,99903 0,99906 0,99910 0,99913 0,99916 0,99918 0,99921 0,99924 0,99926 0,99929 3,2 0,99931 0,99934 0,99936 0,99938 0,99940 0,99942 0,99944 0,99946 0,99948 0,99950 3,3 0,99952 0,99953 0,99955 0,99957 0,99958 0,99960 0,99961 0,99962 0,99964 0,99965 3,4 0,99966 0,99968 0,99969 0,99970 0,99971 0,99972 0,99973 0,99974 0,99975 0,99976 3,5 0,99977 0,99978 0,99978 0,99979 0,99980 0,99981 0,99981 0,99982 0,99983 0,99983 3,6 0,99984 0,99985 0,99985 0,99986 0,99986 0,99987 0,99987 0,99988 0,99988 0,99989 3,7 0,99989 0,99990 0,99990 0,99990 0,99991 0,99991 0,99992 0,99992 0,99992 0,99992 3,8 0,99993 0,99993 0,99993 0,99994 0,99994 0,99994 0,99994 0,99995 0,99995 0,99995 3,9 0,99995 0,99995 0,99996 0,99996 0,99996 0,99996 0,99996 0,99996 0,99997 0,99997 z

Voorbeeld 2 :

Gegeven : Een populatievariabele die een standaardnormale verdeling volgt.

Gevraagd : Bereken het percentage waarnemingen gelegen

tussen –1,03 en 0,84.

In symbolen : P( –1,03 ⩽ Z ⩽ 0,84)

Oplossing : Omdat dit niet rechtstreeks af te lezen is in de tabel, herschrijven we het gevraagde.

P( –1,03 ⩽ Z ⩽ 0,84) = P( Z ⩽ 0,84) – P( Z ⩽ –1,03)

= F( 0,84) – P( Z ⩽ –1,03)

Nu is de grafiek van de standaardnormale verdeling symmetrisch t.o.v. de y -as, zodat :

P( Z ⩽ –1,03) = P( Z ⩾ 1,03) = 1 – P( Z < 1,03) = 1 – F( 1,03) P( –1,03 ⩽ Z ⩽ 0,84) = F( 0,84) – ( 1 – F( 1,03))

= F( 0,84) + F( 1,03) – 1

= 0,79955 + 0,84849 – 1

= 0,64804

Het percentage waarnemingen gelegen tussen –1,03 en 0,84 of de kans dat een waarneming ligt tussen –1,03 en 0,84 bedraagt dus 64,804%.

Voorbeeld 3 :

Gegeven : Een populatievariabele die een normale verdeling volgt met gemiddelde m = 20 en standaardafwijking s = 4.

Gevraagd : Bereken het percentage waarnemingen die groter zijn dan 22.

In symbolen : P( X ⩾ 22)

Oplossing : Door over te gaan op de standaardnormale verdeling kunnen we problemen i.v.m. andere normale verdelingen dan de standaardnormale terugbrengen naar de standaardnormale.

111 3 De normale verdeling

y 3 2 1 1 2 3 0,1 0,2 0,3 0,4 0 0 x y 3 2 1 1 2 3 0,1 0,2 0,3 0,4 0 0

x y 3 2 1 1 2 3 0,1 0,2 0,3 0,4 0 0 x y 3 2 1 1 2 3 0,1 0,2 0,3 0,4 0 0

( X

)= P X µ σ

P (Z 0,5) = 1 P (Z

0,5) = 1 Φ (0,5) = 1 0,69146

0,30854 = 30,854% x y 3 2 1 1 2 3 0,1 0,2 0,3 0,4 0 0

22 20

3 Enkele kritieke z-waarden

Voorbeeld 1 : thee

Gegeven : In een fabriek worden pakjes thee machinaal gevuld. De massa van die pakjes is normaal verdeeld met gemiddelde massa m = 255 gram en standaardafwijking σ = 4 gram.

Gevraagd : Bereken een symmetrisch interval rond m waarbinnen zich 90%, respectievelijk 95% en 99% van de massa van de pakjes thee bevindt.

Oplossing : Voor het 90%-interval moeten we a bepalen zodat : P( m – a s < X < m + a s) = 90%

P (µ a σ< X <µ + a σ )= 0,90

P a < X µ σ < a = 0,90

P ( a < Z < a )= 0,90 wegenssymmetrie(zieﬁguur)

P (Z < a )= 0,95 ICT

a = 1,6448 =⇒ a ≈ 1,645

In de praktijk gebruiken we meestal 1,65.

De a -waarde noteren we meestal als z 90% en algemeen kunnen we stellen dat bij een normale verdeling 90% van de waarnemingen zich situeert binnen het (symmetrisch rond m gelegen) interval [ m – 1,65 s, m + 1,65 s]

Op een analoge manier vinden we z 95% = 1,96 en z 99% = 2,58 zodat we kunnen stellen dat 95% van de waarnemingen zich bevindt binnen het interval [ m – 1,96 s, m + 1,96 s] en 99% van de waarnemingen binnen het interval [ m – 2,58 s, m + 2,58 s]

Algemeen

a % van de waarnemingen bij een normale verdeling ligt binnen het interval [ m – z a · s, m + z a · s] met o.a. z 90% = 1,65 ; z 95% = 1,96 ; z 99% = 2,58.

Toegepast op het voorbeeld geeft dit de volgende resultaten :

90% van de pakjes thee heeft een massa binnen het interval :

[ 255 – 1,65 4 ; 255 + 1,65 4] = [ 248,4 ; 261,6]

95% van de pakjes thee heeft een massa binnen het interval :

[ 255 – 1,96 4 ; 255 + 1,96 4] = [ 247,16 ; 262,84]

99% van de pakjes thee heeft een massa binnen het interval :

[ 255 – 2,58 4 ; 255 + 2,58 4] = [ 244,68 ; 265,32]

112

a a 0 5% 5% 90% a 0 5% 95% 0,06 0,05 2% 244,68 247,16 248,4 m = 255 261,6 262,84 265,32 m –2,58 s m –1,96 s m –1,65 s m +1,65 s m +1,96 s m +2,58 s 2,5% 2,5% 2% 90% massa in gram

Voorbeeld 2 : 68-95-99,7 %-regel

Gegeven : De diameter van de schroeven, die in de productieafdeling van een bepaalde firma gemaakt worden, kan beschouwd worden als een normaal verdeelde variabele met gemiddelde m = 4 mm en standaardafwijking s = 0,2 mm.

Gevraagd :

a Hoeveel procent van de schroeven hebben een diameter gelegen in het interval

[ m – s, m + s] = [ 4 – 0,2 ; 4 + 0,2] = [ 3,8 ; 4,2]?

b En in de intervallen [ m – 2s, m + 2s] = [ 3,6 ; 4,4] en [ m – 3s, m + 3s] = [ 3,4 ; 4,6]?

Oplossing :

a P( m – s < X < m + s)

= P( 3,8 < X < 4,2)

= 0,683

= 68,3%

Hieruit volgt dat z 68,3% = 1.

b P( m – 2s < X < m + 2s)

= P( 3,6 < X < 4,4)

= 0,955 = 95,5%

Hieruit volgt dat z 95,5% = 2.

P( m – 3s < X < m + 3s)

= P( 3,4 < X < 4,6)

= 0,997

= 99,7%

Hieruit volgt dat z 99,7% = 3.

Uit dit voorbeeld blijkt waar de 68%-95%-99,7%-regel bij de normale verdelingen vandaan komt.

113 3 De normale verdeling

Voorbeeld 3 : honden

Gegeven : De massa van een bepaald hondenras is normaal verdeeld met gemiddelde massa m = 8,2 kg en s = 1,1 kg.

Gevraagd : a Bereken een symmetrisch interval rond m waarbinnen zich 95% van de massa van dit hondenras bevindt.

b Boven welke minimumgewichtsgrens bevindt zich 95% van de massa van dit hondenras ?

c Beneden welke maximumgewichtsgrens bevindt zich 95% van de massa van dit hondenras ?

Oplossing :

X ∼ N( m = 8,2 kg, s = 1,1 kg)

a Voor het symmetrisch interval rond m maken we gebruik van de gevonden z -waarde in vorig voorbeeld : 95 % van de honden van dit hondenras heeft een massa (in kg) binnen het interval :

[ m – z 95% s, m + z 95% s]

= [ m – 1,96s ; m + 1,96s]

= [ 8,2 – 1,96 1,1 ; 8,2 + 1,96 1,1]

= [ 6,044 ; 10,356]

b Voor het bepalen van de minimumgewichtsgrens moeten we a zo bepalen dat :

P( X > a ) = 95% of

P( X ⩽ a ) = 5%

waaruit

a = 6,39 kg

Taak : verklaar waarom a = m – 1,645 s

c Voor het bepalen van de maximumgewichtsgrens moeten we a zo bepalen dat :

P( X < a ) = 95%

waaruit

a = 10,01 kg

Taak : verklaar waarom a = m + 1,645 s

114

De normale verdeling

Ontdekking van de normale verdeling

De ontdekking van de normale verdeling wordt toegeschreven aan Abraham de Moivre (1667 –1754), die sinds 1685 in Londen woonde en een goede vriend was van Isaac Newton.

de Moivre voorzag in zijn levensonderhoud door voor gegoede burgers hun winstkansen bij kansspelen te berekenen. In 1718 publiceerde hij zijn werk ‘The Doctrine of Chances’ over kansberekeningen bij kansspelen. de Moivre ontdekte de normale verdeling door kansen te berekenen bij experimenten waarbij de kans op elk van de twee mogelijke uitkomsten even groot is, zoals bij het bord van Galton. In 1733 publiceerde hij een artikel waarin hij het kanshistogram van de binomiale verdeling benaderde door een vloeiende klokvormige kromme. Die vloeiende kromme beschrijft de normale verdeling. Daarin gaf hij ook de twee vuistregels van de normale verdeling : 2 3 van de waarnemingen wijkt niet meer dan een standaardafwijking af van het gemiddelde en 95% niet meer dan twee standaardafwijkingen.

Foutenkromme in de astronomie

Het artikel van de Moivre bleef onopgemerkt tot Karl Pearson het in 1924 herontdekte. Intussen werd de normale verdeling ook gevonden door Laplace en Gauss. Pierre Simon Laplace (1749 –1827) gebruikte de normale verdeling in 1783 om de verdeling van meetfouten te beschrijven.

Later gebruikte de beroemde Duitse wiskundige Carl Friedrich Gauss (1777 –1855) de normale verdeling ook om gegevens uit de astronomie te analyseren. Toen omstreeks 1800 de Italiaan Piazzi de eerste planetoïde (Ceres) ontdekte, was Gauss directeur van het observatorium in Göttingen. Gauss slaagde erin, uitgaande van een gering aantal gegevens, de baan van Ceres nauwkeurig te berekenen. Hij gebruikte hiervoor de methode van de kleinste kwadraten en ontdekte zo de theorie van de normale verdeling. Hij slaagde erin om een functie te bepalen die precies dezelfde graﬁek heeft als de klokvormige frequentiekromme van de normale verdeling. Het resultaat verscheen in het artikel ‘Bestimmung der Genauigkeit der Beobachtingsfehler’ (1816) :

Sindsdien noemen we die kromme de gausscurve Gauss gebruikte zijn kennis van statistiek om de beursevolutie te voorspellen. Naar verluidt brachten zijn beleggingen op de beurs meer op dan wat hij verdiende als professor in Göttingen.

115 3 De normale verdeling

f ( x )= 1 √2π s e ( x m )2 2 s 2

Laplace Carl Friedrich Gauss

Sociale statistiek

In 1835 publiceerde de Belgische wiskundige Adolphe Quetelet (1796 –1874) vele statistische gegevens over de fysieke eigenschappen van de mens in zijn werk ‘Sur l’homme et le développement de ses facultés. Essai d’une physique sociale’.

Hij was de eerste persoon die de normale verdeling toepaste op sociale gegevens.

Hij verzamelde gegevens over de borstomvang van Schotse soldaten en de lengte van Franse soldaten. Hij constateerde dat beide normaal verdeeld waren.

Aanvankelijk hield Quetelet zich bezig met sterrenkunde. Via de meetfoutentheorie maakte hij kennis met de normale verdeling. Hij was ervan overtuigd dat niet alleen meetfouten ontstonden als gevolg van het toeval, maar dat heel wat aspecten van het menselijk leven ook bepaald worden door het toeval.

Quetelet deﬁnieerde de gemiddelde mens als iemand waarbij alle lichaamsmaten een gemiddelde grootte hebben. Volgens hem moest dit ideaaltype mens het onderwerp van studie zijn in de sociale statistiek. Niet iedereen was het hierover met hem eens. Hij riep ook het eerste Internationale Statistische Congres bij elkaar in 1853 in Brussel.

Quetelet kan beschouwd worden als de vader van de sociale wetenschappen.

Mathematische statistiek

De Britse geleerde Francis Galton (1822 –1911), een neef van Charles Darwin, was geen wiskundige maar een wetenschapper. Hij was niet zoals Quetelet geïnteresseerd in het gemiddelde, maar juist in de afwijkingen van het gemiddelde. Hij wilde laten zien dat bij veel menselijke kenmerken, die voor het grootste deel door erfelijkheid zijn bepaald, afwijkingen naar boven en naar beneden een logisch verschijnsel zijn. Hij paste statistische methoden toe bij de analyse van sociale gegevens en erfelijke eigenschappen (eugenetica). Galton ontwierp zijn knikkerbord om bij lezingen te illustreren hoe een reeks opeenvolgende toevallige gebeurtenissen (naar links of naar rechts vallen) tot een normale verdeling leiden. Hij werkte met het begrip standaarddeviatie als maat voor de spreiding van de normale verdeling. In 1892 introduceerde hij de begrippen regressie en correlatiecoëfﬁciënt, een maat voor de correlatie tussen statistische variabelen (bijvoorbeeld lengte en gewicht).

Hij was een man uit de praktijk die deze begrippen vorm en inhoud gaf. Hij was echter geen theoreticus die de begrippen in een groter geheel kon plaatsen. Dat laatste was het werk van Karl Pearson. Galton richtte aan het Londense University College een leerstoel in de eugenetica op en zorgde zo voor de ontwikkeling van de wiskundige statistiek.

Florence Nightingale (1820 –1910)

Florence Nightingale

Ten slotte is ook de bijdrage van Florence Nightingale een vermelding waard. Ze was een uitstekende wiskundige die sterk beïnvloed was door het werk van Quetelet. Ze is niet alleen bekend geworden om haar verplegend werk, maar ook door het pool- of roosdiagram waarmee ze de sterftegevallen in de Britse militaire hospitalen ten tijde van de Krimoorlog in 1855 in beeld bracht (zie hiernaast). In de ﬁguur zijn de oppervlakten van de cirkelsegmenten de maat voor de slachtoffers. Een dergelijk diagram was nog niet eerder ontworpen. Met dit diagram wilde Nightingale de Engelse politici duidelijk maken dat de sterfte onder de soldaten een gevolg was van slechte hygiënische omstandigheden en veel minder van het oorlogsgeweld. Zo kon zij, gebruikmakend van haar statistische gegevens en voorstellingen, de autoriteiten ervan overtuigen te investeren in hygiënische hervormingen in de militaire hospitalen.

116

3.5 Toepassingen

1 Suiker

Gegeven :

Een machine vult pakken met suiker. De massa suiker die door de machine afgeleverd wordt, is normaal verdeeld met m = 1015 gram en s = 10 gram.

Gevraagd :

– Hoeveel % van de afgeleverde pakken bevat minder dan 1 kg ?

– Boven welke gewichtsgrens ligt 10% van de pakken suiker ?

– Stel dat het mogelijk is om de afstelling van het vulapparaat (d.w.z. de gemiddelde hoeveelheid m) te veranderen zonder dat de standaarddeviatie verandert. Hoe moet het gemiddelde gekozen worden opdat slechts 1% van de pakken suiker een massa heeft van minder dan 1 kg ?

Oplossing :

We lossen de opgave op met zowel ICT als met de tabel van de standaardnormale verdeling. Het is logisch dat bij oefeningen een van beide methoden volstaat.

Het vulgewicht van de pakjes suiker kunnen we grafisch voorstellen door de normale verdeling

N( m = 1015, s = 10).

Hoeveel % van de afgeleverde pakken bevat minder dan 1 kg ?

P ( X < 1000)= ?

P ( X < 1000)= P X µ σ < 1000 1015 10

= P (Z < 1,5)

= P (Z > 1,5)

= 1 P (Z 1,5)

= 1 Φ (1,5)

= 0,06681

Antwoord : 6,68%

MetGeoGebra:

X ∼ N (µ = 1015, σ = 10)

P ( X a )= Normaal (µ, σ , a )

P ( X 1000)= Normaal (1015,10,1000)= 6,68%

117 3 De normale verdeling

980 0,01 0 0,02 0,03 0,04 990

1010 1020 1030 1040

1000

1050

Boven welke gewichtsgrens ligt 10% van de pakken suiker ?

P( X > ?) = 10% = 0,1

P ( X > x )= 0,1

P Z > x 1015 10 = 0,1

P Z x 1015 10 = 0,9 terugzoekentabel

P Z x 1015 10 = Φ (1,28)

x 1015 10 = 1,28

x = 1027,8

Antwoord : 1027,8 gram

MetGeoGebra:

P ( X a ) > b =⇒ a = InverseNormaal (µ, σ , b )

P ( X a ) > 90% =⇒ a = InverseNormaal (1015,10,0,90)= 1027,8

Stel dat het mogelijk is om de afstelling van het vulapparaat (d.w.z. de gemiddelde hoeveelheid m) te veranderen zonder dat de standaarddeviatie verandert. Hoe moet het gemiddelde gekozen worden opdat slechts 1% van de pakken suiker een massa heeft van minder dan 1 kg ?

Bepaal µ zodatP ( X 1000) = 1% = 0,01

P Z 1000 µ 10 = 0,01 wegenssymmetrie

P Z 1000 µ 10 = 0,01

P Z < 1000 µ 10 = 0,99 terugzoekentabel

P Z < 1000 µ 10 = Φ (2,33)

1000 µ 10 = 2,33

µ = 1023,3

Antwoord : 1023,3 gram

Met Geogebra :

118

2 Granaatappelen

Gegeven : Een partij granaatappelen is normaal verdeeld met een gemiddelde massa van m = 135 gram en s = 15 gram. We wensen die partij op te splitsen in 4 massaklassen die allemaal evenveel granaatappelen bevatten.

Gevraagd : Bepaal de grenzen van die vier klassen.

Oplossing : X ∼ N( m = 135 gram, s = 15 gram)

We moeten nu de waarden a , b en c bepalen waarvoor geldt :

P( X < a ) = 25%

P( a ⩽ X < b ) = 25%

P( b ⩽ X < c ) = 25%

P( c ⩽ X ) = 25% of nog :

P( X < a ) = 25%

P( X < b ) = 50%

P( X < c ) = 75%

Antwoord :

De grenzen om de partij granaatappelen op te splitsen in 4 massaklassen zijn : klasse 1 : granaatappelen met een massa kleiner dan 124,88 gram

klasse 2 : granaatappelen met een massa tussen 124,88 en 135 gram

klasse 3 : granaatappelen met een massa tussen 135 en 145,12 gram

klasse 4 : granaatappelen met een massa groter dan 145,12 gram

3 Wrijvingsringen

Gegeven : De diameter van een reeks machinaal vervaardigde wrijvingsringen is normaal verdeeld met gemiddelde m = 16,02 mm en standaardafwijking s = 0,14 mm. De toegelaten speling rond het gemiddelde bedraagt 0,18 mm.

Gevraagd : Bereken hoeveel procent van de ringen wordt afgekeurd.

Oplossing : P( X > 16,02 + 0,18) + P( X < 16,02 – 0,18) = ?

P ( X > 16,02 + 0,18)+ P ( X < 16,02 0,18)

= P ( X > 16,2)+ P ( X < 15,84)

= 1 P (15,84 X 16,2)

= 1 P 15,84 16,02 0,14 Z 16,2 16,02 0,14

= 1 P ( 1,286 Z 1,286)

wegenssymmetrie

= 1 2 P (0 Z 1,286)

= 1 2 P (Z 1,286) 0,5

= 2 2

· P (Z 1,286)

= 2 2

Φ (1,286)

= 2 2 0,90077

= 0,19846

Antwoord : 19,85% van de ringen wordt afgekeurd.

119 3 De normale verdeling

15,2 0,5 0 1 1,5 2 2,5 15,4 15,6 15,8 16 16,2 16,4 16,6 16,8

4 De industriële bakkerij

Op een lopende band van een industriële bakkerij worden dagelijks honderden gebakjes gemaakt waarvan de massa normaal verdeeld is. Bereken de gemiddelde massa en de standaardafwijking van zo’n gebakje als je weet dat 10% van de gebakjes een massa heeft die kleiner is dan 60 gram en 95% een massa heeft die kleiner is dan 69 gram.

Oplossing :

X ∼ N( m = ?, s = ?)

P ( X < 69)= 0,95

P ( X < 60)= 0,1

P Z < 69 µ σ = 0,95

P Z < 60 µ σ = 0,1

Antwoord :

De gemiddelde massa is 63,94 gram en de standaardafwijking 3,07 gram.

Grafische controle :

120

=⇒       

=⇒     

µ σ

=⇒

=⇒ σ

= 1,645 60

= 1,282

1,645σ +

= 69 1,282σ + µ = 60

= 3,07 µ = 63,94

5 Genereren van een steekproef

• genereren van een steekproef

Met het commando ToevalsgetalNormaal( µ, σ) kun je in GeoGebra een enkelvoudige aselecte steekproef (EAS) simuleren uit een normaal verdeelde toevalsveranderlijke X ∼ N( µ, σ).

We simuleren een steekproef met grootte 70 uit een normaal verdeelde grootheid X ∼ N( µ = 80, σ = 7).

Nadien berekenen we het gemiddelde en de standaardafwijking van die steekproef met de commando’s :

gemiddelde :

= gemidd(lijst waarnemingen)

standaardafwijking :

= stafw(lijst waarnemingen)

• nagaan of die steekproef inderdaad een steekproef is uit een normaalverdeling

Via een ‘quantile-quantile plot’ (QQ-plot), ook wel ‘normal probability plot’ genaamd, kun je nagaan of een dataset gegevens bevat uit een normaal verdeelde kansvariabele of niet.

Liggen alle punten van de quantile-quantile plot min of meer op een rechte lijn, dan mag je aannemen dat de dataset gegevens bevat uit een normaal verdeelde populatie.

In GeoGebra teken je een quantile-quantile plot met het commando :

kwantielplot(lijst)

121 3 De normale verdeling

3.6 Steekproevenverdeling

Om informatie over een onbekende populatie te krijgen, moet je steekproeven trekken. Elke steekproef levert je informatie over de onbekende populatie. Zo kun je van elke steekproef die je genomen hebt, het steekproefgemiddelde en de standaardafwijking berekenen.

Als je steekproeven neemt van gelijke grootte en bijvoorbeeld van elke genomen steekproef het gemiddelde berekent, dan vormen die gemiddelden een steekproevenverdeling. Die steekproevenverdeling is normaal verdeeld.

Voorbeeld :

Gegeven is de verzameling van de eerste 1000 natuurlijke getallen.

We doen hieruit 30 aselecte trekkingen van 40 getallen en bepalen hiervan steeds het gemiddelde.

Trekking 1 : We vinden voor de waarden van de dertig gemiddelden :

Stellen we die gemiddelden voor op een QQ-plot :

Dan zien we dat die steekproefgemiddelden inderdaad normaal verdeeld zijn.

122

518,1 472,8 515,3 468,6 469,4 499,0 587,2 446,8 540,5 515,2 529,5 460,1 523,1 595,6 494,0 509,3 461,7 457,9 538,3 471,7 487,4 464,7 535,2 546,0 488,0 593,3 472,1 506,5 505,8 515,5

3.7 Samenvatting en oefeningen

1 Samenvatting

• Je kent de definitie van een dichtheidskromme.

Een dichtheidskromme beschrijft het algemeen patroon van een verdeling.

Het is een kromme die zich altijd op of boven de x -as bevindt en waarvan de oppervlakte onder de kromme gelijk is aan 1.

De oppervlakte onder de kromme in een willekeurig interval is de kans dat de waarnemingen binnen dat interval liggen.

• Je weet dat normale verdelingen symmetrische, ééntoppige, klokvormige dichtheidskrommen zijn die allemaal dezelfde globale vorm hebben.

• Je weet dat het algemeen functievoorschrift voor een normale verdeling f ( x )= 1 σ √2π e 1 2 x µ σ 2 is met m het gemiddelde en s de standaardafwijking.

Notatie : N( m, s)

Als een populatievariabele normaal verdeeld is met gemiddelde m en standaardafwijking s, dan noteren we dit verkort als : X ∼ N( m, s)

• Je kent de 68-95-99,7-regel.

Bij de normale verdeling met gemiddelde m en standaardafwijking s geldt :

68,3% van de waarnemingen ligt binnen het interval [ m – s, m + s]

95,5% van de waarnemingen ligt binnen het interval [ m – 2s, m + 2s]

99,7% van de waarnemingen ligt binnen het interval [ m – 3s, m + 3s]

• Je kent de betekenis van m en s in het functievoorschrift van de normale verdeling.

Als we de grafiek van de normale verdeling y = N( 0, 1) als referentiepunt nemen, dan wordt die grafiek naar rechts verschoven over een afstand m als m > 0 en naar links verschoven over een afstand | m | als m < 0 (bij constante s) en dan wordt die grafiek uitgerokken met factor 1 σ volgens de richting van de y -as en met factor s volgens de richting van de x -as (bij constante m). De waarde van s geeft aan of de curve breed (bij een grote standaardafwijking) of spits is.

• Je kent de betekenis van een z-score.

Als x een waarneming is uit N( m, s), dan is z de gestandaardiseerde waarde of z -score van x als z = x µ σ . Een z -score geeft aan hoeveel standaardafwijkingen de oorspronkelijke waarneming van het gemiddelde verwijderd is en in welke richting.

• Je weet dat de standaardnormale verdeling een normale verdeling is met m = 0 en s = 1.

123 3 De normale verdeling

• Je kent de betekenis van enkele kritieke z-waarden.

symmetrisch gebied rond het populatiegemiddelde m , uitgedrukt in de vorm [ m – a s, m + a s]

percentage van de populatie in het gebied [ m – a s, m + a s]

Six sigma

Ook in het bedrijfsleven heeft statistiek een vaste plaats veroverd. Zo staan momenteel o.a. kwaliteitsprogramma’s om de rendabiliteit te verhogen erg in de belangstelling en in die moderne kwaliteitszorg spelen statistische methoden en technieken een belangrijke rol. De methoden die in het begin van de 20e eeuw ontwikkeld werden, zijn operationeel gemaakt in het kwaliteitsprogramma Statistische Procesbeheersing (SPC – Statistical Process Control).

Vooral in Japan werd na de Tweede Wereldoorlog SPC toegepast in productieprocessen, administratie, aan- en verkoop, planning enz. Vaak waren die processen gebaseerd op het ‘3 sigma-principe’ dat 99,73% van de producten geen mankementen mag vertonen. Je kunt dit vergelijken met de 68-95-99,7-regel : ‘productie moet binnen het gebied [μ – 3σ, μ + 3σ ] liggen’. 99,73% lijkt een goed resultaat, maar dat betekent toch dat er per miljoen stuks 2700 mankementen vertonen. Dat zou onder meer betekenen dat in een gemiddelde Amerikaanse bank per dag zo’n 54 000 cheques verloren zouden gaan, dat in een gemiddeld telecombedrijf per maand zo’n 4000 facturen verkeerd opgesteld zouden worden en dat, gezien de vele schakelingen binnenin, zowat geen enkele computer foutloos zou werken.

Daarom werd in 1987 door Motorola een nieuw verbeteringsprogramma opgestart onder de naam ‘6 sigma’. Dit systeem houdt in dat er per miljoen producten slechts 3,4 fouten zouden zijn. Je kunt dit vergelijken met een uitbreiding van de 68-95-99,7-regel : ‘productie ligt nu binnen het gebied [μ – 6σ, μ + 6σ ]’. Op die manier wordt dus verwezen naar zesmaal de standaarddeviatie, vandaar de naam ‘zes sigma’.

Het systeem kreeg vooral bekendheid toen het in 1996 door General Electric werd ingevoerd. Dit bedrijf investeerde enorm veel geld in de implementatie van six sigma : $ 200 miljoen in het 1e jaar, $ 400 miljoen in het 2e en 3e jaar. De besparingen waren echter indrukwekkend : $ 150 miljoen in het eerste jaar, $ 600 miljoen in het 2e jaar, $ 1200 miljoen in het 3e jaar en ondertussen zijn die besparingen al opgelopen tot $ 6,6 miljard per jaar.

De tijd dat in het bedrijfsleven beslissingen t.a.v. kwaliteit gebaseerd waren op aanvoelen en ervaring is voorbij. Nu regeren systemen waarbij geschikte informatie wordt verzameld en gemeten en waarbij wordt bepaald hoe die informatie gebruikt kan worden. En hierbij speelt statistiek een doorslaggevende rol.

124

[ m – 1,65s, m + 1,65s] 90% [ m – 1,96s, m + 1,96s] 95% [ m – 2,58s, m + 2,58s] 99%

2 Oefeningen

Gegeven : Z ∼ N( 0, 1)

Gevraagd :

Bereken met de tabel van de standaardnormale verdeling en controleer met ICT.

a P( Z ⩽ 2,22)

b P( Z < –1,1)

c P( –1,1 < Z < 3)

d P( Z > 3)

e P( Z ⩾ –1,59)

Gegeven : X ∼ N( 80, 10)

Gevraagd : Bereken met behulp van de tabel van de standaardnormale verdeling en controleer met ICT.

a P( X > 95)

b P( 90 ⩽ X ⩽ 100)

c P( X ⩾ 80)

d P( 70,5 < X < 85,5)

e P( X ⩽ 90)

Gegeven : Z ∼ N( 0, 1)

Gevraagd :

Bereken a met twee decimalen als gegeven is :

a P( Z ⩽ a ) = 65%

b P( 1 < Z < a ) = 15%

c P( –1 ⩽ Z ⩽ a ) = 35%

d P( Z > a ) = 55%

e P( a < Z < 1) = 25%

f P( –a < Z < a ) = 45%

: X ∼ N( 80, 10) Gevraagd : Bereken a met drie decimalen als gegeven is : a

3 125 De normale verdeling

P( 80

⩽

P( X < a ) = 0,05

P( a < X < 80) = 0,45 d P( X > a ) = 0,025 1 x y -3,5 -3 -2,5 -2 -1,5 -1 -0,5 0,5 1 1,5 2 2,5 3 3,5 0,05 0,1 0,15 0,2 0,25 0,3 0,35 0,4 0 0 2 3 x y -3,5 -3 -2,5 -2 -1,5 -1 -0,5 0,5 1 1,5 2 2,5 3 3,5 0,05 0,1 0,15 0,2 0,25 0,3 0,35 0,4 0 0 4

Gegeven

⩽ X

a ) = 0,25 b

De tijd die 90 studenten nodig hebben voor een laboproef is zorgvuldig opgemeten. Die tijden (uitgedrukt in minuten) staan in de volgende tabel.

a Bereken het gemiddelde en de standaardafwijking.

b Teken het bijbehorende histogram. Neem als klassenbreedte 2 minuten.

c Is de 68-95-99,7-regel hier van toepassing ?

d In de veronderstelling dat die tijden normaal verdeeld zijn, teken die normale verdeling en bereken :

• hoeveel % van de studenten minder dan 1 uur nodig had voor de proef ;

• hoeveel % van de studenten meer dan 1 uur, maar minder dan 75 minuten nodig had voor de proef ;

• hoeveel % van de studenten langer werkte dan 75 minuten. Benader m door x en s door s .

In een fabriek worden op machinale wijze appelen verpakt (per zes stuks). De massa van 70 pakken wordt tot op een gram nauwkeurig gewogen. De resultaten zijn :

a Bereken het gemiddelde en de standaardafwijking.

b Teken het bijbehorende histogram. Neem als klassenbreedte 10 gram.

c Is de 68-95-99,7-regel hier van toepassing ?

d Als we veronderstellen dat de massa van die pakken normaal verdeeld is, teken dan die normale verdeling en bereken :

• hoeveel % van de pakken minder weegt dan 1,1 kg ;

• hoeveel % van de pakken meer weegt dan 1,2 kg ;

• hoeveel % van de pakken tussen 1,1 kg en 1,2 kg weegt.

Benader m door x en s door s .

126

69 72 71 92 67 73 53 78 76 61 69 67 85 90 79 67 75 71 74 92 78 84 80 80 68 64 77 83 56 69 73 93 66 73 70 60 70 65 79 72 66 64 69 73 62 88 49 59 76 87 82 69 77 66 52 85 64 72 57 61 69 73 57 70 60 58 63 77 58 84 64 55 82 66 69 56 71 78 71 89 63 62 79 72 79 89 78 70 76 65

1136 1099 1162 1123 1139 1121 1184 1154 1217 1151 1182 1190 1134 1108 1133 1192 1140 1077 1129 1136 1180 1062 1043 1239 1178 1112 1111 1112 1148 1130 1131 1089 1092 1176 1060 1097 1171 1179 1124 1208 1092 1069 1115 1103 1109 1209 1168 1083 1059 1006 1069 1124 1136 1196 1099 1145 1192 1139 1208 1124 1137 1107 1143 1167 1136 1255 1143 1171 1120 1137

5 6

Een consumentenorganisatie doet een controle op de massa van pakken hondenvoer. Daartoe wegen ze 50 zakken die normaal gezien 500 gram moeten bevatten. De resultaten (in gram) staan in de volgende tabel.

a Bereken het gemiddelde en de standaardafwijking.

b Als we veronderstellen dat de massa van die pakken normaal verdeeld is, hoeveel % van de pakken bevat dan niet de gewenste hoeveelheid van 500 gram ? Benader m door x en s door s

In een bepaalde volksgroep is de gemiddelde lengte van jongens van 10 jaar 1,43 m en de standaardafwijking bedraagt 6 cm. Voor jongens van 18 jaar bedragen die getallen respectievelijk 1,77 m en 8 cm.

Pieter, 10 jaar, meet 1,45 m en Nicolas, 18 jaar, meet 1,795 m. Wie van de twee is relatief de grootste ?

Op het rapport van Christophe staan naast zijn punten ook het klasgemiddelde en de standaardafwijking. Hieronder vind je een deel van zijn rapport.

a Standaardiseer (= z -score) de scores van Christophe voor elk vak .

b Voor welk vak heeft Christophe relatief (= vergeleken met de rest van zijn klas) het beste gewerkt ?

c Voor welk vak heeft Christophe relatief het minst goed gewerkt ?

Als een nijlpaard gemiddeld 2300 kg weegt met een standaardafwijking van 300 kg, een zebra gemiddeld 290 kg met een standaardafwijking van 45 kg en een konijn gemiddeld 4,7 kg met een standaardafwijking van 0,3 kg, welk dier weegt dan relatief t.o.v. zijn soortgenoten het zwaarst, respectievelijk het lichtst : een nijlpaard van 2420 kg, een zebra van 320 kg of een konijn van 4,85 kg ?

Een wiskundewedstrijd op 100 punten waarvan de uitslag als normaal verdeeld beschouwd mag worden, heeft als gemiddelde 70 punten en als standaardafwijking 15 punten. Annelore behaalde 58 punten, Bea 91 punten. De z -score van Greet was –1, die van Daisy 1,6. De uitslag van Evert was zo dat 30% van de andere deelnemers een betere uitslag behaalden.

a Standaardiseer de scores van Annelore en Bea.

b Hoeveel % van de deelnemers behaalde een score tussen die van Annelore en Bea ?

c Wat was het resultaat van Greet, Daisy en Evert ?

3 127 De normale verdeling

512 511 506 514 498 501 491 528 504 516 509 513 511 520 495 494 505 501 503 514 504 502 507 520 497 513 495 525 508 513 503 493 496 502 526 504 514 504 499 504 523 511 522 511 501 528 512 516 506 503

vak score Christophe (op 20) klasgemiddelde standaardafwijking ENGELS 15 15,3 2,7 FRANS 11 10,6 3,1 FYSICA 12 11,1 2,4 WISKUNDE 14 12,7 3,5

7 8 9 10 11

Onderstaande figuur toont de grafieken van drie normale verdelingen .

a Welke verdeling heeft het kleinste gemiddelde ?

b Welke verdeling heeft het grootste gemiddelde ?

c Welke verdeling heeft de kleinste standaardafwijking ?

d Welke verdeling heeft de grootste standaardafwijking ?

e Welke verdeling heeft als gemiddelde 2 en als standaardafwijking 3 ?

f Welke verdeling heeft als gemiddelde 4 en als standaardafwijking 2 ?

g Welke verdeling heeft als gemiddelde 6 en als standaardafwijking 4 ?

Welke normale verdeling hoort bij welke grafiek ?

a X 1 ∼ N( 4, 2)

b X 2 ∼ N( 4, 3)

c X 3 ∼ N( 8, 2)

d X 4 ∼ N( 8, 3)

128

x y 10 5 5 10 15 20 0,02 0,04 0,06 0,08 0,1 0,12 0,14 0,16 0,18 0,2 0 0

x y 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 0,02 0,04 0,06 0,08 0,1 0,12 0,14 0,16 0,18 0,2 0 0 12 13

Een fabrikant produceert vier verschillende types duikflessen. Ze onderzoeken per type duikfles hoeveel minuten een duiker de duikfles onder identieke omstandigheden kan gebruiken. In de onderstaande grafiek zijn de resultaten van dit onderzoek weergegeven, waarbij we in elk van de vier types een normale verdeling vaststellen. Welke van de volgende uitspraken is dan niet juist ?

tijd(inminuten)

(A) De kans dat een duiker een duikfles niet langer dan 40 minuten kan gebruiken, is het grootst bij een duikfles van type 4.

(B) De kans dat een duiker een duikfles na 80 minuten nog steeds kan gebruiken, is het grootst bij een duikfles van type 1.

(D) Een duiker kan een duikfles van type 3 gemiddeld het langst gebruiken.

Toelatingsexamen tandarts 2015, vraag 10

Vooraf : voor een standaard normaal verdeelde toevalsvariabele Z geldt de 68-95-99,7-vuistregel : P( –1 < Z < 1) ≈ 0,68 ; P( –2 < Z < 2) ≈ 0,95 ; P( –3 < Z < 3) ≈ 0,997.

De toevalsveranderlijke X 1 is normaal verdeeld met gemiddelde 10 en standaardafwijking 4 (grafiek 1).

De toevalsveranderlijke X 2 is ook normaal verdeeld maar met gemiddelde 11 en standaardafwijking 3 (grafiek 2).

De corresponderende grafieken snijden elkaar in de punten met x -coördinaat s ≈ 8,44 en t ≈ 16,13 (zie figuur).

Welke van de volgende vier uitspraken is vals ?

(A) P( X 1 > t ) < 0,16 en P( X 2 > s ) < 0,84

(B) P( X 1 > 14) = P( X 2 > 14)

(D) P( X 1 > t ) = P( X 2 > t )

3 129 De normale verdeling

40 50 60 70 80 90 —type1

—type2 —type3 —type4

x y 5 10 15 20 0,02 0,04 0,06 0,08 0,1 0,12 0,14 0 0 1 2 s t Toelatingsexamen arts 2015, vraag 10 14 15

De massa van een lading geplukte peren is normaal verdeeld met m = 120 gram en s = 20 gram. De teler wil de peren in 5 gewichtsklassen verdelen die allemaal evenveel peren bevatten. Wat is de klassengrens van de 20% peren die het zwaarst wegen ?

De tijd om in het labo chemie een bepaalde proef uit te voeren is normaal verdeeld met een gemiddelde van 54 minuten en een standaardafwijking van 8 minuten.

a In hoeveel procent van de gevallen duurt de proef langer dan één uur ?

b Hoeveel tijd moet een leerkracht chemie voor de proef voorzien opdat hij met een zekerheid van 90% kan stellen dat de proef binnen de gestelde tijd klaar is ?

De massa van eieren is normaal verdeeld met parameters :

m = 58 gram en s = 8 gram.

Eieren die tot de hoogste 10% in massa behoren, krijgen label A.

Welke massa moet een ei minstens hebben om het label A te krijgen ?

De lengte van de snoeken uit het voorbeeld op pagina 99 is normaal verdeeld met m = 77,5 cm en s = 4,7 cm.

a Welk percentage van die snoeken zal langer zijn dan 82 cm ?

b Duid de overeenkomstige oppervlakte aan op de grafiek van de normale dichtheidsfunctie die de lengte van de snoeken beschrijft.

c De 25% kleinste snoeken wordt terug in het water geworpen. Hoe lang moet een snoek dan minstens zijn om op de markt te komen ?

d De 10% langste snoeken krijgt het etiket ‘super-snoek’. Vanaf welke lengte is een snoek ‘super’ ?

Het aantal wafels dat door een handelaar verkocht wordt op de wekelijkse marktdag is normaal verdeeld met m = 275 en s = 25.

a Wat is de kans dat de handelaar tijdens een marktdag meer dan 235 wafels verkoopt ?

b Wat is de kans dat hij sommige klanten niet kan helpen als hij 310 wafels meebrengt naar de markt ?

c Hoeveel wafels moet hij meebrengen als hij wenst dat de kans om klanten te moeten teleurstellen ten hoogste gelijk mag zijn aan 0,01 ?

De duur van een zwangerschap (uitgedrukt in dagen) is normaal verdeeld met een gemiddelde van 266 dagen en een variantie van 256 dagen.

a Bereken het percentage zwangerschappen dat korter is dan 220 dagen.

b Bereken het percentage zwangerschappen dat minder dan 282 dagen maar meer dan 245 dagen zal duren.

130

16 17

18 19 20 21

De slaapduur bij een verdovingsmiddel is normaal verdeeld met m = 6 uur en s = 1,5 uur.

Mag een anesthesist bij toediening van dit middel voor 99% zeker zijn dat de patiënt minstens 3 uur verdoofd blijft ?

Glaucoom is een veel voorkomende ziekte van het oog, die in de meeste gevallen gepaard gaat met een te hoge druk binnen in het oog. Door verhoogde oogdruk kan beschadiging van de oogzenuw optreden met als gevolg uitschakeling van een deel van het gezichtsveld.

De oogdruk is in een normale populatie normaal verdeeld met een gemiddelde van 16 mmHg (kwikdruk) en een standaardafwijking van 5 mmHg. De druk wordt gemeten door middel van een tonometer. Er is sprake van verhoogde oogdruk vanaf 21 mmHg. Welk percentage van de bevolking heeft een oogdruk van meer dan 21 mmHg ?

De lichaamslengten van pasgeboren baby’s zijn normaal verdeeld met een gemiddelde m = 52,23 cm en een standaardafwijking s = 2,42 cm.

Als 99% van de pasgeborenen een lichaamslengte heeft die rond het gemiddelde valt, dan kun je de anderen echt als uitzonderlijk beschouwen. Hoe klein (of hoe groot) moet een pasgeboren kind zijn om tot de 1% uitzonderlijke lengten te behoren ?

De massa van een lading geplukte tomaten is normaal verdeeld met m = 120 gram en s = 20 gram.

Wat is de kans dat, als Lise willekeurig een tomaat pakt, die minder weegt dan 100 gram ?

De score op een test bij een selectieproef is normaal verdeeld met een gemiddelde van 236 punten en een standaardafwijking van 7 punten.

Vanaf welk puntenaantal is een kandidaat geslaagd als slechts 20% van de deelnemers mag doorgaan met de selectieprocedure ?

Een examen economie staat op 60 punten en wordt afgenomen bij 500 studenten. De scores op het examen zijn normaal verdeeld met een gemiddelde van 38 punten en een standaardafwijking van 5 punten.

Evert, die 43 op 60 behaalde, beweert dat hij bij de beste 100 is. Heeft hij gelijk ?

Veronderstel dat de levensduur van een vaatwasser normaal verdeeld is met een gemiddelde van 7 jaar en een standaardafwijking van 2 jaar. Een firma wil de garantieperiode zo bepalen dat de kans dat de vaatwasser stukgaat voor het verstrijken van de garantieperiode hoogstens 0,15 is.

Hoeveel jaar (oplossing uitdrukken in volledige jaren) mag de garantie dan maximaal duren ?

3 131 De normale verdeling

22 23 24 25 26 27 28

Op een fruitveiling zijn er door een vergissing te veel mango’s aangevoerd. Om de mangoprijs stabiel te houden besluiten ze om de kleinste mango’s niet te veilen. Via een steekproef vinden ze dat het gewicht van de mango’s normaal verdeeld is met een gemiddelde van 340 gram en een standaardafwijking van 30 gram.

a De 20% lichtste mango’s worden niet op de markt gebracht. Hoeveel moet een mango minstens wegen om geveild te worden ?

b Van de geveilde mango’s krijgen de 30% grootste (zwaarste) het label ‘xtra’. Vanaf welk gewicht is een mango ‘xtra’ ?

a Een variabele X is normaal verdeeld met gemiddelde m = 486 en s = 13. Binnen welk symmetrisch interval rond m ligt dan 70% van de waarnemingen ?

b Een variabele X is normaal verdeeld met gemiddelde m = 23 en s = 0,8. Binnen welk symmetrisch interval rond m ligt 85% van de waarnemingen ?

De tijd die een schoonmaakploeg nodig heeft om in een bungalowpark een bungalow te poetsen, is normaal verdeeld met een gemiddelde van 115 minuten en een standaardafwijking van 20 minuten.

Bereken :

a de kans dat de poetsbeurt langer dan 140 minuten zal duren;

b de tijdsduur t zodat in 92% van de gevallen de poetsbeurt niet langer duurt dan die tijd t

Zoek telkens het gevraagde.

GEGEVEN GEVRAAGD

a X ∼ N( m = ? , s = 5)

P( X ⩽ 20) = 72,57% m

b X ∼ N( m = ? , s = 12)

P( X ⩾ 80) = 74,75%

c X ∼ N( m = 67 , s = ? )

P( 85 < X < 90)

P( X < 70) = 64,62% s

* d X ∼ N( m = 110 , s = ? )

P( 100 < X < 116) = 48,91% s

e X ∼ N( m , s)

P( X ⩽ 50) = 22,66%

P( X > 52) = 59,87%

f X ∼ N( m , s)

P( X ⩽ 250) = 72,18%

m en s

132

29 * 30 31 32

P( X ⩾ 220) = 88,03% P( 210 <

< 260)

In een fabriek worden flessen automatisch gevuld. De inhoud van de flessen is normaal verdeeld rond de ingestelde vulinhoud. De standaardafwijking bedraagt 6 cm3. De fabrikant wenst dat 90% van de flessen een minimale inhoud van 500 cm3 heeft.

Op welke vulinhoud moet de machine worden ingesteld ?

Een vulmachine die pakken pasta vult, staat ingesteld op een gemiddelde van 505 gram per pak. We mogen veronderstellen dat het vullen gebeurt volgens een normale verdeling met m = 505 gram en een onbekende s

Bij nauwkeurig nawegen van een groot aantal pakken pasta blijkt 15% van de pakken minder dan 500 gram te bevatten.

Bereken de standaarddeviatie van de vulmachine.

Als Thomas thuis om 7.50 u. vertrekt naar school, is hij in 4% van de gevallen te laat voor de les die om 8.30 u. begint. Vertrekt hij om 7.45 u., dan is hij slechts in 1% van de gevallen te laat. In de veronderstelling dat de reistijd van Thomas naar school normaal verdeeld is, hoe laat moet hij dan thuis vertrekken om in niet meer dan 0,5% van de gevallen te laat te komen ?

De snelheden van wagens die op een bepaalde plaats van de autosnelweg passeren, zijn normaal verdeeld. Observaties tonen dat 95% van de wagens daar trager rijdt dan 120 km/h en 10% trager dan 90 km/h.

a Vind de gemiddelde snelheid van de wagens.

b Zoek het percentage van de wagens dat sneller rijdt dan 105 km/h.

In een fabriek worden machinaal kousen gemaakt. In de veronderstelling dat de lengte van de kousen normaal verdeeld is, bepaal dan de gemiddelde lengte en de standaardafwijking van de lengte van een kous als je weet dat 10,6% van de kousen een lengte heeft kleiner dan 44,5 cm en 5,3% een lengte heeft tussen 44,5 cm en 44,6 cm.

3 133 De normale verdeling

33 34 35 36 37

Als de brandduur van een bepaald type spaarlamp als normaal verdeeld mag worden beschouwd, bepaal dan de gemiddelde brandduur en de standaardafwijking als je weet dat 84,1% van de lampen langer brandt dan 6000 uur, maar slechts 2,3% van de lampen langer brandt dan 6700 uur.

De inhoud van potten honing is normaal verdeeld. Op welke gemiddelde inhoud (uitgedrukt in cl) is de vulmachine ingesteld en wat bedraagt de standaardafwijking als je weet dat 9,1% van de potten een inhoud heeft van meer dan 510 cl en 2,3% van de potten een inhoud heeft van minder dan 500 cl ? Machinaal gevulde flessen melk hebben een inhoud die normaal verdeeld is met een gemiddelde van 1,01 liter en een standaardafwijking van 65 ml.

a Bereken een symmetrisch interval van m waarbinnen zich respectievelijk 90%, 95% en 99% van de inhouden van de gevulde flessen bevindt.

b Bepaal de grenswaarde waarboven zich 90%, respectievelijk 95% en 99% van de inhouden van de gevulde flessen bevindt.

Ga via een quantile-quantile plot na dat de volgende gegevens afkomstig zijn uit een normaal verdeelde populatie. Bereken het gemiddelde en de standaardafwijking van de steekproef.

Genereer een steekproef van 200 gegevens uit een normaal verdeelde toevalsveranderlijke, bereken het steekproefgemiddelde en de standaardafwijking en ga via een quantile-quantile plot na dat de gegenereerde dataset inderdaad afkomstig is uit een normaal verdeelde populatie.

134

38 39 40 41 42

De Belgische wiskundige Adolphe Quetelet publiceerde in Lettres sur la théorie des probabilités, appliquée aux sciences morales et politiques (1846) de volgende gegevens over de borstomtrek van 5738 Schotse soldaten.

a Bereken het gemiddelde en de standaardafwijking van de steekproef.

b Teken het bijbehorende histogram. Neem als klassenbreedte 1 duim.

c Zoek m.b.v. GeoGebra de normale verdeling die bij dit histogram hoort.

d Bepaal aan de hand van die normale verdeling het percentage Schotse soldaten met een borstomtrek tussen 38 en 43 duim.

Onderzoeksopdracht.

Simuleer 35 aselecte steekproeven uit een normale verdeling met gemiddelde 210 en standaardafwijking 8. Bereken van elke steekproef het gemiddelde en stel die gemiddelden voor op een QQ-plot.

Gegeven : voor een standaard normaal verdeelde toevalsveranderlijke Z geldt : P( 0 < Z < 1,28) = 0,400 (afgeronde waarde tot op 3 decimalen).

Het nettogewicht van boontjes in blik van een bepaalde firma is normaal verdeeld met een standaardafwijking σ = 8 (uitgedrukt in gram). We stellen vast dat 10% van de geproduceerde blikken minder dan 200 gram boontjes bevat. Wat is de beste benadering voor het gemiddelde nettogewicht µ (uitgedrukt in gram) van de geproduceerde blikken ?

(A) 214

Toelatingsexamen arts 2022, vraag 8

Quetelet en de BMI

(B) 212

Nog dagelijks wordt gebruikgemaakt van een begrip dat in 1870 door de Gentenaar Quetelet ingevoerd werd : de queteletindex, beter bekend als de bodymassindex (of BMI). Die wordt als volgt berekend :

Volgens de WGO (Wereldgezondheidsorganisatie) worden de waarden als volgt geïnterpreteerd :

3 135 De normale verdeling

(D) 208

BMI = massa in kg (lengte in m)2

BMI < 18,5 ondergewicht 25 ⩽ BMI

18,5 ⩽ BMI < 25 gezond gewicht BMI ⩾ 30 obesitas 43 BORSTOMTREK (in duim) 1 Engelse duim = 1 inch = 2,54 cm AANTAL SOLDATEN 33 3 34 18 35 81 36 185 37 420 38 749 39 1073 40 1079 41 934 42 658 43 370 44 92 45 50 46 21 47 4 48 1 44 45

overgewicht

De normale verdeling 3

136 WAT MOET JE KENNEN EN KUNNEN ?

pagina Ik weet wanneer een dichtheidskromme mag benaderd worden door een normaal verdeelde kansverdeling. 101 Ik ken de 68-95-99,7-regel van een normaal verdeelde kansverdeling. 102 Ik ken de grafische betekenis van gemiddelde en standaardafwijking van een normaal verdeelde kansvariabele. 107 Ik ken de standaardnormale verdeling. 109 Ik weet dat kans kan uitgedrukt worden als oppervlakte van een gepast gebied onder de grafiek van een normaal verdeelde kansvariabele. 109 Ik kan kansen bij een standaardnormaal verdeelde kansvariabele berekenen m.b.v. een tabel. 110 Ik weet wat kritieke z-waarden zijn en kan die met ICT berekenen. 112 Ik kan kansen berekenen met ICT bij een normaal verdeelde kansvariabele. 117 Ik kan de normale verdeling in concrete toepassingen gebruiken. 117 Ik kan een steekproef genereren uit een normaal verdeelde populatie. 121 Ik kan via een quantile-quantile plot nagaan of een dataset gegevens afkomstig is uit een normaal verdeelde populatie of niet. 121

Hoofdstuktitel

Toetsen van hypothesen

Hier komt het introductie tekstje.

Witregels worden manueel ingegeven.

We schakelen even over naar de verkiezingen … Redacties van kranten of tv-zenders houden niet enkel van peilingen voor de verkiezingen maar evenzeer van exitpolls, live opgenomen bij de stemlokalen.

Stel dat bij een peiling aan 2000 Vlamingen gevraagd werd voor welke partij ze zouden stemmen voor het Europees Parlement. Hiervan geven 514 ondervraagden als antwoord ‘partij A’. Dankzij betrouwbaarheidsintervallen kun je berekenen dat er 95% kans is dat tussen de 23,8% en 27,6% van de Vlamingen zal kiezen voor partij A (en zo kun je inschatten wie uiteindelijk deze zitjes in Brussel zal invullen).

Toetsen van hypothesen

138

1 Werkwijze 139 2 Eenzijdige of tweezijdige toetsen 142 3 Toetsingsprocedure via grenswaarden 143 4 P-waarde 144 5 Toetsingsprocedure via de P-waarde 145 6 Toepassingen 146 7 Samenvatting 148 8 Oefeningen 151 Wat moet je kennen en kunnen ? 154 4

Betrouwbaarheidsintervallen vormen een van de twee meest gangbare types van formele statistische inferentie. Zij zijn toepasbaar wanneer het doel is een populatieparameter te schatten.

Het tweede type inferentie richt zich op een heel ander doel: het beoordelen van het door de data verschafte bewijsmateriaal ten gunste van een of andere bewering over de populatie. Hypothese- of significantietoetsen zijn, o.a. in de politiek, de economie, de medische en chemische wereld, een veelgebruikte statistische techniek. Ze worden vaak aangewend om een gevestigde norm eventueel te weerleggen, bijvoorbeeld om aan te tonen dat een nieuw geneesmiddel een betere kans biedt op genezing dan het klassieke geneesmiddel.

Het is een techniek die toelaat conclusies te trekken over een hele populatie gebaseerd op steekproefgegevens, conclusies waarvan we niet zeker zijn maar waarvan we het risico op een verkeerde uitspraak onder controle hebben. In de volgende paragrafen zullen we deze techniek toelichten met een paar voorbeelden en hierbij aandacht besteden aan de typische statistische denkwijze.

1 Werkwijze

Voorbeeld :

Een fabrikant van metalen cilinders beweert dat de buitendiameter van de cilinders normaal verdeeld is met m = 11,6 cm en s = 0,4 cm. De laatste tijd komen er van de klanten nogal wat klachten dat sommige van de cilinders te breed zijn; volgens hen is de gemiddelde buitendiameter groter dan 11,6 cm.

Om geen klanten te verliezen en om zeker te zijn dat de productie goed verloopt, besluit de fabrikant een steekproef te nemen van 25 cilinders. Die steekproef levert een gemiddelde buitendiameter van 11,7 cm op. Wat moet de fabrikant hieruit besluiten ?

Het formuleren van de hypothese

Over de grootte van de buitendiameters van de metalen cilinders zijn twee hypothesen naar voren gebracht.

H 0 : m = 11,6 cm, de nulhypothese

H 1 : m > 11,6 cm, de alternatieve hypothese

Toetsen betekent beslissen, namelijk beslissen of een vooraf geformuleerde uitspraak (een hypothese) als juist of als onjuist moet worden beschouwd. De uitspraak waarvan de juistheid wordt onderzocht, noemen we de nulhypothese

Als we op basis van verzamelde gegevens (bijvoorbeeld een steekproef) concluderen dat de nulhypothese niet geloofwaardig is, aanvaarden we het andere geformuleerde standpunt: de alternatieve hypothese

Het nagaan of een bewering kan kloppen op basis van een steekproef, noemen we een hypothese- of significantietest.

139 4 Toetsen van hypothesen

De toetsingsgrootheid

Na het formuleren van de hypothese stellen we een grootheid op waarmee de toets wordt uitgevoerd. Bij dit voorbeeld kiezen we als stochast X : de gemiddelde grootte van de buitendiameter van 25 metalen cilinders.

Als H 0 juist is, is X normaal verdeeld met µ = 11,6en σ = 0,4 √25 = 0,08 √n -wet

Kritieke zone of verwerpingsgebied

Op grond van de kansverdelingen kunnen we overgaan tot het opstellen van een beslissingsschema, waarin voor iedere waarde van X wordt aangegeven welke beslissing wordt genomen.

De verzameling van waarden van X , waarvoor H 0 wordt verworpen ten gunste van H 1, noemen we de kritieke zone of het verwerpingsgebied V. De complementaire verzameling, dit is de verzameling van waarden van X waarvoor we H 0 niet verwerpen, noemen we het aanvaardingsgebied A.

Om tot een verdeling te komen in een verwerpingsgebied en een aanvaardingsgebied is een criterium nodig. Dit wordt gegeven door een kans α : de kans op een fout van de eerste soort (verwerpingsfout).

Fouten bij de toetsing – de keuze van α

De volgende situaties kunnen optreden : beslissing op grond van de steekproef H 0 niet verwerpen H 0 verwerpen

werkelijke situatie

H 0 is waar juiste beslissing 1 – α fout van de eerste soort α

H 1 is waar fout van de tweede soort b juiste beslissing 1 – b

In twee gevallen komen we tot een juiste uitspraak, in twee gevallen tot een foutieve. De consequenties van de twee soorten fouten zijn echter over het algemeen niet gelijkwaardig. Een fout van de eerste soort is meestal ernstiger dan een fout van de tweede soort. Het beoordelen van de ernst van beide fouten is echter een taak van de fabrikant, niet van de statisticus.

De grootte van de kans op een fout van de eerste soort, behorend bij een bepaald kritiek gebied, duiden we aan met α en noemen we het significantieniveau

P (H0 verwerpen | H0 waaris)= α,hetsigniﬁcantieniveau

De keuze van α wordt meestal vooraf bepaald en is een zaak die van externe factoren afhangt en van de vraag hoe schadelijk het is de nulhypothese ten onrechte te verwerpen. In de praktijk kiezen we meestal α = 10%, α = 5% of α = 1%.

140

x y 11,3 11,4 11,5 11,6 11,7 11,8 11,9 1 2 3 4 5 0 g r A V

De grootte van de kans op een fout van de tweede soort (doorlatingsfout), behorend bij een bepaald kritiek gebied, duiden we aan met b

P (H0 nietverwerpen | H1 waaris)= β

De kans dat H 0 wordt verworpen terwijl H 1 juist is, bedraagt 1 – b en noemen we het onderscheidingsvermogen

P (H0 verwerpen | H1 waaris)= 1 β ,hetonderscheidingsvermogen

Veronderstel even dat het productieproces van de metalen cilinders H 0 inderdaad verkeerd is en m = 11,8.

Dan kunnen we de fout van de tweede soort visueel voorstellen als volgt :

Uit de bovenstaande grafiek leid je het volgende af : verklein je de kans op een fout van de eerste soort, dan vergroot je de kans op een fout van de tweede soort.

Oplossing van het voorbeeld

De fabrikant besluit om de kans op een type I-fout kleiner dan 5% te houden. Hij besluit dus om de nulhypothese te verwerpen op het 5%-significantieniveau of α = 0,05.

De (rechter)grenswaarde g r van het aanvaardingsgebied is in dit geval :

P ( X g r )= α

P ( X g r )= 0,05

1 P ( X < g r )= 0,05

P ( X < g r )= 0,95

ICT g r = 11,7316

Dat betekent dat de fabrikant de nulhypothese blijft aanvaarden zolang de gemiddelde buitendiameter van een steekproef van 25 cilinders kleiner is dan g r = 11,73 cm.

V = [ 11,73 ; +∞[ Zie grafiek op de vorige bladzijde.

A = ] 0 ; 11,73[

De gevonden waarde was hier 11,7 < g r . 11,7

∈ A, dus de fabrikant aanvaardt de nulhypothese en zal het productieproces niet bijsturen. Dat betekent echter niet dat de nulhypothese juist is.

141 4 Toetsen van hypothesen

11,4 11,5 11,6 11,7 11,8 11,9 12 1 2 3 4 5 0 α β

2 Eenzijdige of tweezijdige toetsen

Voorbeeld :

In het vorige voorbeeld is de fabrikant zijn productieproces pas gaan toetsen na een klacht van zijn klanten, die beweerden dat de gemiddelde buitendiameter van de cilinders groter was dan 11,6 cm.

Een goede fabrikant wacht niet op klachten en doet preventief zelf regelmatig een aantal steekproeven om de kwaliteit van zijn product na te gaan. Bij een slechte productie zijn er nu echter twee mogelijkheden. Ofwel zijn de gemiddelde buitendiameters te breed, ofwel zijn de gemiddelde buitendiameters te smal.

Het formuleren van de hypothese

Over de grootte van de buitendiameters van de metalen cilinders gelden nu de volgende twee hypothesen:

H 0 : m = 11,6 cm, de nulhypothese. Het productieproces werkt normaal.

H 1 : m ≠ 11,6 cm, de alternatieve hypothese. Het productieproces is verstoord en levert buitendiameters die ofwel breder ofwel smaller zijn dan 11,6 cm.

Wanneer we enkel groter dan (>) of kleiner dan (<) formuleren bij de alternatieve hypothese, spreken we van een eenzijdige toets. In het andere geval spreken we van een tweezijdige toets.

Geval 1 : H 0 : m = µ0 versus H 1 : µ > µ0 rechts eenzijdige toets

Geval 2 : H 0 : m = µ0 versus H 1 : µ < µ0 links eenzijdige toets

Geval 3 : H 0 : m = µ0 versus H 1 : µ ≠ µ0 tweezijdige toets

De toetsingsgrootheid

Na het formuleren van de hypothese stellen we, net zoals in het vorige geval, een grootheid op waarmee de toets wordt uitgevoerd. We kiezen als stochast X de gemiddelde grootte van de buitendiameter van n (= de grootte van de steekproef) metalen cilinders.

Als H 0 juist is, dan is X normaal verdeeld met m = 11,6 en s = 0,4 √n

De fabrikant besluit ook hier een steekproefgrootte van 25 stuks te nemen, m.a.w. X is normaal verdeeld met m = 11,6 en s = 0,08.

Kritieke zone of verwerpingsgebied

De fabrikant besluit om ook hier de kans op een type I-fout kleiner dan 5% te houden. De nulhypothese wordt dus verworpen op het 5%-significantieniveau, m.a.w. α = 0,05.

De grenswaarden g l en g r van het aanvaardingsgebied zijn in dit geval :

P ( X g l )= P ( X g r )= 1 2 α

P ( X g l )= 0,025 en P ( X g r )= 0,025

P ( X g l )= 0,025 en P ( X < g r )= 0,975

ICT

g l = 11,44 en g r = 11,76

142

Dat betekent : als de fabrikant bij een aselecte steekproef van 25 stuks als gemiddelde buitendiameter een waarde vindt gelegen in het interval [ g l , g r ] = [ 11,44 ; 11,76], dan zal hij de nulhypothese aanvaarden.

Wanneer de productielijn correct is afgesteld, dan heeft hij immers 95% ( = 1 – α) betrouwbaarheid dat de gevonden gemiddelde waarde in dit interval ligt (100% zekerheid is er nooit).

Vindt hij een waarde binnen dit interval, dan wil dat niet zeggen dat de productielijn correct is afgesteld.

Er bestaat immers nog altijd een zekere kans b dat hij zich vergist.

Vindt hij een waarde buiten dit interval, dan wil dat evenmin zeggen dat de productielijn foutief is afgesteld.

Er bestaat immers nog altijd een zekere kans α dat hij zich vergist.

Taak : herneem dit voorbeeld met n = 64 en α = 0,01.

3 Toetsingsprocedure via grenswaarden

– Formuleer een nulhypothese H 0 en een alternatieve hypothese H 1

– Bepaal de toetsingsgrootheid.

– Bepaal de steekproefomvang n . In de voorbeelden en opgaven is n meestal gegeven, in de praktijk zullen we n vaak moeten kiezen. – Kies een waarde voor α, de kans op een fout van de eerste soort. Ook hier zal de waarde van α in de voorbeelden en opgaven gegeven zijn, maar zullen we in de praktijk moeten overwegen op welk significantieniveau we wensen te testen.

– Bepaal het kritieke gebied (en de bijbehorende grenswaarden) uit de verdeling van de toetsingsgrootheid onder H 0.

– Bepaal de steekproefuitkomst van de toetsingsgrootheid en bekijk met behulp van het kritieke gebied of de nulhypothese al dan niet moet worden verworpen.

143 4 Toetsen van hypothesen

x y 11,3 11,4 11,5 11,6 11,7 11,8 11,9 1 2 3 4 5 0 • 11,44 2,5% • 11,76 2,5% V A V

Toets voor het gemiddelde m van een normale verdeling : links eenzijdige toets tweezijdige toets rechts eenzijdige toets

nulhypothese en alternatieve hypothese

4 P-waarde

Voorbeeld :

We hernemen de situatie van de klanten die klagen en de steekproef van 25 cilinders die een gemiddelde buitendiameter x van 11,7 cm oplevert.

We kunnen nu de situatie omdraaien en ons de vraag stellen : ‘Wat is de kans in een normale situatie op een gemiddelde buitendiameter van 11,7 cm of groter ?’ Op basis van die kans, P -waarde genoemd, wordt dan een beslissing genomen.

Het formuleren van de hypothese

Ook hier wordt een nulhypothese versus een alternatieve hypothese geformuleerd. We nemen net zoals bij het beginprobleem :

H 0 : m = 11,6 cm, de nulhypothese

H 1 : m > 11,6 cm, de alternatieve hypothese

De toetsingsgrootheid

Na het formuleren van de hypothese stellen we, net zoals in de vorige gevallen, een grootheid op waarmee de toets wordt uitgevoerd. We kiezen als stochast X ook hier de gemiddelde grootte van de buitendiameter van 25 (= de grootte van de steekproef) metalen cilinders.

Onder H 0 is X normaal verdeeld met µ = 11,6en σ = 0,4 √n = 0,08 .

144

µ = µ0 H1 : µ<µ0 H0 : µ = µ0 H1 : µ = µ0 H0 : µ = µ0 H1 : µ>µ0 P X g α P X g l 1 2 α P X g r 1 2 α P X g α H0 verwerpen als X g X g l of X g r X g g α gl gr α 2 α 2 g α

Berekenen van de P -waarde

Het waargenomen gemiddelde x is nu 11,7 cm. We stellen ons de vraag hoe groot de kans is om onder H 0 een gemiddelde waarde groter of gelijk aan x te vinden.

P -waarde = P = P X x

= P X 11,7

= 1 P X < 11,7

ICT = 0,1056 = 10,56%

Via GeoGebra kan dit ook rechtstreeks met het commando

ZTestGemiddelde ( x , s, n , m0, ">").

Oplossing van het voorbeeld

We verwerpen, zoals in de vorige gevallen, de nulhypothese op het 5%-significantieniveau. We stellen dus α = 0,05.

In het voorbeeld is P = 0,1056 > α = 0,05.

Dat betekent dat in meer dan 10% van de gevallen bij een steekproef van 25 stuks, de gemiddelde diameter groter zal zijn dan 11,7 cm. Die situatie is niet zo uitzonderlijk en bijgevolg aanvaarden we de nulhypothese die stelt dat het productieproces zodanig is opgesteld dat de gemiddelde diameter van de cilinders 11,6 cm is.

5 Toetsingsprocedure via de P-waarde

– Formuleer een nulhypothese H 0 en een alternatieve hypothese H 1

– Bepaal de toetsingsgrootheid.

– Bepaal de steekproefomvang n en kies een waarde voor α.

– Bepaal de P -waarde van de steekproef.

– Vergelijk de P -waarde met α en ga na of de nulhypothese al dan niet moet worden verworpen.

Toets van het gemiddelde :

links eenzijdige toets tweezijdige toets rechts eenzijdige toets

145 4 Toetsen van hypothesen

en alternatieve hypothese H0 : µ = µ0 H1 : µ<µ0 H0 : µ = µ0 H1 : µ = µ0 H0 : µ = µ0 H1 : µ>µ0 P = P ( X x ) Is x <µ,danis P = 2 · P ( X x ) Is x >µ,danis P = 2 P ( X x ) P = P ( X x ) H0 verwerpen als P α P α P α

nulhypothese

6 Toepassingen

Toepassing 1 :

De eigenaar van een hamburgerkraam beweert dat zijn hamburgers minstens 200 gram wegen (met een standaardafwijking van 20 gram). De consumentenbond doet een controleproef en heeft 25 hamburgers gewogen. Die 25 hamburgers hadden een gemiddeld gewicht van 188 gram. Toets (eenzijdig) of de eigenaar van het hamburgerkraam gelijk kan hebben met zijn uitspraak (α = 1%).

Oplossing : – formuleren van de hypothesen

H 0 : de hamburgers wegen minstens 200 gram : µ ⩾ 200

H 1 : de hamburgers wegen minder dan 200 gram : µ < 200

– de toetsingsgrootheid

X is het gemiddelde gewicht van 25 hamburgers.

X is normaal verdeeld N µ = 200; σ = 20 √25 = 4 .

– methode 1 : via grenswaarden

We bepalen de linkergrenswaarde (via ICT) van het aanvaardingsgebied bij α = 1%.

P X k 0,01

k = 190,7

Dat betekent dat, wanneer het gemiddelde gewicht van 25 hamburgers meer weegt dan 190,7 gram, de nulhypothese wordt aanvaard. Bedraagt het gemiddelde gewicht minder dan 190,7 gram, dan wordt ze verworpen.

In ons geval is 188 < 190,7 en wordt de nulhypothese dus verworpen. Wij vermoeden (zeker zijn we immers nooit) dat de eigenaar van het hamburgerkraam ongelijk heeft.

– methode 2 : via de P -waarde

P-waarde (via ICT) = 0,00135 < α = 0,01

Dat betekent dat in 0,135% van de gevallen bij een steekproef van 25 stuks, het gemiddeld gewicht kleiner of gelijk zal zijn dan 188 gram. Die situatie is zo uitzonderlijk dat we de nulhypothese verwerpen. Wij vermoeden op basis van de P-waarde dat de eigenaar van het hamburgerkraam ongelijk heeft.

146

Toepassing 2 :

Arthur is verantwoordelijk voor de machine die flesjes frisdrank vult van 33 cl. De machine staat ingesteld op een vulinhoud van 33,5 cl en heeft een standaardafwijking van 4 cl.

Bij een controle van 40 flesjes vindt Arthur een gemiddelde van 34,7 cl. Moet hij op basis van die controle de vulmachine bijstellen of niet ? (toets tweezijdig met α = 5%)

Oplossing :

– formuleren van de hypothesen

H 0 : de machine is correct afgesteld: µ=33,5

H 1 : de machine is niet correct afgesteld: µ≠33,5

– de toetsingsgrootheid

X is de gemiddelde inhoud van 40 flesjes.

X is normaal verdeeld N µ = 33,4; σ = 4 √40 .

– methode 1 : via grenswaarden

We bepalen de grenswaarde (via ICT) van het aanvaardingsgebied bij α = 5% (d.i. 2,5% links en 2,5% rechts).

De linkergrenswaarde is 32,26 en de rechtergrenswaarde 34,74.

Dat betekent dat als de gemiddelde vulinhoud van 40 flesjes frisdrank zich bevindt tussen de waarden 32,26 en 34,74, de nulhypothese aanvaard wordt. In het andere geval wordt ze verworpen.

In ons geval is 32,26 < 34,7 < 34,74 en wordt de nulhypothese aanvaard. Op basis van die steekproef zal Arthur de vulmachine niet bijstellen.

– methode 2 : via de P -waarde

P-waarde = 0,0578 > α = 0,05

Dat betekent dat de kans om een gemiddelde vulinhoud van 34,7 cl te vinden bij een steekproef van 40 flesjes frisdrank 5,78% bedraagt. Omdat die kans groter is dan 5% beschouwen we dit niet als uitzonderlijk en aanvaarden we de nulhypothese. De vulmachine moet dus niet worden bijgesteld.

147 4 Toetsen van hypothesen

7 Samenvatting

• Je kent de werkwijze om een hypothese te toetsen.

– De hypothese formuleren.

De uitspraak waarvan de juistheid wordt onderzocht, noemen we de nulhypothese.

Als we op basis van verzamelde gegevens concluderen dat de nulhypothese niet geloofwaardig is, aanvaarden we het andere geformuleerde standpunt : de alternatieve hypothese.

– De toetsingsgrootheid vaststellen.

– De kritieke zone of het verwerpingsgebied bepalen.

Op grond van de kansverdelingen kunnen we overgaan tot het opstellen van een beslissingsschema, waarin voor iedere waarde van X wordt aangegeven welke beslissing wordt genomen.

De verzameling van waarden van X , waarvoor H0 wordt verworpen ten gunste van H 1, noemen we de kritieke zone of het verwerpingsgebied.

De complementaire verzameling, dit is de verzameling van waarden van X waarvoor we H 0 niet verwerpen, noemen we het aanvaardingsgebied.

• Je kent het verschil tussen een fout van de eerste soort (H0 is waar en H0 verwerpen) en een fout van de tweede soort (H1 is waar en H0 niet verwerpen).

beslissing op grond van de steekproef H 0 niet verwerpen H 0 verwerpen

H 0 is waar juiste beslissing 1 – α fout van de eerste soort α

werkelijke situatie

H 1 is waar fout van de tweede soort b juiste beslissing 1 – b

• Je kent het verschil tussen een eenzijdige en een tweezijdige toets.

links eenzijdige toets tweezijdige toets rechts eenzijdige toets

nulhypothese en alternatieve hypothese

148

H0 : µ = µ0

H1 : µ<µ0

H0 : µ = µ0

µ = µ0

H1 :

µ = µ0

0 P X g α P X g l 1 2 α P X g r 1 2 α P X g α

0 verwerpen als X g X g l of X g r X g g α gl gr α 2 α 2 g α

H0 :

H1 : µ>µ

• Je kent de betekenis van de P-waarde : de kans om onder H0 een gemiddelde waarde groter of gelijk aan het waargenomen gemiddelde te vinden.

links eenzijdige toets tweezijdige toets rechts eenzijdige toets

nulhypothese en alternatieve hypothese

H0 : µ = µ0

H1 : µ<µ0

H0 : µ = µ0

H1 : µ = µ0

H0 : µ = µ0 H1 : µ>µ0 P = P ( X

H0 verwerpen als P α P α P α

• Je kunt hypothesen toetsen via de grenswaarden en via de P-waarde.

149 4 Toetsen van hypothesen

x ) Is x

,danis

X x ) P

x )

x <µ,danis P = 2 · P ( X

>µ

P = 2 P (

= P ( X x )

Abraham Wald (1902-1950), grondlegger van de statistische beslissingstheorie

Abraham Wald werd in 1902 geboren in een Joodse familie in Hongarije. Omdat hij op zaterdag (sabbat) geen les mocht volgen van zijn ouders, werd hij niet toegelaten op school. Abraham Wald kreeg thuis onderricht van enkele leden van de familie, die bekwame leraars waren.

Na WO I werd een deel van Hongarije aan Roemenië gegeven, hieronder ook de geboortestad Cluj van Abraham Wald. Wald werd toegelaten tot de universiteit van Cluj, waar hij werd opgemerkt wegens zijn uitzonderlijke wiskundige begaafdheid.

In 1927 ging hij studeren aan de universiteit van Wenen, waar hij in 1931 onder de supervisie van Karl Menger doctoreerde met een werk over meetkunde. In het Wenen van de jaren 30 was er voor een jonge Joodse man geen mogelijkheid om een academische positie te verwerven, hoe getalenteerd hij ook was. Om een beetje ﬁnanciële zekerheid te hebben nam Wald de betrekking van wiskundeleraar aan bij Karl Schlesinger, een bekende Oostenrijkse bankier en economist. Tussen 1931 en 1937 publiceerde hij 21 documenten over meetkunde, die Menger beschreef als ‘... deep, beautiful and of fundamental importance ’, en 10 documenten over economie en econometrie.

Toen in 1938 de Nazi’s Oostenrijk binnenvielen, kwam het leven van de Joodse geleerde in gevaar. The Cowles Commission nodigde hem uit naar de Verenigde Staten om daar onderzoek op het gebied van econometrie te verrichten. In de zomer van 1938 verliet Wald Oostenrijk om in de Verenigde Staten te gaan wonen. Op die manier ontsnapte hij als enige van zijn familie aan de gaskamers van Auschwitz.

Van 1938 tot 1941 studeerde hij als lid van de Carnegie Corporation statistiek aan de Columbia University in New York. In 1941 werd hij verbonden als lector aan die universiteit en hij bleef er bij de staf tot aan zijn dood. Ondertussen werkte hij ook mee aan militaire projecten met de Statistical Research Group van de Columbia University. Hij gebruikte zijn kennis van de statistiek om voor de U.S. Navy een methode te ontwikkelen die nuttige informatie gaf over de kwetsbaarheid van verschillende delen van een vliegtuig door het afweergeschut. Wald en zijn team ontwikkelden een basistheorie : ‘sequential probability ratio test (SPRT)’, nu bekend als betrouwbaarheidsinterval.

In Wenen legde Wald zich vooral toe op zuivere wiskunde, meestal meetkunde, en op econometrie. Zijn belangrijkste werk echter ligt in de statistiek. Hij ontwikkelde een veralgemening van het probleem Gamblers Ruin, dat een belangrijke rol speelt in de statistiek en bij gokspelen in het casino. Hij was de eerste die het probleem van ‘toetsen van hypothesen’ oploste. De meeste vondsten publiceerde hij in Annals of Mathematical Statistics (1939) en in Sequential Analysis (1947)

Niet alleen als statisticus maar ook als leraar had Abraham Wald een belangrijke invloed : ‘he was a master at deriving complicated results in amazingly simple ways ’. De notities die de studenten namen tijdens zijn colleges aan de Columbia University werden wegens hun uitzonderlijke helderheid gebruikt door de studenten in de statistiek van verschillende andere universiteiten in de Verenigde Staten.

Aan zijn schitterende carrière kwam abrupt een einde. In 1950 ontving hij een uitnodiging van de Indiase regering om lezingen over statistiek te geven in dat land. Tijdens zijn tournee in India kwam Wald samen met zijn vrouw om bij een vliegtuigcrash. Zijn laatste werk in verband met de statistische beslissingstheorie was het monumentale Statistical Decision Functions (1950)

150

Abraham Wald

8 Oefeningen

Een fabrikant van lampen beweert dat de lampen een gemiddelde brandduur van 1800 uur hebben met een standaardafwijking van 120 uur. Om het gemiddelde te toetsen, nemen we een steekproef van 80 stuks.

De steekproef levert een gemiddelde waarde van 1750 uur. Heeft de fabrikant gelijk of niet ? ( toets eenzijdig α = 0,05)

Een fabrikant van lightproducten beweert dat zijn producten slechts 140 calorieën bevatten (met een standaardafwijking van 20 calorieën) per pakje van 200 gram. Bij een serie controleproeven heeft de consumentenbond 20 pakjes onderzocht. Die 20 pakjes bleken gemiddeld een voedingswaarde van 155 calorieën te bevatten.

Toets of de fabrikant gelijk kan hebben met zijn uitspraak ( α = 1%).

Een kweker heeft een aardbeienveld. De opbrengst X in gram per plant is normaal verdeeld met m = 240 gram en s = 60 gram.

In een poging om een hogere opbrengst per plant te bekomen, test de aardbeienkweker op een proefveldje een nieuwe bemestingsmethode uit. Wat blijkt ?

De 16 planten op het proefveldje leveren gemiddeld 260 gram op ( s nog steeds 60 gram).

Toets of de bemestingsmethode overtuigende resultaten heeft opgeleverd. Kies α = 0,05 en toets tweezijdig.

In een medisch labo worden capsules machinaal gevuld met een bepaalde vloeistof. Wanneer de machine correct staat afgesteld, is de inhoud van de capsules te beschouwen als een normaal verdeelde kansvariabele X met gemiddeld 8 ml vloeistof en standaardafwijking 0,3 ml. Om aan de kwaliteitsnormen te voldoen, zou er in elke capsule tussen 7,3 ml en 8,7 ml vloeistof moeten zitten.

a Hoeveel % van de capsules voldoet aan de kwaliteitsnorm, in de veronderstelling dat de machine correct staat afgesteld ?

b Regelmatig wordt de afstelling van de vulmachine gecontroleerd. Een steekproef van 36 capsules levert een gemiddelde inhoud van 8,5 ml. Toets of de machine nog correct is ingesteld of niet. Toets tweezijdig en kies α = 1%.

Een fabrikant brengt een exclusief parfum op de markt in flesjes van 200 ml. De vulmachine vult de flesjes waarvan de inhoud normaal verdeeld is met standaardafwijking s = 5 ml en een gemiddelde van m = 204 ml. Regelmatig neemt de fabrikant een steekproef van 25 flesjes en controleert hij de inhoud. Als het gemiddelde toeneemt, dan gaat dat ten koste van zijn winstmarge. Anderzijds kost een te laag gemiddelde hem op termijn klanten.

a Hoeveel % van de flesjes bevat minstens 200 ml, in de veronderstelling dat de machine correct staat afgesteld ?

b Wanneer een steekproef een gemiddelde inhoud van 202 ml oplevert, wat is dan de conclusie van de fabrikant op het 5%-significantieniveau ?

c Wanneer een steekproef een gemiddelde inhoud van 202 ml oplevert, wat is dan de conclusie van de fabrikant op het 1%-significantieniveau ?

4 151 Toetsen van hypothesen

1 2 3 4 5

Op de lopende band van een montagebedrijf is de assembleertijd van een stuk in minuten normaal verdeeld met een gemiddelde van m = 32 minuten en s = 6 minuten. Het afdelingshoofd beweert dat na een interne reorganisatie de assembleertijd is teruggedrongen naar een gemiddelde van m = 28 minuten en zelfde s.

Die bewering wordt getoetst door de assembleertijd van 16 stuks op te meten. Om 16 stuks te assembleren was een totaaltijd nodig van 468 minuten.

a Toets tweezijdig met α = 5% of de reorganisatie zinvol was.

b Toets eenzijdig met α = 5% of de bewering van het afdelingshoofd juist is.

In een fabriek worden assen vervaardigd waarbij de gemiddelde diameter ingesteld wordt op 7,6 mm.

De diameters van de geproduceerde assen zijn normaal verdeeld met standaardafwijking 0,4 mm. Ter controle nemen ze een steekproef van 50 assen en ze vinden als gemiddelde een waarde van 7,4 mm. Indien de diameters te veel afwijken, dan wordt het productieproces stopgezet. Ga na, met α = 1%, of het productieproces zal worden stopgezet.

In een fabriek worden balken geproduceerd die een massa van 12,4 ton moeten kunnen dragen. De productie is zodanig ingesteld dat de balken gemiddeld een massa van 12,7 ton aankunnen met een standaardafwijking van 200 kg.

a Hoeveel % van de balken heeft een draagkracht van minder dan 12,4 ton ?

b Dagelijks wordt een steekproef genomen van 16 balken en wordt hun draagkracht getest. Als we een significantieniveau van 2% wensen, bepaal dan de minimale gemiddelde draagkracht die deze steekproef moet hebben vooraleer het productieproces wordt bijgesteld.

c Dankzij nieuwe technologieën zijn ze erin geslaagd om de draagkracht van de balken te verhogen. De fabrikant denkt dat zijn balken nu een gemiddelde massa van 13,1 ton aankunnen (bij eenzelfde standaardafwijking). Een steekproef bij 25 balken levert een gemiddelde draagkracht op van 13,01 ton. Kan de fabrikant met die gegevens zijn vermoeden staven op het 5%-significantieniveau ? En op het 1%-significantieniveau ?

Een fabrikant vermoedt dat de vulmachine in zijn atelier afgesteld staat op minimaal 103 gram met een standaardafwijking van 4 gram. In werkelijkheid staat de machine afgesteld op 100 gram (eveneens met standaardafwijking 4 gram).

a Als de fabrikant (eenzijdig) de gemiddelde waarde van 16 stuks gaat testen op het 5%-significantieniveau, hoe groot bedraagt dan de fout van de tweede soort ?

b Als de fabrikant gaat testen op het 1%-significantieniveau, hoe groot is dan het onderscheidingsvermogen ?

c De fabrikant doet nu een steekproef van 16 stuks en vindt een gemiddelde waarde van 101 gram. Wat is zijn besluit op het 1%-significantieniveau ?

d Krijgt hij hetzelfde besluit als een steekproef van 25 stuks ook een gemiddelde waarde van 101 gram zou opleveren ?

Een fruitteler beweert dat een partij appelen gemiddeld minstens 215 gram weegt met een standaardafwijking van 10 gram. Warre neemt lukraak 25 appelen uit de bakken en weegt ze na. De gemeten waarden (in gram) zijn:

Gelooft hij de fruitteler betreffende de gemiddelde massa van zijn appelen op het 5%-significantieniveau ?

(Warre veronderstelt dat de waarde voor de standaardafwijking inderdaad juist is.)

152

220 225 192 195 199 201 204 206 224 221 222 193 203 203 210 208 207 223 197 202 206 214 209 211 205

6 7 8 9 10

Een gezaghebbend tijdschrift publiceert dat het geboortegewicht in Vlaanderen normaal verdeeld is met een gemiddelde van 3,3 kg en een standaardafwijking van 0,55 kg. Een gynaecoloog heeft de indruk dat het gemiddelde geboortegewicht in zijn kliniek groter is dan 3,3 kg. Om zijn hypothese te toetsen houdt hij gegevens bij van dertig kinderen. De gynaecoloog vindt voor het gemiddelde van zijn steekproef 3,483 kg. Mag hij op basis van dit resultaat besluiten dat het gemiddelde geboortegewicht in zijn kliniek groter is dan 3,3 kg ? ( Neem α = 0,05)

Volgens het etiket op een fles wijn bedraagt het alcoholpercentage van die wijnsoort 13%. In werkelijkheid is het alcoholpercentage van een willekeurige fles wijn natuurlijk niet precies 13%. In de ene fles is het percentage groter en in de andere fles kleiner dan 13%. Neem aan dat het alcoholpercentage van de totale hoeveelheid wijn normaal verdeeld is met m = 13% en standaardafwijking s = 0,6%. Om na te gaan of de aanduiding op het etiket klopt, onderzoekt de voedingsmiddeleninspectie 24 flessen van deze wijnsoort. De steekproef levert een gemiddeld alcoholpercentage van 12,71% op. Wat besluit de inspectie op het 1%-significantieniveau ?

Bakker Bol beweert dat zijn broden 800 gram wegen ( s = 18 g). Een kritische consument gelooft dat niet zonder meer en weegt een paar broden. Ze zijn alle lichter dan 800 gram. Maar dat is nog niet genoeg bewijsmateriaal. De klant besluit om dertig broden te kopen. De gemeten waarden (in gram) zijn :

4 153 Toetsen van hypothesen

795 790 812 782 789 785 815 802 799 780 809 805 781 791 779 801 803 804 782 787 806 794 777 781 784 787 788 803 808 789 Is er voldoende bewijsmateriaal om een klacht in te dienen op het 1%-significantieniveau ? 11 12 13

Toetsen van hypothesen 4

154 WAT MOET JE KENNEN EN KUNNEN ? pagina Ik ken het verschil tussen de nulhypothese en de alternatieve hypothese en ik kan een hypothese formuleren. 139 Ik weet wat een toetsingsgrootheid is. 140 Ik ken de betekenis en het belang van het significantieniveau bij het toetsen van een hypothese. 140 Ik ken de betekenis van kritieke zone of verwerpingsgebied. 140 Ik weet welke fouten kunnen voorkomen bij het toetsen van een hypothese. 140 Ik ken het verschil tussen een fout van de eerste en van de tweede soort. 140 Ik ken de definitie van onderscheidingsvermogen. 141 Ik ken het verschil tussen een eenzijdige en een tweezijdige toets. 142 Ik kan een hypothese omtrent het gemiddelde toetsen via de toetsingsprocedure via grenswaarden. 143 Ik kan een hypothese omtrent het gemiddelde toetsen via het berekenen van de P-waarde. 144 Ik kan een hypothese omtrent proporties toetsen via de toetsingsprocedure via grenswaarden. 145 Ik kan een hypothese omtrent proporties toetsen via het berekenen van de P-waarde. 145

Bijlage 1 : sterftetafel mannen (België)

155 Bijlagen - sterftetafels

Exacte leeftijd (X) Sterftekans (QX) Overlevenden op 1 000 000 geboorten (Lx) Sterfgevallen in de tafel (Dx) Levensverwachting (EX) 0 0,003278 1.000.000 3.278 79,26 1 0,000320 996.722 318 78,52 2 0,000214 996.404 213 77,54 3 0,000145 996.191 145 76,56 4 0,000111 996.046 110 75,57 5 0,000109 995.935 108 74,58 6 0,000076 995.827 76 73,59 7 0,000075 995.751 75 72,59 8 0,000118 995.677 118 71,60 9 0,000073 995.559 73 70,61 10 0,000043 995.486 43 69,61 11 0,000086 995.443 85 68,61 12 0,000014 995.358 14 67,62 13 0,000072 995.344 72 66,62 14 0,000176 995.272 175 65,63 15 0,000148 995.097 148 64,64 16 0,000256 994.950 255 63,65 17 0,000261 994.695 259 62,66 18 0,000478 994.436 476 61,68 19 0,000473 993.960 470 60,71 20 0,000388 993.490 385 59,74 21 0,000532 993.104 528 58,76 22 0,000458 992.576 455 57,79 23 0,000335 992.122 332 56,82 24 0,000445 991.789 441 55,84 25 0,000512 991.348 508 54,86 26 0,000576 990.840 571 53,89 27 0,000605 990.269 599 52,92 28 0,000760 989.671 752 51,95 29 0,000625 988.918 618 50,99 30 0,000570 988.301 564 50,02 31 0,000718 987.737 709 49,05 32 0,000789 987.028 779 48,08 33 0,000823 986.249 812 47,12 34 0,000723 985.437 713 46,16 35 0,001069 984.724 1.052 45,19 36 0,000776 983.672 764 44,24 37 0,001030 982.908 1.012 43,27 38 0,001110 981.896 1.090 42,32 39 0,001117 980.806 1.096 41,37 40 0,001521 979.710 1.490 40,41 41 0,001326 978.219 1.297 39,47 42 0,001620 976.922 1.582 38,52 43 0,001711 975.340 1.669 37,59 44 0,001825 973.671 1.777 36,65 45 0,002080 971.895 2.021 35,72 46 0,002199 969.874 2.133 34,79 47 0,001893 967.741 1.832 33,86 48 0,002873 965.908 2.775 32,93 49 0,002515 963.133 2.422 32,02 50 0,002888 960.711 2.775 31,10 51 0,003426 957.936 3.282 30,19 52 0,003666 954.654 3.500 29,29 53 0,003851 951.154 3.663 28,40 Exacte leeftijd (X) Sterftekans (QX) Overlevenden op 1 000 000 geboorten (Lx) Sterfgevallen in de tafel (Dx) Levensverwachting (EX) 54 0,004596 947.491 4.355 27,50 55 0,005083 943.136 4.794 26,63 56 0,005251 938.342 4.927 25,76 57 0,005840 933.415 5.451 24,90 58 0,006806 927.964 6.316 24,04 59 0,007220 921.648 6.654 23,20 60 0,008201 914.994 7.504 22,37 61 0,009264 907.490 8.407 21,55 62 0,009635 899.083 8.663 20,74 63 0,010749 890.421 9.571 19,94 64 0,011883 880.849 10.467 19,15 65 0,013495 870.382 11.746 18,38 66 0,015826 858.636 13.589 17,62 67 0,016264 845.047 13.744 16,90 68 0,016794 831.303 13.961 16,17 69 0,018824 817.343 15.386 15,43 70 0,022637 801.957 18.154 14,72 71 0,023093 783.803 18.100 14,05 72 0,024832 765.703 19.014 13,37 73 0,027145 746.689 20.269 12,70 74 0,030918 726.420 22.459 12,04 75 0,034250 703.961 24.111 11,41 76 0,036577 679.850 24.867 10,79 77 0,039242 654.983 25.703 10,18 78 0,045665 629.280 28.736 9,58 79 0,048992 600.544 29.422 9,01 80 0,053528 571.123 30.571 8,45 81 0,060465 540.552 32.685 7,90 82 0,071211 507.867 36.166 7,38 83 0,073507 471.701 34.673 6,91 84 0,083445 437.028 36.468 6,42 85 0,092808 400.560 37.175 5,95 86 0,106662 363.385 38.759 5,51 87 0,118703 324.626 38.534 5,11 88 0,127971 286.091 36.611 4,73 89 0,148161 249.480 36.963 4,35 90 0,162836 212.517 34.605 4,02 91 0,185616 177.911 33.023 3,71 92 0,198466 144.888 28.755 3,44 93 0,222650 116.133 25.857 3,17 94 0,245257 90.276 22.141 2,93 95 0,267919 68.135 18.255 2,72 96 0,276832 49.880 13.808 2,53 97 0,309150 36.072 11.152 2,31 98 0,355731 24.920 8.865 2,12 99 0,361530 16.055 5.804 2,02 100 0,425007 10.251 4.357 1,87 101 0,432013 5.894 2.546 1,89 102 0,373800 3.348 1.251 1,95 103 0,199263 2.096 418 1,81 104 0,358820 1.679 602 1,14 105 1,000000 1.076 1.076 0,50 Cijfers 2021 Bron : FOD Economie – Algemene Directie Statistiek. De data steunen op de tellingen van het Rijksregister van de natuurlijke personen.

Bijlage 2 : sterftetafel vrouwen (België)

156

Exacte leeftijd (X) Sterftekans (QX) Overlevenden op 1 000 000 geboorten (Lx) Sterfgevallen in de tafel (Dx) Levensverwachting (EX) 0 0,002543 1.000.000 2.543 84,04 1 0,000245 997.457 245 83,25 2 0,000137 997.213 136 82,27 3 0,000202 997.077 202 81,28 4 0,000083 996.875 83 80,30 5 0,000049 996.792 49 79,31 6 0,000064 996.744 64 78,31 7 0,000047 996.680 47 77,32 8 0,000077 996.633 77 76,32 9 0,000061 996.556 61 75,33 10 0,000045 996.495 45 74,33 11 0,000105 996.450 104 73,33 12 0,000030 996.346 30 72,34 13 0,000091 996.316 90 71,34 14 0,000061 996.226 61 70,35 15 0,000124 996.165 124 69,35 16 0,000095 996.041 95 68,36 17 0,000113 995.946 112 67,37 18 0,000162 995.834 162 66,38 19 0,000160 995.673 160 65,39 20 0,000234 995.513 233 64,40 21 0,000185 995.280 184 63,41 22 0,000229 995.096 228 62,42 23 0,000224 994.868 223 61,44 24 0,000277 994.645 275 60,45 25 0,000130 994.370 129 59,47 26 0,000157 994.241 156 58,48 27 0,000292 994.085 290 57,48 28 0,000348 993.795 346 56,50 29 0,000262 993.449 260 55,52 30 0,000363 993.189 361 54,54 31 0,000261 992.829 259 53,55 32 0,000433 992.570 430 52,57 33 0,000383 992.140 380 51,59 34 0,000414 991.760 411 50,61 35 0,000458 991.349 454 49,63 36 0,000595 990.895 590 48,65 37 0,000500 990.305 495 47,68 38 0,000655 989.811 648 46,71 39 0,000817 989.163 808 45,74 40 0,000846 988.355 836 44,77 41 0,000758 987.518 749 43,81 42 0,000812 986.769 801 42,84 43 0,001090 985.968 1.074 41,88 44 0,000971 984.894 956 40,92 45 0,001211 983.938 1.192 39,96 46 0,001180 982.747 1.160 39,01 47 0,001483 981.587 1.456 38,06 48 0,001698 980.131 1.664 37,11 49 0,001963 978.467 1.921 36,17 50 0,001981 976.545 1.935 35,24 51 0,001966 974.611 1.916 34,31 52 0,002382 972.694 2.317 33,38 53 0,002367 970.378 2.297 32,46 Exacte leeftijd (X) Sterftekans (QX) Overlevenden op 1 000 000 geboorten (Lx) Sterfgevallen in de tafel (Dx) Levensverwachting (EX) 54 0,002692 968.081 2.606 31,53 55 0,002798 965.475 2.701 30,62 56 0,002966 962.774 2.856 29,70 57 0,003486 959.918 3.346 28,79 58 0,003671 956.572 3.511 27,89 59 0,004123 953.061 3.930 26,99 60 0,004488 949.131 4.260 26,10 61 0,004978 944.871 4.703 25,21 62 0,006036 940.168 5.675 24,34 63 0,006303 934.493 5.890 23,48 64 0,006841 928.603 6.353 22,63 65 0,007846 922.250 7.236 21,78 66 0,008710 915.014 7.970 20,95 67 0,009226 907.045 8.369 20,13 68 0,010753 898.676 9.664 19,31 69 0,011500 889.012 10.224 18,52 70 0,012476 878.788 10.964 17,73 71 0,013370 867.825 11.603 16,94 72 0,014570 856.222 12.476 16,17 73 0,015373 843.746 12.971 15,40 74 0,017384 830.776 14.442 14,63 75 0,019453 816.334 15.880 13,88 76 0,021829 800.454 17.473 13,15 77 0,024455 782.981 19.148 12,43 78 0,026093 763.832 19.931 11,73 79 0,029097 743.902 21.645 11,03 80 0,034705 722.256 25.066 10,34 81 0,038793 697.190 27.046 9,70 82 0,042043 670.144 28.175 9,07 83 0,049474 641.969 31.761 8,44 84 0,056505 610.208 34.480 7,86 85 0,063470 575.729 36.542 7,30 86 0,073056 539.187 39.391 6,76 87 0,081175 499.796 40.571 6,25 88 0,092652 459.226 42.548 5,76 89 0,111546 416.678 46.479 5,30 90 0,118551 370.199 43.888 4,90 91 0,141605 326.311 46.207 4,49 92 0,152644 280.104 42.756 4,15 93 0,173243 237.348 41.119 3,81 94 0,193787 196.229 38.027 3,50 95 0,219648 158.202 34.749 3,23 96 0,229920 123.454 28.384 2,99 97 0,264188 95.069 25.116 2,74 98 0,281942 69.953 19.723 2,54 99 0,308986 50.230 15.520 2,34 100 0,319068 34.710 11.075 2,16 101 0,372106 23.635 8.795 1,94 102 0,354537 14.840 5.261 1,79 103 0,340273 9.579 3.259 1,51 104 0,475199 6.319 3.003 1,02 105 1,000000 3.316 3.316 0,50

2021

: FOD Economie – Algemene Directie Statistiek. De data steunen op de tellingen van het Rijksregister van de natuurlijke personen.

Cijfers

Bron

157 Oplossingen

1.1 Rekenen met kansen (blz. 26) 1 b P (A)= 7 8 ;P (B)= 1 4 c 1 8 ;1; 1 8 ; 3 4 3 0,12 4 b P (1)= P (4)= 1 4 P (2)= P (3)= P (5)= P (6)= 1 8 c 5 8 5 P (omhoog)= 2 5 ;P (omlaag)= 3 5 6 b 4 13 , 1 52 , 3 52 , 9 13 7 8 15 8 a 21,38% c 78,62% b 9,96% d n ⩾ 9 9 1 7 10 1 12 11 a 1 26 b 2 7 c 4 7 12 a 1 4 b 1 2 13 a 5 72 b 53 54 c 1 9 14 1 3 15 0,02041 16 P (a )= 2 3 ;P ( b )= 2 9 ;P ( c )= 1 9 17 72% 18 a 0,375 b 0,875 19 97,6% 20 0,4 21 met terugleggen : 28,8% zonder terugleggen : 29,15% 22 a P (a )= 2 3 ;P ( b )= 1 3 ;P ( c )= 1 5 ; P (d )= 3 5 ;P ( e )= 1 5 b 13,3% 23 a 5% b 0,25% c 9,75% 24 a 1 13 b 1 221 25 a 1 16 b 5 16 26 99,51% 27 48,87% 28 P( meisje) = 37,16% P( man) = 30,19% 29 86,93% 30 a 1 365 b 1 133255 c 1 365 d 0,008 e 0,00068 31 P (1)= P (2)= = 1 4

Oplossingen

158 32 kans op minstens 1 zes bij vier worpen met 1 dobbelsteen : 0,5177 kans op minstens 1 dubbele zes bij 24 worpen met 2 dobbelstenen : 0,4914 33 driebroers: 1 3 ;vierbroers: 3 8 ;vijfbroers: 11 30 34 a 15 16 b 1 2 35 1 6 36 1 3 37 b 35,2% 38 a 1 4 b 7 16 39 4 9 40 3 17 41 4 25 42 1 3 43 E 44 D 45 B 46 E 47 C 48 D 49 C 50 C 51 C 52 C 1.2 Kruistabellen en voorwaardelijke kansen (blz. 48) 1 a 22,7% 2 a 36,8% 3 a 16,7% b 61,8% b 27,0% b 33,3% c 8,2% c 16,8% c 66,7% d 78,6% d 87,0% d 10% e 55,9% e 73,0% e 66,7% f 31,4% f 51,9% f 72,2% g 29,1% g 54,1% g 0% h 70,9% h 13,0% h 44,4% 4 a 9,4% f 10% b 87,1% g 82,9% c 77,6% h 25,3% d 49,4% i 8,2% e 22,9% j 30% 5 a 5 14 b 15 26 c 1 2 d 11 24 6 a 1 2 b 24 35 c 2 5 7 a 7,1% e 43,5% b 16,4% f 34,5% c 25% g 46,7% d 92,9% h 92,7% 8 a 84,2% e 39% b 97,4% f 28,5% c 85,1% g 22,8% d 35,3% h 55,6% 9 a 23,2% e 11,1% b 56,8% f 19,5% c 89,7% g 38,6% d 88,2% h 35,3% 10 a E F G H totaal K 10 0 15 5 30 L 10 10 25 25 70 totaal 20 10 40 30 100 b R S T totaal X 24 20 76 120 Y 96 0 24 120 Z 40 60 60 160 totaal 160 80 160 400

1 d me = 64 km/h ; Q1 = 55 km/h ; Q3 = 74 km/h

e x = 64,58 km/h ; s = 12,96 km/h

f 49%

g 68% ; 96% ; 100%

2 d me = 65 gram ; Q1 = 59 gram ; Q3 = 76 gram

e x = 67,06 gram

g 37 h 20,9%

e 4

f 50

g 4,12%

h 94,15%

5 d Q1 = 21,75 jaar ; Q2 = 26 jaar ; Q3 = 30 jaar ;

x = 25,66 jaar ; s = 5,46 jaar

f 7

g 51,25%

h 30%

6 De partij wordt goedgekeurd.

7 a x = 10,96 euro ; s = 5,10 euro

b x = 14,94 euro ; s = 3,74 euro

c x = 15,35 euro ; s = 4,72 euro

8 b symmetrie rond klasse [ 35, 38]

c 61 is een uitschieter (lekke band van Raf).

d met uitschieter : x = 35,63 minuten

s = 6,26 minuten

zonder uitschieter : x = 35,20 minuten

s = 5,35 minuten

9 120 km/h

159 11 a B 11 b P (B | F)= 23 58 ;P (F | B)= 1 6 totaal F 23 35 58 11 b P (B | F)= 23 58 ;P (F | B)= 1 6 9 7 16 totaal 32 42 74 11 b P (B | F)= 23 58 ;P (F | B)= 1 6 12 a 0 b P (A) c 1 d 0 13 a P (B)= 1 2 b P (B)= 1 5 14 a 13 29 b 32 37 c 3 7 d 5 9 e 11 21 15 a 43,75% b 22,3% 16 2 11 17 8 35 18 45 141 19 2 5 20 12 25 21 1 24 22 1 3 23 80,33% 24 0,00378 25 0,06% 26 30,4% 27 2 3 28 94,6% 31 B 32 A 2 Beschrijvende statistiek (blz. 84)

; s = 12,47 gram

65,7% ; 95,7% ; 100%

d Q1 = 71,25 ; Q2 = 83 ; Q3 = 92 ; x = 84,34 ; s = 18,92

68,18%

; 95,45%

; Q2

; Q3

;

4 d Q1

4,76 m

= 5,15 m

= 5,43 m

x = 5,08 m ; s = 0,56 m

Oplossingen

b de smaak van ijs

c 600 (willekeurig) gekozen personen

16 a systematisch met vast begin

b getrapt aselect

19 a alcoholgehalte

b leeftijd

c talent

d leeftijd

e intelligentie, inzicht

3 De normale verdeling (blz. 124)

1 a 0,98679

b 0,13567

c 0,86298

d 0,00135

e 0,94408

2 a 6,68%

b 13,59%

c 50%

d 53,78%

e 84,13%

3 a a = 0,39

b a = 2,38

c a = 0,02

d a = –0,13

e a = –0,23

f a = 0,60

4 a a = 86,745

b a = 63,551

c a = 63,551

d a = 99,600

5 a x = 71,35 minuten ; s = 9,95 minuten

c ja

d 12,22% ; 50% ; 34,44%

6 a x = 1135,86 gram ; s = 47,03 gram

c ja

d 22,3% ; 8,6% ; 69,1%

7 a x = 508,16 gram ; s = 9,46 gram

b 19,4%

8 Pieter

9 a z Engels = –0,111 ; z Frans = 0,129 ; z Fysica = 0,375 ;

z Wiskunde = 0,371

b Fysica

c Engels

10 relatief zwaarst : zebra

relatief lichtst : nijlpaard

11 a z Annelore = –0,8 ; z Bea = 1,4

b 70,74%

c x Greet = 55 ; x Daisy = 94 ; x Evert = 78

12 a blauw

e blauw

b groen f rood

c rood

d groen

g groen

160

6,45 11 8 leerlingen 12 a 1125 euro

31 500 euro 14 a steekproef e populatie

f steekproef

populatie g populatie

steekproef h populatie

b steekproef

a alle inwoners van Vlaanderen

steekproef : leeftijd man vrouw 0 – 12 jaar 5 3 13 – 18 jaar 10 5 19 – 30 jaar 8 5 30

en ouder 1 2 + 1 lid aselect te kiezen

a, c, e

c aselect met randomgetallen 17

jaar

18 samenhang: b, d, f causaliteit:

40 a [ 903, 1117] ; [ 883, 1137] ; [ 843, 1177]

927 ml ; 903 ml ; 859 ml

4 Toetsen van hypothesen (blz. 217)

1 Nulhypothese ( H0 : µ = 1800 uur) wordt niet aanvaard ; de fabrikant heeft ongelijk.

2 Nulhypothese ( H0 : µ = 140 cal) wordt niet aanvaard, de fabrikant heeft ongelijk.

3 Nulhypothese ( H0 : µ = 240 gram) wordt aanvaard, de bemestingsmethode overtuigt niet.

4 a 98%

b Nulhypothese ( H0 : µ = 8 ml) wordt niet aanvaard, de machine is waarschijnlijk niet correct afgesteld.

161 13 a blauw b rood c roze d groen 14 B 15 D 16 136,8 gram 17 a 22,6% b 65 minuten 18 68,3 gram 19 a 16,9% c 74,3 cm d 83,5 cm 20 a 94,5% b 8,1% c 334 wafels 21 a 0,2% b 74,7% 22 neen 23 15,9% 24 kleiner dan 46 cm of groter dan 58,46 cm 25 15,87% 26 242 punten 27 Evert heeft gelijk. 28 maximaal 4 jaar 29 a 315 gram b 361 gram 30 a [ 472,53 ; 499,47] b [ 21,85 ; 24,15] 31 a 10,6% b t = 144 minuten 32 a µ = 17 b 16,49% c s = 8 d s = 12 e µ = 53 en s = 4 f 84,15% 33 507,69 cc 34 s = 4,824 gram 35 7 uur en 42 minuten 36 a 103,14 km/h b 42,8% 37 gemiddelde = 45 cm ; standaardafwijking = 0,4 cm 38 gemiddelde = 6233,47 uur standaardafwijking = 233,86 uur

gemiddelde = 506 cl ; standaardafwijking = 3 cl

44 45

Oplossingen

5 a 78,8%

b Nulhypothese ( H0 : µ = 204 ml) op 5%-niveau wordt niet aanvaard.

c Nulhypothese ( H0 : µ = 204 ml) op 1%-niveau wordt aanvaard.

6 a Nulhypothese ( H0 : µ = 32 minuten) wordt niet verworpen, men kan zich terecht afvragen of de reorganisatie zinvol was.

b Nulhypothese ( H0 : µ = 28 minuten) wordt aanvaard, de bewering van het afdelingshoofd kan juist zijn.

7 Nulhypothese ( H0 : µ = 7,6 mm) wordt niet aanvaard, het productieproces wordt stopgezet.

8 a 6,7%

b 12,597 ton

c Nulhypothese ( H0 : µ = 13,1 ton) verwerpen op 5%-niveau ; aanvaarden op 1%-niveau.

9 a 8,8%

b 75%

c De fabrikant denkt nog steeds dat de machine goed is afgesteld.

d De fabrikant besluit dat de machine niet goed is afgesteld.

10 Nulhypothese ( H0 : µ = 215 gram) wordt niet aanvaard, Warre gelooft de fruitteler niet.

11 Nulhypothese ( H0 : µ = 3,3 kg) wordt niet aanvaard, het gemiddelde geboortegewicht ligt vermoedelijk hoger.

12 Nulhypothese ( H0 : p = 0,13) wordt niet aanvaard, de aanduiding op het etiket klopt niet.

13 Nulhypothese ( H0 : µ = 800 gram) wordt aanvaard, er is niet voldoende bewijsmateriaal om een klacht in te dienen.

162

Trefwoordenregister

163 Trefwoordenregister

102

absolute

139

135

55 causaal verband 76 causaliteit 76

61, 67 complement van een gebeurtenis 11

18 confounding variabele 77 convenience sampling 71 correlatie 76

100

142

68-95-99,7-regel

frequentie

alternatieve hypothese

aselecte steekproef

B Bernoulli

beschrijvende statistiek

BMI

boxplot

C Cardano

centrummaat

complementregel

cumulatieve frequentie

D data 62 de Fermat 55 de Méré 30 de Moivre 57, 115 de Witt 56 derde kwartiel

derde variabele

dichtheidskromme

disjuncte gebeurtenissen

doorlatingsfout 141 doorsnede

E eenzijdige toets

eerste kwartiel

elementaire gebeurtenis

empirische kans 12,

enkelvoudige aselecte steekproef

enkelvoudige gebeurtenis

116

115

gemiddelde

70 gestandaardiseerde waarde 108

aselect 72

56, 93

139

F formule van Laplace

frequentiekromme 65 frequentiepolygoon

frequentietabel

G Galton

Gauss

gausscurve

gebeurtenis

gelote steekproef

gemiddelde 61, 68, 80

kwadratische afwijking

gestratificeerd

getrapt

Graunt

H Halley 93 histogram

Huygens

Hypothesetoets

164 K kans 100 kansboom 20 kansexperiment 9 kanshistogram 13 kansschaal 13 klassen 63 klassenbreedte 63 klassengrenzen 63 Kolmogorov 57 kritieke zone 140 kruistabel 35 kwartielafstand 70 L Laplace 16, 57, 94, 115 Leibniz 56 M Malthus 93 marginale kansen 38 marginale waarden 35 mediaan 67 modus 67 N niet-representatieve steekproef 71 niet-steekproeffout 73 Nightingale 95, 116 non-responsfout 73 normale verdeling 101, 115 nulhypothese 139 O onderscheidingsvermogen 141 onmogelijke gebeurtenis 11 P P-waarde 144 Pacioli 55 paradox van Simpson 81 parameter 80 Pascal 55 populatie 62 populatiegemiddelde 80 productregel 24 productwet van de kansrekening 43

94,

135

randomisatie 75

12,

Q Quetelet

116,

relatieve frequentie

63 representativiteit 71 responsfout 73 S samenhang 76 significantietoets 139 significantieniveau 140 Simpson 81 six sigma 123 spreidingsbreedte 70 spreidingsmaat 61, 70 standaardafwijking 70, 80 standaarddeviatie 70 standaardisering 108 standaardnormale verdeling 109 steekproef 62 steekproeffout 73 steekproefvariabiliteit 79 sterftecijfers 138 T tegengestelde van een gebeurtenis 11 theoretische kans 15 toevalsvariabelen 80 tweezijdige toets 142

U uitbijter 61, 74 uitkomst 10

uitkomstenverzameling 10 uitschieter 61, 74 uniforme kansverdeling 15

V variantie 80 variatiebreedte 61 vereniging 11 verklarende statistiek 92 verschil 11 verwerpingsfout 140 verwerpingsgebied 140 voorwaardelijke kans 37, 38 vrijheidsgraden 70

W waarneming 62

z-score 108 zekere gebeurtenis 10

165

Trefwoordenregister