Het boek waarom?

Waarom duurde het zo lang tot men verband tussen roken en kanker zag? Dit boek neemt je mee in Bayesian Networks, de logica ervan en wat een krachtige tool dit kan zijn voor de analyse van een bedrijfssituatie. Dit is een pittig boek, en las ik uit interesse voor patronen en verbanden. En was zomer, dus wat zweten op een boek ook goed.

Studenten: Dit voor de cursus Strategisch Management handig om met simpele symbolen iets uit te leggen in je werkstuk. Zoals een ‘root cause analysis’. Moet niet, mag wel. Straks ook voor Performance Management handig.

Kernboodschap zoals ik hem begreep: er kan wel statistische correlatie zijn, maar dat hoeft nog een causaliteit te zijn, dus oorzaak en dan gevolg. En omgekeerd. Big data geeft je soms verbanden die je anders niet gevonden had, waarna je naar causaliteit kan zoeken en dat inzetten bij je marketing en andere activiteiten.

Een voorbeeld dat een goede vriend eens gaf was dat er na big data analyse te zien was dat Citroen auto kopers meer dan andere groepen wijn uit Spanje dronken. En daarop kan je dan een campagne zetten. Wat het causale verband was ben ik vergeten.

Het boek maakt dit duidelijke door simpele symbolen te gebruiken om uit te leggen hoe correlatie en causaliteit helpen in de analyse, dan doen en begrijpen. Voor deze blog voert het iets te ver dit in detail uit te leggen hieronder stip ik een paar relevante zaken aan als teaser om je interesse op te wekken of een eerste set logica aan te brengen. Heeft het je belangstelling opgewekt, koop het boek zou ik zeggen en laten we het er over hebben onder een kop thee.

Mijn persoonlijk interesse

Zelf heb ik een fasinatie voor het moment in de ontwikkeling van de wereld waarin we nu belanden waarbij we systemen hebben gemaakt die zichzelf veranderen, waarna we niet meer weten wat er nu echt in het systeem gebeurd. Weten we nog wat de AlphaGo computer intern doet?

Of zoals Steven me vertelde in Halle waar we goede pinten dronken: je koopt een 3D printer. Die laat je een andere 3D printer printen. En je geeft de eerste 3D printer terug. Lollig vond ik die opbouw. Deze is nog te volgen. Straks niet meer, dan is het zoiets als de AphaGo computer maakte een nieuw Go soort spel, speelde dat met een andere computer en wij mensen weten niet meer wat de computers doen. Maar die hebben wel plezier, een van de basis activiteiten van leven.

Over de schrijver

Judea Pearl, UCLA-professor, winnaar van de Turing Prize in Computer Science, is een held voor alle Bayesian Network-fans. Pearl heeft verschillende boeken over Bayesian netten geschreven en het boek ‘Book of Why’ is net in het Nederlands vertaal en uitgegeven door Maven Publishing, een uitgeverij uit Amsterdam die meer toonaangevende publicaties over wetenschappelijke kennis over menselijk gedrag.

Teaser deel

Geschiedenis van de wetenschap

Een behoorlijk deel van het boek bestrijkt het tijdperk (het grootste deel van de 20e eeuw) waarin statistici en wetenschappers causaliteit meestal als een passend onderwerp voor de wetenschap verwierpen. Ze observeerden correlaties en herhaalden het mantra “dat correlatie geen oorzakelijk verband inhouden”. Correlaties zijn volgens het woordenboek ‘de statistische samenhang tussen twee grootheden’. En een oorzakelijk verband legt een link tussen variabelen met daarin een oorzaak een van reden. En een tijd lang vonden wetenschappers dat tussen die twee geen verband hoefde te zijn.

Pearl ziet dat anders en introduceert ‘de calculus van causatie’ en zegt dat die twee talen omvat: die van causale diagrammen om uit te drukken wat we weten en een symbooltaal, vergelijkbaar met algebra, om uit te drukken wat we willen weten. De causale diagrammen zijn eenvoudige ‘puntjes en pijltjes’ plaatjes die de kennis samenvatten. Zoiets als eten > volle maag. Je beschrijft hiermee hoe eten ‘luistert of zich verhoud’ tot volle maag.

Drie niveaus van causatie.

Een sterk punt van Pearl is zijn beschrijving van drie niveaus, en die drie niveau’s kan je als student ook gebruiken bij de opbouw van je werkstuk.

Het eerste niveau is zien of observeren.

Het tweede vermogen is doen. En dat impliceert dat we de effecten voorspellen van doelbewuste aanpassingen aan de omgeving en daaruit kiezen. Hierin zit ook het gebruik van gereedschappen, terwijl niet iedereen die gereedschappen gebruikt er een theorie over heeft, of weten ze waarom het gereedschap werkt. Je PC doet zijn werk, maar je weet niet hoe die exact werkt. Daarvoor moet je een begrips niveau hebben.

Niveau drie is het begripsniveau die ons heeft geholpen innovaties te verzinnen op landbouwkundig en wetenschappelijk gebied die leiden tot een plotselinge, drastische verandering van het impact van ons als mensensoort op de wereld.

Dus Zien, Doen en Voorstellen. Of op andere manier gezegd:

Voorstellen – Contrafeitelijkheden

Vragen zijn dan: Wat als ik xx had gedaan. Waarom? Was het X dat Y veroorzaakte? Wat was er gebeurd als ik anders had gehandeld.

Doen – Interventie

Vragen zijn dan: Wat gebeurt er als ik … doe? Hoe?

Wat zou Y zijn als ik X doe?

Zien – Associatie

Vragen zijn dan: Wat gebeurt er als ik … zie?

Hoe zijn de variabelen aan elkaar gerelateerd? Wat zou er met mijn geloof in Y gebeuren als ik X zag?

Bayesiaanse analyse

Deze aanpak van analyse is lang verketterd geweest, maar heeft nu overal zijn gebruik en ingangen. Een voorbeeld daarvan is Eerdere overtuiging + nieuw bewijs = herziene overtuiging. Hier gaat Pearl verder en linkt de logica van Bayesiaanse statistici verder. Lees daarvoor het boek (blz 117 en verder)

Een paar symbolen maken het netwerk.

A > B > C. Dit is een keten.

A < B > C. Dit wordt vaak een vork genoemd. B is hier de verstorende vaiabele van A en C. Als voorbeeld Schoenmaat < Leeftijd van kind > Leesniveau.

A > B < C. Dit is een knooppunt. Die Pearl een ‘collider’ noemt. Voorbeeld die hij geeft is Talent > Roem < Schoonheid. We gaan er van uit dat Talent en Schoonheid bijdraagt aan het succes van de auteur.

En met deze drie logica structuren kunnen we van de onderste trede van Observeren naar het niveau van Doen gaan. De variabelen leren ons wat er veranderd, wat we kunnen gaan Doen.

Als voorbeeld geeft Pearl dat men vroeger dacht dat alles wat zuur was zou helpen de ziekte scheurbuik te voorkomen. Dus Citrusvruchten > Zuurgraad > Scheurbuik. Maar latere onderzoeken die deze keten ondervroegen kwamen op Citrusvruchten > Vitamine C > Scheurbuik.

>> Nut hiervan? Voor de lessen Strategisch Management analyses en bij de cursus Performance management. Voor in je werk om verbanden uit te leggen en analyse maken.

Meer leeswerk

Als je wat dieper je wil verdiepen, nog wat meer over het boek hieronder.

Wetenschappers wilden op zijn minst wijzen op causale implicaties van hun onderzoek, maar statistici verwierpen de meeste pogingen om rigoureuze beweringen over oorzaken te doen. De enige uitzondering was voor gerandomiseerde gecontroleerde studies (RCT’s). Dus met een nul meeting en zo. Statistici kwamen er al vroeg achter dat een goede RCT kan aantonen dat correlatie causaliteit impliceert. Dus RCT’s werden steeds belangrijker gedurende een groot deel van de 20e eeuw. Dat creëerde een rare spanning, waarbij het gebruik van RCT’s duidelijk maakte dat wetenschappers het concept van causaliteit op prijs stelden, maar in de meeste andere contexten probeerden ze te praten alsof causaliteit niet echt was. Een beetje dichter bij is hoe gedragsdeskundigen vaak de ideeën uitdragen dat we interne ervaringen en bewustzijn hadden en dus niet statistisch te vangen, of hoe taalkundigen ooit debatten over de oorsprong van taal verboden, namelijk omdat het gevaarlijk was te denken dat de wetenschap die onderwerpen kon raken en in een spreadsheet zouden vangen. Of misschien een beetje zoals hemel en hel – concepten die, zelfs als ze nuttig zijn, voor altijd buiten het bereik van de wetenschap lijken te zijn? Maar wetenschappers willen de wereld beïnvloeden in plaats van deze alleen te voorspellen. Dus werden ze vaak ongeduldig, als ze het zich niet konden veroorloven om op RCT’s te wachten.

Roken ongezond. Dat duurde lang om te ‘weten’.

Het meest opvallende voorbeeld is roken. Wetenschappers zagen veel aanwijzingen dat roken kanker veroorzaakte, maar zonder een RCT maakten hun normen en vocabulaire het moeilijk om meer te zeggen dan dat roken geassocieerd werd met kanker. Dit leidde er uiteindelijk toe dat experts criteria formuleren die enigszins nuttig leken bij het vaststellen van causaliteit. Maar zelfs in ideale omstandigheden waren die criteria niet overtuigend genoeg om tot een consensus te komen. Gezaghebbende claims over roken en kanker werden jaren vertraagd door het ongemak van wetenschappers met praten over causaliteit.

In 1969 vertelde een onderzoek dat slechts een derde van de Amerikaanse artsen het eens wat met de bewering dat roken een van de belangrijkste oorzaken van longkanker was. 43% van de artsen rookte zelf…..

Oorzakelijke diagrammen zijn de sleutel tot het identificeren van causale relaties, stelt Pearl, en in het hele boek laat hij niet meer dan een paar pagina’s voorbijgaan zonder daar voorbeelden van te geven. Een meer formele term voor de weergave van de relaties is is Directed Acyclic Graphs (DAG’s).

Voorbeeld

Een heleboel dingen hebben invloed op de academische prestaties van een persoon, wat waarschijnlijk voor niemand nieuws is. Ouderlijke kenmerken, leeftijd, geslacht, volgorde van broer of zus, sociaal-emotionele vaardigheden (zoals geduld, zelfbeheersing, vriendelijkheid en gruis), en zelfs de docent zelf beïnvloeden de academische prestaties. En de docent kan academische prestaties rechtstreeks beïnvloeden, of mogelijk versterken door de ontwikkeling van sociaal-emotionele vaardigheden.

Een van de praktische toepassingen van DAG’s is eenvoudigweg om de verzameling relaties in een onderzoek te verduidelijken. In alles behalve de meest eenvoudige en voor de hand liggende reeks causale relaties, is een DAG enorm nuttig voor het verduidelijken van het proces dat men als onderzoeker voor ogen heeft als men gegevens wil genereren en daarin analyses. Het is ook nuttig bij het beschrijven van onze veranderingstheorie, zoals van een soort interventie wat nodig zou kunnen zijn.

Maar een nog belangrijkere vraag is hoe we het causale effect van interventies zoals die door een docent worden gedaan isoleren, en misschien het effect ervan door het bevorderen van sociaal-emotionele vaardigheden? Pearl laat ons zien hoe.

Stel dat X een ‘behandelingsvariabele’ van belang is (zoals de school, een gezondheidsprogramma of microfinanciering), Y een uitkomstvariabele (zoals academische prestaties, een body mass index of bedrijfswinsten) en Z is een andere variabele gerelateerd aan X en Y. Pearl geeft ons een paar belangrijke definities om mee te werken: 1) Kettingen, 2) Vorken en 3) Colliders.

Stel nu dat X -> Z-> Y. Hier hebben we een ‘Chain’, waarbij het effect van X op Y puur wordt gemedieerd door Z. Z-controle door onze schatting van het oorzakelijk verband tussen X en Y zal X, Y maskeren causaliteit, maar zal causaliteit onthullen tussen Z en Y. Als we daarentegen X <- Z -> Y hebben, hebben we een “Fork”, waarbij Z zowel X als Y veroorzaakt. Bij het proberen het effect van X op Y te schatten, Pearl stelt dat het belangrijk is om Forks te beheersen, anders zal de relatie die we schatten tussen X en Y alleen maar leiden tot correlatie en niet tot de identificatie van een echte causale relatie. Ten slotte kunnen we X -> Z <- Y hebben, of een “Collider”. De remedie voor Colliders, zo wijst Pearl erop, is precies het tegenovergestelde van Forks. Als we de variabelen in een botser controleren, introduceren we vertekening in onze causale schattingen. Door ze te negeren, kunnen we de casual X, Y-relatie correct inschatten.

Rudolph

#strategisch management #performance management #borrelgesprek #patroon