Jeg har endnu ikke testet Allan’s Obsurvey system. Men det lyder rigtigt godt, og mere brugervenligt end andre produkter der henvender sig til det samme segment. Mit gæt er at Obsurvey med sin Ajax teknologi kunne være et fint alternativ til det (dyre) Inquisite fra UNI-C. Men ligesom Inquisite gætter jeg på at systemet vil være tungt ved storstilet brug, hvor min erfaring er at en mere struktureret (dvs. ikke wysiwyg) tilgang er bedre.
Men hvis du kun skal lave et enkelt spørgeskema i ny og næ - ser Obsurvey godt ud.
Obsurvey logo.
I statskundskab og økonomi findes en teoriretning, rational choice, som advokerer for - ja - rationel adfærd. Nogle fortaler hæfter sig ved at en model baseret på rationelle valg, er god og simpel1 til at forudsige alle mulige former for adfærd - det være sig politikeres, organisationer og individer i supermarkedet. Andre mener at en rationel adfærd er særligt ønskeligt og tillægger altså teorien en særlig normativ drejning.
Over for rationel choice står andre adfærdsmodeller som lægger vægt på forskellige former for socialisering og biologi2. Disse modeller angriber rationel choices faktiske evne til at forudsige handling. Det mest klassiske eksempel er at rationelle modeller kun meget vanskeligt kan forklare hvorfor folk faktisk gider at stemme ved politiske valg3 - for en enkelt stemme er jo ikke udslagsgivende, og derfor vil et rationelt menneske ikke gide at bruge tid og kræfter på det.
En ting er dog at ens forventede nytte ved stemmehandling kan være lille eller negativ. Men man kan altså også dø af at det. Således viser en lille undersøgelse at for hver time det er muligt at stemme ved et amerikansk præsidentvalg, er der to ekstra dødsulykker i trafikken. Forskellen er signifikant.
Så hermed endnu en pind i kisten for rationel teori (som jo i øvrigt antager at individerne har fuld information - også om risikoen ved at bevæge sig ud i trafikken).
Mange ting kan man sige om amerikanerne. Forkærligheden for statistik er blot en af disse ting. Det opleves tydeligt til NFL og NBA - og selvfølgelig også ved præsidentvalg. USA har i kraft af sine mange delstater, og mange demokratiske niveauer, et enestående grundlag til at forfine den ædle kunst at lave meningsmålinger.
Politiken er begyndt at rapportere pollster.com prognoser. Pollster har i mange år været ganske gode til at aggregere forskellige surveyinstitutters prognoser, og lave gennemsnit heraf. Metodologien er ligefrem - men ikke perfekt. Derfor trådte Nate Silver på banen. Han er manden som nogen mener revolutionlerede amerikansk baseball ved at vise hvordan avanceret statistik kunne outperforme dyre talentspejder når det galt om at finde frem til morgendagens sportstjerne.
På hjemmesiden www.fivethirtyeight.com kan man derfor nu - takket være Hr. Silver -finde langt mere præcis information end hos pollster og politiken. Nates metode indebære blandt andet at hvert surveybureaus resultater vægtes alt efter hvor gode de tidligere har været til at ramme præcist. Logikken er, at en survey har 3 fejlkilder: Den ene er såkaldt sampling error. Denne fejl er nem at beregne og afhænger af stikprøvestørrelsen. Det er den fejl der normalt rapporteres som usikkerhedsmargen. Fejlkilde nummer 2 skyldes tidsforskydning mellem meningsmålingen og selve valghandlingen. I Nate’s beregninger ignoreres denne fejlkilde, fordi der kun indgår meningsmålinger foretaget umiddelbart op til valget. Den tredje fejlkilde kaldes poetisk for PIE: Pollster Introduces Error. Det er den fejl der kan tilskrives den metode meningsmålingerne bruger. Nogle bruger internet, andre bruger automatiske telefonrobotter, og andre bruger personlige interview. Nogle gange er intervieweren højreorienteret, andre gange er chefen liberal. Nogle gange er intervieweren måske provisionlønnet og skynder sig at lave mange, men ikke særligt gode, interview. Der er et utal af små menneskelige fejlkilder1 .
FiveThirtyEights rangliste viser at der faktisk er store forskelle i det enkelte surveyfirmas troværdighed. Der er kort sagt rigtig god grund til at vægte de forskellige resultater:
Meningsmålinger fra forskellige firmaer, sorteret efter kvalitet.
Ranglisten skal fortolkes således at scoren angiver hvor mange procentpoints fejl man kan forvente at hvert firma introducere i deres målinger. Mens Gallup altså rammer næsten 2,5 point ved siden af, er selzer og co. faktisk 3 gange mere præcise og introducere kun en PIE på ca. 0,7 procentpoint.
I den lidt sjovere afdeling bruger Nate silver også simulationer på baggrund til at forudsige forskellige udfald:
Forskellige udfald og deres sandsynligheder (pr. 6/10)
Google guruen Peter Norvig side kan i øvrigt også anbefales - som en generelt introduktion til præsidentvalget som set fra en lidt alternativ vinkel.
Normal 0 21 false false false MicrosoftInternetExplorer4
Et lille pip om websurvey’s og konstatering af at de fleste - men ikke alle - systemer begår en simpel, fatal fejl.
Jeg har netop udfyldt et spørgeskema. Utroligt flot var det - og vist nok lavet i flash. Men ak og ve. Mine svar blev ikke gemt. Hvorfor? Fordi jeg af sikkerhedshensyn har valgt at bruge firefox kombineret med noscript -og fordi udviklerne af det fine survey system ikke tager højde for brugere som mig (eller for den sags skyld firmaer med meget højt sikkerhedsniveu). Derfor har surveyfolkene ikke ofret fem kodelinje på et tjek for om brugeren kører javascript
Det koster fem linjers standard kode at gøre brugeren opmærksom på at javascript er nødvendigt, og hermed ville fejlen være undgået. En fejl som i øvrigt slet ikke burde opstå i et spørgeskema, fordi javascript i en sådan sammenhæng ikke tilføjer værdi1.
frustration ved dårlige spørgeskemaer
Jeg kan hører folk protestere: Det er jo trods alt de færreste der bruger firefox, og da særligt med noscript installeret. Dertil kan sige at ja; lige før firefox 3 udkom var markedsandelen kun knap 30% i europa . Men det er også en pæn sjat. Taget i betragtning at firefox’s vigtigste fortrin netop er de mange addons så mener jeg at den næst mest populære udvidelse (noscript) med mere end 8 mio. downloads pr. uge skal tages alvorligt.
Mange lever desværre stadig i en internet-explorer-tidsalder hvor det var brugerens ansvar at kunne afvikle udviklernes sider. I dag er det omvendt. Det er siderne og webapplikationerne der skal tilpasse sig brugerne.
I survey sammenhæng gælder dette særligt. For det er ikke tilfældige ansatte der bruger firefox og har noscript installeret. Jeg vil (selvindbildsk måske) tro at det netop er denne gruppe af respondenter som er mest bevidste og kritiske i deres stillingtagen. Jeg vil derfor påstå at systematisk frafald er konsekvensen af javascript afhængige spørgeskemaer. Det hedder med et fint ord bias, eller lav validitet. Eller bare dårligt håndværk.
Hvis der fx er tale om en organisatorisk medarbejder måling, er det altså gruppen af særligt værdifulde medarbejdere der systematisk udelukkes fra at besvare spørgeskemaet. Det er rigtigt uheldigt.
Jeg føler ikke trang til at hænge en specifik leverandør ud her. Men står man foran at langere en webbaseret spørgeskemaundersøgelse; medarbejdertilfredsheds undersøgelse, klimamåling osv. bør man spørge sin leverandør om skemaet tager højde for javaproblematikken.
Jens Hainmueller skrev fornyligt en fin blogpost hvori han reklamerede for et paper (pdf) om stemmeadfærden blandt britiske members of parliment. Det viser sig at de parlementsmedlemmer der har særinteresser (bestyrelsesformænd, konsiulenter, journalister) åbenbart har for travlt til at stemme lige så ofte som deres ‘fuldtids-politiker kolleger’.
Andel af stemme afgivet i det britiske parliment. Fordelt på parti og evt. 'bijobs'
Det er et interessant fund forfatterne har gjort. Dog er det tvivlsomt hvor meget værdi det reelt har - umiddelbart. Det er således ganske kendt at travle politikere (i DK eksempelvis ministrerne, som efter dansk lovgivning ofte er medlemmer af folketinget) relativt sjældent er tilstede under stemmeafgivelsen. Simpelthen fordi langt de fleste afstemninger afgøres med en meget stor margin, der gør det unødvendigt at være tilstede i salen. Politikerne synes at tænke at “hvis vores side alligevel vinder med 10 stemmre - så kan otte af os, lavet noget andet”.
Denne argumentation sætter imidlertid meningen med folketingets talerstol under pres. Hvorfor tale i salen, hvis man alligevel har bestemt sig før man går på tilhøre pladserne?
Der er lavet flere andre lignende studier. I posten nævnes et arbejde af Muller der åbenbart viser at politikere med særinteresser, også politisk arbejder med områder der relatere sig til særinteresserne. Heller ikke dette er på sin vis underligt. Man arbejder vel med det man har ekspertise i?
Hvis nogen kender andre - lignende - undersøgelser af politikeres stemmeadfærd, så læg venligst et link i kommentarerne.
Eksempelvis kunne det være fedt med en stor N undersøgelse af hvorvidt politikere med særinteresser oftere stemmer imod partilinien, end deres kolleger.
(Det er i øvrigt bemærkelsesværdigt at figuren også viser at konservative stemmer mindre end labour. Er der en god forklaring på dette? Er der en incitaments struktur der gør det mere attraktivt for magthaverne (labour) at stemme end for oppositionen (konservative). Det burde man kunne undersøge vha. af historiske data. — Måske er konservative blot mere dovne?)
Data er i øvrigt fra the publicwhip
Normal 0 21 false false false MicrosoftInternetExplorer4
Hvordan tester man formodet kulturelle forskelle? Fx om det er rigtigt at de amerikanske sydstater er styret af et æreskodeks? Man laver selvfølgelig et eksperiment. Det gjorde et hold forskere fra university of michigan hvert fald i 1996.
Forsøgspersonerne var mandlige studerende opvokset i henholdsvis syd og nordstaterne. I forsøget kolliderede en skuespiller ’tilfældigt’ med forsøgspersonerne. I halvdelen af tilfældene ytrede skuespilleren en nedsættende bemærkning til forsøgspersonerne.
De fleste studerende fra nordstaterne fandt hændelse morsom, mens 85 procent af de studerende fra sydstaterne udtrykte vrede. Sydstatsstuderende blev desuden mere stresset (kortisolniveauet steg) og mere aggresive (testestoronniveauet steg).
En god gammeldags duel om ære
I et relateret forsøg skulle forsøgspersonerne forudsige udfaldet af en konstrueret historie hvor en kvinde fortæller hendes kæreste om en uønsket bejler. 20% af de studerede der ikke var blevet verbalt overfuset af skuespilleren, forudså at den konstruerede historie ville ende voldeligt. Hele 75 procent af de forsøgspersoner som var blevet overfuset af skuespilleren mente derimod at den konstruerede historie ville ende voldeligt.
Lektien er selvfølgelig at man skal være varsom med at træde en sydstatsmand over tærene. Men vel også at kulturelle forskelle - som der tales meget om i disse år - skal tages alvorligt. Særligt fordi forsøgspersonerne i dette tilfælde alle var universitetsstuderende, dvs. personer fra hvem vi normalt ville forvente en afmålt og rationel reaktion. Specifikt er det også en løftet pegerfinger til de HR-chefer der tror at kulturel mangfoldighed på arbejdspladsen, er et gode der nemt høstes uden problemer. Først og fremmest er det skægt.
(Forsøget er fra 1996 og genfortalt I Drew Westen ‘The Political Brain, som er en rigtig god bog om følelser og rationalitet, anvendt på politisk valgkamp. Det oprindelige studie (Cohen, D., Nisbett, R. E., Bowdle, B. F., & Schwarz, N. (1996). Insult, aggression, and the southern culture of honor: An “experimental ethnography.” Publiceret I Journal of Personality & Social Psychology 70, 945-960 - kan findes her: cohen_et_al_honour_1996)
I det seneste nummer af Evalueringsnyt(pdf) faldt jeg over en artikel af ph.d. Christian Moldt. Artiklen beskriver hvordan studentertilfredshedsmålinger finder anvendelse på en række videregående uddannelser.
En af artiklens interessante iagttagelse er, at lærere og ledere, når de frit associere til ordet “evaluering” kommer i tanke om langt flere negative ord og vendinger end positive. På den baggrund kan det ikke overraske at Christian Moldt i sine interview afdækker stor skepsis og ikke mindst vanskelighed ved at bruge studenterevalueringer af lærerne.
Jeg tror man skal være meget opmærksom på den kontekst artiklen beskriver: I mangel af bedre vil jeg kalde denne kontekst assymetrisk, diakron og illegitim.
Den er assymetrisk fordi det er eleverne der evaluere lærerne. Ønsker og krav og feedback går derfor kun den ene vej. Ganske vidst kan læreren efterfølgende debattere resultatet med eleverne, men udover at læreren mangler processværktøjer til at foretage en sådan dialog, så ramler vi ind i forhold nr 2, nemlig at evalueringen dybest set er assynkron:
Evalueringen foretages når et kuld elever er ved at være færdige med undervisningen. Det betyder på den ene side at de kan tale frit for leveren, uden frygt for at blive mødt med sanktioner fra læren. På den anden side betyder det også at eleverne ikke har grund til at tage ansvar for processen, eller opleve den som virkelig relevant. Eventuelle forbedringer af undervisningen vil jo ikke komme dem til gode, men i stedet kun det næste kuld studerende.
Endelig er evalueringen illigitim, forstået på den måde at den er uønsket. Lærerne er en klassisk profession hvor ledelseskompetencer ikke anerkendes. Lederen er i stedet primus inter pares - eller som Christian Moldt antyder, “hyggetante”. Det betyder for det første at evalueringen bliver til en personlig sag hvor man ikke kan forvente hjælp eller feedback fra ledelsen/organisationen. Det bliver til en sag mellem underviser og klassen, i stedet for skole og eleverne. Ledelsen kan ikke, fordi den ikke forstår sig selv som ledelse, tage resultaterne på sig og på makroniveau handle på resultaterne. For det andet betyder det læren ikke accepterer evalueringens genstandsfelt som noget der berører kernefagligheden. Kernefagligheden er i stedet fordybelse i faget - og i nogle tilfælde forskning. Undervisningen er et nødvendigt onde - og som sådan ikke noget man bruger mange kræfter på at forbedre. Derfor opfattes tilfredshedmålinger også bare som bureaukratisk tidsspilde.
Wally tager ikke medansvar :-)
Hvad kan vi lære? For det første tror jeg man kan lære ret meget af konteksten. En evaluering skal for at blive vel modtaget konstruktivt indskrives i en symmetrisk ramme, hvor den evaluerede og den evaluerende kan kommunikere frem og tilbage. Dette kan evt. ske som på en procesdag som opfølgning på evalueringen 1.
Evalueringen skal også være synkron - forstået sådan at begge parter skal tage ansvar og se evalueringen som relevant. Lige nu - og om et år.
Endelig skal legitimiteten være på plads. Man skal på forhånd gøre det klart hvad evalueringen skal bruges til, og hvem der har initiativpligten til at igangsætte handling. Man skal desuden gøre det helt klart hvordan evalueringen passer ind i den strategiske udvikling af organisationen og forklare hvorfor evalueringen faktisk er en kerneaktivitet.
Derudover vil jeg fremhæve et fjerde element. Udviklingselementet. Alt for mange evalueringsspørgsmål antager at virkeligheden er konstant. Men virkeligheden er aldrig konstant. Således har selv den dårligste chef, medarbejder, underviser eller giraf - både gode og dårlige dage. Sørg for at anerkende dette i spørgsmålsformuleringerne. Til mindre analyser - fx 360 evalueringer - kan solution focused rating (pdf) eksempelvis være en nyttig metode.
Virkeligheden er aldrig konstant. Nogle gange er man bedre end gennemsnittet og andre gange er man ringere end gennemsnittet
Det er også vigtigt at stille handlings og ikke kun holdningsspørgsmål. Det er utroligt vanskeligt at forbedre sig på baggrund af et resultat der fx siger at 82 procent mener “du er en dårlig leder”. Man får nemlig ikke at vide hvad der er galt - i stedet får man en spand lort i hovedet. Det er meget bedre at få at vide at 82% ikke oplever at de får umiddelbar feedback.
Husk altid at tilbyde uddybende tekstsvar således at både holdning og handlingsspørgsmål kan uddybes. Dette sidste punkt er relevant i surveys. Ofte ser man et enkelt aflsuttende ‘åbent’ spørgsmål alla :”har du ellers noget på hjeret” - og der har man oftest ikke.
Men hvis man stillere et præciserende åbent tekst spørgsmål for hvert lukket spørgsmål sker der noget andet. Særligt hvis man også uddyber hvad man ønsker at få at vide. I stedet for “Har du noget på hjertet” - så kan man jo skrive: “Hvis du har lyst, så uddyb venligst hvordan XXX giver feedback. Du behøver ikke at forklare eller begrunde din rating. I stedet vil vi gerne have eksempler på både gode og dårlige ting, således at XXX kan få at vide hvad hun gør godt, og hvad hun gør mindre godt”.
I dzidzo sammenhænge påstår jeg gerne at organisationens udsmykning kan fortælle mere eller ligeså meget om virksomheden, som strategipapirer og missioner kan.
Sociological images viser ganske tydeligt hvordan kvindelige atleter i stigende grad bære kropsnært og meget lidt tøj. Mon ikke det siger noget om hvilke værdier samfundet gennemsyres af - og ikke mindst hvem der er den typiske sportsseer?
I et mere raffineret indlæg har en af mine favorit data-geek blogs/virksomheder, Dolores Labs, vha. af billig arbejdskraft vist at sorte atleter i dag optræder på ca. 6 ud af 10 forsider af Sports Illustrated. I midten af 50′erne var forsiderne prydet med billeder af hvide atleter i 90% af udgivelserne.
Hvilke racer optræder på forsiden af Sports Illustrated? Udvikling over tid.
Politiken kan idag berette at rød vurderes mere venligt end blå - hvertfald af taekwondo dommere. Vi har længe vidst at underbevidsthed spiller ind på de mærkeligste ting:
Sidste år kom det frem at der er en anelse rascisme blandt NBA dommere. Hvilket er ekstremt interessant da NBA basketball ellers er omgæret af fanatisk eftersyn og kontrol, herunder statistik og video. Hvis der under de forhold kan forekommer ubevidst rasicme blandt de bedste dommere - hvad kan der så ikke forventes at forekomme i diskotekets døråbning.
Måske skulle du teste dig selv ved hjælp af en Implicit Associations Test - fx om skjult racisme (testen er på engelsk - men man skal blot sortere nogle ord og billeder - så de fleste kan tage den): Foreløbig ser testresultaterne således ud.
fordeling af testscore, fra Harvards IAT. De sorte bjæler viser andelen der har nemmest ved at matche negativt ladet ord med billeder af afro-amerikanere (og positivt ladede ord med euro-amerikanere).
Hele problemfeltet minder mig i øvrigt om subliminal marketing, som sandsynligvis - nogen gange - virker. På en eller anden måde, og hvertfald i laboratoriet - hvis vi altså ikke har alt for travlt.
This finding — that the brain does not pick up on subliminal stimuli if it is too busily occupied with other things — shows that some degree of attention is needed for even the subconscious to pick up on subliminal images.
Der er lavet rigtigt mange forskellige studier. Bl.a. refere Cordelia Fines fremragende bog, at mænd efter at have set bilreklame med kvinder i udfordrende positurere, vurdere kvindelige jobansøgere som mindre dygtige end de mænd der ikke var primet med sexistiske reklamestereotyper. Det sjoveste er måske at selv om effektgruppen vurderede ansøgerne som fagligt ringere - var de stadigt villige til at ansætte kvinderne… (jeg forsøger senere at finde links til selve undersøgelsen. For ny må I nøjes med link til bogen: A Mind of Its Own: How Your Brain Distorts and Deceives.)
Det minder mig til gengæld om et af mine farvorit colombo afsnit - fra sæson 3: Double exposure hvor subliminal teknik bruges i udførslen af et mord
Peter Falk som Colombo i sæson 3 episoden 'double exposure'
Google sidder stadig trygt og godt på markedet for websøgninger og afledte muligheder. Google er god til konstant at bringe innovation til forbrugerne, bl.a. ved at have et næsten romersk øje for små lovende startups - som google køber og efterfølgende launcher et halvt til helt år senere.
Googles succes skyldes selvfølgelig at de generelt stadig levere de mest relevante søgeresultater. Det sker ved hjælp af google pagerank, som grundlæggende blot er et centralitetsmål som vi kender det fra social/organisatorisk netværksanalyse. Præcist som degree-, betweeness-, closeness- og information-centrality er pagerank således et udtryk for hvor vigtig hver knudepunk er i netværket. I sociale netværk er knudepunktet ofte mennesker. I pagerank er det hjemmesider1.
Imidlertid bruger google endnu ikke klikke begrebet optimalt. En klikke er en gruppe af knudepunkter der minder meget om hinanden, om som er forbundet på kryds og tværs. Klikker vil ofte være praksisfællesskaber eller nicheområde. Mange søgeord genfindes i mange forskellige klikker på tværs af internettet. Med mindre man har lavet en tilstrækkelig præcis søgning, med mange forskellige søgetermer, vil google derfor blot sende een videre til de største og mest populærer sider. Men hvad nu hvis man i virkeligheden ville hen i en anden ‘klikke’, men måske blot ikke kunne finde på de rigtige søgetermer? Elle hvis man bare web-osede: Kiggede lidt hist og lidt pist?
En række nye tjenester forsøger at fylde hullet ud. Mindst een af dem bliver nok købt af google eller yahoo - og ingen af dem er rigtig gode endnu (måske fordi de er basseret på yahoo). Men jeg synes klart at potentialerne er tilstede. Nedenfor kan du få et indtryk af hvordan tre forskellige søgemaskiner forsøger at bruge netværksanalyse til både at visualisere og gruppere resultaterne.
grokker
quintura
clusty
Inspiration: greenlaneseo
grokker.com søgning - man kan 'zoome' ind på hver klike
Søgeresultat quintura. Grundlæggende samme koncept som grokker.
Og tilsidst clusty.com
Bag enhvert grin findes en trist sandhed. En fremragende parodi på konsulentbranchen.
dzidzo er selvfølgelig anderledes
Nyheden om googles nye insights søgning har jeg samlet op hos Kasper Hyllesteds Weblog. Man kan via tjenesten se hvilke regioner i danmark der interessere sig for sit produkt. Det er en rigtig smart service som google tilbyder, men pas på: Kasper Hyllested gode eksempel med Paris Hilton som skulle være taget til Ribe istedet for København, illustrerer faren:
Ikke desto mindre er servicen interessant og jeg vil bruge den meget fremover tror jeg. Fx har jeg allerede nu fået bekræftet af man relativt går mere op i trivsel på hovedlandet end andre steder. Og at Københavnerne hellere søger efter survey, mens Fyn og Århus helst søger efter Spørgeskema…
Eller gør de? Kun relativt… Det vil stadig være bedst at reklamere med ordet survey - selv i jylland - se sammenligningen.
Lidt galde: Hvordan kan det være, at vi i web 2.0 tiden med open source tendenser og mere, stadig skal søge manuelt om at få adgang til frit tilgængelige datasæt i dansk dataarkiv? Hvordan kan det være at DDA’s hjemmeside ikke tilbyde et feed1 med de seneste datasæt? Hvorfor ikke tænke DDA-links ind i eletroniske (og print) publikationer? Hvor kunne det være godt med adgang til statens API - ligesom i England. Eller hvad med en Swivel funktiionalitet?
Det er en bevægelser der har momentum i bl.a. USA. Så hvad med foregangslandet? Helge Sander - hvad siger du? Skulle man ikke kræve at forskerne giver adgang til deres data? Der kan selvfølgelig være fortrolighedshensyn at tage stilling til, men hvis ikke et resultat kan efterprøves og reproduceres er der vel rimeligt at spørge om der overhovedet er tale om forskning?
De enkelte universiter har et ansvar. Er der nogen dansk forsker der kan måle sig med Gary King’s åbenhed? Se data her og han side om datadeling.
Lidt flere data i den store www verden.
N.b. Det jeg efterlyser er særligt videnskabelige datasæt og undersøgelser. Fra den statlige verden findes allerede en del. Der mangler måske en fælles indgang og bedre interface etc. Men man kan faktisk bruge følgende til ret meget:
Politiken har i argurketiden valgt at bringe microsoft-’nyheden‘ (fra marts) der bekræfter at den gennemsnitlige korteste sti i hele verdens sociale net - kun er ca. 6 led langt. Det er før konstateret i mange forskellige typer netværk: Kevin Bacon, Wikipedia, videnskabelige referencer og meget mere. Stanly Milgrams postkort forsøg er endda fra før web 1.0.
Det er et kendt paradoks at sociale netværk har tendes til både at udvise small world karakteristika (alle kender alle kun X led ude) såvel som en høj grad af embeddedness (men vi tale alligevel sammen i tæt sammenspunde klikker1).
Small world fænomenet er relevant i epedimologi, og eksempelvis studiet af trendsetting m.m. Dvs. netværk hvor konsekvenser spredes selv via hurtig, sjælden og overfladisk kontakt.
I langt de fleste ’sociale’ sammenhæng skal der dog mere end et enkelt møde til at viderbringe information og handlingsændringer. I organisationer bør man derfor fokusere på embeddednessaspektet2. I næsten alle tilfælde går indflydelsen maks 3 led ud. Dvs til en ven af en ven: Forestil dig du hedder klaus og ved en masse om reklametryk. Du får en henvendelse fra Dennis som du ikke kender: “Hej klaus, kan du hjælpe mig med at vælge hvilke farver jeg bør bruge til min søns fødselsdagainvitation. Jeg er blevet rådet til at spørger dig af Bodil, som kender Trine, der er gift med Ole, som vist nok arbejdede sammen med dig sidste år”. Her er vi ude i fjerde led - og henvendelse er allerede ret latterlig.
I arbejdet med sociale netværk - og særligt med vidensdeling for øje - bør man næsten altid fokusere på hvilke sub-netværk der eksistere og hvordan de kan udvides. Hvad karakterisere ‘embeddedness’ i det konkrete tilfælde? Er det arbejde? Familie? Fælles fritidsinteresser?
(microsofts lille analyse på chat-data bør i øvrigt gøre os alle sammen opmærksom på at webtjenester som facebook, google og microsofts ejer alle de data (ord) vi sender igennem deres protokoller. Bog-brother is indeed watching)
Min forrige post omhandlede maskiners evne til at forudsige domsfældelser i US supreme court. Denne follow-up handler om noget beslægtet nemlig såkaldt Fact Pattern Analysis (FPA) - som også finder anvendelse inden for det juridiske. Således skriver forfatterne til dette paper at
“Det er interesant at [forfatterne til papiret der inspirerede forrige post] brugte CARTS i ‘væddemålet’ mellem eksperter og computer modeller. [...] Men den type CARTS der blev anvendt brugte tilfældige variable og forsøgte ikke at finde faktiske juridiske regler (Min oversættelse)
CARTS er en forkortelse for Classification And Regression Tree, hvilket er en teknisk detaljer jeg ikke vil bruge krudt på. Omvendt med forsøget på at bruge computermetoder til at undersøge faktisk gældende lovpraksiser. Det er en interessant - og i nogle øjne måske håbløst naiv - tilgang som kan bruges til at dokumentere hvordan fortolkninger af de samme love ændrer sig over tid, eller hvordan den amerikanske højesteret faktisk bliver mere konservativ i takt med flere konservative dommere får sæde. Metoden er altså oplagt som led i deskriptiv samfundsvidenskab og måske også som præskriptivt dobbelt check af kvaliteten af domsafsigelser.
Forfatterne anerkender to forskellige paradigmer indenfor FPA: På den ene side et attitide (juridisk realistisk) paradigme hvor domsfældelser antages at være afhængige af dommeres holdninger (attitude) og på den anden side et juridisk positivistisk paradigme hvor kun den gældende lov antages at have indflydelse. Forfatterne vil dog ikke vælge side. I stedet bemærkes det at foretalerer for begge paradigmer påstår at FPA understøtter netop deres argumenter - hvilket på sin vis er korrekt Det afhænger nemlig helt af hvor man kigger hen. I nogle sager hvor de sociale omkostninger ved at følger sine holdninger er små, er der fx større tendens til at dommerens egne holdninger spiller ind.
Jeg tror et velkvalificeret FPA projekt kan hjælpe både dommere, parter og ikke mindst samfundsforskere med at gennemskue skift i retspraksis og fairness af domme. Hvorvidt en nogenlunde dækkende FPA nogensinde kan bruges normativt/preskriptivt ved jeg ikke. Men fx gives der i artiklen følgende eksempel på at FPA kan bruges til at illustrere et skred i rettens beskyttelse af privatlivet i forbindelse med politiefterforskning: Case-spørgsmålet er, om bevismaterialer tilvejebragt via en ransøgning/visitering skal godkendes som gyldigt.
Modellen1 er:
Nu forestiller man sig at en politiker oplever at domspraksis ændrer sig. Hvad gør man? Kører en CART model på to forskellige tidsserier. Givet man har nok sager kan man så sammenligne om der fx er forskel på disse to tidspunkter (og der findes selvfølgelig også mere formelle statistiske tests)? Nedenfor vises to hypotetiske tilfælde - og det er let at se at der i denne hypotetiske case er sket en ændring af retspraksis.
Ærligt talt ved jeg ikke helt hvad jeg skal synes om FPA - andet end der er meget spændende. Denne artikel er den første jeg har læst om emnet - og den er ikke synderligt velskrevet. Hvis der sidder en jurist eller anden person med holdninger/erfaringer og læser med på denne post - vil jeg meget gerne hører mere.
Super Crunchers: How Anything Can be Predicted samlede jeg op i lufthavnen i forrige måned. Der er tale om en let læst og vel argumenteret forfægtelse af statitistisk metode. Uheldigvis afsløres bogens egentlige motivation først til sidst i bogen nemlig
behovet for at indprente lægmand en grundlæggende statistisk forståelse (min oversættelse)
endda på en sådan måde at fordomme om at kvantitativ metode som ondskabens ‘højreorienteret’ træl (”tænk på: løgn, forbandet løgn og statistik”) gøres til skamme:
Man kan knuse tal og stadig have en passioneret og omsorgsfuld sjæl. Man kan være kreativ (min oversættelse).
Jeg vil dog tro at folk der tænder på titlen og særligt undertitlen “How anything can be predicted” er overbevidst før titelbladet vendes. Hvilket er en skam. For “Super Crunchers” er en overbevisende bog der på indholdssiden klart har potentiale til at skabe interesse for statistisk metode i selv meget kvalitativt orienterede kredse.
På formidlingssiden er forfatterens prosa tydeligt mærket af passion for data generelt og datamining i særdeleshed. I den forstand er sproget måske ikke egnet til at overbevise/omvende de skeptiske. På den anden side har Ian Ayres som forfatteren hedder også en omsorgsfuld sjæl. Indeholdt er hvertfald søde bemærkninger om kollegaer, et enkelt lille hævntogt1, betragtninger om sin datter, om hvordan statistik skyder ekspertvældet ned og lader lægmand ser kejserens sande klæder, hjælper arbejdsløse med at få arbejde, narkomaner med at forblive ‘clean’, singler med at finde kærligheden og gravide med at vurdere risikoen for at få handikappade børn. Det er således ærværdige sager som Ayres forfølger.
Der er kun to figurer i bogen (begge af normalfordelingskurver) og ingen ligninger. Der er altså tale om en deskriptiv bog med en masse gode eksempler på super-crunching. Det er ikke en lærerbog eller en introduktion til de teknisk orienteredet2. Der er tre storer temaer:
For det første viser Ayres at vores liv idag leves digitalt. Næsten ingen ting er længere privat. Det betyder at dataminingindustrien3 (oh yes - den findes i allerhøjestegrad, fx Acxiom og danske Geomatic) er bedre til at forudsige om du bliver skilt i det næste år, end du selv er. På den baggrund skrædersyes tilbud og produkter til lige præcis dit kundesegment4 hvilket kan være en fordel for forbrugeren, men med det aberdabei at virksomheder vha. af statistik i dag kan prisdiskrimere og altså tilbyde forskellige kunder det samme produkt til forskellige priser. Som Ayres skriver er der grund til bekymring hvis man modtager noget gratis fra sin leverandør af dette eller hint. Det betyder nemlig at man betaler for meget for sine vare. Mens virksomheder kan kværne store datasæt har den almindelige forbruger jo ikke råd til den slags, hvilket altså umiddelbart stiller menigmand relativt svagere vis a vis erhvervslivet. Heldigvis stiller dataminingfirmaer sig også i forbrugernes tjeneste og hjælper de forbrugere der gider (hvilket jo langt fra er alle) med at finde de bedste tilbud. Farecast.com kværner eksempelvis data for forbrugere og hjælper os med at forudsige om flypriserne vil falde eller stige i fremtiden. De er endda så sikre at de (for nogle afgange) tilbyde at forsikrer deres forudsigelser for 10$. Stiger prisen mod forventning refundere farecast beløbbet. Så datamining er altså slet ikke kun dårligt.
Ayres foreslår i øvrigt at man lovgivningsmæssigt kan tvinge virksomheder til at offentligegøre data - eller som han siger “educate consumers about themselves”. Særligt interessant er overvejelsen om ikke kære told∘skat offensivt kunne bruge sine mange oplysninger om borgeren som en service, der fortalte om man som virksomhed bruger for mange penge på reklame, giver mindre end gennemsnittet til godgørende formål, har et fornuftigt afkast på sine investeringer og så videre.
Det andet tema i bogen er brugen af simpel eksperimentel metode. Det er tankevækkende at eksperimentel metode med randomiseret forsøg i nogle sammenhænge beskrives som rabiat, mens Ayres langt hen ad vejen lykkedes at fremstille det som noget af det mest simple og mest overbevisende (og jeg er helt klart enig med Ayres). Eksempler dækker hvordan hospitaler reddede 100.000 menneskeliv, fattige hjælpes i mexico, kriminalitet sænkes i amerikanskebyer og hvorvidt fængselsstraffe forhærdiger de kriminelle og meget andet.
Det tredje tema - som afslutter bogen - drejer sig om mere basal statistik: Reglen om næsten alle gennemsnit er normaltfordelt og at 95% vil ligge inde for +/- to standardafvigelser, og brugen af bayesteorem til at opdatere sandsynligheder (Ayres bruger det samme eksempel som jeg beskrev fornylig). Der argumenteres for at intuition sagtens kan være statistisk intuition og de statistik kan bruges til at undersøge og opdatere sine fingerspidsfornemmelser.
Jeg var - som jeg formoder de fleste andre der finder titlen interessant - solgt i forvejen. Det var paradoksalt nok derfor jeg købte bogen: For at blive endnu mere overbevidst. Og her, i mit eget lille mikro univers, ligger forfatterens akilleshæl. For bogens titel blev tilsyneladende fundet ved hjælp af eksperimentel metode: Et par google annoncer blev lanceret på internettet med forskellige bud på hvilken titel bogen skulle have. SuperChrunchers vandt klart - dvs. supercrhunchers reklamen genererede langt flere klik end de øvrige titler. Mit gæt er som nævnt, at de folk der finder bogens titel incitterende allerede i forvejen er gejlet af tal… Men folk der kender til simple statistik, den digitale web2.0. mining virkelighed og bare har hørt om bayes vil ikke få meget nyt med sig.
På den måde er bogen uforvarende et eksempel på at eksperimentel metode ikke kan stå allene. Der er således en modsigelse mellem bogens formål (at omvende og overbevise) og bogens salgstaktik (at henvende sig til de allerede overbevidste). Den gode titel skal således være i overensstemmelse med bogens indhold. Og det kunne statistik ikke hjælpe med5 .
Køb bogen - enten fordi du gerne vil have en masse eksempler du kan bruge til at overbevise ikke tal-venlige folk (giv den i gave)6, eller fordi du selv ønsker at få en nem og letlæst introduktion til hvorledes statistik kan anvendes.
N.b. alle links i dette indlæg er til engelske sider
Den anden dag havde jeg fornøjelsen af et par glimrende juristers gode og våde selskab. Talen faldt på moderne computermetoders evne til at genkende mønstre, hvor mennesker ikke kan. Mere specifikt at maskinerne ikke havde fordomme og skjulte – måske ubevidste - dagsordner. Derfor kan maskinerne i nogle tilfælde træffe mere neutrale afgørelser end mennesker, og derfor også være gode til afslørere uretfærdige afgørelser.
Jeg omtalte denne artikel (pdf) som omhandler et vædemål: Hvem vil bedst kunne forudsige US supreme court afgørelser – de fremmeste juridiske eksperter eller et simpelt machine-learning program?
På den ene side står maskinen – mere specifkt et neural netværk.
Antagelsen er at de amerikanske højesteretsdommere faktisk fungere nogenlunde simpelt, blandt andet påvirkers de af politiske overbevisninger, ikke kun af de juridiske fakta. Væddemålet tager således blot den amerikanske præsidents beføjelser mht udnævnelse af dommere efter politisk ståsted, for pålydende.
Konkret fik maskinen udleveret et sæt tidligere afgørelser (menneske)kodet for en række parametre1. Herefter ‘lærer’ maskinen hvilke parametre der er vigtige. For dommer O’Conners afgørelser ser beslutningstræet således ud:
Beslutningstræ for højesteretsdommer O'Connor
På den anden side står sagkundskaben som har specifik og tilbundsgående viden om komplekse partikulærer forhold der ikke nemt kan kodes statistisk. I alt blev der brugt 83 eksperter, heraf 71 akademikere og 12 appel advokater. 38 har været sekretærer for en højesterets dommer. 33 sidder som ‘chaired’ professors og 5 var eller havde været dekaner på law schools.
The statistical model looked at only a handful of case characteristics, each of them gross features easily observable without specialized training. The legal experts, by contrast, could use particularized knowledge, such as the specific facts of the case or statements by individual justices in similar cases. The statistical model also differed from the experts in explicitly taking into account every case decided by this natural court prior to the 2002 term. No individual could hav e such comprehensive knowledge of the Courts output for the last eight terms, and so the experts nessecarily relied on fewer (albeit more detailed) observations of the past Court behaviour.
Resultat?
Modellen slog klart eksperterne med hensyn til afgørelser. Til gengæld var modellen og eksperterne lige gode til at forudsige de enkelte dommeres afgørelser.
Succes: Eksperter sammenlignet med maskinen
Hvorfor er der forskel på disse to mål? Sandsynligvis fordi eksperterne var dårlige til at forudsige en enkelt dommers afgørelser – specifikt dommer O’Conner – som åbenbart er tungen på vægtskålen i mange sager.I øvrigt var der klare forskelle mellem dommerne – hvilket kan tyde på at nogle er mere forudindtaget / principielle end deres kolleger.
Sandsynlighed for rigtig forudsigelse, fordelt på dommere. Eksperter vs. maskine
Intereressant mener forfatterne at
the experts were most accurate at predicting the votes
of the most ideologically extreme justices and least success-
ful at forecasting the votes of the centrist justices
Til gengæld var der store foreskelle blandt sagsområder:
Sandsynlighed for rigtig forudsigelse, fordelt på sagsområder. Både mht. sagsudfald og den enkelte dommers vurdering vinder eksperterne klar inden for "Judical Power".
Konklusion?
Well - På den ene side er det rigeligt spændende for mig at man forholdsvist simpelt kan have forholdsvis stor succes med at forudsige menneskers adfærd. Særligt inden for et tungt og kompliceret fagområde. På den anden side kan man måske argumentere for at en del af modellen lagde vægt på en (ganske vidst pervers) form for præcedens - hvorfor resultatet måske ikke er så overraskende? Det skulle dog under mig om man kunne få en jurist til at forfægte dette synspunkt.
I et bredere perspektiv håber jeg at resultater som disse hvor statistiske metoder viser sig at resultere i fornuftige resultater, kan være med til at give plads for øget brug af kvantitativ metode inden for både organisationsudvikling og samfundsvidenskab.
I et større perspektiv mener jeg resultatet bør tvinge os til at tænke over bl.a. vores retssikkerhed og juridiske instanser. Måske ville eksperterne havde klaret sig bedre hos lavere instanser2 hvor personlige forhold måske ikke spiller ind på samme måde? Det ville være spændende at se modellen brugt i DK hvor højsteretsdommere bliver udnævnt uden skelen til deres politiske ståsted.
Måske bør man overveje en form for maskinel stikprøve kontrol af dommere og domshuse fremover? Når modellen er god til at forudsige, kan den jo også finde anomalier. Måske skulle man leve et firma der rutinemæssigt scanner afgørelser med henblik på at vurdere hvile sager der med fordel kan ankes? Jeg ser mange spændende muligheder for at forbedre retssikkerheden og effektivisere systemet.
Dog: Modellen er ikke god til alle typer sager og statistikken kan kun skue tilbage. Modellens styrke er at den operere uden følelser - men det er jo også dens svaghed i turbulente tider hvor retspraksis ændrer sig. En maskine kan ikke tage stilling til om loven er forkert… Kun vurdere om afgørelsen er forudsigelig. Så nej - jeg vil ikke gøre dommerne arbejdsløse… Men heller ikke statistikerne.
Politiken havde d. 25/7 en artikel med titlen “Vi smitter hinanden med fedme”. politikens udgangspunkt er en fin lille artikel (pdf - 176KB) der viser at
Der er tale om en korrelations undersøgelse - på baggrund af flere forskellige datasæt - herunder eurobaromter. Velbefindende er dog kun undersøgt for et enkelt (tysk GSOEP) datasæt. Resultaterne er ikke særligt robuste. Ud over modellernes generelt lave R2 viser det sig nemlig også at der bl.a. er
Alt i alt overrasker det mig at den akademiske artikel finder vej til MSM.
En rigtig SNA undersøgelseFor præcist et år siden trykte New England Journal of Medicine en artikel om fedme som spreder sig via sociale netværk. Dette studie benyttede et datasæt på godt 12.000 respondenter over 32 år.
Undersøgelsen viste bl.a. at
De to undersøgelser er metodisk forskellige. SNA artiklen sondre eksempelvis mellem forskellige sociale relationer. I modsætning til regressionsanalysen finder forfatterne til New England Journal of Medicine artiklen at naboskab ikke påvirker fedme. Tværtimod er det social afstand og ikke geografisk afstand der er afgørende. Vigtigste er måske at SNA analysen specifikt kan udelukke tilfælde hvor to venner bliver overvægtige på samme tidspunkt på grund af miljømæssige ændringer - så som generelle samfundstendenser. Helt basalt er forskellen at korrelationsundersøgelsen fokuserer på BMI gennemsnit for byen og landet man bor i, så kan SNA analysen stille skarpt på den enkelte sociale venskabsrelation.
Summa summarum