Ny algoritme sætter dig i bås efter dine Facebook-likes

12. marts 2013 kl. 16:0111
Køn, personlighed og social status kan afsløres ved at analysere ’likes’ på Facebook.
Artiklen er ældre end 30 dage

Det er måske ikke helt overraskende at opdage, hvor lille afstanden er mellem, hvad man siger og peger på, og hvilken person man er. Alligevel er det tankevækkende at se, hvor let den slags ofte sensitive informationer kan trækkes ud af internettet og gøres til genstand for en forretning.

Ganske få ’likes’ på Facebook er nok til med 75-95 procents sandsynlighed at finde ud af, om du er mand eller kvinde, sort eller hvid, homo eller hetero, demokrat eller republikaner, kristen eller muslim. Det viser et studie af 58.466 frivillige amerikanske Facebookbrugere, som er blevet publiceret i fagbladet PNAS.

Undersøgelsen blev foretaget af de to psykometrikere Michal Kosinski og David Stillwell fra University of Cambridge i samarbejde med datalogen Thore Graepel fra Microsoft. Den viser, hvordan man ganske akkurat kan beregne parametre som intelligens, personlighedstype, stofmisbrug (alkohol, cigaretter, hash, etc.), graden af lykke og forældrenes ægteskabelige status, bare ved at kigge på de likes en person uddeler, mens han eller hun sidder og læser venners updates på Facebook og i det hele taget surfer på nettet.

Analysen foretages automatisk af en computeralgoritme, der har lært, hvilke likes der passer bedst til hvilke personlighedstræk.

Artiklen fortsætter efter annoncen

Mange af de likes, der var bedst til at bestemme en person, var overraskende:

• Bøsser afsløres af likes for ‘Mac Cosmetics’ og ‘Human Rights Campaign’.
• Heteroer foretrækker at like ‘Wu-Tan Clan’ og ‘Foot Locker’.
• Likes for ‘Hello Kitty’ fortæller, at man har en åben personlighedstype, er sort, stemmer på demokraterne og måske ikke er helt så emotionel stabil som gennemsnittet.
• Likes for ‘curly fries’ og ‘thunderstorms’ fortæller, at du sandsynligvis har en høj intelligens.
• Likes for ‘Harley Davidson’, ‘Lady Antebellum’ og ‘I love being a Mom’ placerer dig i den mindre intelligente ende.
• Har man mange venner på Facebook, liker man gerne ‘Mojo-Jojo’ og ‘Dollar General’.
• Har man få Facebook-venner, foretrækker man ‘Minecraft’ og ‘The Dark Knight’.
• Er man til stoffer, liker man gerne ‘Austin Texas’ og ‘Big Momma Movies’, hvorimod de cleane foretrækker ‘Swimming’ og ‘Milkshakes’.

Se hele listen her

Gratis profiler til arbejdsgivere og pensionsselskaber

Forskerne var selv meget overraskede over, hvor god deres algoritme var. Om du er sort eller hvid kunne afgøres med 95 procents nøjagtighed. Køn kan bestemmes med 93 procents sikkerhed. Om du er bøsse eller ej med 88, demokrat eller republikaner med 85, og om du er kristen eller muslim med 82 procents nøjagtighed (se søjlediagram).

Artiklen fortsætter efter annoncen

Algoritmen lærer ved først at opdele og så matche alle likes med relevante selvrapporterede informationer. Derefter bruges en såkaldt lineær regressionsmodel, der transformerer alle likes til en sandsynlighedsscore for de personlighedstræk, der kan angives som tal, f.eks. intelligens eller alder. For de mere indirekte personlighedsoplysninger, som for eksempel seksuel orientering eller stofmisburg, brugte forskerne en logistisk regressionsmodel, der er i stand til at forudsige udfaldet af kategori-afhængige variable, som ikke kan gives en numerisk værdi.

Læs også: Crowdsourcing - ny vej til bedre eksperimenter

Ved at krydsvalidere resultaterne på tværs af populationen kunne psykometrikerne hurtigt generere en stabil profil, der matcher eller er bedre end de eksisterende personlighedprofilundersøgelser, som bruges på jobmarkedet eller i personlighedstest. Og jo flere likes en person uddeler, desto nemmere bliver det.

Da informationerne kan genereres automatisk og de fleste like-sider på Facebook stadig er offentligt tilgængelige, vil teknikken blive meget interessant for kommercielle aktører og også for arbejdsgivere, forsikringsselskaber og eventuelt repressive regeringer. At kunne downloade en detaljeret personlighedsprofil for en hvilken som helst person gratis fra nettet er ikke noget, man kan sige nej til. Så nu venter vi bare på app'en.

11 kommentarer.  Hop til debatten
Debatten
Log ind eller opret en bruger for at deltage i debatten.
settingsDebatindstillinger
11
14. marts 2013 kl. 10:33

min fejl. Der skal stå "10-fold krydsvalidering" - står også i i artiklen, fig 1. Og ja, der er controls.

10
13. marts 2013 kl. 15:25

"hele datasættet tilsyneladende samtidigt bliver brugt til at validere med."

Det er der forhåbenlig aldrig nogen der gør! Med den tilgang for du jo altid en model der ifølge ens test er 100% "præcis"!

Cross-validation løser dette problem, ved at dele sættet op i hhv. en training og test set.

https://en.wikipedia.org/wiki/Cross-validation_(statistics)

9
13. marts 2013 kl. 14:40

Overfitting er nok ikke et problem. Det er jo i bund og grund kun et spørgsmål om, at balancere sin training error vs. testing error (dvs. evnen til at generalisere).

Desuden tvivler jeg på, at de ikke har opdelt deres datasæt med henblik på at have et sæt udenlukkende til kontrol og dermed til at beregne, hvor godt en model skalerer til ukendt data.

8
13. marts 2013 kl. 09:35

En ting der er fedt ved maskinlæringsalgoritmer er at grundmodellen er at man bygger en eksplicit model, fitter parametre og derefter validerer den ved at tjekke i hvor høj grad den gætter rigtigt på data den ikke har set før. På den måde får man tal ud der er til at forholde sig til - f.eks. at model X gætter 93% rigtigt og model Y 67%.

Det er som kontrast til diverse statistiske metoder (f.eks. t-test eller ANOVA) hvor metoden i sig selv indeholder en implicit model og giver tal ud der ikke er helt lige til at fortolke på uden at man kommer galt afsted.

Jeg spekulerer også nogle gange på om der ikke er et problem med overfitting i sådan nogle implicitte modeller hvor hele datasættet tilsyneladende samtidigt bliver brugt til at validere med.

5
12. marts 2013 kl. 21:09

Hvis man syntes om Harley Davidson, så har man mindre intelligens og er hvid amerikaner.

3
12. marts 2013 kl. 18:29

hvor placerer man sig, når man ikke vil udlevere sig selv på facebook?

2
12. marts 2013 kl. 17:27

Ung jysk bonde.

1
12. marts 2013 kl. 17:13

Hvor placeres man så, hvis man synes om traktorer, svæveflyvning, Allan Olsen, pizza, heste og motorsave?