Dette indlæg er alene udtryk for skribentens egen holdning.

Er "Breaking Bad" big data?

7. november 2013 kl. 21:357
Artiklen er ældre end 30 dage

Der er et stigende fokus på fænomenet big data, som omhandler store og komplekse datamængder, som vi alle bidrager til f.eks. igennem vores stigende brug af internettet og digitale medier. Der er mange bud på, hvad big data kan bruges til; oplagt er det, at det kan anvendes kommercielt til at skræddersy markedsføring og reklamer på enkeltbrugerniveau, men ligeledes kan det potentielt bruges til at forudsige vejrfænomener og spredningen af sygdomme. Som nogle konkrete eksempler er det blevet foreslået, hvordan tweets og Wikipedia aktivitet kan bruges til kvantitativt at forudsige, hvor mange penge premierefilm vil indtjene.

En udfordring ved big data er, som navnet antyder, at der er tale om store mængder data, hvilket kræver effektive måder til indsamling, behandling og analyse af disse data. I sagens natur kan dette hverken helt eller halvt gøres manuelt, og der kræves derfor effektive algoritmer til alle dele af denne proces.

Jeg er ingen ekspert på området, men følger på dette semester på DTU kurset Data mining med Python, som udover basal Python programmeringssyntax har til formål at introducere os til data mining. I den afsluttende del af kurset laver vi i grupper projekter, hvor vi anvender Python og data mining på en selvvalgt problemstilling.

Illustration: Privatfoto.

Histogram for antal tweets om TV serien "Breaking Bad". Histogrammet er inddelt i intervaller af 30 sekunder, og tidsaksen er i sekunder med nulpunktet svarende til midnat på dagen for det først behandlede tweet.

Artiklen fortsætter efter annoncen

Vi har i min gruppe, inspireret af artiklerne om big data og film ovenfor, valgt at fokusere på tweets om amerikanske TV serier. Billedet ovenfor viser et histogram for antallet af tweets om TV serien "Breaking Bad". Tidsaksen er målt i sekunder med nulpunktet svarende til midnat på dagen for det først behandlede tweet, og intervallerne i histogrammet er hver 30 sekunder.

Tweets er downloadet kontinuert i tid ved brug af Twitters API i samspil med Python biblioteket Twitter i en periode på ca. fem dage. Herefter er standard Python biblioteker som json, datetime, time, numpy og matplotlib brugt til at behandle tweets og danne histogrammet. I billedet er ca. 180.000 tweets, som fylder godt 500 MB, benyttet - hvilket i øvrigt indeholder meget mere data end blot tidsbilledet som vist ovenfor; geografisk information, de tweetede tekster, information om retweets og meget andet.

Histogrammet har et overordnet periodisk mønster med en periode på ca. 100.000 sekunder - svarende til et døgn. Udover dette næsten perfekt periodiske mønster er der flere gange dagligt peakperioder, hvor der tweetes særdeles meget om "Breaking Bad"; hvad kan dette mon skyldes? Hænger disse peaks sammen med tweets fra f.eks. store medier eller TV seriens egen Twitter konto, som leder til mange retweets og tweets fra fans og seere? Og hvordan er den geografiske fordeling af tweets og tweetere?

Udover "Breaking Bad", som ikke vises på TV i USA netop nu, vil vi følge en række andre TV serier, som bliver vist ugentligt. I stil med analysen af film og disses indtjening kunne det f.eks. være interessant at bruge big data fra Twitter til at forudsige TV seriers popularitet og seertal.

Projektet og vores arbejde er blot et lille eksempel på, hvad big data potentielt kan bruges til. Men det illustrerer de muligheder, der ligger i at være i stand til at indsamle, behandle og analysere de store datamængder, vi alle hele tiden drysser omkring os på internettet. Og det er ikke rigtig til at vide, om man skal grine eller græde over big data.

7 kommentarer.  Hop til debatten
Debatten
Log ind eller opret en bruger for at deltage i debatten.
settingsDebatindstillinger
6
15. november 2013 kl. 22:40

Jeg syntes dit indlæg illustrerer problemerne med datamining ganske godt.</p>
<p>Du indsamler tonsvis af data om et emne (og alt muligt andet) helt uden nogen ide om, hvordan du vil bruge dem eller hvad de vil kunne vise dig.

I gamle dage tog det flere dage at at finde ud af hvor stor en indtjening en film havde på premiereweekenden. Nu om dage er biograferne forbundet i computernetværk så filmstudierne umiddelbart på premierefredagen kan følge indtjeningen, - mens de bider negle.

Med analyse af data fra sociale medier ville studierne kunne få en nogenlunde idé om indtjeningen allerede før premieren. Wikipedia-studiet, som Jakob Lasson linker til, viser at der er korrelation mellem aktivitet på Wikipedia og indtjeningen flere hundrede dage i forvejen (Den store blockbuster Avatar havde premiere i 2009 men fik allerede en side hos den engelske Wikipedia i marts 2006). Man kunne forestille sig at data-miningens resultat umiddelbart ville kunne være til nytte hos studiebosserne.

Eventuelle sammenhænge vil generelt enten være trivielle (folk skriver om serien i forbindelse med at den vises på tv)

Det er ikke umiddelbart klart hvad der er den bedste prædiktor. For eksempel: for filmpublikum og antallet af tv-seer kan man forestille sig at bruge IMDb, nyhedersites, blog, Twitter, Wikipedia. Man skal måske benytte rate såvel som stemningsanalyse.

5
11. november 2013 kl. 17:04

Jeg syntes dit indlæg illustrerer problemerne med datamining ganske godt.</p>
<p>Du indsamler tonsvis af data om et emne (og alt muligt andet) helt uden nogen ide om, hvordan du vil bruge dem eller hvad de vil kunne vise dig.</p>
<p>Bagefter leder du efter mønstre i disse date og prøver at konstruere en årsagssammenhæng der kan passe med disse mønstre.

Hej Claus,

Tak for dit input.

Som jeg skrev, er jeg ingen ekspert på området, så at mit og min gruppes data mining er lidt banalt kan ikke bruges til at vise, at data mining altid er banalt. Udover selve data miningen lærer vi også at programmere i Python, og det sætter i sagens natur nogle begrænsninger, at vi kun har ganske lidt Python-erfaring.

Datamining uden en forud opstillet hypotese burde forbydes.

Har du set de artikler, jeg linker til i indlægget? De er udmærkede eksempler på, hvad data mining kan bruges til professionelt; de opstiller en hypotese om, at man kan bruge "big data" til kvantitativt at forudsige, hvad premierefilm kommer til at indtjene, og det viser sig et stykke hen ad vejen at holde stik.

Eventuelle sammenhænge vil generelt enten være trivielle (folk skriver om serien i forbindelse med at den vises på tv) eller bygge på data der tilfældigvis korellerer med hinanden inden for den valgte tidsperiode.

Hvordan ved du det? Artiklerne omtalt ovenfor er som sagt eksempler på noget andet.

4
11. november 2013 kl. 11:01

Det er desværre nok os brugere selv der må beskytte os selv imod datamining (i en globaliseret verden)

Kører med firefox med diverse addon der renser det meste fra, fx. google analytics.

Medierne har i de sidste dage nærmest reklameret for TOR netværket (selvom de bare kalder det "tor-programmet"). det har sikkert fået en del nye til at joine. (selvom flertallet sikkert er komplet ligeglade med overvågning)

3
11. november 2013 kl. 09:20

Jeg syntes dit indlæg illustrerer problemerne med datamining ganske godt.

Du indsamler tonsvis af data om et emne (og alt muligt andet) helt uden nogen ide om, hvordan du vil bruge dem eller hvad de vil kunne vise dig.

Bagefter leder du efter mønstre i disse date og prøver at konstruere en årsagssammenhæng der kan passe med disse mønstre.

Eventuelle sammenhænge vil generelt enten være trivielle (folk skriver om serien i forbindelse med at den vises på tv) eller bygge på data der tilfældigvis korellerer med hinanden inden for den valgte tidsperiode.

Datamining uden en forud opstillet hypotese burde forbydes.

2
8. november 2013 kl. 17:47

Prøv at læse hvad folk skriver på imdb om den sidste episode. Der er flere som skriver det var den bedste dag i deres liv da de så den :)

1
8. november 2013 kl. 02:04

så er det en must see serie :-)

hvis man kan holde til Walter Whites grimmaser i længden.