Er "Breaking Bad" big data?
Der er et stigende fokus på fænomenet big data, som omhandler store og komplekse datamængder, som vi alle bidrager til f.eks. igennem vores stigende brug af internettet og digitale medier. Der er mange bud på, hvad big data kan bruges til; oplagt er det, at det kan anvendes kommercielt til at skræddersy markedsføring og reklamer på enkeltbrugerniveau, men ligeledes kan det potentielt bruges til at forudsige vejrfænomener og spredningen af sygdomme. Som nogle konkrete eksempler er det blevet foreslået, hvordan tweets og Wikipedia aktivitet kan bruges til kvantitativt at forudsige, hvor mange penge premierefilm vil indtjene.
En udfordring ved big data er, som navnet antyder, at der er tale om store mængder data, hvilket kræver effektive måder til indsamling, behandling og analyse af disse data. I sagens natur kan dette hverken helt eller halvt gøres manuelt, og der kræves derfor effektive algoritmer til alle dele af denne proces.
Jeg er ingen ekspert på området, men følger på dette semester på DTU kurset Data mining med Python, som udover basal Python programmeringssyntax har til formål at introducere os til data mining. I den afsluttende del af kurset laver vi i grupper projekter, hvor vi anvender Python og data mining på en selvvalgt problemstilling.
Histogram for antal tweets om TV serien "Breaking Bad". Histogrammet er inddelt i intervaller af 30 sekunder, og tidsaksen er i sekunder med nulpunktet svarende til midnat på dagen for det først behandlede tweet.
Vi har i min gruppe, inspireret af artiklerne om big data og film ovenfor, valgt at fokusere på tweets om amerikanske TV serier. Billedet ovenfor viser et histogram for antallet af tweets om TV serien "Breaking Bad". Tidsaksen er målt i sekunder med nulpunktet svarende til midnat på dagen for det først behandlede tweet, og intervallerne i histogrammet er hver 30 sekunder.
Tweets er downloadet kontinuert i tid ved brug af Twitters API i samspil med Python biblioteket Twitter i en periode på ca. fem dage. Herefter er standard Python biblioteker som json, datetime, time, numpy og matplotlib brugt til at behandle tweets og danne histogrammet. I billedet er ca. 180.000 tweets, som fylder godt 500 MB, benyttet - hvilket i øvrigt indeholder meget mere data end blot tidsbilledet som vist ovenfor; geografisk information, de tweetede tekster, information om retweets og meget andet.
Histogrammet har et overordnet periodisk mønster med en periode på ca. 100.000 sekunder - svarende til et døgn. Udover dette næsten perfekt periodiske mønster er der flere gange dagligt peakperioder, hvor der tweetes særdeles meget om "Breaking Bad"; hvad kan dette mon skyldes? Hænger disse peaks sammen med tweets fra f.eks. store medier eller TV seriens egen Twitter konto, som leder til mange retweets og tweets fra fans og seere? Og hvordan er den geografiske fordeling af tweets og tweetere?
Udover "Breaking Bad", som ikke vises på TV i USA netop nu, vil vi følge en række andre TV serier, som bliver vist ugentligt. I stil med analysen af film og disses indtjening kunne det f.eks. være interessant at bruge big data fra Twitter til at forudsige TV seriers popularitet og seertal.
Projektet og vores arbejde er blot et lille eksempel på, hvad big data potentielt kan bruges til. Men det illustrerer de muligheder, der ligger i at være i stand til at indsamle, behandle og analysere de store datamængder, vi alle hele tiden drysser omkring os på internettet. Og det er ikke rigtig til at vide, om man skal grine eller græde over big data.
