Sådan kommer du i gang med Big Data-analyser på egen pc
more_vert
close

Få de daglige nyheder fra Version2 og Ingeniøren. Læs mere om nyhedsbrevene her.

close
By signing up, you agree to our Terms & Conditions and agree that Teknologiens Mediehus and the IDA Group may occasionally contact you regarding events, analyzes, news, offers, etc. by telephone, SMS and email. Newsletters and emails from Teknologiens Mediehus may contain marketing from marketing partners.

Sådan kommer du i gang med Big Data-analyser på egen pc

En relativt kraftig bærbar pc af nyere dato og et stykke open source-software, der kan hjælpe med at skalere dine data ud, så processoren ikke kløjes i de store datamængder.

Mere kræver det faktisk ikke for at komme i gang med at finde hoved og hale i de kæmpe datamængder, som din virksomhed generer. Uanset om data-råstoffet er driftsdata fra en vindmølle i Kattegat, procesdata fra en medico-produktion eller brugerdata fra sociale medier.

Sådan lyder budskabet fra Jacob Nordfalk, lektor, freelancekonsulent og én af underviserne på et aftenkursus i Big Data på DTU Diplom – den tidligere ingeniørhøjskole i Ballerup.

»Det kan være en udfordring at finde ud af, hvor man skal starte henne. Nogle tror, at når der er tale om så store datamængder, som Big Data lægger op til, så har man ikke andre muligheder end at udvikle et stort system. Men der vil vi gerne være lidt lavpraktiske og vise, at man kan faktisk godt nøjes med at køre Big Data-analyser på sin egen computer. Og så kan man altid senere sprede det ud over flere computere,« siger han.

De tre V’er

Sammen med sin kollega John Aasted Sørensen var Jacob Nordfalk oplægsholder på et udsolgt Big Data-arrangement, som IDA afholdt i Ingeniørhuset på Kalvebod Brygge i København i slutningen af august.

Ved den lejlighed blev kursisterne præsenteret for de tre V’er. Big Data-analysens tre grundlæggende udfordringer:

  • Variety (varians)

  • Velocity (hastighed)

  • Volumen

Eller udtrykt på en anden måde: En datamængde af en vis størrelse og med en vis spredning, som skal kunne behandles inden for et vist tidsrum – og det er ikke altid let.

»Man kan ofte godt sætte flueben ud ved to af V’erne. Men når det kommer til Big Data, har man brug for alle tre,« som Jacob Nordfalk udtrykte det under arrangementet.

Open source skalerer ud

Især hastighed er en udfordring ved traditionel computerprocessering. Bliver datamængderne tilpas store, må selv den hurtigste computer på et eller andet tidspunkt give op. Det betyder ikke, at man må opgive at analyse nogle mindre datamængder på sin egen pc. Men det kræver, at man på et senere tidspunkt kan fordele beregningskraften ud på flere computere, hvis datamængderne bliver for store.

»Dér kan programmer som Hadoop og Spark hjælpe med at skalere ud, når det bliver nødvendigt,« forklarer Jacob Nordfalk.

Hadoop og Spark er begge open source-værktøjer, der kan anvendes til lagring og processering af store datamængder – ustrukturerede såvel som strukturerede – selv på standard-pc’er.

Der findes desuden et væld af kommercielle værktøjer på markedet, hvis man ikke har noget imod at betale sig fra det.

En overkommelig delmængde data

For finde den røde tråd i ens datasæt er det ligeledes oplagt at trække på open source-værktøjer, lyder det fra Jacob Nordfalk, der anbefaler gratis datanalysesoftware som R og R Studio.

»Rent lavpraktisk kan man starte med at trække nogle data ud af virksomhedens database og foretage nogle dataanalyser på ens egen pc – så har man også at gøre med en overkommelig delmængde af data.«

Her kan R og R Studio hjælpe til med at finde sammenhænge og mønstre i ens data. Ligesom man i øvrigt også her i stedet kan ty til kommercielle værktøjer som QlikView og Tableau.

Hypen er klinget af

Helt generelt mener Jacob Nordfalk, at hypen omkring Big Data er ved at klinge af i forhold til for ét til to år siden. I hvert fald oplever han, at de kursister, der kommer ind ad døren på DTU Diplom, er forholdsvist lavpraktiske i deres tilgang til det ellers temmelig abstrakte begreb Big Data.

Kursisterne kommer i øvrigt fra alle afkroge af dansk erhvervsliv, kan Jacob Nordfalk bekræfte med et hurtigt blik på den aktuelle deltagerliste.

Der er folk fra forsikringsbranchen, vindmølleindustrien, telebranchen, tøjbranchen, offshore, farmaindustrien samt studerende og ansatte på DTU.

»Det er enormt sjovt at undervise, for folk er virkelig engagerede. Mange af dem står og skal bruge de her redskaber her og nu. Og man skal ikke have præstationsangst, for de ved ofte rigtig meget om emnerne,« fortæller Jacob Nordfalk.

DTU Diploms Big Data-kursus koster 13.000 kroner for 14 undervisningsgange og afsluttes med en skriftlig og mundtlig eksamen. Læs mere om kurset her.

Det virker på mig som om, at man i al den snak om big data taler om, at bare man har mange data kan man få noget fornuftigt ud af analyserne. Der må da være nogle krav til relevansen af disse data, eller har man helt sløjfet behovet for årsagssammenhænge?

  • 0
  • 0