LØRN case C0075 -
LØRN. ENTERPRISE

Jørgen Kadal

Programme Director

DNV GL

Fire V’er

I denne episoden av #LØRN snakker Sunniva med Programme Director i DNV GL, Jørgen Kadal, om hva Big Data er og hvordan dette vil revolusjonere fagene våre. Gjennom samtalen setter Big Data i et industrielt, historisk perspektiv, og beskriver hvordan informasjonen fra denne teknologien kommer til å endre arbeidsmåtene våres. Han deler også refleksjoner om hvordan teknikkene fra maskinlæring vil endre menneskers opplevelse av virkeligheten, ved at virkelighetsforståelsen vår vil gå fra å være basert i antagelser, til å kunne baseres i verifiserbar data. I denne podcasten diskuteres også begrepet om de fire V'ene innen Big Data Analytics - volume, variety, velocity and veracity - og hvordan vi med disse som utgangspunkt skal tilnærme oss det teknologiske tidsskiftet Big Data utgjør nå og i tiden fremover.
LØRN case C0075 -
LØRN. ENTERPRISE

Jørgen Kadal

Programme Director

DNV GL

Fire V’er

I denne episoden av #LØRN snakker Sunniva med Programme Director i DNV GL, Jørgen Kadal, om hva Big Data er og hvordan dette vil revolusjonere fagene våre. Gjennom samtalen setter Big Data i et industrielt, historisk perspektiv, og beskriver hvordan informasjonen fra denne teknologien kommer til å endre arbeidsmåtene våres. Han deler også refleksjoner om hvordan teknikkene fra maskinlæring vil endre menneskers opplevelse av virkeligheten, ved at virkelighetsforståelsen vår vil gå fra å være basert i antagelser, til å kunne baseres i verifiserbar data. I denne podcasten diskuteres også begrepet om de fire V'ene innen Big Data Analytics - volume, variety, velocity and veracity - og hvordan vi med disse som utgangspunkt skal tilnærme oss det teknologiske tidsskiftet Big Data utgjør nå og i tiden fremover.
Facebook
Twitter
LinkedIn
Email

17 min

Choose your preferred format

Velkommen til Lørn.Tech – en læringsdugnad om teknologi og samfunn med Silvija Seres, Sunniva Rose og venner.


SR: Hei! Du lytter til Lørn. Tech. I dag er tema Big Data. For å lære meg litt mer om Big Data så har jeg med meg Jørgen Kadal. Du er Head of Analytic Innovation Center i DNV GL?

JK: Ja.

SR: Big Data. Hva er Big Data?

JK: Big data er et begrep som har vært veldig mye i bevegelse, men for noen år siden når det oppstod, så handlet det om det som var større enn det du kunne ha på pc-en eller i det verktøyet

du brukte.

SR: Så en større mengde data enn det du kan ha på maskinen?

JK: Opprinnelig ja. Mengde, variasjon, type enn det du hadde. Så det ble kjennetegnet av 4 V’er i utgangspunktet, og så er det noen som ha er lagt til noen, men det er volume, velocity, variety og veracity. Veracity er da den sannheten eller integriteten i dataene. Og det at den verdenen endret seg fra at vi satt med masse små regneark og siloer og små databaser og datavarehus til at volumene og hastigheten på det økte. Det ble mye mer real-time og variasjon; at man plutselig kunne kunne analysere bilder og tekst sammen med geodata, sammen med sensordata og sammen med annen data.

SR: Ja, for det kan jo være litt hva som helst som du på et eller annet vis kan lage et eller annet digitalt signal på. Og det kan man vel egentlig gjøre på nesten alt så lenge man definerer det på en lur måte.

JK: Etterhvert så kan man jo det. Så er det jo liksom 3 enables, og det er jo teknologi; altså at du plutselig hadde datamaskin som kunne prosessere store datamengder.

SR: Så kraftigere datamaskiner?

JK: Ja. Og lagring.

SR: Så du har fått større lagringskapasitet?

JK: Ja. Og du hadde connectivity, at dataene faktisk kunne kobles sammen på tvers av siloer.

SR: Hva mener du med siloer?

JK: For eksempel en software bit, altså et SAP system sånn at du kunne få dataene ut derfra som en fast strøm. At du kunne få det ut fra en sensor som leverte det til en lampe eller måler.

SR: Så man kan få samlet data?

JK: Samlet data på tvers av der hvor de sitter fast i en applikasjon.

SR: Vi også produserer jo hele tiden data nå med alle våre gadgets som er på nett. Altså, jeg tenker, jeg går rundt med en smartklokke her og produserer mine egne helsedata.

JK: Den er fremdeles en silo med de helsedataene. For hvis du bytter til en annen klokke så får du ikke med deg de dataene til den andre siden.

SR: Ja! Så den er en silo?

JK: Så vi lager siloer enda, men det er mulig å koble de sammen til en annen silo på en helt annen måte. Det siste er jo nettopp gjennom dataforvaltning. Det nye prinsippet for dataforvaltning.

SR: Hva er de nye prinsippene?

JK: Det er at du klarer å holde rede på kvalitet gjennom hele dataverdikjeden for eksempel fra en sensor, via nettverk, logge systemer, lagring, transport over satellitt til å sammenstilles da i

analysesystemer. Alle steder kan det oppstå kvalitetsproblemer så man må ha kontroll på at man skal kunne stole på det som kommer ut.

SR: Hva slags kvalitetsproblemer er det som kan oppstå da?

JK: Nei en sensor kan feile, et nettverk kan…

SR: Du nevner sensor, så det er det det oppstår?

JK: For eksempel

SR: Er sensor et generelt begrep på hva som helst som på en måte tar inn et signal?

JK: For automatisert registrering av data så er det et samlebegrep, men hvis du legger inn en rapport for eksempel så er det en transaksjonsdata.

SR: Så sensoren kan selvfølgelig gjøre feil.

JK: Ja. og hvis den er koblet til et nettverk for å sende dataene til et logge system for eksempel, så kan det nettverket på grunn av strøm og sånt noe gå av og på, og da får du hull i de dataene, logge systemet kan være satt opp feil med for høy hastighet som ligger oppå hverandre, du skal downsample dataen for å lagre det. For å klare store volumer så gjør du aggregeringer og downsampling.

SR: Aggregeringer?

JK: Nei unnskyld, downsampling, sånn at du for eksempel tar data med 50 hz ned til ett-minutts oppløsning. Da må du lage et snitt eller…

SR: Ja. For du har dataene som er et signal og så gjør du et type, det jeg tenker som signalbehandling, at du… Er ikke dette sånn MP3? Er ikke det et eksempel?

JK: Det er kompresjonsteknologi. Da fjerner du noe informasjon for å få den mindre, ikke sant.

SR: Så man fjerner det vi kan kalle uviktig informasjon da – eller mindre viktig informasjon, antageligvis.

JK: Litt av poenget nå er at i den nye verdenen når vi plutselig begynner å bruke disse dataene ut av den konteksten de egentlig var laget for å bli brukt til da, for eksempel et kontrollsystem. Når du styrer et skip så har du et kontrollsystem som gir deg hvor fort båten kjører. Det viser viseren. Men nå skal vi bruke hastigheten i en annen sammenheng. Det er for å vise dere hvordan skipet oppfører seg.

SR: Så mer generelt?

JK: Ja, mer generelt. Og da trenger man at det datasignalet har en annen kvalitet. Da er plutselig den støyen, ved at den vibrerer for eksempel, interessant. Men hvis man fjernet vibrasjonen for å lagre den komprimert så mister man den informasjonen.

SR: Og det er kanskje noe man kan ta feil av da? Sånn som jeg som kommer utenifra og bare tenker at: ”her er det jo masse data på disse båtene”, også er jeg ikke klar over at kvaliteten da i utgangspunktet så var det ikke viktig å vite alle de detaljene i dataene, men senere når du da skal prøve å forstå skipene så trenger du nettopp da den informasjonen fra – kall det støy, eller hva nå enn som er fjernet.

JK: Ja. Spesielt når du skal bruke maskinlæring og den typen teknikker som leter etter mønstre, så er de viktige de out-linjene som ikke er vanlige. Sånn for å for å få den innsikten på hva som faktisk skjer når du har fjernet de, så er de borte på en måte.

SR: Nemlig. For dette henger jo tett sammen med maskinlæring og Kunstig Intelligense. Vi har jo ikke Big Data bare for å ha store datamengder. Vi vil jo gjøre noe med dem.

JK: For å få noe ut av dem, ja.

SR: Og da er det nettopp det, ja.

JK: Så det er det nye prinsippet for dataforvaltning du må ha for å klare å få ut den verdien som vi nå plutselig ser at vi kan få ut. Plutselig ser vi nå at vi nettopp kan få bruk av den typen teknikker.

SR: Her blir da nettopp det med lagringskapasitet viktig da antar jeg? At man kan ta vare på nettopp disse ”uteliggerne av et signal”. Ikke bare det som er gjennomsnittet av det, men også faktisk alle detaljene i et signal.

JK: Ja. Og nå er lagring billig og gjør det mulig. Også er det mange som sier at: ”jeg har lagret dataene mine i årevis fordi jeg vet at det vil bli verdifullt engang”, men da kan de ha gjort noen feil antagelser når de lagret dataene som kan ha gjort at dataene nå er ubrukelig.

SR: Har du noen eksempler der det kan ha skjedd eller?

JK: Vi har eksempler på det fra en del av våre industrier. Vi har et eksempel fra Pipeline industrien hvor vi prøvde å lage prediksjonsmodeller for korrosjon av store rørledninger som frakter gass.

SR: Dere skal forutsi når eller hvor det skjer korrosjon?

JK: Når det skjer korrosjon basert på dataene, ja. De dataene er rett og slett ikke predektive. Den måten de er samlet på -hvordan støyen er håndtert, altså, vær, fuktighet og andre parametere som kommer inn og lager støy så klarer man ikke å skille ut de signalene som man trenger for å gjøre en sånn prediksjon.

SR: Nettopp.

JK: Der er det mange verdiløse dataer akkurat i den applikasjonen.

SR: Det er trist da når man har samlet inn mye data og så ser man at de er faktisk mer eller mindre verdiløse. Men de viktigste anmeldelsene av Big Data; hva ville du trekke frem da?

JK: Det er jo som en enabler, nettopp som du sa, for å få en innsikt gjennom teknikker som maskinlæring, Artificial Intelligence, statistikk og matematikk i forskjellige metoder og bygge modeller. Så der hvor man trenger å sette sammen data på tvers av formater og å håndtere høyoppløslig data, sensordata med høy hastighet og sånt, og så bruker man Big Data begreper på enten på en samling teknologier som man trenger å bruke eller på dataforvaltningsprinsippet.

SR: Hva mener man med den samlingen?

JK: Da trenger man mer prosessorkapasitet. Man trenger andre teknikker; som for å prosessere bilder så må man gjøre dem om til pixler og digitalisere det sånn at man kan analysere dem. Man må parallellisere spørringer for å klare å få regnekraft nok til å prosessere store datamengder. Da bruker man teknologier som har Hadoop og Spark.

SR: Hva er spark?

JK: Hadoop er jo teknologien som Google, ja, jeg vet ikke om det var de som fant det opp, men de var i hvert fall tidlig anvender av det hvor de klarer å ta en spørring og spre ut på forskjellige datamaskiner og sette det sammen til ett resultat igjen etterpå. Og spark er en nyere versjon av det som Berkley utviklet etter hvert.

SR: Ligger det her noe som er teknologisk vanskelig å gjøre? Eller hva?

JK: Det har vært veldig krevende, men når det først er løst så gir det jo uendelige muligheter for du kan jo eskalere computerkapasiteten til det uendelige med parallellisering da. Det er bare å legge på flere noder.

SR: Parallellisering da som i at du klarer en eller annen oppgave også bruker du mange maskiner til å gjøre den oppgaven parallell. Hva er det mest spennende med Big Data – det positive og det spennende?

JK: Det er vel egentlig at det kommer til å endre industriene på litt samme måte som man har sett i konsumer området dramatisk i løpet av bare noen få år. Hvor det har tatt flere hundre år til å komme dit vi er nå, så kommer vi til å se store endringer i hvordan vi jobber. Automatisering av arbeidsprosesser, autonomi og automatisering av assets; sånn som skip, rigger, vindmøller.

SR: Altå, opplærte selvkjørende biler, skip osv?

JK: Ja. Så egentlig mange og hvordan vi utvikler modeller, hvordan vi forvalter kunnskapen. Kunnskapen kommer til og bli mye mer datadrevet. Industrien i dag er ikke avhengig av fysiske og ingeniørbaserte modeller. Vi antar hvordan virkeligheten er gjennom fysikk og den type lover. Med mye data fra industrien nå, så kan du på en måte bruke disse nye teknikkene som maskinlæring til å generere en tilnærming for hvordan virkeligheten faktisk er fordi dataene viser hva som faktisk skjer – ikke hvordan vi antar at ting skjer.

SR: Nemlig.

JK: Så det kommer til å revolusjonere fagene våres. Som ingeniører også fordi vi får mye mer informasjon om hva som faktisk skjer.

SR: Om hva som faktisk skjer og ikke bare en modell ja. Hva tenker du er kontroversene og skummelt med Big Data?

JK: Det ligger jo i hvordan det anvendes. Big Data i seg selv er jo ikke kontroversielt. Men personvern, automatisering kommer jo til å endre arbeidslandskapet og det kommer det jo til å være mye friksjon rundt. Men så er det mange barrierer rundt kvalitet, eierskap til data – spesielt i industriene så er jo eierskap en stor barriere siden det er mange som er redde for dataene sine.

SR: Men hvem er det som eier dataene? Det tror jeg man begynner å få en mer bevissthet rundt nå, men man genererer jo data hele tiden når du beveger deg rundt på internett og man tenker som forbruker at nå får jeg bruke det her gratis – men det er jo ikke gratis. Du betaler jo med dataene dine.

JK: Ja.

SR: At man ikke skjønner hvor verdifullt akkurat det informasjonen der faktisk kan være da.

JK: I industriens å er et jo ofte mer alvorlig og. Gal informasjon til galt sted kan jo påvirke børsverdiene og accountability i forhold til ulykker, ansvar og sånne ting. Så det er mye mer konsekvens av feil bruk av i industridata enn persondata. Du vil få videre konsekvenser.

SR: Hvordan da?

JK: Nei, kvalitetsparametere kan påvirke børsverdiprediskjoner, det kan, ja, si noe om hva man egentlig visste i forhold til ulykker og…

SR: Det kan ha enda større ringvirkninger.

JK: Ja.

SR: Har Norge noe... Nei; hva er Norges unike fortrinn når det kommer til Big Data?

JK: Det er dessverre ikke så mange.

SR: Nei!? Hehe!

JK: I olje og gass så har vi et veldig stort fottrinn. Så vi har en head start i å prossesere data i olje og gass. Så har vi noen unike dataset, hvor da helsedata er ett av de. Det tenker jeg kanskje er største fordelen Norge har når det gjelder Big Data med fokus på dataen

SR: Helsedata? Hva er det som er så spesielt med våres helsedata?

JK: Ja. Nei, de er av en veldig god kvalitet. De er strukturerte. Og regelverket gjør det mulig å jobbe med de på en annen måte der de er mer lukket i private siloer, enn i andre land hvor mesteparten av helsedataen er mer offentlig enn i Norge

SR: Noen har gjort en god jobb i utgangspunktet her.

JK: Også er det jo bedre eksempler enn oss, Estland blant annet som har startet fra scratch og bygget en helt ny digital verden rundt sine data, men vi er ganske langt fremme og vi har en del fordeler der. Men det er en del barrierer. Veritas jobber mye også innen helse. Så vi jobber egentlig på tvers av helse, det tradisjonelle olje og gass, energi, shipping til mat og matsikkerhet.

SR: Overalt.

JK: Og alle stedene så er det de samme temaene rundt mulighetene Big Data og digitalisering gir og de samme barrierene rundt governance, kvalitet og eierskap og sånne ting.

SR: Hva er governance?

JK: Forvaltning. Dataforvaltning.

SR: Nemlig!

JK: Vi jobber mye på engelsk så det blir en del blanding!

SR: Det er kanskje at det begrepet er kjent for alle, men jeg bar: ”hva er nå dette?”. Men ok. Så innen helsedata er det mye bra. Estland er kanskje enda bedre. Enda. Da får vi lære av Estland da.

JK: Ja, det kan vi absolutt.

SR: Hvis de som sitter og lytter vil lære mer om Big Data. Hva burde de gjøre da?

JK: Som sagt er jo Big Data litt et moteord som har gått litt av moten, og så har det kommer moteord som har kommet på moten sånn som machinelearning, AI, sata Science - og digitalisering ikke minst!

SR: Det er et ord som rammer absolutt alt!

JK: Ja, det gjør det, så Big Data i seg selv er jo… Er du interessert i Big Data teknologi så er det mange kilder til det, men der følger ikke jeg så mye med. Men innen digitalisering så får du de temaene som Big Data er en enabler for å gjøre da.

SR: Er det noe spesielt man burde søke etter, lese eller se?

JK: Nei altså, jeg har skrevet et Big Data paper i 2014 som ligger på DNV GL sine hjemmesider. Den kan leses om noen er interessert i det.

SR: Okey, så det ligger et Big Data paper på DNV GL sine hjemmesider! Da skal vi runde av, men jeg har lyst til å spørre deg om en ting til. Hvis lytteren skal huske én ting fra vår samtale, hva skal det være da? Hva må de huske om Big Data?

JK: Ja, det er det at det er mulig å sette sammen data fra veldig forskjellige typer og veldig mange forskjellige kilder ved hjelp av teknologi og forvaltningsprinsipper som ikke har vært mulig før. Og der er det egentlig bare kreativiteten som setter grenser.

SR: ”Det er bare kreativiteten som setter grenser”. Det er en veldig fin avslutning. Tusen takk til deg Jørgen Kadal for at du kom og lærte meg og lytterne mer om Big Data, og tusen takk til deg som lyttet!


Du har lyttet til en podcast fra Lørn.Tech - en læringsdugnad om teknologi og samfunn. Følg oss i sosiale medier og på våre nettsider Lørn.tech.


Hvorfor er det spennende?

Big data kommer til å endre industriene på samme måte som man har sett i konsumer-området, dramatisk og i løpet av noen få år. Hvor det har tatt flere hundre år til å komme dit vi er nå, så kommer vi til å se store endringer i hvordan vi jobber. Automatisering av arbeidsprosesser, autonomi og automatisering av assets.

Hva er greia med big data?

Big data er et begrep som har vært mye i bevegelse, men når det oppstod for noen år siden, så handlet det om noe som var større enn det du kunne ha på en PC eller i det verktøyet du brukte.

Hva tror du er relevant kunnskap for fremtiden?

Kunnskapen kommer til å bli mye mer data-drevet. Industrien i dag er ikke avhengig av fysiske og ingeniørbaserte modeller. Vi antar hvordan virkeligheten er gjennom fysikk og den type lover. Med mye data fra industrien så kan du bruke disse nye teknikkene som maskinlæring til å generere en tilnærming til hvordan virkeligheten faktisk er, fordi dataene viser hva som faktisk skjer – ikke hvordan vi antar at ting skjer.

Hva gjør vi unikt godt i Norge av dette?

I olje og gass så har vi et veldig stort fortrinn. Derfor har vi en head start i å prosessere data i olje og gass. Vi har også noen unike dataset, hvor da helsedata er ett av dem. Det tenker jeg er den største fordelen Norge har når det gjelder big data med fokus på dataen.

Viktigste poeng fra vår samtale?

Det er mulig å sette sammen data fra mange forskjellige typer og kilder ved hjelp av teknologi og forvaltningsprinsipper som ikke har vært mulig før. Og det er bare kreativiteten som setter grenser.

Jørgen Kadal
Programme Director
DNV GL
CASE ID: C0075
TEMA: AI AND BIG DATA TECHNOLOGY
DATE : 181019
DURATION : 17 min
LITERATURE:
DNV GL position paper: Big Data - the new data reality and industry impact av Grunde Løvoll og Jørgen Christian Kadal
YOU WILL LØRN ABOUT:
Big data Fire V'er Digitalisering Nasjonale og internasjonale eksempler
QUOTE
"Big data fører til store endringer når det kommer til automatisering av arbeidsprosesser, hvordan vi utvikler modeller og hvordan vi forvalter kunnskap."
More Cases in topic of AI AND BIG DATA TECHNOLOGY
#C0045
AI AND BIG DATA TECHNOLOGY
Digitale tvillinger

Michael Link

Forsker

Kongsberg

#C0044
AI AND BIG DATA TECHNOLOGY
Big Data og geometrisk modellering

Heidi Dahl

Forsker

Sintef

#C0043
AI AND BIG DATA TECHNOLOGY
Slik kan Big Data predikere fremtiden

Sverre Kjenne

Leder

BaneNor