Legg til din overskrift her

Data som beskriver den industrielle virkeligheten

Med Geir Engdahl
fra CTO
, Cognite
Audio podkast

Geir Engdahl: Hvordan Cognite hjelper industrielle selskaper å oppdage feil før de inntreffer

 

Silvija Seres: Hei og velkommen til dagens episode av lørn.tech. I dag skal vi snakke om big data. Jeg er Silvija Seres, og med meg har jeg Geir Engdahl. Cheaf technology officer fra Cognite. Spennende Norsk big dataselskap. Velkommen Geir. 

 

Geir: Tusen takk. 

 

Silvija: Jeg oppdaget deg igjennom Cognite systemet og John Markus Lervik som skrøt så mye av denne fantastiske unge mannen som var stjålet tilbake fra USA. Du har jobbet som utvikler hos google?

 

Geir: Det stemmer. Jeg har jobbet med annonsesystemene til google og de annonsene som du ser ved iden av hvert søk. 

 

Silvija: Hva gjorde at du valgte å dra fra google, tilbake til lille Norge for å jobbe for et start up? 

 

Geir: Det var mange ting. Litt hjemlengsel, og litt det at jeg følte jeg hadde lært veldig mye hos google, også hadde jeg lyst å anvende det i litt andre sammenhenger. 

 

Silvija: Fortell litt om hva dere gjør i Cognite. 

 

Geir: Det vi gjør er å gjøre de dataene som industrielle selskapene sitter på mer verdifulle. Vi kan for eksempel ved å bruke store mengder sensor-data si noe om når utstyr er i ferd med å gå i stykker. 

 

Silvija: Så prediktive maintenance. Dette kan brukes på store oljeplattformer, eller sykehus 

 

Geir: Vi har jobbet mye med olje og gass, skipping, kraft. Altså strømproduksjon, kraftnett. Men egentlig alt som er store å dyre maskiner. 

 

Silvija: Men hjelp meg å forstå det litt enkelt. For eksempel når det gjelder strømnettet. Strømselskapene, altså dataselskapene samle informasjon om hva? Vibrasjoner eller hvordan vet de at en stolpe kommer til å knekke? 

 

Geir: Spenninger, temperatur, kraftflyt. Vibrasjoner på ting som roterer. 

 

Silvija: Og da oppdager man mønster på ting som er uvanlig som gjør at man skjønner at her er det noe som kommer til å gå galt? 

 

Geir: En stor industriell institusjon vil ha mange tusen, flere hundre tusen sensorer. Så det er ingen mennesker som kan sitte og overvåke alle disse å se etter noe som er unormalt, men det kan maskiner. 

 

Silvija: Jeg har også hørt at de har sinnssykt mye data, men at de ikke helt vet hvordan de skal få noe ut av den enorme mengden data. Hvordan kan man hjelpe dem med det? 

 

Geir: Det er ett godt spørsmål. På den ene siden så har de veldig mye data, men de har veldig lite data om når noe går galt. Og det er enda mindre data som er godt «tagget».

 

Silvija: Hva betyr tagging? 

 

Geir: Det vil si at du setter en slags merkelapp på dataen som sier att denne dataen representerer en lekkasje, eller dårlig kulelager for eksempel. 

 

Silvija: Så du dokumenterer unormalheter? 

 

Geir: Ja. Og problemet vårt er at selv om vi har hundre tusenvis av sensorer som rapporterer hvert eneste sekund. Temperatur eller trykk eller flyt. Så er det veldig sjeldent at du ser store break downs på utstyret. Heldigvis, for det er veldig dyrt. Vi har vært borti noen tilfeller der en lekkasje i ett juletre på en offshore stasjon kostet hundre millioner dollar. Så det er mye penger. Det «promise» oppsiden ved å få til dette er enorm, men det som er vanskelig er å vurdere når en modell som er basert på maskinlæring faktisk fungerer. For du har så lite data som er tagget, og vurdere det mot. 

 

Silvija: Vårt løfte her i LØRN er at vi skal forenkle ting super mye slik at det skal være forståelig for alle. Ikke bare datafolk, statistikkfolk og ingeniører. Det er dette vi snakker om egentlig, det du gjør er å utnytte den enorme utviklingen i sensorikk for nå kan du måle masse spennende rundt disse industrielle anleggene. Så kobler du dataene inn på en fornuftig måte, så bruker du dette som du kaller maskinlæring. Hvor du viser maskinen hva som funker, og hva som ikke funker. Slik at den etter hvert skal forstå selv hva god funksjonalitet er. 

 

Geir: Stemmer. Og dette er ganske ny teknologi, og ganske ny måte å lage dataprogrammene på. Før var det slik at programmereren satt å skrev regler manuelt. For hvordan en «input» skal oversetter til en «out put». I dag har vi programmer som kan ta eksempler på begge å utlede de automatisk. Det betyr at verdien av dataene stiger. Så data i seg selv får en større verdi. Og det har konsekvenser for samfunnsutviklingen da store mengde data vil tiltrekke seg mer data for de som har mest vil kunne lage bedre programmer, som igjen kan oversettes til bedre tjenester som gjør at flere brukes tjenestene og det kommer mer data. 

 

Silvija: Her vil jeg krangle litt med deg. For jeg tror ikke det nødvendigvis er de som har mest data. Men de som har mest data og de beste modellforståelsene, altså de som vet hva de vill med dataene sine. Og det er der dere er ganske unik erfaring. 

 

Geir: Vi har ganske mye Software erfaring og maskin erfaring. Og vi har veldig mye data i Norge som er industrielle da vi har en stor industriell base. Og vi er ett høykostland som betyr at det har vært mye automatisering og sensorikk ute i felt allerede. 

 

Silvija: Beskriv disse sensorene. Det høres litt science fiction ut. Det som var mitt «aha-øyeblikk» når det gjelder sensorer og internett var nå jeg så droner som i dag koster 100$ eller mindre. Hvor jeg kjenner igjen teknologi som kostet 300 000$ for noen år siden. Og det har noe med «..» å gjøre. Men hva er disse greiene? 

 

Geir: Det er akkurat som temperaturmåleren på veggen hjemme, bare at det er veldig mange, og de snakker med hverandre. 

 

Silvija: Også er de bitte små, holde i ti år og tåler vand og ving? 

 

Geir: Ja. 

 

Silvija: Men dette gjør at man kan kutte kostnader, da man slipper tapt produksjon. Man kan reparere ting når det passer. Og man også gjøre ting på helt nye måter? 

 

Geir: Du kan forstå hvordan du skal operere et industrielt anlegg bedre. Slik at du faktisk kan øke produksjonen ved å forstå bedre ved å for eksempel vite hvordan du kjører forskjellig utstyr. Hvor høy prosent skal du kjøre på hver pumpe for at det skal fungere optimalt. 

 

Silvija: Jeg vil at vi skal snakke litt om statistikk. For dette er egentlig prediksjonskunst. Og man snakker med veldig vanskelig ord. «Backwards ....» og «... analyser». Men egentlig er dette statistikk hvor man prøver å finne data og de mest relevante mønstrene. Er du en datamann, statistikk-man eller ingeniør. Hvordan kombinerer du det du kan for å kombinere data så bra? 

 

Geir: Jeg har utdannelse som anvendt matematiker. 

 

Silvija: Hva betyr det? 

 

Geir: Det betyr at jeg er flink til å løse ligninger som har med den virkelige verden å gjøre. Men når det gjelder maskinlæring og big data så er det jeg opplever som det vanskeligste å finne ut hvordan man skal måle hvor god en modell er. Og det er statistikk. 

 

Silvija: Statistikk dreier seg om å finne de mest relevante mønstre, eller de mest relevante input materialene?

 

Geir: Ja. Det er mye av det man kaller som feature engenering er å finne ut hva data er det som er relevant, og hvordan kan du avlede inn til noe som brukes i modellen. Men på et med fundamentalt nivå. Når du har en modell som sier at «dette er unormal eller normal operasjon». Når du skal måle den mot en annen modell som oppfører seg litt annerledes. Hvordan vet du da hvilken modell som best beskriver virkeligheten? Da har du forskjellige statistiske mål på det. Hvor ofte du treffer med tidligere data for eksempel. Men måten du måler de to modellene mot hverandre, vil definerer hva slags modell du ender opp med. Så det er ikke så vanskelig å trene en modell, men det er vanskelig å finne ut hvilken av de forskjellige metodene som oftest skjer. Du kan laste ned på internett for å trene forskjellige modeller, men å vite hvilken av dem som fungerer best i praksis er vanskelig. 

 

Silvija: Men dette gjør dere i tett samarbeid med de som er kundene. Og det er der du trenger den menneskelige forståelsen the «unknown unknowns». 

 

Geir: Det stemmer, og du trenger veldig mye domenekunnskap. Det vil si, at jo mindre tagget data vi har, jo mer trenger vi domenekompetansen for å kompensere for det. 

 

Silvija: Og hva er det menneskene kan som man ikke så lett kan finne med statistiske metoder? 

 

Geir: Det er å reprosesserer dataene. Eller fordøye dem slik at de blir lettere for maskinene og forstå. Du kan si at hvis du overvåker en vareveksler, så er det veldig viktig å forstå hvor mye varme den veksler mellom den kalle og varme siden. Men det du måler er ofte flow, og temperatur inn og ut. Så da finnes det en ingeniørligning som kan ta de verdiene og oversette til varmeutvekslingen. Og det er mye lettere for en maskin å se om noe er i ferd med å gå galt, hvis den har den utledede verdien, enn råverdiene inn. 

 

Silvija: Så det finnes primære data og sekundære data, og dette begynner å bli veldig nerdete. Det jeg har lyst å berøre er at det som overlappingen mellom big data, maskinlæring og kunstig intelligens er veldig uklar. Og det er selvfølgelig fordi dette er komplimentere teknologier. Og det er slik at alle de store dataselskaper Amazone, Facebook og Google bruker enorme mengder big data. De analyserer våre tidligere søkemønstre, og slik at de kan gjette de fremtidige søkernes svar både på brede og smale søk. Kan ikke du fortelle litt om det du gjorde for de med maskinlæring på annonser? 

 

Geir: Jo. Da jeg kom til google var det mitt første møte med big data. Og jeg tenkte «oh shit» for den dataen kunne jeg ikke engang lagre, langt mindre prosessere den eller holde den i minnet som jeg trenger. Min personlige definisjon av big data, er data som er for store til å ha på en enkelt maskin, uansett. Om du prøver alle de største diskene på komplett, så har du ikke sjans. Så du må distribuere de på flere maskiner. Og det har gitt opphav til en rekke nye teknologier som er laget for å dele opp data, og prosesserer de i parallell på mange maskiner. 

 

Silvija: Kan ikke du nevne de store selskapene som driver med «...» big data. Altså, det går ann å kjøpe etter hvert mye av «hadop-greier». Kan ikke du nevne ett par ting? 

 

Geir: Alle de tre største sky leverandørene, Amazone, Microsoft og Google har ett ganske komplett sett med big data som de tilbyr som en tjeneste. De tjenestene gjør lagring, prosessering, strømming og trening av maskinlæringsmodeller på big data. 

 

Silvija: Akkurat. Men så kom du til google og skjønte at noe sånn hadde du i hendene? 

 

Geir: Ja. Og det var veldig gøy. Jeg drev med atmosfære fysikk i mastergraden min, og drev og løste ligninger på det. Og nå løste jeg plutselig ligninger som maksimerer sannsynlighet for at du klikker på og kjøper det annonsøren vil selge deg via google annonser. Men framgangsmåten for å løse de ligningene er forbløffende lik. Enten det er atmosfærefysikk eller annonseklikk du jobber med. 

 

Silvija: Enten vindmønsteret eller kjøpemønsteret? 

 

Geir: Ja. Det som er vanskeligheten når du jobber med så store datamengder er at selv veldig enkle operasjoner blir kompliserte. Det er litt som å løpe 60 meter, aller kan gjøre det. Men det er veldig vanskelig å gjøre det på 60 sekunder. 

 

Silvija: Også trente du dette bra, for man får egentlig ganske gode annonser. Og det er det man bygge businessmodellen på. 

 

Geir: Det er denne type big data og algoritmer for klikk som har skapt noen av de mest verdifulle selskapene. Facebook og google har bygget sin verdig på nettopp dette. 

 

Silvija: Og det er ikke bare for å gi oss mer optimaliserte, personaliserte tjenester. Men etterhvert kan de forutse oss også. 

 

Geir: Jeg vil ikke si de kan forutse deg personlig, men hvis du har hundre mennesker som ligner på deg, så kan det si ganske mye om mønstrene. Men jeg tror vi har fri vilje. Så jeg kan ikke si om du klikker på annonsen eller ikke. Men hvis du går inn 100 eller 1000 ganger, kan jeg si sånn ca. hvor ofte du klikker. 

 

Silvija: Liten digresjon. Som dame så spiller jeg mer og mer bevisst på rette å være uforutsigbar. Tilbake til Norge, jeg liker Cognite kjempe godt. Delvis fordi jeg tror dere er i en sånn super «sweet spot» for noe Norge kan gjøre best i verden 

 

Geir: Som jeg sa, vi har mye industri og industrielle data. Og vi har en stor grad av tillit som gjør at datautveksling er kommet lengre her, enn det store utland. Og det gir opphav til nye forretningsmodeller, som gjør at for eksempel en leverandør av en pumpe kan få tilgang til dataene som pumpen produserer fra operatøren. Og selge, ikke pumpen, men pumpen som en tjeneste. Det å løfte vann og ta mer ansvar for dens ytelse igjennom livet. 

 

Silvija: Hva er ditt favoritteksempel. Vi snakket om industrielle data. Men dette brukes også på bilde data, stemme data og ganske mange nye kanaler?

 

Geir: Det stemmer. Mitt favoritteksempel som ligger mitt hjerte nær er bildegjenkjenning. Jeg var i en startup som het snapsale som drev med bildegjenkjenning. Det er en veldig god måte å illustrere det nye paradigme innenfor programutvikling og maskinlæring representerer. Som en utvikler er det vanskelig å skrive regler for hvordan en katt ser ut på ett bilde, nesten umulig. Men ved hjelp av x antall eksempler, så kan maskiner lage disse eksemplene. 

 

Silvija: Og det morsomme er at nå begynner de å bli bedre enn mennesker på noe som vi mennesker trodde var vår unike styrke.

 

Geir: Stemmer. Og maskiner kan gjøre det mye raskere enn mennesker også. Så disse algoritmene har blitt så raske at de kan gjenkjenne mange objekter i en video i santid, og dermed brukes for å hjelpe for eksempel selvkjørende biler til å navigere trafikken. 

 

Silvija: Hva er ditt råd til folk hvis de vil lære mer om big data? Finnes det noen gode populistiske kilder? 

 

Geir: Jeg er veldig glad i Learning by doing. Og det finnes mange tutorials og konkurranser innenfor dette på nett. F.eks cognite har lagt ut masse industrielle data som finnes på open industrialdata.com Hvor du kan leke med ekte industrielle data. Så det er sånn jeg like å lære. 

 

Silvija: Hva vil du folk skal huske fra denne samtalen? 

 

Geir: To ting: 

  1. Man har fått ny teknologi som gjør at man kan ta eksempler på inn data og utdata og innlede hva som er reglene. 
  2. Mengden med data som er tagget med hva det er, vil bestemme hvor godt man kan måle hvor god modellen er. 

 

Silvija: Teknologien er her og vi må være super gode på modeller. 

 

Geir: Stemmer. Og måle hvor gode de er og operasjonalisere de og sette de i situasjon for å få de til å løse virkelige problemer. 

 

Silvija: Tusentakk Geir Engdal fra Cognite. Takk for at du var her å lære oss om big data.

Geir: Tusen takk.

0042_181012_BIGDATA_Geir Engdahl_18_drawColor_bnv
Episode #C0042
Dato: 181012
Vert: Silvija Seres
I denne episoden av #LØRN snakker Silvija med Geir Engdahl som jobber som CTO i Cognite, et selskap som utvikler teknologi for å samle inn, rense og kontekstualisere dataene til selskap innen tungvare-industrier. Silvija og Geir diskuterer alt fra sensordata og 3D-modeller, via konkurransefordelene Big Data gir store selskaper, til hvordan den Norske kulturen for tillit muliggjør en datautveksling mellom bedrifter, som kan utgjøre verdi for alle.