LØRN case C0055 -
LØRN. SME

Jon Espen Ingvaldsen

Sjefskonsulent

Kantega

Overfitting vs. Personalisering

I denne episoden av #LØRN snakker Silvija med sjefskonsulent i Kantega, Jon Espen Ingvaldsen. Jon Espen har doktorgrad fra NTNU og har tidligere grundet to big data-startups. I dag jobber han med å etablere et produksselskap og spin-off fra Kantega som selger forenklet pålogging til Atlassian-produktene. I episoden forteller Jon Espen blant annet om «overfitting» versus personalisering, hvordan fremtidens AI-revolusjon kan utspille seg, samt om hvorfor han er kritisk til «hypen» rundt AI og dens potensiale til å erstatte oss mennesker.
LØRN case C0055 -
LØRN. SME

Jon Espen Ingvaldsen

Sjefskonsulent

Kantega

Overfitting vs. Personalisering

I denne episoden av #LØRN snakker Silvija med sjefskonsulent i Kantega, Jon Espen Ingvaldsen. Jon Espen har doktorgrad fra NTNU og har tidligere grundet to big data-startups. I dag jobber han med å etablere et produksselskap og spin-off fra Kantega som selger forenklet pålogging til Atlassian-produktene. I episoden forteller Jon Espen blant annet om «overfitting» versus personalisering, hvordan fremtidens AI-revolusjon kan utspille seg, samt om hvorfor han er kritisk til «hypen» rundt AI og dens potensiale til å erstatte oss mennesker.
Facebook
Twitter
LinkedIn
Email

22 min

Choose your preferred format

Velkommen til Lørn.Tech - en læringsdugnad om teknologi og samfunn med Silvija Seres, Sunniva Rose og venner.


SS: Hei, og velkommen til Lørn. I dag skal vi lørne om kunstig intelligens eller AI - Artificial Intelligence. Jeg er Silvija Seres og med meg har jeg Jon Espen Ingvaldsen fra Kantega. Velkommen!

JEI: Tusen takk. Veldig hyggelig å være her.

SS: Jon Espen, det å lære bort kunstig intelligens er kanskje et av de vanskeligste temaene vi har drevet med her i Lørn. Det er et så bredt felt og det er så mange spesialbegreper. Så vi går lett til verks her nå. Først har vi egentlig lyst til å høre litt om hvem du er, og hvorfor er du interessert i AI?

JEI: Jeg er en kar fra Ski som flyttet til Trondheim for å studere, og har siden blitt der. Jeg har vært med å starte to startup-bedrifter derfra. Jeg er litt akademisk, tatt en doktorgrad og jobbet som post.doc. forsker. Jeg har også jobbet mine år som konsulent og gravd i møkkete industridata.

SS: Møkkete industridata - hva betyr det?

JEI: Det er når du prøver å anvende for eksempel AI på reelle data som en bedrift samler opp eller som de sporene vi etterlater oss.

SS: Trafikkdata, eller sensor om temperatur og risting?

JEI: For eksempel. Så finner man veldig mye støy i den type data. Det er mye hull i dem. Det kan være at man må bruke mye tid på noe vi kaller å vaske dataene for å få dem i en slik stand at man kan bruke dem, og få maskiner til å forstå dem.

SS: Ja, det skal vi snakke mer om. Hva gjør Kantega?

JEI: Kantega er et konsulentselskap med kontorer både i Oslo, Trondheim og Bergen. Vi hjelper selskaper med å kjøre ut software utviklingsprosjekter, men også å forstå dataene sine. Først

anbefaler vi dem verktøy de skal bruke og hvordan de skal gå frem for å bygge de løsningene de har lyst til å nå.

SS: Både industrielle og kunder i det offentlige?

JEI: Ja, en god miks av det.

SS: Merker du at folk begynner virkelig å bruke kunstig intelligens - AI til noe reelt nå eller er det fortsatt på hypenivå?

JEI: Det er fortsatt litt på hypenivå, men man ser at det er mye interesse. Folk har lyst å komme i gang, men de ser at det er både vanskelig og det er også vanskelig å få tak i folk.

SS: Hva slags folk skal man ha?

JEI: Det er mange bedrifter der ute som jobber i en virksomhet som typisk har vært en industri, men som nå blir digitalisert. De har kanskje hatt økonomer eller andre type folk som typisk har vært de ansatte der. De ser nå at de får behov for programvareutviklere, teknologer, og er da med i dette racet med å få tak i den type talent, som er vanskelig.

SS: Folk som kan lage AI-verktøy og som da må kunne både litt programmering, litt statistikk og kanskje litt språkteori eller domenekunnskaper for å forstå bilder eller setninger eller industrielle møkkete sensor data. Er de enda større nerder enn vanlige programmerere?

JEI: Ja, det tror jeg.

SS: Men det begynner å bli ganske mange biblioteker. Det er et eller annet når det begynner å åpne seg også. Der er dere veldig spennende. Med at dere begynner å lage kundefabrikker. Kan ikke du fortelle litt om hvordan det funker?

JEI: Kantega er jo et konsulentselskap, men vi har også skilt ut produktselskap før. Signicat har vi skilt ut, og nå skiller vi ut et annet selskap som heter Kantega SSO, som er et produktselskap.

SS: Hva står SSO for?

JEI: Det står for single sign on. Det hjelper brukere med å få logge inn i ulike tjenester uten å måtte ha mange ulike brukernavn og passord eller gjøre pålogging veldig mange steder.

SS: Hvem er kunder hos Kantega SSO?

JEI: Det er alle mulige selskaper rundt om i verden. Vi har Tesla som kunde, vi har Volkswagen.

SS: Men måten det funker på er at da kan Tesla sine kunder gå på samme plattform som Volkswagen eller en annen offentlig leverandør i Norge uten å måtte huske alle passordene. Det er dere som holder plattformen?

JEI: Ja, vi har en løsning som gjør at disse ingeniørene som bruker prosjektverktøy kalt Jira for eksempel, kommer rett inn i Jira uten å måtte skrive inn brukernavn og passord. Det gjør at de kan være mer produktive og bruke mer tid på det de skal gjøre.

SS: Dere er en type Jiraverktsted i skyen?

JEI: Vi lager en tilleggsmodul til Jira som vi selger på Atlassian sin markedsplass, en digital markedsplass. Vi er et digitalt nisjeprodukt som vi selger på en digital nisjekanal, men likevel klarer å nå ut veldig bredt globalt.

SS: Hvor kommer AI inn i dette her?

JEI: Det er ikke noe AI i det produktet vi selger..

SS: Folkens, dere må bare bli vant til at vi sier bare AI. Det står selvfølgelig for artificial intelligence eller kunstig intelligens. Så det blir mye AI.

JEI: Det er ikke noe AI i det produktet, og jeg skal ikke være for bastant og si at vi bruker AI heller i den satsingen, men vi bruker veldig mye dataanlalyse for å forstå kundene våre. Forstå hvilke kunder i får til å konvertere til å bli betalende kunder, og hvem som faller av. Å sette sammen data fra ulike kilder for å forstå og optimalisere butikken.

SS: Det er både AI og det er ikke AI. Hva er AI? Det er analyse av store data, og det gjør dere definitivt, men så kan man gå mye lenger. Du har jobbet med dyp mønstergjenkjenning i California. Kan du si to ord om det, og hvorfor ble du ikke der?

JEI: I studiene ble jeg litt studielei, og trengte et annet miljø. Så jeg tok et år i California, i Santa Barbara. Der fikk jeg noen fag hvor jeg hadde fantastiske professorer som hadde veldig stor frihet til hvordan de formet fagene sine, og jeg hadde noen prosjektfag hvor vi fikk lov til å gjøre hva vi ville. Det året jeg var der var det året 11. september skjedde. Det påvirket litt hva man hadde lyst til å holde på med, og hva professorene interesserte seg for. I etterkant av det, ble det en stor interesse for det å gjenkjenne mennesker i videostrømmer, gjenkjenne ansikter. Og vi fikk gjort en del prosjekter av egen vilje, hvor vi kunne styre det selv.

SS: Det ble veldig meningsfullt også?

JEI: Meningsfullt, men du ser også at du med en del enkle grep kan lage ganske OK løsninger.

SS: Og det er egentlig en av de tingene som fascinerer meg med hvor mye bedre det har blitt bare det siste året. Kan du ikke forklare folk litt hvorfor er maskinene plutselig så veldig mye bedre til å kjenne igjen ansikter og skille chihuahuaer fra muffins eller hva det nå er?

JEI: Det er en ting som driver det, eller det kan være flere ting, men en ting som jeg vil trekke frem er at veldig mye av det som skjer nå innenfor AI og Big Data er drevet av disse store internettselskapene, mens før så var det som gikk på forretningsintelligens og dataanalyse drevet av flere selskaper som levde av de verktøyene og programmene man måtte kjøpe for en dyr kost for å komme i gang.

SS: Så Google, Facebook og Amazon lager verktøy som er ekstremt gode på bibliotek. Det er nesten som du plugger inn ting som kjenner igjen ansikt, kundenummer eller et eller annet?

JEI: Ja, og så open sources dette, slik at alle kan ta det i bruk. Enten gratis, eller for en lav kostnad.

SS: Så det er AI for alle?

JEI: Ja, og jeg tror det kommer til å bli enda mer AI for alle.

SS: Kan du hjelpe folk å forstå. Hvor begynner man? La oss si at man lager et lite eksperiment på jobben. Hvordan tenker man riktig analyseområder. Hvor begynner man for å samle litt verktøy?

JEI: Jeg tror jeg ville ha startet med å sett på dataene som du sitter på og bestemme deg for hva du ønsker å få til. Mange er fokusert på å trene AI modeller og hvilke modeller de skal bruke. Mye fremmedord rundt dype nettverk, og fokuset havner veldig fort der.

SS: Det høres veldig kult ut.

JEI: Ja, det høres veldig kult ut og det er helt riktig, men for å få dette til så trenger man gode data. Tenk på at en AI-modell eller en smart intelligent algoritme er som å kjøre bil. Hvis du skal kjøre bil, så har du masse innputsignaler. Når jeg tok lappen som 18 åring, lærte jeg at man må se langt fram, og ikke bare frett foran panseret. Jeg strevde litt med det.

SS: Og hvert fall ikke sminke seg og bruke mobiltelefon mens man kjører.

JEI: Ja, og så har man speil på sidene. Jo mer innputt du får, jo bedre sjåfør blir du. Sånn er det viktig å tenke når man skal trene en AI-modell.

SS: Du lærer den å kjøre.

JEI: Du lærer den å kjøre, og gir den de riktige inputene som den kan lære av.

SS: Vi skal prøve å la folk bløffe litt om AI etter denne samtalen. Kan vi ikke åpne et par av de begrepene. Du sa det er mange forskjellige modeller, med det prøver man å si at det er forskjellige typer statistiske modeller. Mønstergjenkjenning - man prøver å finne mønstre med litt forskjellig typer statistikk. Regresjonsanalyse vs. dype nett. Kan du si noe veldig enkelt om forskjellen?

JEI: Det som er likt med begge er at det er en modell som prøver å beskrive hvordan dataene henger sammen. Sånn sett så er de veldig like.

SS: Hvor veien går på en måte, ut ifra alle de rotete dataene man har?

JEI: Sammenhengen mellom et veiskilt og hvordan man skal tilpasse farten etterpå. Den type relasjoner modellerer både en enkelt statistisk metode som lineær regresjon og dype nevrale nettverk som har vanskelig for å forstå

SS: Eller for å gå tilbake til bildegjenkjenning. Kunne for eksempel hudtone, nasjonalitet, rynker, mørke sirkler rundt øynene som har med alder å gjøre å relatere med skjegg til kjønn og sånn?

JEI: Ja, og de type relasjonene hvor disse kalles dataatributter eller features - hvordan de henger sammen gjør de enkle statistiske modellene og de komplekse.

SS: Noen ganger må du fortelle maskinen hva det er, og andre ganger skjønner den at det er en egen greie eller?

JEI: Ja, mye av det som er innenfor maskinlæring handler om å bygge selvlærende modeller av hvordan disse relasjonene henger sammen. Så har man også en annen gren av kunstig intelligens, og gjerne innenfor det med semantikk. Man må jobbe mye med kunnskapsgrafer..

SS: Hva betyr semantikk?

JEI: Semantikk er mening. Det betyr å forstå mening og forstå konsepter.

SS: Så datamaskinen skal skape sin egen mening ut ifra det den etterhvert finner av mønstrene?

JEI: Ja, og det den observerer. Få den til å virkelig forstå Hva er dette? Hva betyr det?. Gjøre dem i stand til å generalisere kunnskap. I en bedrift som jeg var med å starte for et par år siden, Mito.ai, så jobbet vi med teknologi for å få algoritmer til å forstå innhold i mediestrømmen i nyhetstekst. Der kan jo en enkel tilnærming for å forstå tekst er å trekke ut ord, men ordene i en tekst er jo egentlig bare bokstaver etter hverandre som for maskinen ikke betyr noen ting. Innenfor semantikk så prøver vi da å gi maskinene og algoritmene forståelse for hva det faktisk er som står i det innholdet.

SS: Er det positivt eller negativt? Hvor langt kan man dra det for å kjenne igjen fake news? Det har vært en veldig hot problemstilling. Kan det være elementer som man kunne fanget opp?

JEI: Jeg tror ikke det er en oppgave som maskinene er spesielt gode på å gjenkjenne. Det tror jeg vi mennesker fortsatt har en ..

SS: Vi lukter oss frem til løgner.

JEI: Ja, det å lukte løgner. Kanskje vi kommer dit, men vi er ikke helt der i dag. Det er en veldig vanskelig utfordring å få maskiner til å detektere det.

SS: Folk har også blitt veldig gode til å lyve etter hvert.

JEI: Og utrolig kreative.

SS: Jeg har skikkelig problemer nå, for nå må jeg spørre deg om et par ting til og så må vi snart tenke på avrunding. Veldig kort, du nevnte for meg en annen kontrovers som du synes er spennende som jeg har veldig lyst at du åpner opp for folk. Dette med personalisering vs. biases og over fitting. Hva betyr det?

JEI: Oi der er det noen fremmedord du har introdusert. Over fitting handler om i hvilken grad du bygger en modell som forstår relasjonene i de observasjonene den treningen akkurat så. Og hvis du over tilpasser den tolkningen av observasjonene dine og den modellen du bygger, så trekker du ikke en generell forståelse eller generell kunnskap. Så når du jobber med AI og med maskinlæring, prøver du å balansere dette. Du ønsker å lære fra observasjonene du ser, men du ønsker ikke å være for over tilpasset det du akkurat så. Du prøver å trekke ut det generelle.

SS: Det blir fort sånn selvforsterkende profetier. Så du nå nylig at Amazon har anvendt AI på ansettelsesprosessen sin?

JEI: Nei, det så jeg ikke.

SS: Veldig mye spennende skriverier om det. De fant ut at de fleste vellykkede ansettelser var menn. Så nå begynte de konsekvent å si nei til kvinner. Og selv menn som bare hadde ordet women i søknaden sin, fant AI´en ut ikke var en god ansettelse. Det er en litt morsom over fitting.

JEI: Ja, det er en veldig morsom over fitting. Så har du innenfor personalisering så har du også en gren hvor du kanskje har lite data om kundene dine. Du har noen kunder eller brukere som du har lyst til å levere personalisert innhold, men du vet lite om de. Da må du også gjøre en tradeoff ofte på over fitting for å prøve å gi de noe relevant.

SS: De lærer kanskje noe nytt, og kanskje de bryter opp noen gamle og dårlige strukturer. Litt som høna og egget. Ser man veldig opp til når man ser på disse AI dommere. Hvor det fort blir sånn at folk med mørk hudfarge får tøffere dom og raskere dom. Det er en del sånne ting man skal være super forsiktig med. Hva er dine favoritteksempler - norsk eller utenlandsk på ai?

JEI: I Norge har jeg veldig lyst å trekke frem en start up som heter Unacast. Det jeg digger med de er at de på tidlig stadiet turte å si at de er best i verden på lokasjonsdata. Litt unorsk. De bruker lokasjonsdata til å gi sine kunder informasjon om hvilke bedrifter folk handler i dag, og kobler den fysiske verden med det digitale. Utrolig kult, men de tørr å utfordre janteloven. Det er også en bedrift som ved å satse knallhardt på å samle inn veldig mye av en type data, så kan du bruke det som et konkurransefortrinn og du åpner opp muligheter. Det å fokusere på det å samle inn lokasjonsdata - fysiske lokasjonsdata, og bli best på det gjør at de åpner opp et fint spekter av tjenester de kan levere på toppen.

Internasjonalt har du satsinger som reCAPTCHA, som er en tjeneste som Google har kjøpt, og som veldig mange her også støter borti på nettet nå de må krysse av på I´m not a robot og du blir presentert en del bilder du skal si at er forskjellige ting. Skilt eller biler. Eller at du skal skrive inn husnummer. Google vet kanskje svaret på det ene husnummeret, men det andre husnummeret vet de ikke. Så når du svarer på den første, så får du sagt til dem at OK, du er et menneske, de stoler på deg. På den andre så er du med på å trene og digitalisere bøker osv. En fantastisk implementasjon av noe som får stort hav av mennesker til å virkelig gjøre maskinene smartere.

SS: Hva med NASA?

JEI: NASA er også kjempe spennende. De har jo en satellitt og et teleskop uti verdensrommet i dag. Hubble eller noe sånt heter den, som har gitt oss mye svar på hvordan stjerner, planeter og universet er, og har gitt oss masse innsikt. I 2021 skal de sende ut noe som heter James Webb Space Telescope som skal kunne ha 100 ganger så stor rekkevidde som det som er ute idag. Det vil jo gi et fantastisk datasett med bilder og signaler som man kan svare på for big data og denne type analyse, men man vil også være i stand til å svare på de store spørsmålene i verden. Hvem er vi? Er det annet liv der ute? Det er et fantastisk materiale.

SS: Så gøy! Du sier også at vi er unikt gode på offentlig digitalisering. Det mener du er på grunn av dataene våre eller hva tenker du? Veldig kort.

JEI: I Norge så er vi ikke kjempe langt fremme på AI. Men en ting som Norge er gode på er offentlig digitalisering. Måten det blir innrapportert skattetall på er helt unikt.

SS: Datadugnad?

JEI: Ja, og det norske offentlige sitter også på helt unike høykvalitetsdata som kan brukes til å gjøre offentlige tjenester smartere.

SS: Det hadde vært morsomt å utfordre Google på det.

JEI: Det hadde vært veldig gøy, ja.

SS: Du, si til meg i to setninger. Du var i California, og du kom tilbake. Hva var hoved nytten av å ha vært ute og forsket, og så komme tilbake til Norge? Vi burde gjøre mer av det.

JEI: Vi må få folk til å både dra ut i verden. Vi må få forskere til å jobbe litt i industrien, og industrien til å jobbe litt i akademia. Her er det masse ulike verdener som trenger å møtes. For det er når du møter andre folk med litt annen bakgrunn, og som har jobbet med litt andre ting - intellektuelt mangfold, at de spennende tingene skjer.

SS: Så bra. Du hadde to sitater jeg har lyst at du skal nevne hvorfor plukket du ut Software is eating the world?

JEI: Det er Andreessen Horrowitz som sagt det, og det er jo veldig riktig. Du ser det jo nå i industri og bransje etter bransje at det digitale tar over. Det teknologene som er etterspurt, de må konkurrere på en digital bane. Og det ser vi. Det gode med det er at vi får veldig mye data som vi kan bruke for å forbedre måten man driver bedrifter på. Og automatisere det. Og levere nye tjenester på toppen.

SS: Hvor mennesker faktisk blir enda mer effektive og nyttige. Og kanskje kloke. Kjempe tusen takk for å ha vært her, og lært oss om både kunstig intelligens og vasking av data. Og litt morsomme kontroverser rundt dette her.

JEI: Tusen takk, det var veldig artig.

SS: Takk til dere som lyttet.


Du har lyttet til en podcast fra lørn.tech - en læringsdugnad om teknologi og samfunn. Følg oss i sosiale medier og på våre nettsider lørn.tech.




Hva gjør dere på jobben?

Akkurat nå jobber jeg med å etablere et produktselskap og en spin-off fra Kantega, som selger forenklet pålogging til Atlassian-produktene.

Hva er de viktigste konseptene i AI?

Tilgang til god treningsdata, evaluering og modellkvalitet

Hvorfor er det spennende?

Det er fascinerende hvordan datamaskiner kan være selvlærende og forstå oss mennesker bedre enn vi kan selv.

Hva synes du er de mest interessante kontroverser?

Semantikk, få maskiner til å forstå mening og generalisere kunnskap. Word2Vec, statistiske og selvlærende metoder versus menneskeskapte og crowdsourced modeller og kunnskapsgrafer.

Dine andre favoritteksempler på big-data internasjonalt og nasjonalt?

Recapcha, en fiffig måte å crowdsource store treningssentre. NASA 2021, James Webb Space Telescope, som vil gi et enormt datasett og mulighet for forstå universet.

Hva slags mental modell bruker du for å forklare hvordan det funker?

Blender og kniv - map reduce.

Hva gjør vi unikt godt i Norge av dette?

Offentlig digitalisering. Vi har et helt unikt datamateriale for effektivisering av offentlige tjenester, så det er viktig å åpne store offentlige datasett for både forskere og entreprenører.

Et favoritt AI-sitat?

«Software is eating the world» av Andreessen Horowitz, og «Det enkle er ofte det beste» fra Rema 1000.

Jon Espen Ingvaldsen
Sjefskonsulent
Kantega
CASE ID: C0055
TEMA: AI AND BIG DATA TECHNOLOGY
DATE : 181020
DURATION : 22 min
YOU WILL LØRN ABOUT:
AI«Overfitting» vs. personaliseringTreningsdata
QUOTE
"AI er enkelt. Det er tilgang til gode og unike datasett som er vanskelig."
More Cases in topic of AI AND BIG DATA TECHNOLOGY
#C0045
AI AND BIG DATA TECHNOLOGY
Digitale tvillinger

Michael Link

Forsker

Kongsberg

#C0044
AI AND BIG DATA TECHNOLOGY
Big Data og geometrisk modellering

Heidi Dahl

Forsker

Sintef

#C0043
AI AND BIG DATA TECHNOLOGY
Slik kan Big Data predikere fremtiden

Sverre Kjenne

Leder

BaneNor