LØRN case C0200 -
LØRN. RESEARCH

Andre Teigland

Forskningssjef

Norsk Regnesentral

AI - Keiserens kunstige klær?

I denne episoden av #LØRN snakker Silvija med assisterende direktør og forskningssjef i Norsk Regnesentral, André Teigland. André er utdannet statistiker og har sansen for å lete etter mønstre og se sammenhenger. I NR leder han miljøet i statistisk modellering, maskinlæring og bildeanalyse sammen med 40 forskere. Her utvikler de modeller og implementerer skreddersydd operasjonell software for en rekke bransjer. Dette inkluderer blant annet en løsning som teller hvor mange passasjerer NSB har, en løsning som kan forutse lakselusspredning, samt en løsning som gir kredittscore basert på vibrasjoner fra dine konti. I episoden forklarer André blant annet hvorfor statistikk og modellering er så viktig for AI og hva som menes med «overfitting».
LØRN case C0200 -
LØRN. RESEARCH

Andre Teigland

Forskningssjef

Norsk Regnesentral

AI - Keiserens kunstige klær?

I denne episoden av #LØRN snakker Silvija med assisterende direktør og forskningssjef i Norsk Regnesentral, André Teigland. André er utdannet statistiker og har sansen for å lete etter mønstre og se sammenhenger. I NR leder han miljøet i statistisk modellering, maskinlæring og bildeanalyse sammen med 40 forskere. Her utvikler de modeller og implementerer skreddersydd operasjonell software for en rekke bransjer. Dette inkluderer blant annet en løsning som teller hvor mange passasjerer NSB har, en løsning som kan forutse lakselusspredning, samt en løsning som gir kredittscore basert på vibrasjoner fra dine konti. I episoden forklarer André blant annet hvorfor statistikk og modellering er så viktig for AI og hva som menes med «overfitting».
Facebook
Twitter
LinkedIn
Email

21 min

Choose your preferred format

Velkommen til Lørn.tech en læringsdugnad, en læringsdugnad og teknologi og samfunn med Sylvija Seres og venner.


SS: Hei og velkommen til Lørn. Temaet i dag er kunstig intelligens eller AI. Jeg er Sylvija Seres og gjesten min er Andre Teigland som er assisterende direktør ved norsk regnesentral, velkommen.

AT: Takk skal du ha.

SS: Andre vi har jobbet litt sammen for veldig mange år siden.

AT: Det har vi.

SS: Jeg husker deg som en kjempe flink statistikker og egentlig demistifiserer. Så jeg synes det er morsomt å få snakke med deg nå. Vi skal snakke om det spennende og det urealistiske ved AI etter hvert, men får vi gjør det vil jeg du skal fortelle lite grann om hvem Andre er og hva han gjør.

AT: Jeg er blitt en godt voksen mann, 52 år har jeg faktisk blitt. Jeg har bakgrunn fra Universitet i Oslo, studerte statistikk der. Også har jeg jobber på NR, i Norsk regnesentral, faktisk hele tiden siden det. Jobbet med statistikk og maskinlæring og diverse andre typer prosjekter. Når jeg ikke er på jobb er jeg en sånn type som elsker å seile, elsker å gå på ski og bruke masse tid med barna mine.

SS: Store barn eller?

AT: De er voksene, like koselig når de er voksene.

SS: Det er enda viktigere.

AT: Ja.

SS: Da har du gjort en god jobb.

AT: Man må fortsatt følge dem opp har jeg skjønt.

SS: Ikke sant? Ja. Du, hvordan ble du interessert i AI?

AT: Nei, altså for meg så er AI, i veldig stor grad så er AI egentlig en fortsettelse av det faget jeg allerede kan, statistikk og maskinlæring. Og vi har sett på ulike løsninger der vi trenger statistikk og maskinlæring i veldig, veldig mange år. Også er det kjempe spennende nå i løpet av de siste årene hvor AI som sådan, har tatt av. Fortsatt så er kjernen statistisk modellering og maskinlæring.

SS: Kan ikke vi åpne opp de begrepene. Jeg husker veldig godt, nå snakker vi egentlig snart 30 år siden altså? Da vi begynte å leke lite grann sammen og jeg lekte litt på egen hånd etterpå og på mine kanter og dere på deres kanter. Det var AI vinter, fordi da var man skjønt enig om at dette kommer ikke til å være nyttig i praksis, fordi det skalerer ikke. Og da var det to greier mellom, altså ekspertsystemer og deep learning. Og alle de som drev med ekspertsystemer prøvde å rydde opp i verden på en måte. Det viste seg å være litt for komplekst, men de lo av dette med deep læring fordi altså det kunne ikke skalere. Også skjedde det noe, i løpet av de siste to – tre årene.

AT: Ja det er helt riktig. Og det man tenkte opprinnelig når man snakket om AI, da tenkte man seg noen menneskeliknende robåter som skulle gjøres smarte ting.

SS: Tenke smart som mennesker?

AT: Tenke smart som mennesker og etter hvert begynte man å se at det er kanskje ikke det som er poenget og kanskje ikke det som er vitsen og kanskje ikke det som er viktig. Også gikk man mere over å se mere for seg datamaskiner, som på en eller annen måte kunne ta type intelligente beslutninger. Og det som har skjedd veldig tidlig i årene, altså AI snakket man om lagt tilbake både på 80 – og 90 – tallet og det viste seg at den typen teknikker, algoritmer man brukte for at datamaskinen skulle lære fra masse data de var for vanskelige rett og slett. Man hadde ikke nok regnekraft og man hadde ikke nok data. I løpet av de siste to – tre årene så har jo da datakraften eskalert. Man har funnet noen smarte teknikker og det betyr at disse her mere type nevrale nett og sånne ting, som også egentlig bare er en smart måte at datamaskinen lærer fra data. De har blitt mye mere anvendbare. Da har det begynt å ta av litt mer den typen teknikker.

SS: Kan ikke vi gå tilbake til basics. Jeg tror vi bruker sånne ord som statistikk og modellering som noe som alle kan, men jeg tror de fleste her egentlig ikke har noe særlig følelse av okay, hva dreier det seg egentlig om? Hvorfor er statistikk og modellering viktig for kunstig intelligens?

AT: Det som er. Med kunstig intelligens så vil man jo, det man ønsker er at man skal få en data maskin til å kunne ta en beslutning eller hvert fall hjelpe deg til å ta en beslutning. For eksempel skal du få innvilget et lån eller ikke? Da kikker datamaskinen eller kanskje i banken en person, men gjerne en data maskin, kikker på din historikk og sammenlikner den med andres historikk.

SS: Hvor ofte har du betalt innen frist?

AT: Hvor ofte har du betalt og har du betalings anmerkninger og hvor mye gjeld har du fra før? Hvor gammel er du? Er du kvinne eller man og pleier kvinner eller menn og betale tilbake? Osv. Så sammenlikner man det med alle andre personer og om de har betalt sine lån eller ikke. Og alt dette, selve statistikk faget er å bake alt dette sammen for å få best mulig beslutning.

SS: Så en av mine store favoritter, det er to sitater som jeg egentlig sitter og tenker på nå, som jeg bare har lyst til å blande inn nå. Den ene kommer fra faren til informasjonsteori og jeg husker det ikke ordrett, men noe alla «du skal ikke forvente at maskin intelligens skal være et speilbilde av menneskelig intelligens, maskiner må gjøre godt det maskiner gjør». Og det er å samle og analysere store mengder data på en relativ forutsigbar måte. Mens vi mennesker skal kunne drive med sånn, intuitiv analyse og kreativitet. Og det andre som jeg sitter og tenker på er det med tilfeldigheter. Altså statistikerne som deg vet at bare man torturerer data lenge nok så kan de fortelle deg akkurat hva du vil ikke sant?

AT: Ja.

SS: Så det er veldig viktig hvilket spørsmål du stiller og hvordan du setter deg selv i veien for flaks da. Så han […] sa at «livet er ikke et sjakkspill, livet er poker».

AT: Nei, men det er godt sagt.

SS: Ja det er dette her med tilfeldigheter og vi mennesker undervurderer dem alltid.

AT: Det er veldig lett å undervurdere tilfeldigheter. Det er liksom sånn du reagerer veldig på tilfeldigheter som oppstår. Du treffer naboen din på en flyplass i New York. Du synes det er helt utrolig tilfeldig at det kunne skje. Poenget er bare at det har vært tusen av mennesker der som du synes var en like rar tilfeldighet og summen av mange sånne små tilfeldigheter gjør at ting skjer som virker som å være veldig lite sannsynlige. Så det å forstå hvordan tilfeldigheter styrer hverdagen og en masse prosesser det er egentlig hele kunsten bak statistikkfaget. Jeg pleier ofte å si at tilfeldighetens evne til å lage mønsteret er mye større enn man tror.

SS: Og da overtolker vi av og til de mønstrene?

AT: Ja det er nettopp det. Man overtolker også når det kommer til type AI kunstig intelligens så er det veldig lett å lage systemer som da tror gir sikre svar, men de svarene er ikke nødvendigvis så sikre i det hele tatt.

SS: Så nå kommer du til et annet viktig begrep fra AI, som jeg lurer på om vi skal prøve å åpne lite grann «overfitting». Kan ikke du forklare?

AT: Jo det går på det at AI, kunstig intelligens.. La meg gå tilbake til dette fra bank da. Hvis du skal lage et system for å bestemme om dine kunder skal få et lån eller ikke. Det du egentlig lager er et system som sier en sannsynlighet for at denne nye kunden kommer til å betale tilbake lånet eller ikke. Denne sannsynligheten er kanskje 40% eller 60% eller 70%. Du klarer aldri å finne nøyaktig hvilke kunder som kommer til å betale tilbake og hvilke kunder som ikke gjør det. Du finner sannsynligheter og da er det veldig, veldig lett for at hvis du bygger dette på et lite historisk datasett du har om tidligere kunder, så kan det se ut som, når du tester på dette gamle datasettet, så kan det se ut som du lager fantastisk algoritmer, fanatiske regler som gjør det helt perfekt og det er det vi kaller overtilpasning. Fordi når du da kommer ut i virkelighetens verden og skal kjøre dette på nye kunder, så er det dessverre ikke helt perfekt og det er ikke mulig å lage perfekt.

SS: Ja for den modellen var egentlig, altså du trodde du så mønsteret, men de var egentlig der fordi det var for lite data.

AT: Du finner en masse mønstre som egentlig var tilfeldigheter.

SS: Tilfeldigheter.

AT: Tilfeldigheter i de opprinnelige dataene du lagde. Så du har overtilpasset systemet til de dataene passer perfekt til de historiske dataene du hadde. Men en del av de sammenhengene er bare tilfeldigheter.

SS: Spennende. Og dette her jobber dere med?

AT: Dette jobber vi masse med.

SS: Dere jobber med altså modellering. Hva er disse modellene og hvordan henger det sammen med prognoser eller risiko og beregninger eller, kan ikke du fortelle oss lit om altså hva brukes modellene til da?

AT: Ja det er to veldig ulike retninger for tiden. Den ene som du sier type modeller hvor man prøver å bygge inn det man måtte ha av subjektiv kunnskap eventuelt fysikk. Klimamodeller for eksempel det er modeller som er en blanding av fysikk også er det tilfeldigheter på toppen, også kjemi også videre for den saks skyld. Den andre retningen er at man bare bruker dataene til å prøve å finne mønsteret helt på egen hånd mer eller mindre, og det er ofte det man forbinder mye med kunstig intelligens. Men det også ta vare på det man måtte ha subjektiv kunnskap om et eller annet fenomen, er ofte det som skal til, bygge det inn i en modell som gjør at man får rett og slett mye bedre prognoser eller får bedre klassifikasjoner, hvis man skal klassifisere kunder for eksempel.

SS: Så en ting er prognoser, segmentering.

AT: Ja segmentering.

SS: Så altså dele markedet.

AT: Ja dele markedet. Hvilke kunder kommer til å reagere hvordan, på hvilke reklamekampanjer for eksempel.

SS: Kan ikke du fortelle oss noen konkrete prosjekter som dere jobber med i Norsk Regnesentral?

AT: Jo altså vi jobber med så mye forskjellig og det er det som gjør det så utrolig spennende. Så vi er til sammen rundt 50 personer innenfor statistikk og maskinlæring. Kall det gjerne kunstig intelligens, vi pleier ikke alltid å gjøre det, men det er en del av kunstig intelligens. Morsomt eksempel, prediksjon, altså prognoser av hvor mye lakselus kommer det til å oppstå i forskjellige anlegg neste år, neste uke, neste måned kjempe viktig for den næringen.

SS: Bare sånn at vi prøver å få oss et bilde her, man måler da, hva slags data kan man basere dette på?

AT: Man baserer det på data på hvor det har vært utbrudd før, strømmodeller, hvordan vann rett og slett flytter seg mellom anlegg, hvordan personer flytter seg mellom anlegg osv. Det er sånn smitten sprer seg og dette er et veldig typisk eksempel på hvor noen har forsøkt seg med veldig moderne maskinlæringsteknikker, hvor man ikke bygger inn den fysiske og subjektive kunnskapen, mens vi har mye mere tro på et sånt type eksempel der må man ha med seg fysikken, jobber sammen med veterinærinstituttet som kan dette her, sånn rent praktisk. Også bygger vi en statistisk modell på toppen av det og da får vi veldig gode prognoser som næringen kan bruke til å stenge anlegg, til å flytte anlegg osv. osv.

SS: Går det an å medisinere?

AT: Det er også en mulighet, altså rett og slett vi får fram modeller sier noe om at nå må man gjøre noen tiltak. Og det kan være medisinering, flytting, stenging dvs. Så det er en type morsomt eksempel vi holder på med. Tilbake til bank, vi har hatt et veldig morsomt forsøk nå helt i det siste, hvorfor en norsk bank har sett på dette her med om man skal få lån eller ikke, men istedenfor å bruke de tradisjonelle variablene som er da typisk kjønn og alder osv. så har vi sett på hvordan svingningene på kontoen din er, har vi sett noen skulte mønstre i svingningene på kontoen din. Da har vi brukt det som heter dyplæring, som er en kjempe spennende teknikk.

SS: Altså hvor ofte, om det er noen dager du bruker spesielt mye eller?

AT: Vanskelig å vite nøyaktig hva en sånn type metode finner.

SS: Spennende.

AT: Det morsomme er at på en eller annen mystisk/magisk måte så har denne metoden, fordi det er så innmari mye data tilgjengelig, så har den funnet noen typer mønstre som gjør at man får litt bedre prognoser enn de tradisjonelle. Og det er en av de få eksemplene, teknikken dyp læring faktisk har fungert godt.

SS: Men får meg er dette en fanatisk god ide. For jeg tenker at en ting er hva det at jeg er kvinne og min alder kan si om mine finansielle preferanser, men altså hvordan jeg faktisk bruker pengene mine må da si litt mere om syken min i forhold til penger.

AT: På en eller annen måte så gjør det det. Også skal det understrekes at her er det masse personverns hensyn som man virkelig skal ta høyde for og dette er ikke noe som er satt i drift i den banken vi har jobbet med. Men det viser noen muligheter som er kjempe spennende.

SS: Nå nærmer hun seg flyplassen, så nå tenger vi.

AT: For eksempel. Det er mye man kan bake inn.

SS: Og NSB.

AT: De har vi jobbet for. Det er et prosjekt, NSB har kanskje merkverdige utfordringen at de vet ikke hvor mange passasjerer de har. og det dreier seg spesielt om vestlandsområde. Man kjøper et månedskort fra Ruter eller NSB eller hva som helst, men man vet ikke hvor mange som går på toget. Også har de noen telle apparater i dørene som virker så der. Også er det et spørsmål, kan man utnytter de få tellingene man har til å klare å lage et estimat for alle tog, alle avganger, fra alle plattformer, hvor mange går av og på?

SS: For å optimalisere tabeller og?

AT: Tanken er å optimalisere tabeller, hvor mange vogner skal man ha? Osv. Osv. Og det viser seg da at ved å bruke ti millioner da for eksempel på en statistisk modell, så får man akkurat like gode og pålitelige svar som om man hadde brukt 500 millioner på å kjøpe mere telle - utstyr.

SS: Men du, kan ikke du hjelpe oss å forstå de to tallene veldig enkelt? Altså 5 millioner for å lage en modell, er det stort sett timer og forskere som går med eller er det datafangst som er, eller hva er det som er dyrt?

AT: Da snakker vi først og fremst om timer og forskertid ja.

SS: Mens 500 millioner?

AT: Da er det utstyr.

SS: Da snakker vi om masse sensorer på alle tog stasjoner og sånt.

AT: Ja.

SS: Ja. Det er god økonomi.

AT: Ja og det er vel egentlig akkurat det samme. Ikke sant, man snakker om, dette er sånn typisk utvalgsundersøkelse. Akkurat som når man skal finne ut hva folk stemmer, så trenger man ikke spørre alle. Man skal se hvor mange som skal være med på NSB sine tog, så trenger man ikke å telle alle.

SS: Ja. Du en annen ting som jeg synes er så spennende der er at du ser muligheter, men du prøver også å demistifisere av og til. Er du liksom den inspirerende skeptikeren? Om AI hva er det du pleier å utfordre da?

AT: Jeg pleier ofte å snakke om edruelig AI jeg. Og vi har jo vært i liksom det game-et lenge og vi ser at AI tar av, men det er viktig å være klar over at det hjelper ikke bare ha masse data for å løse et problem. Tilstandsbasert vedlikehold har blitt veldig populært. Man har noen sensorer på la oss i et skip eller et eller annet også prøver man å si fra rett før noe går i stykker også vedlikeholder man det da. Istedenfor å ha vedlikeholdet løpende. Og det er en veldig god oppgave, men da må man ha data som faktisk sier noe om det man er ute etter. Og det er en tendens til, i mange bransjer, at man tror at har man fryktelig mye data så kan man finne eksakt når et skip går i stykker eller en komponent går i stykker eller man kan finne eksakt hvilken kunde kommer ikke til å betale sitt lån osv. osv. Men sånn er det ikke. Det er begrenset for mye kraft det ligger i dataene uansett hvor mye du har. det fins tilfeldigheter her i verden på toppen av det.

SS: Hva er du spesielt stolt av i Norge på dette her?

AT: Nei si det. Jeg er stolt av det arbeidet vi selv gjør, jeg. Vi er et av de serdert største miljøene innenfor AI, morderne AI i Norge. Vi er klart størst i Norge på statistikk.

SS: Industriell statistikk og det trengs mer og mer.

AT: Det trengs mer og mer. Vi er faktisk et av Europas største miljøer. Så vi har gode miljøer og det er mange andre enn oss. Vi har gode faglige miljøer. Det vi ikke er så gode på tror jeg, er å bruke dem fult ut. Jeg tror det er mange som prøver å bygge sine egne miljøer der de kunne fått veldig god hjelp av eksiterende.

SS: Jeg er helt enig og det er ikke så enkelt å bygge sånne miljøer heller. Så det å vøre en ordentlig god bestiller, er det på en måte generell industrielle selskaper skal være? Også skal man finne miljøer som dere som kan faktisk hjelpe å levere svarene.

AT: Ja jeg har faktisk tro på det. Og da snakker jeg for så vidt ikke for min syke mor, fordi vi har ekstremt mye å gjøre. men det er ikke lett å bygge store, tunge miljøer innenfor dette feltet i hvert enkelt selskap, det er det ikke.

SS: Hva synes du folk skal huske fra samtalen vår.

AT: Nei, jeg tror man skal huske det at det kunstig intelligens, systemer for kunstig intelligens. Det fins masse muligheter, men man må alltid stilles seg spørsmålene, hvilket problem er det faktisk vi ønsker å løse? Også må man forstå at det er ikke bare å kjøpe en datamaskin å trykke på en eller annen generell AI – knapp for den finnes ikke. Man må forstå dataene sine, man må forstå begrensingene og man må forstå realismen i mulighetene. Hvis man har da et realistisk bilde er det mange ulike industrier som opplagt kan ha store kontroversielle verdier, ved å bruke statistiske modeller, maskinlæring, AI mere enn i dag. For så vidt også i offentlig sektor. Masse muligheter, men med realisme.

SS: Hør og Lørn sier jeg. Andre Teigland fra NR, tusen takk for at du var med oss i dag og inspiserte oss om kunst intelligens.

AT: Takk skal du ha.

SS: Og takk til dere som lyttet.




Hvem er du, og hvordan ble du interessert i AI?

Utdannet statistiker. Assisterende direktør på NR hvor jeg leder miljøet i statistisk modellering, maskinlæring og bildeanalyse med 40 forskere. Har drevet avdelingen SAMBA (Statistisk Analyse, Maskinlæring og Bildeanalyse) i over 20 år og har erfart hvordan vi har gått fra nærmeste enerådene i statistikk / maskinlæring i Norge til at feltet nå har eksplodert, ofte pakket inn som AI.

Hva gjør dere på jobben?

Utvikler modeller og implementere skreddersydd operasjonell software for en rekke bransjer, basert på data. Prognoser, segmentering, usikkerhetsberegning, risikoklassifisering osv osv.

Hva er de viktigste konseptene i AI?

Jeg bruker ofte følgende figur for å sette utviklingen av hvordan verden har omtalt / nå omtaler AI og hva det egentlig da er, sett fra en statistikers synsvinkel.

Hvorfor er det spennende?

Utrolig spennende å lete etter mønstre, sette sammenhenger i system og avdekke hvor mye prediktiv kraft det kan ligge i historiske data når man masserer dem med kunnskap og omtanke. Gøy å se modeller settes i praktisk drift hos så mange kunder.

Hva synes du er de mest interessante kontroverser?

Generiske AI-systemer kontra skreddersydde for den enkelte anvendelse. Den urealistiske troen på at man finner riktig svar bare man har nok data. Vi møter mange som er utsatt for press fra toppledelsen om at vi må jo henge med og gjøre noe AI-greier, uten tanke på problemstilling.

Dine egne prosjekter innen AI?

Ikke mine egne (jobber lite selv på prosjekter), men kollegers, f.eks; 1) Hvordan telle hvor mange passasjerer NSB har? 2) Hvordan forutse lakselusspredning? 3) Kredittscoring basert på vibrasjoner fra dine konti. 4) Hvordan åpne den svarte boksen (explainable AI).

Dine andre favoritteksempler på AI internasjonalt og nasjonalt?

Bruker ofte selvkjørende biler som eksempel på at der er langt frem.

Hvordan pleier du å forklare AI?

Forsøker å avdramatisere. Men likevel fokusere på muligheter.

Hva gjør vi unikt godt i Norge av dette?

Faglig i front, edruelig forståelse som gjør at vi forhåpentligvis satser på de anvendelser med stor nytteverdi

En favoritt AI sitat?

Tilfeldighetens evne til å lage mønstre er mye større en man tror!

Viktigste poeng om AI fra vår samtale?

AI dreier seg om prosjektgjennomføring fra A til Å. Statistisk modellering og maskinlæring er kjernen i AI. Du må forstå dine data for å få noe ut av dem. Overtilpasning er svært hyppig. Man må skille tilfeldige sammenhenger i historiske data fra de som også vil gjenta seg i fremtiden - dette er en kunst. Edrulighet, men teknologioptimist!

Andre Teigland
Forskningssjef
Norsk Regnesentral
CASE ID: C0200
TEMA: AI AND BIG DATA TECHNOLOGY
DATE : 181218
DURATION : 21 min
YOU WILL LØRN ABOUT:
AIOverfitting Statistisk modellering
QUOTE
"AI dreier seg om prosjektgjennomføring fra A til Å. Statistisk modellering og maskinlæring er kjernen i AI. Du må forstå dine data for å få noe ut av dem. Overtilpasning er svært hyppig. Man må skille tilfeldige sammenhenger i historiske data fra de som også vil gjenta seg i fremtiden - dette er en kunst."
More Cases in topic of AI AND BIG DATA TECHNOLOGY
#C0045
AI AND BIG DATA TECHNOLOGY
Digitale tvillinger

Michael Link

Forsker

Kongsberg

#C0044
AI AND BIG DATA TECHNOLOGY
Big Data og geometrisk modellering

Heidi Dahl

Forsker

Sintef

#C0043
AI AND BIG DATA TECHNOLOGY
Slik kan Big Data predikere fremtiden

Sverre Kjenne

Leder

BaneNor