LØRN case C0063 -
LØRN. STARTUP

Erlend Aune

Director of Data Science

Exabel

Kreativ bruk av data

I denne episoden av #LØRN snakker Sunniva med Director of Data Science i Exabel, Erlend Aune. Erlend har en PhD i statistikk og har blant annet vært med på å stifte Oslo Data Science Meetup som nå har blitt til Norges største data science-miljø. I Exabel jobber de med å analysere store mengder markedsdata og nyhetsdata for å gi innsikt til investorer, meglere og andre aktører i finansbransjen. I Episoden forteller Erlend mer om hvordan kunstig intelligens kan anvendes til fordel for menneskelige investorer, hvordan han brukte rekurrente nevrale nettverk til å få en maskin til å skrive som den kjente forfatteren Karl Ove Knausgård, samt om to veldig interessante kontroverser innen AI.
LØRN case C0063 -
LØRN. STARTUP

Erlend Aune

Director of Data Science

Exabel

Kreativ bruk av data

I denne episoden av #LØRN snakker Sunniva med Director of Data Science i Exabel, Erlend Aune. Erlend har en PhD i statistikk og har blant annet vært med på å stifte Oslo Data Science Meetup som nå har blitt til Norges største data science-miljø. I Exabel jobber de med å analysere store mengder markedsdata og nyhetsdata for å gi innsikt til investorer, meglere og andre aktører i finansbransjen. I Episoden forteller Erlend mer om hvordan kunstig intelligens kan anvendes til fordel for menneskelige investorer, hvordan han brukte rekurrente nevrale nettverk til å få en maskin til å skrive som den kjente forfatteren Karl Ove Knausgård, samt om to veldig interessante kontroverser innen AI.
Facebook
Twitter
LinkedIn
Email

20 min

Choose your preferred format

SR: Hei. Du lytter til Lørn.Tech. Jeg heter Sunniva Rose, og i dag er tema kunstig intelligens eller AI. Med meg for å lære meg mer om dette, så har jeg Erlend Aune som er Director of Data Science i Exabel. Velkommen hit.

EA: Takk.

SR: Jeg vil starte med å spørre om hvordan du ble interessert i kunstig intelligens?

EA: Jeg har jobbet med statistikk siden jeg var ferdig med doktorgraden, som jeg tok i statistikk. Jeg begynte å bli ordentlig interessert i kunstig intelligens da jeg begynte å trene opp språkmodeller. For eksempel på Twitter Data, og romaner, og sånt. Jeg lot maskinen generere ny tekst, basert på det maskinen hadde lært, og det kom ganske interessante, men meningsløse tekstsnutter ut av det. Det var da jeg begynte å jobbe ordentlig med den biten som man kan kalle kunstig intelligens, fremfor tradisjonell statistikk.

SR: Du har blant annet brukt Min Kamp av Knausgård til å lage tekst basert på den?

EA: Ja, det stemmer. Det var ganske gøy, fordi Knausgård har sin egen stil når han skriver. En slags stream of consciousness aktig greie. Og den type stil, den måten teksten kommer ut på, greier modellen å fange opp, men den greier ikke å fange opp det som gir mening. Så selv om en setning ikke har semantisk mening, så kan man allikevel kjenne igjen denne stilen i det genererte.

SR: Så du brukte altså kunstig intelligens til å generere en tekst basert på Knausgård? Slik at det høres ut som Knausgård, men ikke gir mening?

EA: Det er riktig. Det er sånn det føles når man leser det som genereres.

SR: Hvordan gjør man det? Når jeg hører at man trener noe opp, så ser jeg for meg et fotballag, men hvordan gjør man dette med en maskin eller et program?

EA: Da har man masse data, og i mitt tilfelle, så jobber jeg med tekstdata. Det man gjør er at man trener opp en modell hvor man får inn en liten snutt av en tekst.

SR: Et avsnitt for eksempel?

EA: Et avsnitt, og så tar man bort det siste ordet, og så trener man opp en modell som skal si hva det neste ordet etter det nest siste ordet skal være. I norsk har man 200.000 ord, eller noe sånt, og da skal den velge blant alle de ordene hvilket det er som er mest sannsynlig. Så når du har en modell som denne, så får du noe som gir litt setningsmessig mening, men det er vanskelig å fange opp det semantiske, altså det som gjør det forståelig og gjør at det henger sammen.

SR: La oss si at du har et avsnitt på 300 ord, og du fjerner det siste ordet. Da vil maskinen først se på de 300 ordene som er, så vet den at det finnes 200.000 norske ord, og da blir det litt wild guess første gangen, men den ser da hva som er riktig og så vil den prøve igjen?

EA: Så man har en liten snutt med tekst, og så gjør man det over og over. Da tilpasser man en modell som med høy sannsynlighet greier å si hva det neste ordet er. Gitt at man har de første ordene som man har lagt inn.

SR: Startet du med å programmere fra scratch da du gjorde dette? Hvordan gjorde du det rent praktisk?

EA: Jeg hadde lest noen blogger, og kikka litt på twitter. Der er det masse informasjon om sånne ting. Og jeg synes det er mange fine blogger om AI som tar deg gjennom prosessen for å lage gode modeller steg for steg. Så tenkte jeg at jeg ville prøve det på Min Kamp, og det var gøy. Jeg gjorde det også på norske Twitter-data, og det var også ganske gøy.

SR: Og genererte nye Twitter-meldinger da? Nemlig. Det er en litt mer tøysete variant, men man starter vel der. Du jobber altså i Exabel, og jobber med kunstig intelligens der?

EA: Det stemmer. I Exabel har vi tilgang til to store kilder med data. Den ene er markedsdata, det vil si hvilke kurser forskjellige aksjer har til en viss tid. Det er det du ser hvis du kikker på børs-siden i avisa. Det er Fin.Tek. Så har vi da prisene for alle aksjene over lang tid, og i tillegg har vi masse nyhets-data, hvor vi får flere hundre tusen nyhetsmeldinger per dag.

SR: Nyheter, generelt?

EA: Ja, nyheter fra hele verden. Når du jobber i finans, så har du ekstremt mye informasjon tilgjengelig. Og det er vanskelig å holde oversikt over all denne informasjonen. Så vi ønsker å lage verktøy som gir deg oversikt, slik at du klarer å trekke ut den viktige informasjonen, for eksempel hvis du er interessert i en viss aksje. Sånn at du kan følge med på en mer effektiv måte. Når det er viktige ting som skjer i markedet.

SR: Og hvilke nyheter som påvirker hva som skjer.

EA: For eksempel. Det kan være nyheter, men det kan også være hva som skjer i markedet fra disse tidsrekkene med aksjekurs. Så vi jobber mye med det, og trekker ut informasjon fra tekst. Predikerer hva effekten av den nyheten kan være, lager modeller som sier noe om hva normalsituasjonen til markedet er, og om det skjer noe som er viktige for en som er interessert i aksjer å vite.

SR: Nemlig. Og dette brukes nå, eller er det mer i startfasen?

EA: Vi er i starten, så det er ikke noen som har dette produktet i hendene sine enda.

SR: Er dette noe som kan ta folk sine jobber hvis det blir ordentlig bra, eller? Hva blir poenget med aksjemarkedet til slutt?

EA: Man kan tenke på det på flere forskjellige måter. En måte er hvis du for eksempel er en megler, og du trenger å holde deg oppdatert på hva som skjer med de aksjene du er interessert i til enhver tid. Samtidig så har du en veldig travel dag, og du har masse møter for å snakke med folk og gi dem råd, og så videre. Da er det ikke så smart at den personen trenger å bruke masse tid på å gå inn i de dataene, og følge med på de viktige tingene som skjer. Da er det mye bedre at det kommer til han, og at han kan lage seg historier basert på det som skjer nå. For å holde seg oppdatert.

SR: Og ta bedre beslutninger.

EA: Ta bedre bestlutninger, og være mer effektiv.

SR: Bruke tiden sin mer fornuftig, og gjøre det han eller hun er god på. Vi har vært inne på dette med Knausgård, og hva du gjør med ordene og sånt. Men kan du si litt mer generelt om hva kunstig intelligens er?

EA: Etter min mening, så er kunstig intelligens mer enn bare disse statistiske modellene, eller maskinlærings-modellene som man lager. Det handler mye mer om at man må lage et system der man bruker det på en fornuftig måte. Og tilpasser et brukergrensesnitt som greier å oppføre seg på en intelligent måte ut mot de som skal bruke dette systemet. Så kan maskinlæring være en komponent av det. Også er det viktig å designe systemer der man greier å få tilbakemeldinger og nye data, hvis det for eksempel skal være et selvlærende system. Da må du designe et system der du får den feedbacken du trenger. For at systemet skal lære mer.

SR: Maskinlæring og selvlærende systemer. Altså, hvordan kan en datamaskin lære?

EA: Maskinlæring er en haug med teknikker som man bruker for å predikere et eller annet utfall som er gunstig for et gitt formål. Man kan tenke at man putter inn noe data, så får man et forslag til et svar, og som man kan bruke videre i et annet system til noe fornuftig.

SR: Helst.

EA: Helst, ja. Det er en liten del av systemet, men en viktig del av systemet, avhengig av hva man gjør. Men det er like viktig med det som ligger rundt alle bruker-grensene, og hvordan man passer på å få riktig feedback, og sånne ting som det.

SR: Hva mener du med det?

EA: La oss si at du har et system som du ønsker at skal lære seg og bli bedre på et eller annet. Da må det systemet få tilbakemelding på hva det gjør riktig, og hva det gjør feil, for at det skal vite hva det skal gjøre neste gang. Eller i fremtiden, fordi det tar kanskje litt tid før det lærer seg disse her tingene.

SR: Så programmerere definerer et eller annet mål, en eller annen suksess, noe de skal få til?

EA: Eller produktdesigneren definerer kanskje et mål. Hva de ønsker å få til med den biten av systemet.

SR: Det er mange begreper, og kunstig intelligens er et ganske stort sekkebegrep. Setter du likhetstegn mellom maskinlæring og kunstig intelligens, eller er det et spesifikt tilfelle?

EA: Jeg gjør ikke det, men det er veldig mange som gjør det.

SR: Jeg tror kanskje vi heller går i dybden på maskinlæring spesifikt en annen gang. Hvem er det som kan ha bruk for kunstig intelligens?

EA: Man kan tenke seg at man har noe data hvor man vet hvordan den dataen skal oppføre seg, sånn at man putter dem inn i et system. I prinsippet, så kunne man kanskje ha programmert dette med regler fra scratch. Et menneske kunne ha laget masse regler, men det er utrolig komplisert å lage disse reglene, så det man isteden gjør med maskinlæring eller kunstig intelligens, er å la en modell tilpasse seg disse dataene som man putter inn, til noe man ønsker å få ut. Da bruker man en modell for å få til det, og da kan man i stedet for å eksplisitt skrive ned disse reglene, så vil modellen lære seg disse.

SR: Lager den da nye programmeringskoder selv?

EA: Noe av det vil være veldig likt en ny programmeringskode, men noe av det er mer likt statistisk modellering.

SR: Men programmet lager noe nytt? Du kunne programmert noe nytt, og menneskene kan sette alle reglene, men med maskinlæring, så starter man kanskje mer med noe generelt?

EA: Du starter med noe generelt som har muligheten til å lære seg mange forskjellige ting. Og du tilpasser de dataene til det utfallet du er interessert i. På en veldig fleksibel måte. Og det gjør det også mye enklere å lære dataene til å gjøre mer kompliserte ting.

SR: Hva er ditt beste eksempel på kunstig intelligens? EA: Jeg var veldig fornøyd med et system som jeg laget sammen med mine kollegaer i den første jobben min, der vi samlet inn logger fra store datasystemer. Når det skjer en feil i slike datasystemer, kan det være ganske vanskelig å finne ut av hva som har skjedd. Det vi gjorde var at vi laget et system som ga forslag basert på hva som har skjedd tidligere i det datasystemet, og hva som kan være feil. Sånn at den personen som skulle administrere og fikse disse feilene, hadde en potensielt mye enklere jobb med å finne ut av hva som var feil.

SR: Og hvis du får lov til å løfte blikket, og tenke internasjonalt - hva er det kuleste eksemplet på kunstig intelligens da?

EA: Jeg liker veldig godt det som kalles reinforcement learning. Og der er det et paper som handler om at en datamaskin lærer seg å spille noen spesielle dataspill bedre enn mennesker kan, selvlærende, og det eneste den ser er pikslene på skjermen, og gjennom å se de pikslene og få tilbakemelding på hva som var bra og hva som var dårlig. Så lærer den seg å gjøre handlinger som gjør at den faktisk blir bedre enn mennesker til å gjøre dette.

SR: Hva går reinforcement learning ut på? Kan du forklare veldig kort?

EA: Nei, det klarer jeg ikke.

SR: Ok, men det finnes i hvert fall. Og da kan dataen lære seg å spille dataspill.

EA: Blant annet, men det finnes bedre eksempler hvor det kanskje er mer nyttig.

SR: Vi skal snart runde av, men jeg vil også spørre deg om hva som er skummelt med kunstig intelligens. Hva er kontroversielt med det?

EA: Et av problemene med disse modellene som vi lager med data inn, og output ut, så kan det være noen skjevheter som ligger latent i de dataene. Så da vil modellen alltid gjøre det. Det klassiske eksemplet er vel med bilder av kriminelle, og for eksempel i USA var det en overrepresentasjon av svarte folk.

SR: Som er vår bias i utgangspunktet.

EA: Og da er det høy sannsynlighet for at de får et resultat som er dårlig, eller noe i den retningen.

SR: Jeg har jo bakgrunn i eksperimentell fysikk. Og det jeg tenker da, er hvis du putter dårlig data inn i et eksperiment, så vil du også få ut det du putter inn. Hvis vi putter vår rasisme inn i modellen, så får vi nøyaktig det vi ber om.

EA: Det er helt riktig. Men det er veldig mange startups i for eksempel Silicon Valley der man har masse data, og da tenker man at man vil bruke den der. Hvordan skal vi sikre at de som utvikler modellene på feil måte. Det er kjempevanskelig.

SR: Men man kan kanskje ikke vite sikkert. Hvis ikke de kan nok om data.

EA: Jeg tror det er et problem, men jeg tror også at det er et problem at mange ikke bryr seg. Jeg tror vi både må ha policies, men også utdanning for etikk og sånt. I større grad. For at dette skal være noe som potensielt kan løses.

SR: Min tanke er at man generelt trenger mer kunnskap, og statistikk om data og hvordan sånne ting funker. Kanskje kombinert med etikk. Nå må vi runde av, men at det finnes både kontroverser, masse spennende og mye potensiale, tror jeg vi kan være helt enige om. Hvis lytteren vil lære mer om kunstig intelligens. Hvor skal de begynne da?

EA: Hvis man har lyst til å lære seg å faktisk gjøre disse tingene, så er jeg veldig fan av et selskap som heter Fast AI. De har veldig gode kurs på kunstig intelligens, så hvis man kan litt om programmering, så går det ganske raskt å komme i gang. Å bruke modeller, og få en god følelse av hvordan det fungerer.

SR: Så det er for de som kan litt programmering? Da er Fast AI et godt tips? Hva med de som ikke kan det, men har lyst til å lære? Noen gode foredrag, eller noe man burde lese?

EA: Det er det definitivt, men jeg har ikke helt oversikt.

SR: Hvis lytteren skal sitte igjen med en ting de skal huske om kunstig intelligens. Hva synes du at det skal være da?

EA: En ting er at det er noe som potensielt kan gjøre livene våre bedre og lettere. Hvis man kjenner noen som jobber med kunstig intelligens, så kan det være verdt å stille spørsmål om de tingene man selv jobber med for å se om det finnes noen muligheter her.

SR: For å finne potensialet?

EA: Ja, fordi det er masse potensiale som ikke har blitt utnyttet.

SR: Det er en god ting å huske. At det er masse potensiale som ikke har blitt utnyttet, og at kunstig intelligens kan gjøre livene våre bedre.

EA: Definitivt.

SR: Veldig bra. Tusen takk til deg, Erlend Aune for at du kom å “lørnet” her med meg.

EA: Takk for at jeg fikk være med.

SR: Og takk til deg som lyttet.


Hva gjør dere på jobben?

Vi jobber med finansdata i Exabel. Vi har store mengder markedsdata og nyhetsdata som vi ønsker å analysere for å si noe om viktige hendelser for investorer, meglere og andre aktører i finansbransjen. For å gjøre dette, lager vi tidsrekkemodeller på markedsdata, og sier noe om interessante hendelser basert på dem.

Hva er greia med AI?

AI kan bruke data til å lære hva som er riktig oppførsel i en gitt sammenheng. Dette er i motsetning til regelbaserte systemer, der alle alternativer eksplisitt må kodes inn. Dette gjør det potensielt mer intuitivt for løsnings-designere om hvordan man skal få ønsket oppførsel, og det er også mye større fleksibilitet i hva som kan lages.

Hvorfor er det spennende?

Det er spennende fordi det gir muligheter som før var svært komplisert å gjennomføre. Dette er også en konsekvens av at rammeverkene vi jobber med stadig blir bedre og gjør det lettere å lage kompliserte modeller med lite, og samtidig vedlikeholdt kode.

Er det noen kontroversielle problemstillinger?

Når man har en fleksibel modell som kan lære mye, kan den også lære skjevheter i dataene og bruke dette ut mot sluttbrukere av en tjeneste, uten at vi nødvendigvis vet at dette skjer.

Ditt eget beste eksempel på AI?

I min første jobb laget jeg og noen av mine kollegaer et system som brukte feillogger for å analysere hva som kunne være problemer i et datasystem. Administratorer kunne da få forslag til hva som kunne være feil basert på tidligere hendelser i systemet.

Dine andre favoritteksempler på AI internasjonalt og nasjonalt?

Jeg er stor fan av da reinforcement learning fikk resultater som var bedre enn menneskelige på Atari-spill. I fagfeltet jeg selv jobber med, synes jeg pre-training av språkmodeller som startpunkt for avansert språkprosessering er veldig spennende.

Erlend Aune
Director of Data Science
Exabel
CASE ID: C0063
TEMA: AI AND BIG DATA TECHNOLOGY
DATE : 181020
DURATION : 20 min
LITERATURE:
http://karpathy.github.io/2015/05/21/rnn-effectiveness/ http://karpathy.github.io/2015/05/21/rnn-effectiveness/ </brhttp://www.fast.ai/ http://www.fast.ai/</brhttps://www.twitch.tv/videos/293517383 https://www.twitch.tv/videos/293517383
YOU WILL LØRN ABOUT:
Maskinlæringsmodeller
Statistiske modeller
Nevrale nettverk
AI
FinTech
QUOTE
"Det var først når jeg så muligheten av å generere interessante tekster med rekurrente nevrale nettverk at jeg for alvor begynte å interessere meg for AI."
More Cases in topic of AI AND BIG DATA TECHNOLOGY
#C0045
AI AND BIG DATA TECHNOLOGY
Digitale tvillinger

Michael Link

Forsker

Kongsberg

#C0044
AI AND BIG DATA TECHNOLOGY
Big Data og geometrisk modellering

Heidi Dahl

Forsker

Sintef

#C0043
AI AND BIG DATA TECHNOLOGY
Slik kan Big Data predikere fremtiden

Sverre Kjenne

Leder

BaneNor