LØRN case C0319 -
LØRN. SME

Hanne-Torill Mevik

Senior Data Scientist

Making Waves

Machine Bias

I denne episoden av #LØRN snakker Silvija med Senior Data Scientist i Making Waves, Hanne-Torill Mevik. Hanne-Torill har utdanning innen teoretisk fysikk og ville egentlig jobbe med astrofysikk og universet. Ved en tilfeldighet snublet hun over maskinlæring, og i dag jobber hun med å skape datadrevne tjenester og produkter for ulike kunder i Making Waves. I episoden forteller hun om «machine bias» og hvor viktig det er å åpne den svarte boksen for å forstå både muligheter og skumle ting ved AI.
LØRN case C0319 -
LØRN. SME

Hanne-Torill Mevik

Senior Data Scientist

Making Waves

Machine Bias

I denne episoden av #LØRN snakker Silvija med Senior Data Scientist i Making Waves, Hanne-Torill Mevik. Hanne-Torill har utdanning innen teoretisk fysikk og ville egentlig jobbe med astrofysikk og universet. Ved en tilfeldighet snublet hun over maskinlæring, og i dag jobber hun med å skape datadrevne tjenester og produkter for ulike kunder i Making Waves. I episoden forteller hun om «machine bias» og hvor viktig det er å åpne den svarte boksen for å forstå både muligheter og skumle ting ved AI.
Facebook
Twitter
LinkedIn
Email

24 min

Choose your preferred format

SS: Hei og velkommen til Lørn. Jeg er Silvija Seres og tema i dag kunstig intelligens. Gjesten i dag er Hanne-Torill Melvik som er senior data scientist hos Making Waves.

HM: Takk.

SS: Vi skal snakke om spennende og skumle ting ved kunstig intelligens. Blant annet implicit bias som bygges inn i våre systemer, av og til automatisk og med vår hjelp, men verden er biased. Så blir vi overrasket når maskinene speiler det. Men først, hvem er du?

HM: Min reise begynte da jeg var 12 år. Jeg var fascinert av stjerner og fant ut at fysikk vil jeg studere, jeg ville studere astrofysikk. Jeg reise til Oslo og ble fysiker. Fortsatte å jobbe med fysikk som forsker. Etterhvert så snubla jeg over i det, og i 2012 var det noen som sa “har du hørt om maskinlæring? Det er noe som skjer med massiv onlinekurs, og det er gratis. Forelesninger, oppgaver og masse mer.” “Hæ? Det her høres spennende ut” sa jeg. Jeg kasta meg på det, og ble helt solgt. Følte at jeg fant hylla mi. Jeg var litt heldig, og rakk å bli med før bølgen ble til en tsunami. Men min fysikk bakgrunn så hadde jeg matematikk og kunnskap til programmering som er bra match for meg.

SS: Det er viktig poeng. Det er mange som vil lære seg programmering uten å lære seg matte. Da kommer de til kort når de skal forstå prinsippene bak det de bruker programmene til å løse. Hva slags matte er relevant for deg?

HM: Lineær algebra. Det er en programmatisk måte å løse store likningssett. Det går fra matematikk på papir til matematikk på datamaskinen som er kort og intuitiv. Jeg anbefaler alle som synes det er interessant å sjekke det opp på wikipedia. Wikipedia er det viktigste verktøyet som man har som student og voksen.

SS: Hva er maskinlæring?

HM: Det er å prøve og oppdage mønstre i data.

SS: Maskinen skal finne mønstrene, og da lærer den selv. Derfor kaller vi det maskinlæring.

HM: Læring betyr at maskinen blir presentert med data som inneholder mønstre, også prøver den å tippe mønstre. Så tipper den feil. Så gir vi beskjed “nå tippa du for masse i feil retning, nå må du justere det tilbake.” Så gjør man det om og om igjen til “du har fremdeles litt feil, men det er en akseptabel feil.” Det vil kaller læring er antroposentrisk språk fordi vi mener det er optimalisering. Vi optimaliserer representasjonen av mønstre i data til det kommer til godt nok.

SS: Jeg vil du skal lære oss to ting. Det ene er behovet for å ha en viss forståelse av modellene som maskinen skal oppdage før du setter den i gang. Det andre er begrepet med overfitting.

HM: Overfitting. Du viser modellen data med mønster, og dataen lærer seg å reprodusere mønstret 100 prosent eller 99,9 prosent. Mønstre som var spesifikt for akkurat det problemet. Kanskje du viser en masse røde roser, og når du kommer ut i verden så ser du en gul rose, men da har modellen lært seg å reprodusere med 99,8 prosent nøyaktige røde roser. Da skjønner ikke at den gule blomsten også er en rose.

SS: Det kan lede til bias. Modellering starter med å ha en tanke om noe du skal modellere, eller hvordan systemet funker. Forteller man det til maskinen eller er det ingen input om det til maskinen? Hva er viktig å tenke om modellen for mennesker som jobber med kunstig intelligens?

HM: Det med å stille spørsmålet “hva prøver du å løse? Hva skal du finne ut av?” Den tankerekka du har ser ulik ut. Enten problemet er at du skal lære deg å klassifisere hva slags blomst som er i bildet eller prøve å regulere et ventilasjonsanlegg. På kvelden så vil du at anlegget skal skru seg av, men plutselig så er det folk i rommet og vil at det skal skru seg på. Problemstillingen er vidt forskjellige og dataene er ulike. Det som motiverer meg med maskinlæring er at selv om dataene og problemene du skal løse kan være ulike. Metodikkene og måten du tilnærmer deg problemet er lik og agnostisk for problemstillingen. Hvis man har sansen for fysikk og forstår sensorer, hvordan måler man om det er folk i et rom? og tenker litt rundt CO2 målesensor, fluktuasjoner i den har sammenheng med hvor mye ny, frisk luft vi skal pushe ut i et rom. Da har man naturlige korrelasjoner. Korrelasjoner fra datastrømmer er perfekt oppgave for maskinlæring fordi det er et mønster. Fluktuasjoner i en sensor gjenspeiler i en annen gitt at systemet er i normal drift.

SS: Det er viktig at mennesker har vår naturlige intelligens når vi tolker kunstig intelligens. Enten som input, at vi har teorier som vi ber maskin om hjelp, eller som output når den gir oss svar, men vi må forstå hva det betyr.

HM: I et eksempelet med CO2 måling og luftstrøm. Hva hvis den ene peaker veldig, du får en høy fluktuasjon i den ene sensoren, men ikke i det andre. Vi vet at de skal følge hverandre

naturlig, men så ser man at her er det noe feil. Det kan være at en sensor har feillært. Da må man gjøre tiltak for å korrigere det.

SS: Jeg har lyst til å dra deg over til bias. Jeg merker at mange snakker om det uten å skjønne hva de sier. Implicit bias er begrepet hvor kunstig intelligente datamaskiner begynner å foreslå avgjørelser for oss som har rasistiske eller sjåvinistiske bias. Det er eksempler med kunstig intelligente dommere som dømmer menn med mørk hudfarge raskere og hardere enn de med hvit hudfarge fordi datasettene leder dem til å ta korrelasjoner som ikke er fair. Det første eksemplet var chat boten fra et av de store selskapene, uten å nevne det nå, som skulle oppføre seg som et menneske i en chattekanal og høres naturlig ut. Etter 5-6 timer ble hun håpløs nasistisk og måtte skru henne av. Men hun gjenspeiler våre biaser. Det er vanskelig for mennesker å akseptere at du må hjelpe å tolke fra maskinene og justere for nettopp det som data viser er våre menneskelig feil. Fortell oss om bias og hvor det vises?

HM: Bias kommer fra data. Premisset for maskinlæring i utgangspunktet er at du skal lære av historisk data. Når det kommer til språk, tenk på våre gamle tekster og semantiske uttrykk, språket vi brukte på 60-tallet i bøker og nyhetsartikler, er kanskje ikke politisk korrekt å publisere i dag. Man har tre former for bias som kan oppstå i en maskin læringsmodell. Du har bias som kommer fra data som er der, altså bias som kommer fra sjåvinistiske data f.eks. Eller du har bias pga manglende data. Så har du bias fra å lese mellom linjene i data. Bias som kommer direkte fra data gjenspeiler seg sterkt i språk hvor man ofte har kjønnsladet uttrykksformer. Da vil du få språkformer som lærer seg at det er menn som blir kirurger og damer som blir sykepleiere fordi det er historisk sett sånn man har formulert seg i tekstene våre.

SS: Jeg klarer ikke huske eksemplet, men da var det et stort kunstig intelligens verktøy som ble brukt for å hjelpe HR-avdelingene med ansettelser og analyser av hvem som blir gode kandidater. Kvinnene ble diskvalifisert av verktøyet, men det hadde noe med dataen som de prøvde å bygge det på.

HM: Jeg har en reise vi skal på nå. Vi har data fra Niba (?) bias som kommer fra mangelen på data. Det ser man ofte i bilde klassifiseringer som objektgjenkjenning i bilder. De klassiske eksemplene er når man har prøvd å gjenkjenne menneske. F.eks Google Photos hadde en skandale hvor man gjenkjente hvite mennesker som mennesker, så ble svarthudet mennesker foreslått en tagg som heter ‘gorilla’. Grunnen til at den formen for rasisme oppstår er fordi når man antagelig ganske uskyldig konstruerte et datasett som modellen skulle lære seg å gjenkjenne menneske ut i fra, så hadde de for lite variasjon i hudfarge. Da var det mangelen på å demonstrere hele spekteret av farge som hud kan ha. Det gjorde at modellen skjønte at “hvit hudfarge betyr ansikt menneske”. Da har du et bias som kommer fra mangelen på data. Det samme kan skje når man vil foreslå kandidater til en topplederstilling, data science stilling eller utvikler.

SS: Hvis maskinen må skjønne hvordan en data scientist ser ut fra tidligere data som bare har mannlige datascientits.

HM: F.eks i LinkedIn er det ingen kategorier eller felt hvor du skriver inn hva slags kjønn du har, men du har et navn som er veldig sterk knyttet til kjønnet ditt. Du kan også få inn etniske bias der. Du forteller hva slags skole du har gått på og skolene er plassert i den geografiske verden.

SS: God skoler og dårlige skoler blir selvforsterkende profetier.

HM: Da er det mangelen på data. Du har mangelen på å demonstrere at kvinner kan være gode utviklere eller ledere. Folk fra Bergen kan også være dyktige utviklere. Det tredje er bias som oppstår, nå gjør jeg luft quotes med fingrene, fra å lese mellom linjene. Det er demonstrert med det forferdelige eksemplet i USA hvor dommere brukte en software som var proprietær og man hadde ingen innsikt i hvordan man bygde opp modellen. Verktøyet ble brukt av dommerne til å vurdere hva slags risiko tiltalte hadde for å gjenta nye kriminelle handlinger ved et senere tidspunkt. Datagrunnlaget for softwaren var et spørreskjema som var ganske komplett på 137 spørsmål. Der man aldri spurte om hva slags rase eller kjønn vedkommende hadde, men bakt inn i spørsmålene mellom linjene så ble man spurt spørsmål som “har mammaen eller pappaen din blitt arrestert?” Ikke om de hadde blitt tiltalt, men arrestert. “Har noen i omgangskretsen din blitt fengsla? Synes du det er greit at du kan stjele hvis du er sulten?” Veldig lada spørsmål som fanger opp implisitt den sosioøkonomiske statusen til vedkommende, om de er fattige og uten muligheter. Da fikk man skjeve resultater hvor en jente på 18 år ble vurdert til en høyere risiko for å gjenta kriminalitet ved senere tidspunkt mot en allerede domfelt hvit mann. Først når man gjennomgikk dataene på nytt og tok vekk spørsmål som omhandlet bakgrunnen og prøvde å gjøre spørsmålene mer nøytrale, så innså man at softwaren var like nøyaktig som å kaste et kronestykke.

SS: Jeg har lært mye om bias og synes det er spennende. Du sier det er spennende å jobbe med AI og maskinlæring på språk spesielt fordi det er vanskelig og samtidig går det fort. Hva er vanskelig og hva utvikler seg raskest?

HM: Hva er språk? Hvordan gjør man språk om til tall? Det er problematikken. Hvordan fanger man opp nyansene? Tenk på hva vi bruker språk til. Ikke bare formidler vi en mening, men vi kan også formidle innpakka innfløkte tankerekke.

SS: Vi kan skjønne hvor vi kommer fra og hvor vi skal uten at vi sier det.

HM: Tenk på poesi og sarkasme. Hvordan får vi bakt inn det i en modell? Kjempevanskelig. Det er som fagfeltet generelt, det er nå det skjer.

SS: Det er derfor det er vanskelig å lære maskinene humor også. Grunnen til at vi synes at noe er morsomt er fordi det er en inkonsistens som også kan være kulturell. Det å oversette det til et sett med regler er ganske håpløst. Jeg spurte om kontroverser og synes det var et deilig svar fra deg. Du sa at du ikke synes det er så interessant fordi det meste av diskusjonen kommer fra folk som ikke nødvendigvis er relevante aktører. Det er mange som mener mye om AI og etikk uten å kunne noe særlig om AI.

HM: Jeg har prøvd å ordlegge meg mer diplomatisk enn som så. F.eks de som snakker høyest er blant annet Elon Musk og han sprer mye frykt som jeg tenker er unødvendig. Resten av fagfeltet synes også det er å overdramatisere kapabilitetene vi faktisk har i dag.

SS: Det blir mer science fiction, enn science reality. Da skal man skandaløse overskrifter ellers gidder ikke folk å lese. Jeg spurte om noen av dine hjerte prosjekter. Da nevnte du noe som oversetter bokmål til nynorsk. Det tror jeg ville vært nyttig andre veien også?

HM: Det går nødvendigvis begge veiene. Jeg er vestlending og mitt hovedmål er nynorsk. Det ligger mitt hjerte nært.

SS: Det er mye implisitt oversettelse i hodet ditt.

HM: Da jeg var fysikkstudent ble jeg spurt om hjelp fra foreleseren om jeg kunne oversette eksamen til nynorsk. Det er noe jeg har tenkt på lenge. I en tidligere stilling jeg hadde fikk jeg lov til å være med på en pilot hvor målet var å bygge en maskin translator fra bokmål til nynorsk. Det var morsomt og interessant. Jeg følte at jeg kunne være med på å redde nynorsken, men så gikk man tom for penger. Jeg vet de har fått finansiering igjen, så da ønsker jeg dem lykke til.

SS: Det er så vakkert, så det er viktig vi jobber med det.

HM: Veldig poetisk.

SS: Du sa noe annet som er mer kontroversielt enn det jeg tror du mente. Jeg synes det var et deilig statement. Det er uheldig å ha for mye fokus på å gjemme teknologien bak brukervennlighet. Vi skal kunne litt om hva som skjer bak det fantastiske brukergrensesnittet også. Da forstår vi litt bedre hva teknologien gjør for oss?

HM: Ja. Jeg vokste opp i en tid hvor man hadde fasttelefon og krøllete telefonledning. Ja, det er bra at teknologi blir tilgjengelig for mange. Det å være teknologisk inkompetent er krise i disse dager. Du får ikke gjort noe som helst, ikke tatt ut penger eller betalt regningene dine. Men samtidig når teknologien blir magi, så tror jeg man må vise litt for å trigge nysgjerrighet og kreativitet. Vi skal fremdeles fortsette å utvikle teknologi fremover håper jeg.

SS: Jeg tror det er viktig for da slutter vi å tro at det er opp til oss. Jeg tror det er opp til oss hvordan vi bruker teknologi. Da må vi forstå litt over hva vi har kontroll over. Har du et sitat?

HM: Det er noe jeg sier til meg selv stadig vekk. Enten så går det ellers så går det over. Det er veldig nyttig.

SS: Hvis man skal huske en ting fra samtalen?

HM: Det er ok å stille spørsmål ved modeller som skal avgjøre ting. Som skal ta beslutninger som påvirker deg som forbruker og privatperson. Man skal være kritiske til hva slags data som har blitt brukt for å komme frem til beslutningene og har jeg muligheten til å forstå det.

SS: Maskinen forstår bare dataen du gir den. Da må du være forsiktig.

HM: Teknologene må være kritiske til dataen vi mater inn og sørge for at vi er rettferdige.

SS: Hanne-Torill Mevik takk for at du lærte oss masse bra om kunstig intelligens. Det er utrolig deilig å snakke med en person som kan så mye om kunstig intelligens og samtidig er stolt over å være menneske at hun kaller seg klimaflyktning fra Vestlandet. Takk for at du kom til oss i Lørn.

HM: Takk.

SS: Takk for at du lyttet.

Hvem er du, og hvordan ble du interessert i AI?

Eg er ein klimaflyktning frå vestlandet, som eigentleg ville jobbe med astrofysikk og universet, men som så blei slått av kor demotiverande det er å måtte halde seg til ein galaktisk skala. Eg snubla over maskinlæring gjennom ein tilfeldig merknad under ein lunsj tidleg i 2012, og så blei eg rett og slett fengsla over kor kult det verka.

Hva er det viktigste dere gjør på jobben?

Expectation management! Og opplysningsarbeid, om dagens tilstand innanfor fagfeltet maskinlæring og moglegheiter til å skape datadrivne tenester og produkt.

Hva fokuserer du på innen AI?

Fagleg sett er eg mest fascinert av maskinlæring på språk, og på eit meir personleg plan er eg opptatt av accountable algorithms, å kunne forstå og forklare, og stå ansvarleg for teknologien ein slepp ut i det fri.

Hvorfor er det så spennende?

Å jobbe med maskinlæring på språk er spennande fordi det er veldig vanskeleg, samstundes som det skjer nye framsteg heile tida. Eg trur ikkje det er mogleg å oppnå noko som kan opplevast som kunstig intelligens før ein har knekt språkkoden.

Hva synes du er de mest interessante kontroversene?

Mitt inntrykk er at dei fleste kontroversar innanfor feltet er konstruert opp av folk som ikkje er relevante aktørar, som for det meste står utanfor fagfeltet.

Dine egne relevante prosjekter siste året?

Mitt eige vesle hjarteborn var då eg fekk i oppdrag å lage ein bokmål-til-nynorsk-oversettar. Diverre hadde oppdragsgjevar på den tida problem med å skaffe midlar til å fullføre dette, noko som kanskje er veldig beskrivande for skriftsmålskampen.

Hva tror du er relevant kunnskap for fremtiden?

Eg opplever at gjennomsnittskvinna i gata er bekymra for framtida generelt og AI spesielt. Noko av årsaka er nok at verda i dag blir driven fram av teknologi som krev ekstremt høg kompetanse dei færraste har. Eg trur fokuset på å gøyme teknologien bak brukarvenlegheit er uheldig, og at små glimt av det som ligg bak, enten det er kode, matte, elektronikk, kan bidra til å vekke nysgjerrigheit og kreativitet og ønske om å lære meir.

Et favorittsitat om fremtiden?

Enten går det, eller så går det over!

Viktigste poeng fra vår samtale?

Avhengig av kvar samtalen dreier, så håpar eg at vi kjem inn på tema som machine bias, problematikken med at ein ikkje har teknikkar for å forstå kva som skjer inni den svarte boksen, og uheldige konsekvensar av å bruke teknologi ein ikkje kan forklare i tenester som har direkte innverknad på folk sine liv.

Hanne-Torill Mevik
Senior Data Scientist
Making Waves
CASE ID: C0319
TEMA: ENABLING AND DISRUPTIVE TECH
DATE : 190322
DURATION : 24 min
YOU WILL LØRN ABOUT:
AIMachine Bias Maskinlæring
QUOTE
"Machine Bias er problematikken med at man ikke har teknikker for å forstå hva som skjer inni den svarte boksen, og uheldige konsekvenser av å bruke teknologi man ikke kan forklare i tjenester som har direkte innvirkning på folks liv."
More Cases in topic of ENABLING AND DISRUPTIVE TECH
#C0371
ENABLING AND DISRUPTIVE TECH
Fremtiden er elektrisk

Havard Devold

Teknologidirektør

ABB

#C0002
ENABLING AND DISRUPTIVE TECH
VR som medisin

Anne Lise Waal

CEO/CTO

Attensi

#C0001
ENABLING AND DISRUPTIVE TECH
Hva er greia med VR?

Silvija Seres

Lørnere

LØRN.TECH