LØRN case C0044 -
LØRN. RESEARCH

Heidi Dahl

Forsker

Sintef

Big Data og geometrisk modellering

I denne episoden av #LØRN møter Inge Harkestad seniorforsker Heidi Dahl, som forsker ved SINTEF Digitals avdeling for matematikk og kybernetikk. Heidi og Inge diskuterer blant annet faktorer vi bør være bevisste på og kritiske til, når det kommer til å gjøre beslutninger på grunnlag av algoritmer og Big Data. Som eksempler nevner Heidi potensielle situasjoner med beslutningstakere som mangler innsyn i algoritmer, utvikling av algoritmer uten innspill fra domene-eksperter og sluttbrukere, og faren for at vi kan komme til å ta avgjørelser med algoritmisk bias. I podcasten får vi også lære av Heidis ekspertise om Big Data og definisjonen av dette begrepet, eksempler på nærliggende teknologi den kan kombineres med som geometrisk modellering, samt Heidis refleksjoner rundt en etisk og positiv bruk av det verktøyet Big Data utgjør for samfunnet.
LØRN case C0044 -
LØRN. RESEARCH

Heidi Dahl

Forsker

Sintef

Big Data og geometrisk modellering

I denne episoden av #LØRN møter Inge Harkestad seniorforsker Heidi Dahl, som forsker ved SINTEF Digitals avdeling for matematikk og kybernetikk. Heidi og Inge diskuterer blant annet faktorer vi bør være bevisste på og kritiske til, når det kommer til å gjøre beslutninger på grunnlag av algoritmer og Big Data. Som eksempler nevner Heidi potensielle situasjoner med beslutningstakere som mangler innsyn i algoritmer, utvikling av algoritmer uten innspill fra domene-eksperter og sluttbrukere, og faren for at vi kan komme til å ta avgjørelser med algoritmisk bias. I podcasten får vi også lære av Heidis ekspertise om Big Data og definisjonen av dette begrepet, eksempler på nærliggende teknologi den kan kombineres med som geometrisk modellering, samt Heidis refleksjoner rundt en etisk og positiv bruk av det verktøyet Big Data utgjør for samfunnet.
Facebook
Twitter
LinkedIn
Email

16 min

Choose your preferred format

IH: Hei og velkommen til LØRN. Som i dag handler om Big Data. Jeg heter Inger Harkestad og jeg sitter her med Heidi Dahl som er seniorforsker i Sintef digital. Velkommen, Heidi.

HD: Takk skal du ha.

IH: Du er mer en gjennomsnittet opptatt av stor data. Ikke bare jobber du med det. Men du har også startet en norsk variant av «Women in data science». Og du er leder for fagnettverket Tekna big data. Så da tenker jeg at du er rett person å spørre: Hva er egentlig Big Data?

HD: En ting er størrelsen. Vi pleier å snakke om flere dimensjoner av det enn det. På engelsk snakker man om de tre V-ene: Volume, variety, velocity. Altså, Volum, variasjon og fart. Som alle tre gjør data mer komplekse, og gjør at man trenger spesielle teknikker for å håndtere dem.

IH: Har du noen eksempler?

HD: Vi har startet ett nytt prosjekt som er finansiert av forskningsrådet. Hvor vi samarbeider blant annet med kartverket. Sjøkartverket har fire båter som kjører langs norskekysten og samler inn data. Hvert skip kan samle inn 160 GB per dag. Da blir det en utfordring å bearbeide den dataen som kommer inn.

IH: Hva type data av dette. Er det målinger av havbunnen?

HD: Det er typisk dybdemålinger som bruker «son år» for å finne ut hvor havbunnen er, og da lager «undervannskart» for navigasjon.

IH: Må kartene oppdateres jevnlig etter som ting i havet endrer seg?

HD: En ting er hvor det er undervannsfjell. Men det er også sandbanker og leire, så ett selskapet jeg har jobbet med i England driver med vedlikehold av havner for å passe på at det er mulig å komme inn.

IH: Hva finner man med disse målingene?

HD: En morsom opplevelse hadde jeg ute på Svalbard. Og det er sannsynligvis på ett dyp som gjør at det ikke nødvendigvis er relevant for navigasjon, men man kan se den geometriske modellen av havbunnen at det har vært isbreer der fra sist istid.

I det samme prosjektet jobber jeg også med rikshospitalet med medisinsk bildebehandling. Ser på MR målinger og lager modeller. På rikshospitalet tar det over 100 000 kartlegginger hvert år. Dette er filer som tar stor plass. Det er ting som skal bearbeides, og det er en ganske stor jobb. Det å kunne gi beslutnings støtte. Ved for eksempel en operasjon hvor kirurgene skal planlegge hva de skal gjøre, er det fordel å få en 3D-modell de kan leke med, utforske å vite hvordan ting ser ut før man ser det i praksis.

IH: For scanningene gir ikke en 3D-modell i utgangspunktet, men man scanner lag for lag?

HD: Ja. Også er det kirurgenes oppgave å se på ett bildet av gangen, og danne sitt eget 3D bilder av hvordan ting ser ut når man ligger de oppå hverandre.

IH: Her snakker vi om mye Volum, som er den ene v-en du nevnte.

Men det var også to til. Fart blant annet. Har du eksempler på stordata som håndterer fart, og hva vil det si?

HD: Det morsomste eksempelet jeg har på fart er Higgs boson. Altså nobel prisen fra 2013. Hvor man da har kjørt eksperimenter i to år. Sendt elementærpartikler mot hverandre og kollidert dem. Det er én kollisjon per 25 nano sekunder. Så 40 millioner kollisjoner per sekund. Og slik holder de på i to år. Og med det prøve å finne de partiklene som er veldig vanskelig å få tak i. Etter to år endte de opp med 200 kollisjoner som svarte til Higgs. Det er nålen i høystakken. Grunnen for at de klarer å plukke det ut, er at de har en fysisk modell under. Du har tilsvarende problematikk i industrien for eksempel. Hvor man prøver å plukke ut noe som skjer veldig sjeldent, men ikke har en fysisk modell å sammenligne med.

IH: Har du noen eksempler på det?

HD: Ett eksempel er fra Simensen som lager togdører. Hvor de egentlig hadde planer om å kjøre maskinlæring for å finne hvordan man kan ta prediktivt vedlikehold. Finne ut hvor det vil gå galt, å reparere det før det skjer. De kom fram at tog dørene opererer veldig greit og går sjeldent i stykker, så det har ikke noe data som heller kan si når det kommer til å skje.

Fart er også relevant i forhold til sensorer. Du kan tenke en selvkjørende bil som samler inn informasjon om omverden via sensorer. Og den har ikke så god tid på å avgjøre om den skal reagere eller ikke.

Tilsvarende i industrien da du skal få roboter til å samarbeide med mennesker. Da må man ha kjapp reaksjonstid.

Noen av kollegaene mine på «..» har jobbet med dette. Og satt på en microsoft connect sensor for å kartlegge roboten. Så bruker de maskinlæring og big data teknikker for å få roboten til å jobbe raskt nok. Så hvis ett menneske plutselig kommer i veien for hvor roboten skal være, så klarer roboten å stoppe å unngå den, og gå en annen vei samtidig som den løser de oppgavene den er programmert til å løse.

IH: Den tredje V-en er variasjon. Har du ett eksempel på det også?

HD: Så klart. Vi har jobbet med fjernstyrte flyplasser. Norge har veldig mange små flyplasser. Det å bemanne alle flyplassene kan bli veldig kostbart hvis det skal sitte folk på stedet alle steder. For eksempel ute på øyene i Nord Norge hvor det ikke nødvendigvis er veldig mange flyvninger, men man er fortsatt avhengig av å ha de samme sikkerhetsrutinene og maskineri for at ting skal fungere god.

Det man tenker da er å ha ett sentralt kontrolltårn i Bodø, som får info fra de små flyplassene. Setter sammen video med høyoppløsning som har mulighet for å zome inn på vekter osv. Du skal ha værradar. Du kan ha lyd, en 3D-modell av terrenget som ligger sammen med videoen, slik at du også kan få dybdeinformasjon. Også kan du se på sensorer fra flyet. Oppgaven er da å sette dette sammen slik at en flyveleder kan få tatt en beslutning for hva som er beste løsning for flyet som kommer inn. Dette er virkelig variasjon. Mange forskjellige typer data som skal håndteres i samtid.

IH: Hva er det som gjør det spennende å jobbe med big data?

HD: For meg personlig er det at det er så tverrfaglig. En ting er at du må samarbeide med veldig mange dyktige mennesker, og du lærer veldig mye.

Hvis du da skal gå inn i industrien og se om du kan forbedre produksjonen på en fabrikk. Så må du også forstå forretningsmodellen til fabrikken, prosessen til de ansatte, fysikken i prosessen man jobber med.

Vi jobber for eksempel med Hydro Aluminium. Er det noe med oppførselen til aluminiumet vi er nødt å ta med i betraktningen når vi skal finne ut hvordan dette fungerer. Også er det altså det big data tekniske. Hvordan man tar utgangspunkt i data og finner ut hvilke spørsmål man skal stille. Også gjøre jobben med å kjøre analyser å få opp systemer slik at man kan gjøre arbeidshverdagen lettere for de som jobber på fabrikken.

IH: Så du kan ikke bare ha teknikken, men du må også skjønne businissen?

HD: Det handler om kontekst. Jeg som matematiker vet ikke nødvendigvis hvordan en aluminiums fabrikk oppfører seg. Vi er avhengig av å få inn informasjon av de som allerede kjenner problemstillingene.

IH: Hva er de praktiske utfordringene du støter på i slike prosjekter som du nevner?

HD: En av utfordringene er å finne ut, hva er det egentlig vi lurer på. Dette med digitalisering i industrien er veldig «hype» akkurat nå. Og det er veldig mange som er ivrige og ser at «dette må man må gjøre noe». Men det er ikke nødvendigvis like klart hva man kan gjøre med det og hvordan det skal gjøre en forskjell.

En del av jobben består av å få en bedre forståelse av problemet, plukke det fra hverandre å finne ut hvor man kan gjøre «Kirurgiske inngrep» for å gjøre ting bedre.

IH: Big data har mange positive sider. Men er det noen skyggesider man skal se litt opp for, både som samfunn og teknologer?

HD: På en måte er det litt enklere å jobbe med industrielle data. For da handler det om maskiner og sensorer som beskriver verden. Det blir mer komplisert når man skal ha algoritmer som går inn i samfunnet vi lever for eksempel når det kommer til om man skal få lån, eller hvor lenge man skal sitte i fengsel og slike ting.

Igjen, kunnskap om området algoritmene skal brukes i. Kvaliteten av algoritmene, og valg av riktige. Og når man skal lære opp maskinene må man trene de på data. Og når du oppdrar ett barn er du veldig «obs» på hva informasjon du gir barnet for at det skal bli et skikkelig menneske etterpå. Og selv om man ikke har samme tilnærming til maskiner, må man ha samme tankegang. Du kan ikke bare kaste vilkårlig data å regne med du får ett godt resultat. Gir du det søppel kan du ikke forvente at det blir kvalitet av det.

IH: Hvis folk vil lese noe mer om dette. Har du noen tips om hvor de kan få ekstra input?

HD: Bortsett fra Tekna big data mener du? Jeg har ett par bøker som tar for seg de utfordringene med hvordan man bruker algoritmer den ene er «Weapon of math destruction» av Cathey Oneil. Hun var en av de første som skrev om dette.

Den andre er av Virginia Ubanks «Atomating an inequality». Det er ett studie av hva som kan gå galt når man innfører stordata algoritmer. Og hvor store konsekvenser det kan få for de som er involvert.

IH: Hva vil du folk skal sitte igjen med etter denne samtalen?

HD: Først og fremst at stordata teknikker er verktøy. Jeg pleier å sammenligne det med en motorsag: Hvis du er i en skog og skal felle trer er en motorsag kjempe bra, hvis du har konflikt på jobben er det kanskje ikke riktig verktøy. Det er akkurat samme med stor data, bruk det på riktig problemstilling.

IH: Dette har vært veldig interessant å jeg har lært mange nye ting, så tusen takk for praten Heidi. Og tusen takk til deg som hørte på.


Hvem er du, og hvordan ble du interessert i big data?

Jeg jobber som forsker innen geometrisk modellering og dataanalyse, med fokus på big data eller stordata. Jeg begynte å jobbe med big data fordi en del big data-utfordringer har en underliggende geometrisk struktur, for eksempel nedbørsdata fordelt over et 3D-kart eller en MR-skann på sykehus. Geometriske metoder kan gjøre det enklere å trekke informasjon ut av dataene.

Hva gjør dere på jobben?

En del av jobben er å samarbeide med industri-partnerne våre om å løse utfordringer de har og lede prosessen, slik at vi kan komme frem til hvilket spørsmål de ønsker svar på og hvilke data de har eller trenger for å finne løsningen. Den andre delen handler om å velge riktige teknikker for å løse oppgaven og utvikle nye algoritmer der det trengs.

Hva er egentlig big data?

På mange måter er komplekse data et riktigere uttrykk: Big data handler ikke bare om størrelse, men også om andre aspekter som fart og variasjon (på engelsk: «The 3 Vs»: volume, velocity, variety).

Hvorfor er det så spennende?

Fordi det er sterkt tverrfaglig. For vellykkede prosjekter trenger man å kombinere alt fra forretnings- og prosess-forståelse til domene-ekspertise og spisskompetanse på big data.

Hvorfor kan det være skummelt?

Mangel på innsyn i algoritmer, både for myndigheter og privatpersoner (Når algoritmer blir forretningshemmeligheter, hvordan kan man forsikre seg om at de fungerer slik de skal?).

Ditt beste eksempel på big data?

ANALYST. Der samarbeider vi med Rikshospitalet og Kartverket om å kombinere big data, kunstig intelligens og geometrisk modellering for å analysere og visualisere CT- og MR-data samt sonar-data fra havbunnen langs kysten av Norge.

Har du andre gode eksempler på big data, internasjonalt og nasjonalt?

Bekreftelsen på at Higgs-bosonet finnes – dataene som produseres ved CERN er virkelig big data, både i fart og størrelse.

Hvordan funker det egentlig?

Big data-analyse er et verktøy. Men om det fungerer eller ikke, er ikke bare avhengig av at det tekniske fungerer – man må ha riktig verktøy for jobben som skal gjøres (se for eksempel bruk av big data / AI til straffeutmåling i rettssaker), og det må passe inn i helheten det blir brukt i (både når det gjelder prosesser og verdier).

Er det noe vi gjør her i Norge som er unikt?

I en Industri 4.0-sammenheng er det ekstra nyttig at vi (typisk) har en relativt flat organisasjonsstruktur med svært kompetente medarbeidere. Ved å bruke big data-metoder i produserende industri blir vi konkurransedyktige internasjonalt.

Heidi Dahl
Forsker
Sintef
CASE ID: C0044
TEMA: AI AND BIG DATA TECHNOLOGY
DATE : 181012
DURATION : 16 min
YOU WILL LØRN ABOUT:
BigData AI 3 V´s Geometriske metoder
QUOTE
"På mange måter er komplekse data et riktigere uttrykk. Big Data handler ikke bare om størrelse, det handler også om andre aspekter som fart og variasjon. På engelsk snakker man om, the 3 V´s – volume, velocity, variety. Komplekse datasett gir logistikk-utfordringer i databehandlingen, for eksempel om filene er så store at de må deles opp, eller at man vil trekke ut informasjon fra en kombinasjon av video og tekst. Ved å kombinere datakilder i analysen, finner man sammenhenger som ikke kommer frem om man ser på datakildene hver for seg."
More Cases in topic of AI AND BIG DATA TECHNOLOGY
#C0042
AI AND BIG DATA TECHNOLOGY
Data som beskriver den industrielle virkeligheten

Geir Engdahl

CTO

Cognite

#C0045
AI AND BIG DATA TECHNOLOGY
Digitale tvillinger

Michael Link

Forsker

Kongsberg

#C0043
AI AND BIG DATA TECHNOLOGY
Slik kan Big Data predikere fremtiden

Sverre Kjenne

Leder

BaneNor