Legg til din overskrift her

Hva er CRISP-metoden?

Med Simen Sommerfeldt
fra CTO
, Bouvet
Audio podkast

Hei og velkommen til LØRN. Jeg heter Inger Harkestad og jeg er her for å lære med om big data. Jeg sitter her sammen med Simen Sommerfeldt som er teknologi sjef i IKG.

 

Irnger Harkestad: Hei og velkommen til LØRN. Jeg hete Irnger Harkestad og jeg er her for å lære med om big data. Jeg sitter her sammen med Simen Sommerfeldt som er teknologi sjef i IKG. Velkommen, Simen!

 

Simen Sommerfeldt: Tusen takk. 

 

Irnger: Du har også vært med å starte bevegelsen «ler kidsa koding!». Som er ett fantastisk initiativ. Så før vi tar big data, kan du ikke si litt som «ler kidsa koding!»? 

 

Simen: Det vi opplever er at vi lever i en digital verden, så vi må lære barna å bli skapere. Ikke bare forbrukere. Nå er det kjempe spennende. Vi har 160 kodeklubber, og nå har myndighetene sagt at barna skal lære koding i skolen. Og da kan vi hjelpe til. 

 

Irnger: Dagens tema er big data. Har du noen praktiske eksempler på hva big data er og hva det kan brukes til? 

 

Simen: Det er en videreutvikling av statistikk. Men ved at du kan søke etter mønstre og sammenhenger du kanskje ikke visste at var der, også har du en mye større til fangst av data. Og en stor data mengde fra mange forskjellige steder, også er målet å finne mønstre i dem å hjelpe dem. Med å forstå oppførselen slik den har vært, og hva som kommer. 

 

Irnger: Dere har mange kunder. Hva gjør dere med kundene? 

 

Simen: Vi hjelper for eksempel norsk Hydro med å styre mange av fabrikkene. Og det som heter Equinor. Da er det veldig mye fokus på preventivt vedlikehold. Det vil si at man kan reparere noe, fordi man statistisk vet at «nå kan båten brekke». Ved å ta uhellet før det skjer sparer vi mye penger. Ellers har vi ett eksempel fra «Vortura». For å forhindre at eggene knuser når de komme i eggemaskinen har vi klart å finne en sammenheng på hva det er som skjer i hele livsløpet til hønene. Og bøndene på gårdene som kan påvirke det. Og her fant vi noen interessante sammenhenger. 

 

Irnger: Hva fant dere ut? 

 

Simen: Vi fant ut at det var burtypen faktisk. Men det var veldig mange variabler. Som form, temperatur, vaksiner, alder, opprinnelse, rase osv. Vi fikk da bøndene til å skrive veldig mye data, slik at vi kunne skrive mang hypoteser. 

 

Irnger: Dere har mange ulike kunder, både privat og offentlig. Er det noen observasjoner dere gjør litt på tvers om folks oppfatning og forståelse av big data? 

 

Simen: Det vi opplever er at det har blitt markedsført som en slags magi. Men sånn er det ikke. Vi merker at vi må lære opp kundene til at de må jobbe med dataene i kanskje ett år for å forstå mønstre, samle inn, ta vekk feil og alt mulig. Det er en modenhet i markedet som vi har lyktes med, og det er de kundene vi har jobbet med lenge. Der hvor vi kjenner hva de driver med og forstår problemene deres. 

 

Irnger: Kan du ta ett eksempel på metoden. Hvor begynner dere når dere kommer til en kunde og skal jobbe med ett big data prosjekt? 

 

Simen: Det er en anerkjent metode som heter «KRISP» som betyr at det går i sirkler. Vi begynner sammen med kunden å se om de har hypoteser. Vi ser på hva som er problemet, og om det er ett big data problem. Videre jobber vi med å få tak i dataene. Da ser vi på hva slags maskinlærings metoder det er som passer til problemet. Så gjelder det å kjøre beregningene å se om hypotesen man hadde først stemmer. Dette med eggene er ett eksempel. Det kan jo være at «Votura» hadde en vanlig hypotese. Men så finne vi noe gull og da kan vi sette det i produksjon. Som kan hjelpe bøndene og videre prøve å samle mer data. Etterhvert modnes virksomheten ved at de kan anvende dette, og slik sparepenger. 

 

Irnger: Det begynner med å finne tak i data. Er det ikke sånn at man bare sitter på data og går i databasen og printer der ut? 

 

Simen: Nei. Ofte er det store selskaper, og vi skal sammenstille systemer som gjør forskjellige ting og som er levert av forskjellige leverandører. Av og til er det kontrakter som sier at kunden ikke har lov å bruke sine egne data. Også kan det ligge fordommer. Feil, altså verdier som er helt på en annen skala. Så det er veldig mye vasking og sammenstilling. Veldig mye programmering som må til for å få tak i all data. 

 

Irnger: Nå har vi tatt noen norske eksempler, men har dere noen store internasjonale eksempler på vellykket bruk av stor data? 

 

Simen: Det mange nevner Air bnb og Uber som store selskaper som som lyktes med deres økonomi. Men det de faktisk har lyktes med er big data. Og det er det som har skilt de fra sine konkurrenter. For det var flere selskaper som hadde deres økonomi. 

For å ta Air bnb så brukte de rike datasett for å skreddersy prosessen. De fant ut når en fra Kina søkte etter rom i San Fransisco, og det var for mange bilder av nabolaget så ville ikke vedkomne booke ett rom. Men hvis det i stedet viste en severdighet i nærheten, så booket han. Den forskjellen i hvordan folkene fra forskjellige steder i verden ser på ting ut ifra deres kulturelle bakgrunn gjorde at de økte salget med 10%, og slik knuste de konkurrentene. 

 

Irnger: Så hvis jeg går inn på Air Bnb og søker på samme leilighet som en kineser, så får vi mest sannsynlig se forskjellige ting? 

 

Simen: Ja. Og Uber har algoritmer som overvåker trafikkorker, vær osv. Og justerer veldig presist prisene og antall sjåfører som er ute. I tillegg har de ett rating-system og ett matching-system slik at de kan få en viss type sjåfører og kunder til å passe bra sammen. Også er det litt miljøvennlig også, for de har oppdaget visse reisemønstre og kan da foreslå at noen kan dele Uber. Dette er ting som de selv sier på konferanser og skriver artikler om at har vært deres suksess. 

 

Irnger: Nå har vi hørt en del suksesser. Men det er jo noen skyggesider også. Ikke minst når vi kommer inn på personer. Du har jo engasjert deg en del i den nye personopplysningsloven som mange omtaler som «GDPR» etter den engelske forkortelsen. Hvordan kan stordata fungere negativt? 

 

Simen: Jeg er glad for at GDPR kom samtidig som vi fikk et oppsving av stordata. Da kan vi utnytte stordata på en måte som ikke bidrar til å undertrykke innbyggerne. Eller ha overvåkning. Ett stygt eksempel er Kina hvor de har ett slags vrengt bildet av Facebook. Hvor negativ omtale kan føre til at dine barn ikke kommer inn på skole som de vil. Og de har ansikts innsending som gjør at de kan se hvor alle innbyggerne er. Poenget er at de bruker det på en måte for å undertrykke innbyggerne. 

I USA har de ett system som heter kompass som de bruker for å forstå om en forbryter har en sannsynlighet for å gjenta en forbrytelse. Og det er det mange dommere i mange stater som bruker dette som virkemiddel for utmåling av straffen. Og når man prøver på alle feilene som kan ligge i data. Og alle fordommene det er, og hvor mye rasisme det er så er ikke det så optimalt. 

 

Irnger: For det som er med big data er at man tar masse eksempler på hvordan man har gjort det tidligere, mater det inn i systemene også gjentar man dette. Og hvis det da ligger fordommer og rasisme i datasystemet så vil dette faktisk segmentere og forsterke det.

 

Simen: Og det at politimenn ofte stopper mørkhudede bidrar til at man får en større andel av de som begår straffbare handlinger. I tillegg til det at det minner oss om «minority report» filmen. Nemlig at man skal bli dømt for noe man kan gjøre i framtiden. Og det er jo ikke særlig god rettsutvikling. 

 

Irnger: Her i Norge og Europa har vi fått en ny lov. Og den bidrar til å forhindre noe av dette som skjer i Kina og USA? 

 

Simen: Absolutt. Vi har ikke fått de store sanksjonene ennå. Men jeg tror Europa vil bli en slags foregangs verdensdel som bruker teknologi på en måte som tjener innbyggerne. 

 

Irnger: Som privatperson er jeg veldig glad for at vi har den type reguleringer. Samtidig tenker jeg at når man jobber i næringslivet, gir ikke dette mindre frihet til å skaffe innsikt til kundene sine, utvikle nye tjenester når du ikke kan samle inn all dataen som de gjør i for eksempel USA og Kina? 

 

Simen: Jo Absolutt. Og det vi kanskje gjøre noe med konkurranse situasjonen. Samtidig er det en erkjennelse at innbyggerne får en sjans i å se i dataene og rette de, vil datakvaliteten gå opp. På den måten er det en fordel. Ser man på markedsføring på nett opplever man ofte å se annonser som ikke matcher i det hele tatt. Man kan derfor oppleve å få en bedre brukskvalitet og at de viser deg ting som er mer relevante for deg, så du til syvende og sist tjener mye penger. 

 

Irnger: Så ved at jeg som kunde går inn og se at de dataene som er registrert er riktig, så kan jeg og justere og slik få en bedre tjeneste. 

 

Simen: Riktig. Og du har full kontroll over hvem som har dine data. 

 

Irnger: Men iblant trenger man å se på data med en gang. Du har for eksempel helse forskning, NAV. Hvordan klarer dere å balansere det å bruke data teknologien og gjøre store data analyser, samtidig som man skal ivareta personvernet? 

 

Simen: Nå er helse ett spesielt tilfelle. Men stort sett ellers så kan man sørge for at dataen er anonymisert. 

 

Irnger: Kan du fortelle litt mer om det? 

 

Simen: Anonymisering betyr at man ikke kan spore tilbake hvilke personer som er i data grunnlaget. Så hvis jeg hadde kjøpt joggesko ett sted, så hadde du ikke trengt å vite at nettopp jeg hadde kjøpt joggeskoene. Du hadde bare trengt å se hvor mange joggesko du har solgt av den typen, i den byen, i den måneden for å analysere hvor mange par sko du skal kjøpe inn. 

 

Irnger: en jeg vet det har skjedd tilfeller der dette med anonymisering ikke fungerer og der noen faktisk kan finne tilbake til personene. 

 

Simen: Ja. Og problemet nå er at de som faktisk er uærlige har fått mye mer datakraft i og med at de har datamaskiner hvor de kan kjøpe andre data sett på «dark web» hvor man kan sammenstille. Så man må være veldig nøye. Vertfall når det gjelder sensitive data som omhandler, kriminalitet, seksuellegning og slikt. 

 

Irnger: Vi går mot slutten. Kan du kort si noe om hva det er vi i Norge gjør som er bra? 

 

Simen: Vi har veldig mange jobber som bruker big data på en veldig bra måte. Som gjør innbyggerne i stand til å få en bedre dialog med det offentlige. 

 

Irnger: Hvis folk som hører på vil lære seg litt om big data. Har du noen anbefalinger hvordan de kan gjøre det? 

 

Simen: Ja. Det spørs litt hvilket nivå man er på. Hvis du virkelig vil lære litt så er det kurs på «coursera» som du kan se på nettet eller på andre self learning ting. I tillegg tenker jeg det er lurt å høre på pod caster, gå på konferanser, snakke med bedrifter og ikke minst sørge for at du på arbeidsplassen din kan si at du vil bli litt mer digital. 

 

Irnger: Hvis det er en ting du vil folk skal sitte igjen med etter denne samtalen. Hva skal det være? 

 

Simen: Egentlig det med personvern. Å vite at vi i Europa har vært heldig med GDPR. Og at du som privat person må vite hva rettighetene dine er, og spørre etter dem. Alle sammen må passe på. 

 

Irnger: Det er en god oppfordring, og en god avrunding. Så da sier jeg tusen takk for praten, Simen. Og takk til deg som har hørt på. 

0047_181012_BIGDATA_Simen Sommerfeldt_18_drawColor_bnv
Episode #C0047
Dato: 181012
Vert: IH
I denne episoden av #LØRN snakker Inge med CTO i Bouvet Norge, Simen Sommerfeldt. Bouvet Norge bistår kunder med å integrere Big Data inn i deres forretningsprosesser og systemer. Gjennom samtalen får vi høre Simen Sommerfeldts refleksjoner om hva Big Data betyr for personvern og hvor heldige vi er som fikk GDPR i gang på det tidspunktet vi gjorde i Europa. Vi får også høre eksempler på hvordan bruk av Big Data og prediktiv analyse har skapt velkjente, internasjonale markedsledere innen sine segmenter. I podcasten får vi også en god innføring i CRISP-metoden, en fremgangsmåte for å hente inn og prosessere Big Data, og siden hente ut verdiskapende innsikt fra den.