Big Data vil ikke gjøre forskeren overflødig

For noen år siden ville det kanskje høres vanvittig ut å spørre seg om menneskets rolle i vitenskapen var utspilt. Nå er det imidlertid flere og flere som gjør det.

Påstander om at maskiner kan bedrive og forbedre forskning

I en nylig publisert artikkelviser jeg til flere forskere som peker på at kombinasjonen av maskinlæring og enorme datamengder lar oss avdekke kunnskap uten menneskelig innblanding – at tallene «snakker for seg selv» når vi får nok tall. Vi har altså, ifølge enkelte forskere, kommet dit at verktøyenevi har laget nå kan bedrive vitenskap for oss. Videre hevdes det at Big Data* ikke baserer seg på noen teori, f.eks. om menneskets natur, men at man bare samler inn massive mengder av informasjon og lar denne snakke for seg selv.

Men det stopper ikke der: enkelte forskere mener at vi med Big Data både kan erstatte mennesket med maskiner og i tillegg forbedre forskningen. Ved å bruke datamaskiner fjerner vi nemlig det største hinderet for objektiv forskning: den menneskelige forskeren.

Mennesker er som vi vet svært så feilbarlige, og den feil finnes knapt som mennesket ikke kan gjøre. Dette fører til at forskningen vi produserer blir fordreid og preget av usikkerhet. Mennesker er ikke nøytrale – vi er ikke objektive. Vi påvirkes, både bevisst og ubevisst, av vår bakgrunn, vår ideologi og våre verdier, og vi har visse kognitive svakheter. Maskiner har ikke de samme svakhetene.

Tre grunner til at det fremdeles er behov for menneskelige forskere

Om dette stemmer blir den menneskelige forskeren i fremtiden lite mer enn en dataforvalter – kurator – eller programmerer. Hun blir en som styrer maskinen, som trenger stadig mindre styring. Men gjennom artikkelen min viser jeg til tre grunner til at menneskets rolle i vitenskapen fremdeles er særdeles viktig.

For det første er det forbløffende å se hvordan mange overser det faktum at det er mennesker som lager datasystemene, velger hva de skal anvendes på og tolker de endelige resultatene vi får. Selv om ikke datamaskinen selv har verdier og preges av ideologi er det lett å se at dette kan bygges inn i maskinlæringssystemene. Ikke nødvendigvis bevisst. Samtidig vil menneskelige vurderinger prege hvilke data som samles inn og hvordan de kodes, og alt dette vil kunne ha vel så store implikasjoner for objektivitet som tradisjonell forskning. Ulempen er at det her er skjult, og at vi i dag ikke har noen sikker metode for å teste funnene for innebygget bias. Et eksempel på dette er hvordan automatiske systemer for tildeling av lån kan vise seg å være rasistiske. Systemene er basert på maskinlæring og Big Data, og selv om man selvsagt ikke har bedt systemene om å vektlegge etnisitet e.l. i sine vurderinger, så ligger denne skjevheten i datamaterialet systemene har lært av. Man hevder ofte at man ved å bruke slike systemer fjerner diskriminering som følger av menneskelig skjønn, men faktum kan altså like gjerne være at vi gir diskriminering legitimitet ved å kalle prosessene objektive og nøytrale.

For det andre er det et faktum at Big Data best anvendes til å forstå adferd, og kanskje uttrykte oppfatninger. Akkurat som at behaviorismen er meget godt egnet til noe, er den mindre godt egnet til andre ting. Big Data er fremdeles relativt tannløs når det kommer til å forstå kognisjon og prosessersom fører til adferd

For det tredje er det mange kjente personer i vitenskapsfilosofiens historie som har sammenlignet forskning med kunst. Karl Popper, Michael Polyani og Max Weber kan stå som representanter for synet på forskning som noe mer enn rasjonell forståelse – vitenskapelige fremskritt krever intellektuell lidenskap og intuisjon, og uten dette som ledesnor vil vitenskapen ifølge Polyani munne ut i «en ørken av trivialiteter». Hvis forskning ligner kunst kan vi trygt anta at det krever kreativitet – et sentralt trekk ved mennesket, og noe som enn så lenge ikke har blitt erobret av kunstig intelligens.

Mennesket haraltså en rolle å spille i vitenskapen – i alle fall enn så lenge. Big Data gir oss store fordeler på visse områder – spesielt innen fagfelt der kvantitative metoder og en naturvitenskapelig tilnærming er utbredt. Vi bør imidlertid også innse at mye viktig forskning er basert på kvalitative metoder som vanskelig kan erstattes med Big Data, og at mennesket også er en del av forskningen som er basert på Big data.


Artikkelen oppsummerer noen av temaene som diskuteres i artikkelen «Science as a Vocation in the Era of Big Data: the Philosophy of Science behind Big Data and humanity’s Continued Part in Science» som ligger åpent tilgjengelig på følgende lenke: https://link.springer.com/article/10.1007/s12124-018-9447-5

Saken er tidligere publisert på Høgskolen i Østfold sine nettsider – lenke.

*Big Data blir ofte definert ut fra de “tre V’er”: volume, velocity, and variety (Laney, 2001). Volume viser til mengdene data, velocity viser til hastigheten av datainnsamling og analyse, og variety viser til variasjonen i datamaterialet. Til sammen fører disse aspektene ved Big Data til at det stilles krav til nye systemer for håndtering og analyse av materialet, og maskinlæring anvendes her ofte.

Laney, D. (2001). 3D data management: Controlling data volume, velocity and variety. META Group Research Note, 6(70).

6 kommentarer om “Big Data vil ikke gjøre forskeren overflødig

  1. Hvor mye av dette er en diskusjon av «Big data», og hvor mye er det en diskusjon om bruk av statistiske metoder i sin alminnelighet? Begge diskusjonene er interessante nok, men uten skarpere analytiske skiller blir det litt rørete. «Big data» og «kognitiv teknologi» opptrer samtidig (i tid), men er vesensforskjellige fenomen. Et tangeringspunkt er riktig nok at avanserte algoritmer benyttes til å «fange» data, og avanserte algoritmer benyttes til anbefalinger («kognitiv teknologi/ artificial intelligence»). Både datafangst og «automatiserte beslutninger» kan lett ledes ut i dystopier, men det er forskjeligge dystopier. Et underliggende fellestema er at statistikk kan misbrukes av de som utarbeider statistikken og de som tolker og formidler den. Hvor store utvalgene (N) er; 150 eller fire milliarder, spiller vel liten rolle for «malicious intent»? PS: Ekstemt nyttig litteraturliste, keep up the good work!

    1. Hei, Per Olav! Dette er ikke en diskusjon av kvantitative metoder og statistikk, men av Big Data kombinert med maskinlæring. Beklager at det blir rørete – er det rørete i artikkelen også, tenker du? Hovedpoenget er å imøtegå utsagn som at forskning basert på Big Data er teorinøytral, objektiv osv. Det er altså ikke snakk om de mulige negative anvendelsene av hverken BD eller AI, men hvilke implikasjoner det har for forskning når det gjelder forskningens bredde, kvalitet og objektivitet.

      1. Hei igjen, Henrik

        Er det virkelig noen som helst som hevder at det finnes verdinøytrale forskningsmetoder? La oss, for diskusjones skyld, anta at statisktiske metoder gir større «objektivitet» enn interpreterende metoder med liten N. Hva er i så fall forskjellen om datagrunnlaget er hentet fra spørreundersøkelser med 1300 respondenter og et datamateriale skrapet av nettverk med 4 milliarder brukere? Om det er forskjell i de prediksjoner en får er vel mer et empirisk spørsmål enn en erkjennelsesteoretisk problemstilling. Eller hva? Mitt hovedpoeng er at jeg ikke kan se at artikkelen tifører innsikter ut over det en generelt kunne si om begrensningene i statistiske metoder. Håper du tar dette som en konstruktiv utfordring. /po

        1. Tillegg til min egen kommentar: Min reaksjon, Henrik, reflekterer ikke så mye en kritikk av det som står skrevet, men heller at det er noe uforløst her. Noe som ligger i referansene, men som ikke kommer ut i klare påstander. Min intuitive innskytelse er at det ligger noe «større» i kontrasteringen mellom spørreundersøkelser og adferdsobservasjon enn det som diskuteres eksplisitt i artikkelen, og som ville være svært relevant i forhold til «Big data» som informasjonstilfang i forskning.

          1. Da er jeg med på hva du mener. Om du ser i artikkelen er det jo absolutt noen som hevder at man i alle fall nærmer seg verdinøytrale metoder når maskiner tar over for mennesker – vi vil aldri klare å la være å bli påvirket av våre verdier og våre (implisitte) antagelser, hevdes det. Dette gjelder også kvantitative metoder, hvor våre antagelser styrer hva vi spør etter, hvordan vi spør, hvordan vi velger å analysere materialet osv. Det viktige er altså ikke antall observasjoner, men det faktum at maskinene som analyserer det enorme datamaterialet vi nå har tilsynelatende ikke har noen slike verdier og antagelser når de – på egenhånd, får man noen ganger inntrykk av – saumfarer materialet og finner nye og spennende innsikter. Big Data er altså ikke bare det at vi nå har MER data, noe definisjonen jeg la inn på bunnen av artikkelen er et forsøk på å tydeliggjøre. Jeg er forøvrig helt enig i at det er veldig mye mer spennende som kan diskuteres i mange forskjellige retninger, og det arbeider jeg med nå for tiden!

  2. Hei Henrik. Jeg utfordrer deg herved men en spissformulert prediksjon:
    – «Big data» vil ikke ha en negativ effekt på utviklingen i sysselsettingen av forskere.
    – «Big data» vil redusere antallet fotsoldater i forskningens tjeneste. De som administrerer og gjennomfører surveys vil bli erstattet av «roboter». I forlengelsen av dette vil vi få mer forskning for pengene.
    – «Big data» vil øke prediksjonskraften av forskningsresultater, gjennom å gi forskerne bedre supplerende metodestøtte til en rimelig pris.
    – «Big data» vil øke utnyttelsen av forskning, gjennom beslutningsstøttesystemer som korrigerer for praktikeres (ikke forskeres) bias i «kliniske» situasjoner.

Legg igjen en kommentar til Per Olav Istad Avbryt svar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Dette nettstedet bruker Akismet for å redusere spam. Lær om hvordan dine kommentar-data prosesseres.