Nettskap 2.0: Statlige data på kommersielle tjenester

Prosjektforslag sendt inn til Nettskap 2.0: Start en aktiv overførsel av statlige data til kommersielle tjenester. Maksimaliser verdien av god, offentlig informasjon ved å tilgjengeliggjøre denne på en smidig, brukervennlig måte i flest mulig kanaler. Motto: Hvorfor skal det offentlige bygge dyre og halvgode løsninger selv når man kan stå gratis på skuldrene til dundrende kommersielle suksesser?

Se også: ‘Kampsak’ – Origo sitt bidrag til Nettskap 2.0

Innledning

  • Vi trenger gode datagrunnlag og transparens for de viktige beslutningene vi skal ta i dette århundret. I så måte er offentlige data er en gullgruve. Ikke bare i pengeverdi, men også i nytteverdi for hvermansen – og hvermansens etterkommere.
    • Borgerne/forbrukeren legger sin elsk på stadig flere og nyere klienter/gadgets som de forventer å kunne utrette det meste via – når som helst. Forventningene er ikke lavere til tilgang på offentlige data enn til andre leverandørers produkter og tjenester. Tilgjengeliggjøring, standardisering og smart bruk av offentlige data i de kanalene borgerne faktisk bruker – via for eksempel mobiltelefon, web eller iPad, vil være et stort steg for å bedre informasjonspolitikken, demokratisk deltagelse og Norges muligheter for å bedres som e-nasjon.
    • Vi har i årtier hatt en kultur der data tilsynelatende har skullet voktes, ikke minst de man kunne trekke samfunnsmessig ubehagelige slutninger fra. Med det innsyn og de verktøy som finnes nå, kan hvermansen gjøre seg opp relativt velfundamenterte formeninger om statistiske sammenhenger og spre sine slutninger til omverdenen på et brøkdel av et sekund. Derfor vil tilgjengeliggjøring av korrekte data bidra til at de slutningene som uansett vil trekkes baserer seg på et mer dekkende grunnlag enn nå. Det bør ha en klar samfunnsnytte.
  • Alle, også privatpersoner og bedrifter, må få lov til å lage tjenester på toppen av offentlige data. Det er ikke slik at de som eier eller lager datasett, nødvendigvis er de som kan benytte dem best. Noen private innholdseiere har allerede forstått dette. Slik ble Guardian Open Platform skapt. Her gis det tilgang til den engelske avisen The Guardian sine artikler og strukturerte data. Dette har gitt opphav til tredjepartsløsninger som Voter Power Index til jubel fra engelske bloggere. Og samtidig som Guardian gir tilgang til data, gir eksempelvis IBM tilgang til datavisualisering. I kombinasjon gir disse løsningene mulighet for kraftfulle analyser som tidligere var forbeholdt priviligerte forskere.
  • Også i Norge har vi gode eksempler på gjenbruk av offentlige data, som Yr.no. Jernbaneverket, Norsk Forskningsråd og andre har også pågående, relevante prosjekter. Men satsingene er sporadiske. Eierskapet til både data og tilhørende ontologier ser ut til å henge i løse luften. Og vi har dessverre også svarte får, som Trafikanten. Foreløpig er det vanskelig å få gjennomslag hos de gjenstridige innholdseierne, selv om man lager pressgrupper. Dersom vi får i gang et tydelig og godt støttet initiativ, vil spredningen av de eksisterende aktivitetene på området antagelig gi mer synlige resultater raskere, hvilket igjen ville motivere andre instanser/dataeiere til å bidra med sine data.
  • Derfor trenger vi et samlende data.norge.no som tilgjengeliggjør offentlige data, med forente lisenser og kostnadsmodeller som gjør det enkelt å forstå hvordan data kan konsumeres.
  • Og, som foreslått under, data.norge.no burde aktivt tilgjengeliggjøre data for de store kommersielle suksessene som allerede er flittig brukt av det norske folk.

Prosjektønske: forstudie for gjenbruk av offentlige data i eksisterende, kommersielle tjenester

  • Vi ønsker at Nettskap 2.0 gir midler til å studere hvilke kommersielle tjenester som har best nytte av norske, offentlige data, og som kan ha glede av disse dataene for en (for Staten) lavest mulig kostnad.

Mulige tjenester

  • Stats-Google: Tekstlige (utstrukturerte) offentlige data bør tilgjengeliggjøres på en best mulig måte på Google, Kvasir, Yahoo, Bing eller andre større søkeportaler.
    • Den rådende praksisen i dag er at søkemotorer “crawler” nettsteder, det vil si at de besøker nettstedet og lagrer en egen kopi av teksten de finner der. Dette er i kontrast til såkalt “push” der innholdseieren selv publiserer data over i søkemotoren i strukturert form. Denne praksisen setter visse begrensninger på kontrollen nettsteder har på hvordan deres informasjon vil se ut på kommersielle søkeportaler. Allikevel finnes det adskillige frihetsgrader som gjør at offentlig informasjon kan synliggjøres på en mye bedre måte enn i dag. Måter å samarbeide med eller berike søkeportaler på:
    • Samarbeid kan gi mange fordeler, inkludert:
      • Når artikler leveres med berikende metadata, kan søkeportalene bruke disse til filtrering og visualisering. Man får bedre resultatpresentasjon inkludert artikkelbilder.
      • Hvis søkeportalene vet hvilket innhold som er offentlig, kan de ha egne søke-undersider som letter navigasjon i slike data. På disse søke-undersidene kan søkeportalene ha tilrettelagt filtrering, gruppering og sortering. Eksempelvis kan man gruppere resultat tematisk, geografisk og hierarkisk (kommune/stat). Se Stortingets søk som grupperer etter sak.
      • Søkeportalene kan ha grupperesultater (også kalt OneBox) for offentlige data som bedrer finnbarheten til søke-undersidene nevnt over.
      • Bedre synonymhåndtering: eks. “uføretrygd” → “uførepensjon”, “oljefondet” → “Statens pensjonsfond utland”.
      • Hvis partnerskap inngås, kan det offentlige påvirke rangering på søke-undersider spesifikke for offentlige data.
      • Det offentlige kan få søkelogger som viser hva det spørres etter på disse sidene, og bruke disse for å bedre kvaliteten på eget innhold.
      • Se også illustrasjon under.
    • Noen av fordelene over kan oppnås gjennom sentraliserte aktiviteter, eksempelvis drevet av data.norge.no. Andre fordeler krever lokal eller distribuert aktivitet. I disse tilfellene kan data.norge.no ta et redaksjonelt initiativ.
  • Stats-Wolfram|Alpha: Strukturerte, offentlige data (eks. fra Statistisk sentralbyrå (SSB)/ Meterologisk institutt) bør mates inn i Wolfram|Alpha.
    • Som en kollega uttalte, “Tenk så fett å ha all statistikk fra SSB i Wolfram|Alpha; tenk på det politiske kruttet det er å synliggjøre ekte data! I skolesammenheng kan det vise forskjeller mellom kjønn eller samfunnslag, det kan vise hvilke befolkningsgrupper som er oftest representert i kriminalitet, hvem som er farligst i trafikken, om Toyota Prius egentlig er miljøvennlig og så videre. I nettdebatter i dag kan man bare hyperlenke til andre artikler. Hvis SSB støtter Wolfram|Alpha kan man klippe inn grafer som viser data i sanntid!”
    • Et eksempel på et søk som hadde blitt bedre med offentlige data er oil price / norwegian inflation. Dette søket er interessant når man diskuterer om Norge tjener mest på å pumpe opp oljen eller la den forrente seg under bakken. Og Wolfram|Alpha forstår søket, men har dessverre feil statistisk grunnlag for norwegian inflation. Med SSB-data i bånn ville dette W|A-treffet vært et fantastisk diskusjonsgrunnlag.
  • Stats-LinkedIn: Staten kan kjøpe en “bak brannmuren”-utgave av LinkedIn og bruke interne data til å identifisere interessenter på tvers av etater.Se også illustrasjon under.
  • Stats-Wikipedia: I steden for å søkemotoroptimalisere utallige offentlige nettsteder bør man mate Wikipedia med kvalitetsinnhold for så å la innbyggerne forfine (eventuelt forenkle) dette. Eksempelvis kan NAV legge inn data, og så kan lekfolk bytte ut den offentlige termen “uførepensjon” med det allmene “uføretrygd”. Og “månelanding” kan byttes ut med… Ja. Sukk.
    • Stats-Wikipedia kan i visse tilfeller erstatte trykt materiell. For små fag der læreplanen endrer seg raskere enn forfatterne rekker å skrive lærebøker, som i musikk på ungdomsskoletrinnet: Dropp bøkene og bruk levende artikler alle lærere (og elever, foreldre, musikere og andre!) kan oppdatere. Bruk artikkelhistorikken i Wikipedia som grunnlag for honorering av forfattere.
  • Stats-YouTube: La NRK og andre offentlige aktører legge ut sine programmer rett på YouTube og Vimeo i HD. Vi har jo allerede betalt lisensen, og hvorfor skal vi øse ut penger til datasentre på Marienlyst når amerikanerne tydelig synes det er greit å gjøre dette gratis?
  • Stats-Google Transit: Se Trafikanten og NSB: Gi oss kollektivinfo i mobilkartet! .Se også illustrasjon under.

data.norge.no: en autoritativ kanal for offentlige data
data.norge.no er en egnet kanal (eller “proxy” på nerdespråket) for strukturert, offentlig informasjon. Småbruk som Trafikanten, som ikke har kapasitet eller vett til å gjøre samfunnsmessige vurderinger rundt verdien av sine data, kan levere innhold dit. Så bestemmer data.norge.no kost- og lisensmodell før dataene pushes videre, eventuelt crawles av de store søkemotorene.

Grunnleggende prisipper for deling av data

  • Bruk standarder: Tilby struturerte og ustrukturerte data på en mest mulig standardisert måte. HTML er et glimrende eksempel. Formidling av formatert hyperlenket tekst hadde ikke slått gjennom på samme vis om alle land/selskap hadde sin egen standard (som Frankrikes Minitel eller Apples HyperCard).
  • Semantiske koblinger, lenkede åpne data. Arbeid med tilgjengeliggjøring (aksess og standarder) bør også omfatte mulighetene for kobling mellom de forskjellige typene data: Vi bør tilrettelegge for intelligente koblinger mellom informasjonselementer, det være seg strukturerte eller ustrukturerte. Dette kan vi gjøre for eksempel ved å følge standarder som RDF og FOAF for bruk av lenkede åpne data (Linked Open Data- LOD) og dermed bygge grunnen for semantiske koblinger på tvers av datasett og emner. Et eksempel her er en kombinasjon av Stats-Google, Stats-Wolfram|Alpha og dokumentene i Regelhjelp.no i samme løsning.
  • For strukturerte data, bruk standarder mest mulig tilpasset bruksområdet: Mange av datasettene det offentlige kan levere, er ikke ustrukturert tekst, og dermed uegnet å tilgjengeliggjøre som HTML. Datasettene er ofte strukturerte slik som Trafikantens rutetider. Når vi ser på Trafikantens eksisterende praksis bruker disse et format som ikke støttes av andre systemer. Etterhvert har det blitt etablert standarder for trafikkdata, inkludert GTFS. Disse kan brukes på tvers av IT-systemer og -klienter. En mobilapplikasjon som kan sjekke overgang mellom buss og tog i Tyrkia bør derfor kunne brukes til samme formål i Norge. Men det kreves at Trafikanten da levere i det forventede formatet.
  • Tillat samarbeid med kommersielle aktører: Når Trafikanten så indikerer at de ikke kan bruke eks. GTFS-standarden fordi en kommersiell er ledende i definisjonen av denne, må vi innse at det noen ganger ikke finnes etablerte standarder, og at kommersielle selskaper må ha mulighet til å ta initiativ.

Lisensiering av data

  • Hvis man skal åpne for vekst og skapende virksomhet rundt offentlige data, må rettighetene tillate gjenbruk. Fra et vekst- og infrastrukturperspektiv er det ideelle åpne lisenser som tillater vederlagsfri, kommersiell gjenbruk. Noen prosjekter kjører “doble lisenser”, eksempelvis støtter det populære programmeringsrammeverket jQuery både MIT License og GPL 2. Dette tillater fri gjenbruk, inkludert at kommersielle selskaper ikke deler egne forbedringer med andre aktører (MIT) eller krav om full åpenhet (GPL). Slik fleksibel lisensiering gjør gjenbruk svært attraktivt.

Finansiering av data

  • Bruk av offentlige data bør være gratis hvertfall opp til et visst nivå. Guardian Open Platform tillater eksempelvis 5,000 gratis spørringer daglig fra eksterne tjenester. Når en kommersiell avis kan tenke slik, bør også verdens rikeste land ta seg råd til å bygge en nasjonal infrastruktur basert på gode, åpne, offentlige data.

Ideelle organisasjoner

  • Det hadde vært knallbra å invitere NGO’er til å tenke høyt, kanskje i form av konferanser. Kreftforeningen, Natur og Ungdom, Leger Uten Grenser osv. vil ha andre og spennende perspektiver på hva man kan bruke offentlige data til. Hvem vet hva slags tjenester de vil berike?

Illustrasjoner

Over: Eksempel fra kollektivtrafikken på hvordan alle tjener på at det offentlige åpner sine data for kommersiell tjenesteutvikling

Over: Hvordan alle tjener på at det offentlige åpner sine data for kommersiell tjenesteutvikling

Over: Hvordan et søk etter “uføretrygd” på en kommersiell søkeportal kan bli svært mye bedre hvis det opprettes partnerskap med en sentral offentlig myndighet som data.norge.no

Over: Hvordan Stats-LinkedIn kan bruke offentlige data for å finne kontaktpersoner, eksempelvis gruppert etter offentlig instans.

Vist 665 ganger. Følges av 4 personer.

Kommentarer

Inspirert av dere, har vi lagt ut vår søknad til Nettskap 2.0 i Origo-bloggen. Ta en kikk!

Kjempeflott, Bente! Jeg skal skrive til Sverre igjen og oppfordre/mase om egen Nettskap 2.0-gruppe :-D

Kampsak -research: Jeg har laget et opprop på nett (lenke under). Før jeg kringkaster oppropet via Facebook, lurer jeg på om det er forståelig og tillitsvekkende. Er det noe jeg kan skrive om så det blir enklere og mer kortfattet?

Trafikanten og NSB: Gi oss kollektivinfo i mobilkartet!

Erfaringene fra dette oppropet kan bli innspill til Origos kampsak-prosjektet, som jeg for øvrig tror kan ha stor verdi.

Underskriftskampanjen er oppdatert med ny hjemmeside

Spennende å høre at 150 søknader er mottatt – finnes mye initiativ i vårt litle Norge!

Annonse