Hva er lenka åpne data og semantisk web?

Hva er lenka åpne data og semantisk web?

15 juni 2014,   By ,   0 Comments

Nå er det ikke lenge til neste fagdag (Semantiske data: ververdi og tjenestebygging) i Kultur- og naturreises underprosjekt som internt kalles «det lodne dyret». I den anledning så prøver jeg å forstå dette feltet. Feel free til å kommentere der jeg misforstår slik at jeg blir klokere:)

Første gang jeg kom bort i semantiske teknologier  var på ABM-konferansen 2010 og da fikk jeg Knut Melvær til å hjelpe meg med en beskrivelse for dummies på bloggen sosialt museum. Dette er innlegget er et ledd i «Marit lærer seg litt om LOD – lenka åpne data».

Dette er stadiet der webapplikasjoner (f.eks Google) er i stand til å «forstå» mening i setninger osv. I dag bruker den bare avanserte algoritmer som finner ut hva du sannsynligvis leter etter basert på tilstedeværelse av ord i ditt søk, og tilsvarende ord på en webside. Et semantisk søk vil derimot prøve finne meningsinnholdet i hva enn du leter etter. (F.eks du søker på ‘religion’, og den finner en side om Falun Gong i Kina selv om ordet ‘religion’ ikke har blitt nevnt noen plass på den siden). Spennende, ikke sant?!

Tripler

For å få dette til trenger vi lenka åpne data. Lenka åpne data er en metode for hvordan å publisere data på en strukturert metode slik at maskinene selv forstår at at det er en sammenheng mellom «Falun Gong» og «religion» gitt eksemplet over. Les artiklen om linked open data på wikipedia. Man må altså etablere denne sammenhengen. Dette gjøres via tripler: subjekt, predikat og objekt. «Siri leder Kultur- og naturreise». «Siri» er subjektet, «leder» er predikatet og «Kultur- og naturreise». Sammen kalles dette en graf. Altså noe som kan beskrives i sammenheng.

Det viktige her er altså «ting» og relasjoner mellom ting. Jeg skal gjøre et lite forsøk på å tegne opp et bittelite tilfelle.

Siri leder prosjektet Kultur- og naturreise. KNreise består av fem partnere: Kartverket, Kulturrådet, Miljødirektoratet, Riksantikvaren og Riksarkivet. I prosjektgruppa sitter også Sidsel og Marit. Tidligere arbeidet også Lars i prosjektet, men nå arbeider han for Kulturrådet. Siri har permisjon fra kulturrådet for å være i KNreise.

1

Siri leder prosjektet Kultur- og naturreise.

 KNreise består av fem partnere: Kartverket, Kulturrådet, Miljødirektoratet, Riksantikvaren og Riksarkivet.

KNreise består av fem partnere: Kartverket, Kulturrådet, Miljødirektoratet, Riksantikvaren og Riksarkivet.

 I prosjektgruppa sitter også Sidsel og Marit.

I prosjektgruppa sitter også Sidsel og Marit.

Tidligere arbeidet også Lars i prosjektet, men nå arbeider han for Kulturrådet.

Tidligere arbeidet også Lars i prosjektet, men nå arbeider han for Kulturrådet.

Siri har permisjon fra kulturrådet for å være i KNreise.

Siri har permisjon fra kulturrådet for å være i KNreise.

Bilde1456123Her ser vi at det ikke er en en direkte sammenheng mellom de fem etatene og eksterne prosjektansatte, men gjennom sammenhengene som er etablert vil man kunne finne frem til denne informasjonen. Samme eksempel kan man tenke seg her i en tenkt database som viser slektsforhold barn-foreldre: Per er sønn av Hans. Kari er datter av Per. Fordi man vet her at «Per» er unik vil man på samme tid knytte forbindelsen mellom Kari og Hans.

URI

Utfordringer blir så å gjøre «Per» og alle andre ting, personer osv unike. Da trenger man permanente URI-er. URI står for uniform resource identifier og er en sammenhengende tekststreng. Det finnes flere typer URI-er feks:

  • http://example.org/absolute/URI/with/absolute/path/to/resource.txt
  • ftp://example.org/resource.txt
  • urn:issn:1535-3613

En URI har to deler: Skjemanavn og skjemaspesifik tekststreng, disse er skilt med et  kolon :. mailto brukes til epostadresser, http til nettsider og ftp til servere. Disse må være permantente slik at maskinene som skal slå opp alltid vil kunne ha mulighet til å gjøre oppslag mot disse.

RDF

RDF står for resource description framework og er et «språk» for å modelere data som tripler – subjekt -> predikat ->objekt RDF har kommet frem av arbeidet til World Wide Web Consortium og ble lagd som en metadatamodell. Metadata er data som beskriver selve dataen.

Neste steg er å lenke til andre relaterte ting og deres URI-er når man publiserer data på webben. Her kommer autoritetsregister inn. Kartverket bør feks være autoritet på stedsnavn gjennom databasen Sentralt stedsnavnsregister. Andre sektorer må ta ansvar for egne databaser. Relasjoner (predikatene) trenger også permantente URI-er og her er det et svært interessant prosjekt som heter Friend of a friend.

Friend of a friend (FoaF)

Dette prosjektet har tatt på seg å lage en database med maskinlesbare sider for beskrive personer, lenker mellom personer og ting de lager og gjøre. Dette blir gjort som URIer. Når skal ta i bruk semantiske teknologier er dette gull verdt. For å knytte relasjonene mellom den tenkte persondatabasen mellom Kari, Hans og Per trenger vi en relasjonsdatabase med URIer – og her er den!

 

Tim Berners-Lee er direktør fra  World Wide Web Consortium, omtales av noen som den semantiske webbens far. Han holdt et foredrag om temaet på TED:

[youtube http://www.youtube.com/watch?v=OM6XIICm_qo?rel=0]


Kategorier