Oslo-Bergen-taggeren - en grammatisk tagger for bokmål og nynorsk

Oslo-Bergen-taggeren er en robust morfologisk og syntaktisk tagger. Taggeren består av følgende moduler:

Modulene kan kjøres hver for seg og i ulike kombinasjoner. Modulene i Oslo-Bergen-taggeren er implementert i Allegro Lisp. Les mer om historien bak Oslo-Bergen-taggeren nedenfor.

Leksikon

Oslo-bergen-taggeren bruker Norsk ordbank, et leksikon som er satt sammen av:

Materialet er tilpasset og videreutviklet av Taggerprosjektet, og senere av Tekstlaboratoriet og EDD ved UiO

Evaluering

Evaluering av morfologisk disambiguering ble foretatt juni 2002. Bokmål- og nynorskversjonen av taggeren ble testet på hvert sitt ca 30 000 ord lange håndtaggede testkorpus med tekster hentet fra aviser, ukeblader, tidsskrifter og offentlige utredninger.
Bokmål Leksikals funnrate (recall) på testkorpuset er 99 %. Presisjonen er 95,4 %. Dette gir en f-measure på 97,2 % (dersom funnrate og presisjon vektes likt).
Nynorsk Leksikals funnrate (recall) på testkorpuset er 98,7 %. Presisjonen er 93,6 %. Dette gir en f-measurepå 96,2 % (dersom funnrate og presisjon vektes likt).

(Under utviklingen av taggeren ble bokmål- og nynorskversjonen kjørt på hvert sitt 100 000-ords store treningskorpus. Treningskorpusene er manuelt tagget og inneholder tekster hentet fra aviser, ukeblader, tidsskrifter og skjønnlitteratur. Resultatene per juni 2002 for bokmål er en leksikalsk funnrate (recall) på 99,4 % og en presisjon på 95,6 %. Tallene for nynorsk: leksikalsk funnrate: 98,9 % og presisjon: 94,4 %.)

Taggeren i bruk

Taggeren er blant annet brukt til å tagge Oslo-korpuset av taggede norske tekster (bokmål og nynorsk ) og Norsk aviskorpus.

Historikk

Taggeren ble opprinnelig utviklet av Taggerprosjektet (1996 - 1998) med Constraint Grammar-programvare fra Lingsoft . (Les mer om Taggerprosjektet og bokmålsversjonen av taggeren her). Taggeren er senere videreutviklet og reimplementert gjennom et samarbeid mellom Paul Meurer ved Aksis, UiB og Tekstlaboratoriet. Navnedelen av Oslo-Bergen-taggeren ble utviklet av Nomen Nescio-prosjektet (2001 – 2004). Den nedlastbare versjonen av Oslo-Bergen-taggeren er finansiert av LOGON-prosjektet.

Nedenfor er historikken til hver enkelt modul gjengitt: