Oslo-Bergen-taggeren - en grammatisk tagger for bokmål og nynorsk
Oslo-Bergen-taggeren er en robust morfologisk og syntaktisk tagger. Taggeren består av følgende moduler:
- Preprosessor med sammensetningsanalysator og multitagger: modulen finner blant annet setningsgrenser og identifiserer og analyserer nye sammensetninger som ikke finnes i leksikon. Til slutt blir hvert enkelt ord utstyrt med alle de grammatiske taggene som er mulige for ordet
- Constraint Grammar-moduler for morfologisk og syntaktisk disambiguering:
- Morfologisk disambiguering: Modulen fjerner overflødige morfologiske tagger ved hjelp av føringsbaserte regler (Constraint Grammar)
- Syntaktisk mapping: Gjenstående morfologiske tagger blir utstyrt med alle mulige syntaktiske tagger
- Syntaktisk disambiguering: Modulen fjerner overflødige syntaktiske tagger ved hjelp av føringsbaserte regler
- Navnegjenkjenning og navnedisambiguering:
- Navnegjenkjenning: Navn blir identifisert og flerleddede navn satt sammen
- Constraint Grammar-moduler for navnemapping og navnedisambiguering: navnene blir utstyrt med taggene person, sted, organisasjon, verk, hendelse og annet. Deretter blir overflødige tagger forsøkt fjernet ved hjelp av føringsbaserte regler
- Statistisk disambiguering: De føringsbaserte reglene ovenfor etterlater noe flertydighet. I den siste modulen blir morfologisk og syntaktisk flertydighet fjernet ved hjelp av en statistisk disambiguerer
Modulene kan kjøres hver for seg og i ulike kombinasjoner. Modulene i Oslo-Bergen-taggeren er implementert i Allegro Lisp. Les mer om historien bak Oslo-Bergen-taggeren nedenfor.
Leksikon
Oslo-bergen-taggeren bruker Norsk ordbank, et leksikon som er satt sammen av:- ordlister og bøyningsmønstre for bokmål og nynorsk laget ved IBM Norge A/S
- oppslagsord og bøyingsopplysninger fra Bokmålsordboka og Nynorskordboka laget ved ILN,
- argumentstruktrurkoder laget av av NorKompLeks ved NTNU
Materialet er tilpasset og videreutviklet av Taggerprosjektet, og senere av Tekstlaboratoriet og EDD ved UiO
Evaluering
Evaluering av morfologisk disambiguering ble foretatt juni 2002. Bokmål- og nynorskversjonen av taggeren ble testet på hvert sitt ca 30 000 ord lange håndtaggede testkorpus med tekster hentet fra aviser, ukeblader, tidsskrifter og offentlige utredninger.Bokmål Leksikals funnrate (recall) på testkorpuset er 99 %. Presisjonen er 95,4 %. Dette gir en f-measure på 97,2 % (dersom funnrate og presisjon vektes likt).
Nynorsk Leksikals funnrate (recall) på testkorpuset er 98,7 %. Presisjonen er 93,6 %. Dette gir en f-measurepå 96,2 % (dersom funnrate og presisjon vektes likt).
(Under utviklingen av taggeren ble bokmål- og nynorskversjonen kjørt på hvert sitt 100 000-ords store treningskorpus. Treningskorpusene er manuelt tagget og inneholder tekster hentet fra aviser, ukeblader, tidsskrifter og skjønnlitteratur. Resultatene per juni 2002 for bokmål er en leksikalsk funnrate (recall) på 99,4 % og en presisjon på 95,6 %. Tallene for nynorsk: leksikalsk funnrate: 98,9 % og presisjon: 94,4 %.)
Taggeren i bruk
Taggeren er blant annet brukt til å tagge Oslo-korpuset av taggede norske tekster (bokmål og nynorsk ) og Norsk aviskorpus.Historikk
Taggeren ble opprinnelig utviklet av Taggerprosjektet (1996 - 1998) med Constraint Grammar-programvare fra Lingsoft . (Les mer om Taggerprosjektet og bokmålsversjonen av taggeren her). Taggeren er senere videreutviklet og reimplementert gjennom et samarbeid mellom Paul Meurer ved Aksis, UiB og Tekstlaboratoriet. Navnedelen av Oslo-Bergen-taggeren ble utviklet av Nomen Nescio-prosjektet (2001 – 2004). Den nedlastbare versjonen av Oslo-Bergen-taggeren er finansiert av LOGON-prosjektet.Nedenfor er historikken til hver enkelt modul gjengitt:
- Preprosessor med sammensetningsanalysator og multitagger: Preprosessoren ble opprinnelig utviklet av Dokumentasjonsprosjektet og Tekstlaboratoriet, UiO. Sammensetningsanalysatoren ble laget ved Tekstlaboratoriet, multitaggeren ved Dokumentasjonsprosjektet. Alle delene er nyprogrammert ved Aksis, UiB
- Constraint Grammar-moduler
for morfologisk og syntaktisk disambiguering:
Constraint Grammar-reglene er laget ved Tekstlaboratoriet, UiO, regeltolkeren ved Aksis, UiB - Navnegjenkjenning
og navnedisambiguering:
Constraint Grammar-reglene er laget ved Tekstlaboratoriet, UiO, regeltolkeren ved Aksis, UiB - Statistisk disambiguering - laget ved Aksis, UiB