Opret en gratis konto

Modtag nyheder fra virksomheden
05/11-10   -   Pressemeddelelse

Pris for maskinoversættelse

Adjunkt Anders Søgaard, Center for Sprogteknologi ved Københavns Universitet, har modtaget Forbundet Kommunikation og Sprogs ph.d.-pris for international virksomhedskommunikation og sprog. Anders Søgaard modtager prisen for udvikling af maskinelle analysesystemer, der forbedrer kvaliteten i maskinoversættelse.

Prisen er på kr. 25.000 og uddeles i 2010 for 8. gang. Anders Søgaard får prisen, fordi han, sin alder taget i betragtning, har en usædvanlig stor videnskabelig produktion med 48 peer-reviewede artikler. Anders har produceret forskningsresultater inden for automatiseret oversættelse, der nu er ved at blive kommercialiserede og han har i kraft af sin banebrydende forskning sat Danmark på det sprogteknologiske landkort.

Anders Søgaard er 29 år og uddannet kandidat fra CBS i sammensatte navneord og ph.d. fra KU om matematiske analyser af grammatikteorier. Han forsker i maskinoversættelse og kunstig intelligens. Som 18-årig gik han på Forfatterskolen i København og fik i løbet af halvandet år udgivet to digtsamlinger og en roman på Gyldendal. Hans forskning resulterede for nylig i at Stanford University fik udviklet et helt nyt maskinoversættelsessystem, Phrasal. Han er trods sin unge alder allerede et internationalt anerkendt navn indenfor parsing, maskinlæring og maskinoversættelse.

Anders Søgaard kombinerer en omfattende teoretisk viden og kunnen med meget anvendelsesorienterede aspekter. En væsentlig drivkraft for hans forskning er således at teorierne kan anvendes i vores normale liv, inden for administration og kommunikation.

Maskinoversættelse er en af de allervigtigste teknologier som kan hjælpe os i det internationale samfund til at kommunikere på tværs af sprog, også selv om oversættelsen ikke altid er perfekt. Til visse formål kan en mangelfuld oversættelse være anvendelig direkte (jf. Google Translate!), men i de fleste tilfælde er der behov for at et menneske retter den til så der opnås en passende kvalitet. I alle tilfælde er der tale om en produktivitetsforøgelse.

Nu om dage er det især statistisk maskinoversættelse der arbejdes med. De største udfordringer for statistisk maskinoversættelse har længe været datamangel, afbrudte oversættelsesenheder og forskelle i ordfølge på tværs af sprog.

Problemet med afbrudte oversættelsesenheder fandt en teknisk løsning, da Stanford University i sommeren 2010 lancerede sit nye maskinoversættelsessystem Phrasal (Galley and Manning, 2010), som er baseret på Anders Søgaards forskning (Søgaard og Kuhn, 2009; Søgaard og Wu, 2010). Der er tale om et enormt gennembrud i maskinoversættelse, som også har tiltrukket sig større skandinaviske mediers interesse (se også interview i KOM-magasinet 50, september 2010).

Normalt arbejder statistisk maskinoversættelse rent statistisk, men forskelle i ordfølge kræver syntaktisk analyse. På nogle sprog kommer verbalfraser før subjekter, på andre sprog efter objekter. Anders Søgaards forskergruppe præsenterede på 23. Int. Conf. on Computational Linguistics (COLING) i Beijing, Kina, en dependensparser (Søgaard og Rishøj, 2010), dvs. et værktøj til fuldautomatisk syntaktisk analyse, der i øjeblikket rangerer som verdens klart bedste dependensparser for en lang række sprog, inkl. dansk, kinesisk, spansk og tysk, foran dependensparsere udviklet ved prestigefyldte universiteter som Carnegie Mellon University og Michigan Institute of Technology. Dependensparseren har en lang række egenskaber, der gør den særlig velegnet til maskinoversættelse, og Anders Søgaard er således godt på vej til at løse maskinoversættelses andet hovedproblem. Google Translate anvender dependensparsing til forbehandling af tekst, der skal oversættes fra sprog som japansk og tysk. Stanford University har brugt dependensparsing til sprogmodellering, og forskere i Hong Kong har brugt syntaktisk analyse til reranking af oversættelseshypoteser. Alle har dog anvendt syntaktisk analyse, der var mindre præcis og mindre robust, end hvad Anders Søgaards dependensparser kan levere.

Anders Søgaard står altså i en unik position, hvor det er muligt at løse de grundlæggende problemer inden for maskinoversættelse ved at kombinere løsninger på problemet omkring afbrudte oversættelsesenheder med syntaktisk analyse af en kvalitet, der vil gøre det muligt at lave oversættelse af høj kvalitet på tværs af sprog med forskellig ordfølge.

Relevant information

http://www.kommunikationogsprog.dk


Pressekontakt


Firma

Forbundet Kommunikation og Sprog
Skindergade 45-47
1019 København K, Danmark

  3348 8955

http://www.kommunikationogsprog.dk

Modtag nyheder fra Forbundet Kommunikation og Sprog på mail

Tilmeld dig her
Opret en gratis konto og betal kun for dine udsendte pressemeddelelser og SEO tekster - eller køb et abonnement og få flere fordele. Vi har 25 års erfaring.
GK
danmarks kulturarv
thermex
iRobot
Witt
ret raad advokater