What is Machine Translation? Rule Based Machine Translation vs. Statistical Machine Translation

Een machinevertaling (Machine Translation of MT) is een geautomatiseerde vertaling. Dit proces maakt gebruik van computersoftware om een tekst vanuit de ene natuurlijke taal (zoals Engels) te vertalen naar een andere (zoals Spaans).

Bij het verwerken van een vertaling, menselijk of automatisch, moet de betekenis van een tekst in de oorspronkelijke (bron-)taal volledig worden omgezet naar de doeltaal, namelijk de vertaling. Hoewel het vrij simpel lijkt, is het toch complex. Vertalen is niet zomaar een woord-voor-woord vervanging. De vertaler moet alle elementen in de tekst interpreteren en analyseren en weten hoe woorden elkaar kunnen beïnvloeden. Dit vereist een uitgebreide expertise op het gebied van grammatica, syntaxis (zinsstructuur), semantiek (betekenissen) enz. in de bron- en doeltalen alsook een vertrouwdheid met elk lokaal gebied.

Zowel de menselijke als de machinevertaling hebben hun eigen uitdagingen. Twee individuele vertalers kunnen eenzelfde tekst in eenzelfde taalpaar nooit op dezelfde manier vertalen en er zijn wellicht verschillende revisierondes nodig totdat de klant tevreden is. De grootste uitdaging is echter hoe machinevertalingen vertalingen kunnen produceren van hoge kwaliteit die geschikt zijn voor publicatie.

Technologie van regelgebaseerde machinevertalingen

De regelgebaseerde machinevertaling baseert zich op talloze geïntegreerde linguïstische regels en miljoenen tweetalige woordenboeken voor elk taalpaar.

De software analyseert de tekst en creëert een tijdelijke representatie op basis waarvan de tekst wordt gegenereerd in de doeltaal. Dit proces vereist uitgebreide lexicons met morfologische, syntactische en semantische informatie en veel regels. De software gebruikt deze complexe regels en brengt vervolgens de grammaticale structuur over van de brontaal in de doeltaal.

Vertalingen komen tot stand op basis van grote woordenboeken en ingewikkelde linguïstische regels. De gebruikers kunnen de kwaliteit van de onmiddellijke vertaling verbeteren door hun terminologie toe te voegen aan het vertaalproces. Ze creëren door de gebruiker gedefinieerde woordenboeken die de standaardinstellingen van het systeem terzijde schuiven.

In de meeste gevallen zijn er 2 stappen: een initiële investering die de kwaliteit aanzienlijk verhoogt tegen een beperkte prijs en een cumulatieve investering om de kwaliteit stapsgewijs te verhogen. Hoewel de regelgebaseerde MT bedrijven de kwaliteitsdrempel geeft die ze nodig hebben en zelfs meer, kan het proces van kwaliteitsverbetering lang en duur zijn.

Technologie van statistische machinevertalingen

De statistische machinevertaling gebruikt statistische vertaalmodellen waarvan de parameters afkomstig zijn van de analyse van eentalige en tweetalige corpora. De oprichting van statistische vertaalmodellen is een snel proces, maar de technologie is sterk afhankelijk van de bestaande meertalige corpora. Een minimum van 2 miljoen woorden voor een specifiek domein is vereist en zelfs meer voor het algemene domein. Theoretisch gezien is het mogelijk om de kwaliteitsdrempel te behalen, maar de meeste bedrijven hebben niet zo'n grote hoeveelheden van bestaande meertalige corpora om de noodzakelijke vertaalmodellen te maken. Bovendien is statistische machinevertaling CPU-intensief en heeft deze een uitgebreide hardwareconfiguratie nodig voor de uitvoering van de vertaalmodellen om normale prestaties te garanderen.

Regelgebaseerde MT vs. statistische MT

De regelgebaseerde MT biedt een goede kwaliteit buiten het domein en is van nature voorspelbaar. De op woordenboeken gebaseerde aanpassing zorgt voor een verbeterde kwaliteit en de naleving van de bedrijfsterminologie. Het is mogelijk dat de vertaalresultaten de vloeiendheid missen die lezers verwachten. In termen van investering kan de aanpassingscyclus, die nodig is om de kwaliteitsdrempel te behalen, lang en duur zijn. De prestaties zijn hoog, zelfs op standaardhardware.

De statistische MT biedt een goede kwaliteit wanneer grote en gekwalificeerde corpora beschikbaar zijn. De vertaling is vloeiend. Dit betekent dat de vertaling vlot leest en dus aan de verwachtingen van de gebruiker voldoet. De vertaling is echter noch voorspelbaar, noch consistent. De training van goede corpora is geautomatiseerd en goedkoper. Maar de training van algemene taalcorpora, dit wil zeggen tekst buiten het gespecificeerde domein, is slecht. Bovendien vereist de statistische machinevertaling bepaalde hardware om grote vertaalmodellen te creëren en te beheren.

Regelgebaseerde MT Statistische MT
+ Consistente en voorspelbare kwaliteit – Unpredictable translation quality
+ Vertaalkwaliteit buiten het domein – Poor out-of-domain quality
+ Kennis van de grammaticale regels – Does not know grammar
   
+ Hoge prestaties en robuustheid – High CPU and disk space requirements
+ Consistentie tussen de versies – Inconsistency between versions
   
– Lack of fluency + Goede vloeiendheid
– Hard to handle exceptions to rules + Goed om uitzonderingen op de regel te herkennen
   
– High development and customization costs + Snelle en rendabele ontwikkelingskosten als het vereiste corpus beschikbaar is

Gezien de algemene vereisten is er een duidelijke behoefte aan een derde benadering waardoor de gebruikers een betere vertaalkwaliteit en hoge prestaties (vergelijkbaar met de regelgebaseerde MT) zouden bereiken, met een kleinere investering (vergelijkbaar met de statistische MT).

All fields are required

We respect your privacy, and will use this information only for contact purposes.