Vertaaltechnologie: Wat is er en wat kan het?

Geplaatst op: 20 december 2019

Vertaaltools zijn vandaag de dag niet meer weg te denken uit de vertaalwereld. Hoewel er natuurlijk uitzonderingen op de regel bestaan, werken de meeste vertalers er dagelijks mee. Dit is alleen niet het geval binnen de literaire vertaalsector. Tenminste, nog niet.

Door Lisa Horenberg

Er zijn vele soorten specialistische tools die op verschillende manieren kunnen worden ingezet bij het vertalen. Sommige daarvan, zo heb ik onderzocht, hebben ook potentie om literair vertalers te ondersteunen. Hieronder vind je korte (vergelijkende) beschrijvingen van klein aantal tools, de investering die ze vergen en de mogelijkheden die ze bieden.

Voyant Tools

Voyant Tools[1] (VT) is, in mijn ervaring, veruit de makkelijkste en meest toegankelijke tool. Hoewel VT niet specifiek ontwikkeld is als vertaaltool, kan het als een hulpmiddel worden gebruikt om (bron)teksten te analyseren en op die manier mogelijk patronen of thema’s te identificeren.

VT is gratis te gebruiken en kost verrassend weinig tijd, mits de brontekst digitaal beschikbaar is. De tool is erg eenvoudig te begrijpen: men uploadt een tekst en klikt op ‘reveal.’ VT analyseert dan hoe vaak woorden of combinaties van woorden in de tekst voorkomen en creëert met vijf views een overzicht van de resultaten, zie bijvoorbeeld afbeelding 1.

afbeelding_1_basisoverzicht_resultaten_voyant_tools
Afbeelding 1: Basisoverzicht resultaten Voyant Tools (resultaten afkomstig uit eigen onderzoek)

De visualisaties zijn voornamelijk gebaseerd op woordfrequenties en zijn eenvoudig te interpreteren. Daarbij werkt het interactieve aspect van de vijf views uitnodigend om op specifieke resultaten te focussen. Wanneer men in de ene view op een woord klikt, past de tool de overige views daarop aan. Zo kan de gebruiker in één oogopslag zien hoe dat woord in de tekst wordt gebruikt. Verder worden er bij de verschillende views van VT uitgebreide toelichtingen[2] gegeven om gebruikers op weg te helpen.

Bij VT is het duidelijk de gebruiker die bepaalt in hoeverre resultaten opvallend zijn én welk effect dat heeft op de vertaalstrategie. Hierbij kan het echter lastig kan zijn dat resultaten van verschillende analyses niet eenvoudig met elkaar vergeleken kunnen worden. De gebruiker moet puur op basis van de resultaten en eigen inzicht conclusies trekken.

Hoewel de basisanalyse waarvan VT de resultaten automatisch weergeeft weldegelijk interessant kan zijn, is er niet heel veel meer mogelijk met de tool dan de resultaten op verschillende manieren te bekijken. Wel zou VT, zo onderzocht Roy Youdale (2019), ook op andere momenten in het vertaalproces ingezet kunnen worden. Desalniettemin kan een vertaler VT eenvoudig gebruiken om de brontekst te analyseren, wat kan leiden tot interessante alternatieve observaties die de interpretatie van de vertaler aanvullen.

Voordelen Nadelen
gratis tool geen vergelijkmogelijkheden van resultaten
eenvoudig in gebruik beperkt analytisch vermogen
beschikbare handleidingen  
overzichtelijke visualisaties  

Sketch Engine

Waar VT erg laagdrempelig en in de basis krachtig is, gaat Sketch Engine[3] (SE) in vele opzichten een stap verder. Net als VT, analyseert SE teksten en verzamelt de tool terugkerende woorden en frasen, maar SE biedt de mogelijkheid om tweetalige documenten te analyseren en vergelijken.

SE is gratis te gebruiken voor Europese studenten. Overige academici en freelancers kunnen een abonnement aanschaffen vanaf respectievelijk EUR 4,83 en EUR 8,33 per maand, met een gratis proefperiode van dertig dagen.[4]

SE berekent onder andere hoe kenmerkend bepaalde woorden (keywords) zijn voor een tekst, zie afbeelding 2. Dit wordt gedaan door een algemeen referentiecorpus te gebruiken en rekening te houden met relatieve frequenties. Van alle (kenmerkende) woorden kan SE tevens de woordsoorten bepalen. Hoewel hierbij rekening moet worden gehouden met een foutmarge, kan dit inzicht geven in de manier waarop bepaalde woorden worden gebruikt.

Keywords in Sketch Engine
Afbeelding 2: Keywords in Sketch Engine (resultaten afkomstig uit eigen onderzoek)

Bij SE moet opgemerkt worden dat de tool slechts zeer beperkte visualisaties biedt. SE gebruikt namelijk veel tabellen om informatie weer te geven. Hierdoor kunnen patronen in teksten lastig te herkennen zijn. Vanwege de vele informatie die SE verzamelt, zijn er op verschillende pagina’s verschillende views. Hierdoor kan de gebruiker niet zo eenvoudig als bij VT tussen de verschillende views navigeren. Dit zorgt er indirect voor dat SE als minder overzichtelijk kan worden ervaren.

Wel kunnen veel instellingen in SE gepersonaliseerd worden en biedt de tool de mogelijkheid om tweetalige documenten te uploaden, waardoor ook bron- en doelteksten vergeleken kunnen worden. Verder kunnen analyses worden opgeslagen om later naar terug te keren. Al met al ligt de potentie van SE bij het analyseren van grote, complexe projecten en de data die de tool kan verzamelen zijn op zijn minst interessant voor literair vertalers.

Voordelen Nadelen
identificatie van kenmerkende woorden en woordsoorten  abonnement
groot standaard referentiecorpus beperkte visualisaties
tweetalige analysemogelijkheden  
documentatie van uitgevoerde analyses  

Traditionele CAT-tools: SDL Trados Studio en memoQ

SDL Trados Studio[5] (Studio) en memoQ[6] zijn al jaren twee van de meest gebruikte traditionele CAT-tools. Dat wil zeggen, tools die speciaal zijn ontworpen voor de vertaalsector en de inzet van bijvoorbeeld vertaalgeheugens mogelijk maken. Tegenwoordig kunnen deze tools echter veel meer.

Licenties

Studiolicenties zijn verkrijgbaar vanaf EUR 695,-, met een gratis proefperiode van dertig dagen.[7] Hiermee faciliteert SDL onder andere projectmanagement, een vertaalfunctie en het gebruik en beheer van terminologie en vertaalgeheugen. Via de SDL App Store zijn aanvullende functies toe te voegen.

Waar Trados als sinds 1984 CAT-tools bouwt, is memoQ pas begin deze eeuw ontwikkeld. In korte tijd is memoQ uitgegroeid tot een veelzijdige tool die is ‘ontwikkeld door vertalers, voor vertalers’[8] . Een memoQ-licentie is vanaf EUR 620,- verkrijgbaar. Ook memoQ biedt een gratis proefperiode van dertig dagen aan.[9]

Ontwerp

In aanleg lijken memoQ en Studio veel op elkaar: projecten kunnen op verschillende niveaus gemanaged worden en in de vertaalfunctie worden teksten gesegmenteerd[10]. De interface van zowel memoQ als Studio is grotendeels te personaliseren. Gezien de preview-functie van memoQ, waarin zonder vertraging wordt weergegeven hoe de opgemaakte doeltekst eruit komt te zien, is het mogelijk dat de tool als laagdrempeliger wordt ervaren door (literair) vertalers die gewend zijn om in Word te werken.

Functies

Hoewel niet alle functies van Studio of memoQ bedoeld zijn voor literair vertalers, bieden beide tools zekere voordelen. Van oudsher worden vertaalgeheugens gebruikt om (gedeeltelijk) woordelijk terugkerende segmenten consistent te vertalen. Voor literair vertalers is dit minder aan de orde, maar in het geval van hervertaling kunnen bestaande vertalingen in het vertaalgeheugen worden geüpload zodat die tijdens het vertalen als naslagwerk kunnen dienen.

Verder bieden de zoek- en filterfuncties in Studio en memoQ enkele voordelen. Zo kunnen gebruikers eenvoudig (delen van) woorden of zinnen opzoeken in het opgebouwde vertaalgeheugen of in de tekst zelf. Omdat het bronsegment altijd met het bijbehorende doelsegment wordt getoond, kan dit bijdragen aan het overzicht dat de gebruiker heeft van de eerder gemaakte vertaalkeuzes en de tekst als geheel.

Terminologiebeheer kan literair vertalers helpen door namen of veelvoorkomende woorden die consistent vertaald moeten worden in de zogenoemde term base op te nemen. De CAT-tools kunnen die vertalingen dan voorstellen tijdens het vertalen, waarna het woord eenvoudig in het doelsegment kan worden ingevoegd. Dit kan een positief effect hebben op de efficiëntie van de vertaler.

De manier waarop bron- en doelsegmenten naast elkaar zijn geplaatst, maakt het eenvoudiger om vertalingen te controleren en vergroot de nauwkeurigheid van de vertaling. Er hoeft namelijk niet handmatig bepaald te worden welk deel van de vertaling correspondeert met welk deel van de brontekst. Bovendien kunnen er met behulp van Quality Assurance of verification-checks mogelijke slordigheden in de vertaling voorkomen worden.

De keuze tussen memoQ en Studio, of andere vertaaltools, berust grotendeels op persoonlijke voorkeur. Realistisch gezien kost het een zekere tijdsinvestering om goed met de tools te leren werken. De verschillen zitten echter in de details. Hoewel de ontwikkelaars van beide tools merkbaar bezig blijven nieuwe functies te ontwikkelen, lijkt het bedienen van de literaire vertaalwereld nog geen prioriteit te zijn. Wel is memoQ beduidend beter geworden in het verwerken van PDF-documenten en biedt de tool nu ook een vorm van termextractie aan. Dit laatste is wellicht een stap in de richting om de functies van analysetools te integreren in vertaaltools.

Voordelen Nadelen
Bevordering van consistentie d.m.v. vertaalgeheugens en terminologiebeheer Vereist aanzienlijke investering van tijd en geld
nauwkeuriger vertaalproces  
overzicht  
voorkomt slordigheden  
potentie om efficiëntie te vergroten  

Machine Translation

Wanneer je het over vertaaltechnologie hebt, kan Machine Translation (MT) niet achterwege blijven, niet in het minst omdat MT enigszins logisch na memoQ en Studio volgt vanwege het feit dat dergelijke CAT-tools doorgaans worden gebruikt om machine translated teksten in te post-editen. Omdat er meer en meer verschillende (soorten) vertaalmachines worden ontwikkeld, is het echter lastig ze allemaal onder één noemer te vatten.

De state of the art MT is de laatste jaren neural machine translation (NMT), de opvolger van statistische vertaalmachines. Statistische vertaalmachines creëerden nieuwe vertalingen op basis van regels, wat vaak resulteerde in een woordenbrij. De nieuwe neural engines zijn met behulp van veel, heel veel, referentiemateriaal als het ware getraind om correcte zinstructuren te creëren.

Al in 2015 onderzochten Antonio Toral en Andy Way de inzet van MT op literair gebied. Door SMT te gebruiken en trainen, observeerden zij dat de inzet ervan vertalers weldegelijk werk bespaarde. In 2017 concludeerden Toral en Víctor M. Sánchez-Cartagena dat NMT over het algemeen natuurlijkere vertalingen produceerde dan SMT, maar dat de machine meer moeite had naar mate zinnen langer werden. Later bleek in 2018 uit onderzoek van Toral en zijn collega’s dat een literair getrainde NMT engine aanzienlijke tijdwinst opleverde en dat bovendien het aantal handelingen om tot een goede vertaling te komen was gedaald.

Vandaag de dag zijn Google Translate[11], DeepL Translator[12] en Microsoft Translator[13] de bekendste neural engines. Deze engines zijn (tot op zeker niveau) gratis beschikbaar. Daarnaast wordt er veel geëxperimenteerd met het bouwen of trainen van vertaalmachines, ook op literair gebied. Literaire NMT biedt zekere voordelen, vooral indien er gewerkt kan worden met speciaal getrainde vertaalmachines. Het moge duidelijk zijn dat NMT in het bijzonder de efficiëntie van vertalers kan vergroten, maar hier zitten ook enkele haken en ogen aan. Bij het al dan niet inzetten van NMT spelen namelijk ethische kwesties en onduidelijkheden met betrekking tot tarieven, intellectueel eigendom en gegevensbeveiliging een belangrijke rol.

Voordelen Nadelen
Keuze uit diverse engines Gebruik vertaaltool gewenst
bevordert efficiëntie aanzienlijk diverse ethische kwesties

Bibliografie en noten

Horenberg, Lisa. 2019. Using CAT in Literary Translation - How Tools May Support Translators in Source-Text Analysis, Translation and Retranslation: A Case Study of “Mr Loveday’s Little Outing” (masterscriptie). Universiteit Utrecht.

Toral, Antonio en Andy Way. 2015. ‘Machine-Assisted Translation of Literary Text: A Case Study’ Translation Spaces 4(2): 240-267.

Toral, Antonio, et al. 2018. ‘Post-editing Effort of a Novel With Statistical and Neural Machine Translation’ Frontiers in Digital Humanities 5(9): 1-11.

Toral, Antonio en Víctor M. Sánchez-Cartagena. 2017 ‘A Multifaceted Evaluation of Neural

Versus Phrase-Based Machine Translation for 9 Language Directions’ arXiv:1701.02901.

Youdale, Roy. 2019. Using Computers in the Translation of Literary Style: Challenges and Opportunities. Routledge.

[1] https://voyant-tools.org/

[2] http://docs.voyant-tools.org/tools/; https://voyant-tools.org/docs/#!/guide

[3] https://www.sketchengine.eu/

[4] https://www.sketchengine.eu/price-list/

[5] https://www.sdltrados.com/

[6] https://www.memoq.com/

[7] https://www.sdltrados.com/store/

[8] ‘Created by Translators for Translators’; https://www.memoq.com/products/memoq-translator-pro

[9] https://www.memoq.com/products/memoq-translator-pro

[10] Segmentatie is het opsplitsen van teksten in kleine delen, doorgaans zinnen of alinea’s. Bron- en doelsegmenten worden in CAT-tools onder of naast elkaar gepresenteerd. Segmenten zijn naar eigen inzicht van de vertaler op te splitsen en samen te voegen.

[11] https://translate.google.nl/

[12] https://www.deepl.com/translator

[13] https://www.bing.com/translator/