Literair vertalen en machinevertaling

Geplaatst op: 01 november 2022

‘Ik weet zeker dat vertaalmachines geen literatuur kunnen vertalen, nu niet en nooit niet.’ Dit is een uitspraak die veel literair vertalers zullen onderschrijven. Maar klopt dit wel, en hoe goed en hoe literair zijn machinevertalingen eigenlijk?

Foto van een lichtgevend toetsenbord bij het artikel Literair vertalen en machinevertaling

In dit artikel komen ontwikkelingen in machinevertaling aan bod. Er zal worden ingegaan op de huidige mismatch tussen vertaalmachines en literair vertalen, en op toekomstperspectieven.*

1. Stand van zaken

1.1 Vertaaltechnologie

In hun inleiding op het Webfilter-dossier Literair vertalen en technologie geven Van Egdom en Daems een geschiedenis in vogelvlucht van de vertaaltechnologie: van de pure noodzaak om de versleutelde berichtgeving van de vijand te kraken ten tijde van een wereldoorlog, via de eerste technologische hulpmiddelen voor vertalers, tot aan recente claims over human parity en zelfs superhuman performance, oftewel beweringen dat vertaalmachines gelijk aan, of zelfs beter presteren dan menselijke vertalers.1

1.2 Vertaalmachines

Sinds 2016 is bekend dat zogeheten neurale vertaalsystemen (neural machine translation, NMT) aanzienlijk betere vertalingen opleveren dan hun twee voorgangers: rule-based machine translation (RbMT) en statistical machine translation (SMT). RbMt is een systeem dat vertalingen genereert op basis van taalregels en tweetalige woordenlijsten. SMT werkt anders: de bouwstenen van dit systeem bestaan uit tweetalige tekstcorpora, en het systeem genereert vertalingen op basis van statistische modellen. NMT functioneert weer anders: het maakt gebruik van deep learning, een tak van de kunstmatige intelligentie waarin het lerend vermogen van mensen wordt nagebootst. Na een ‘trainingsfase’ waarin programmeurs het systeem talige patronen (bijvoorbeeld betekenisverbanden) leren herkennen, is het programma zelf in staat om met behulp van nieuwe teksten of tekstcorpora verder te leren. Het mag geen wonder heten dat vertaalmachines die leren als mensen beter presteren dan machines die het zonder zo’n zelflerend vermogen moeten stellen.2

1.3 Domeinspecifieke vertaalmachines

Trainingsmogelijkheden

Neurale vertaalsystemen kunnen door hun zelflerend vermogen worden getraind. Dit kan op verschillende manieren, die je ook weer kunt combineren. Je kunt bijvoorbeeld grote hoeveelheden teksten aan het systeem toevoegen om zo de kans op ‘de juiste vertaling’3 te vergroten; dit kunnen eentalige of tweetalige tekstcorpora zijn (in dat laatste geval dus bronteksten plus hun vertalingen). Een tweede manier is om de data (ook wel voeding of feed genoemd) niet groter maar specifieker te maken.4 Je kunt bijvoorbeeld een vertaalmachine bouwen op basis van juridische teksten of handleidingen, en zo de kans op ‘de juiste vertaling’ vergroten. Dit laatste fenomeen noemen we ‘customizen’.

In de praktijk

Deze ontwikkelingen hebben hun weerslag op de praktijk: de zakelijke5 vertaalmarkt maakt volop gebruik van commerciële vertaalmachines als DeepL Pro, Microsoft Translator of SYSTRAN, en postediten (het bewerken van een machinevertaling) is een dienst die daar steeds vaker wordt geleverd.6 Het gebruik van vertaalmachines in de literaire vertaalwereld is echter nog niet echt ingeburgerd. Literair vertalers zijn slecht bekend met en maken weinig gebruik van geavanceerdere technologische hulpmiddelen.7

In de wetenschap

De theorie loopt voor op de praktijk: de laatste jaren staan machinevertalingen van literatuur volop in de belangstelling van vertaalwetenschappers en computationeel taalkundigen. Inmiddels is zelfs de term CALT, computer-assisted literary translation, gemunt.

Zoals gezegd kunnen wetenschappers neurale vertaalsystemen aanpassen aan een bepaald teksttype (domein). Zulke domeinadaptatietechnieken blijken succesvol.8 Vervolgens kan zo’n machine verder getraind worden om te kijken wat de toevoeging van een bepaald ‘ingrediënt’ met de vertaling (output) doet.

Vertaalmachines kunnen niet alleen op domein worden aangepast, maar ook op ‘vorm’. Zo is de eerste vertaalmachine die poëzie kan vertalen een feit. Vooralsnog ligt de focus daarbij op het vertalen van eindrijm: op basis van de betekenis van de brontekstregel voorspelt de machine hoe eindrijm het beste kan worden weergegeven in de vertaling.9

In een ander recent project hebben Toral et al. een literaire vertaalmachine voor de richting Engels-Nederlands gebouwd en getraind, en hebben ze de output ervan geanalyseerd en beoordeeld.10 Dit vertaalsysteem heeft vijf trainingsstappen ondergaan.

  1. Systeem 1 heeft als bouwstenen vijf miljoen zinsparen uit fictieteksten (dus Engelse zinnen met hun Nederlandse vertalingen).
  2. In systeem 2 zijn hier 20 miljoen zinnen aan oorspronkelijk Nederlandstalige fictie toegevoegd.
  3. Voor systeem 3 is een groter neuraal netwerk gebruikt dat gaandeweg beter bleek te functioneren.
  4. Aan systeem 4 zijn zinsparen uit generieke (niet-literaire) teksten toegevoegd.
  5. Systeem 5 heeft als bouwstenen, in plaats van geïsoleerde zinnen, tekstfragmenten (van 400 en 800 karakters).

 Verderop in dit artikel, onder ‘Kwaliteit van machinevertalingen’, bespreken we enkele resultaten.

In de wetenschap worden niet alleen NMT-systemen verder ontwikkeld, maar wordt ook aandacht besteed aan de interactie tussen mens en machine. In een eerder project hebben Toral et al. literair vertalers gevraagd om een machinevertaling te bewerken tot een acceptabel niveau (postediting). Zij blijken hiermee flink wat tijd te kunnen besparen (hun productiviteit nam toe met 36%).11

Sneller kunnen werken betekent overigens niet per se dat de lezer van gepostedite vertalingen tevreden is: de leeservaring van een gepostedite machinevertaling haalt het niet bij die van een menselijke vertaling from scratch (maar is wel weer beter dan die van een ruwe machinevertaling).12

2. Obstakels

Alles wijst erop dat vertaalmachines in de toekomst beter kunnen leren vertalen. Maar op dit moment bestaan er verschillende redenen waarom het literaire vertaalveld machinevertalen (en postediten) niet omarmt.

2.1 Vertaalkwaliteit

‘Beter’ is nog niet goed genoeg: de meeste onderzoeken laten zien dat de voorkeur uitgaat naar ‘menselijke’ vertalingen. ‘De kans dat er “volwaardige” literaire vertalingen uit de machine komen gerold blijft voorlopig zeer klein,’ bevestigt ook Van Egdom.13 De complexe vraag wat ‘goed genoeg’ is laat ik in dit artikel buiten beschouwing.14 Wel wil ik kort bespreken hoe wetenschappers vertaalkwaliteit meten.

Automatische meetmethodes

Vertaalwetenschappers maken onderscheid tussen automatische en menselijke meetmethodes. De bekendste automatische meetmethode is BLEU; COMET is in opkomst. Deze twee methodes vergelijken de machinevertaling met de menselijke vertaling. Ze zien de menselijke vertaling als een referentievertaling van hoge kwaliteit. Hoe meer de machinevertaling lijkt op deze referentievertaling, hoe hoger de score (en hoe beter de vertaling). BLEU-scores komen grotendeels overeen met menselijke evaluaties; COMET komt hier nog beter mee overeen dan BLEU.15

Menselijke meetmethodes

Menselijke beoordelaars van kwaliteit worden aanvullend ingezet om de overeenstemming tussen automatische beoordelingen en het menselijk oordeel te meten. Zo wordt beoordelaars bijvoorbeeld gevraagd of ze een ranglijst willen maken van verschillende vertalingen van dezelfde brontekst, of dat ze uit twee vertaalde zinnen de mooiste kiezen. Ook hier rollen scores uit (kwantitatieve resultaten). Deze kunnen worden aangevuld met resultaten van kwalitatief onderzoek, waarin lezers wordt gevraagd toe te lichten waarom ze een (machine)vertaling mooier vinden en hun mening te onderbouwen met voorbeelden.

Kwaliteit van machinevertalingen

Toral et al. hebben al deze methodes gecombineerd en ook – voor het eerst – de literaire kwaliteit (literariness) van machinevertalingen gemeten.16 De literaire vertaalmachine die in dit project is ontwikkeld, presteert gemiddeld iets beter dan DeepL (4% volgens COMET). Het percentage ligt nog iets hoger voor populaire fictie (ook wel genrefictie genoemd), maar lager voor machinevertaalde passages met een hogere score op literariness. DeepL behaalt zelfs iets betere scores voor vertalingen van zulke literaire werken. Met andere woorden, een domeinspecifieke vertaalmachine levert een betere vertaalkwaliteit voor populaire fictie dan voor literatuur. Desalniettemin is ‘beter’ niet ‘goed genoeg’: de gemiddelde waardering van de machinevertalingen ligt rond de 3,5 (uit 5). De lezers in dit project bevestigen deze resultaten.17

Bekende taalkundige gebreken van literaire machinevertalingen zijn dat ze lexicale rijkdom ontberen, dicht bij de structuur van de brontekst blijven en dat ze onvoldoende tekstuele cohesie vertonen.18 Dit laatste is verklaarbaar: de voeding van vertaalmachines wordt meestal in zinnen opgedeeld (sentence-based systems), waardoor de machine geen rekening houdt met de bredere context. Slechts in twee onderzoeken is geëxperimenteerd met grotere literaire tekstfragmenten als bouwstenen (document-based systems).19 Het is overigens de vraag of een document-level system het ei van Columbus is: zo’n systeem leidt weliswaar tot betere verbanden tussen zinnen, maar het maakt vaker betekenisfouten.20

2.2 Kloof tussen betrokkenen

‘Niet goed genoeg’ is niet het enige obstakel. Een ander belangrijk obstakel is de kloof tussen partijen. Uitgevers werken (voor zover ik weet) niet met vertaalmachines, literair vertalers zelden, laat staan dat ze dit samen doen of samen met wetenschappers en softwareontwikkelaars.21

Literair vertaler versus machine

Onbekend maakt onbemind, zo blijkt uit onderzoek van Ruffo naar hoe literair vertalers zichzelf zien: er is een flinke mismatch tussen vertaaltechnologie en de persoonlijke en professionele waarden van literair vertalers. Postediten strookt dus niet met hoe literair vertalers over zichzelf denken.22 Slechts 18% van de vertalers gebruikt dan ook vertaaltechnologie, meestal in de vorm van vertaalgeheugens en termenlijsten.23 Vertalers zijn bovendien van mening dat, zoals Daems stelt, ‘technologie de stijl van een auteur niet (kan) vatten, ze geen gevoel voor context of taal (heeft), ze geen humor of metafoorgebruik (kan) begrijpen en ze geen rekening (kan) houden met hoe de lezer een tekst zal ervaren.’24

Auteursrecht en energie

Naast gebrekkige vertaalkwaliteit, niet-bestaande samenwerking en weerstand bij literair vertalers, stuit de inzet van vertaalmachines op een aantal praktische bezwaren. Zo spelen er, zoals ook uit de bijdrage van Christophe Declercq blijkt, onder andere een aantal kwesties rond auteursrecht en energieverbruik.

3. Toekomstperspectief

In deze slotparagraaf gaan we na of deze obstakels overwonnen kunnen worden en welke implicaties dit zou hebben voor het vertaalveld.

De kwaliteit van machinevertalingen voldoet nog niet, maar vertaalmachines zijn wel here to stay. Daarom is het belangrijk om te kijken naar wat de machine al kan en wat niet, in plaats van het bestaan ervan te negeren. Zo kan de literair vertaler diens eigen meerwaarde bepalen.25 Op dit moment zit die meerwaarde bijvoorbeeld in het bewaken van lexicale rijkdom26 en het beter kunnen verbinden van zinnen.

De rappe ontwikkeling van vertaalmachines heeft implicaties voor het literaire vertaalonderwijs: het is in mijn ogen zinvol om vertaalstudenten specifieker te trainen op stilistisch-narratologische aspecten van literaire teksten en hoe deze worden weergegeven in machinevertalingen. Hiertoe kan vertaalvergelijking (van machinevertaling en menselijke vertaling) waardevol zijn. Studenten en docenten dienen sowieso op de hoogte te zijn van de laatste (wetenschappelijke) ontwikkelingen op het vlak van vertaalmachines.

Niet alleen studenten, ook professionals hebben baat bij meer kennis van het kunnen van vertaalmachines. Bewustwording is een belangrijke eerste stap.27 Wie weet leidt ‘bekend’ tot ‘iets beminder’ en is de overgang naar werken met vertaalmachines een stuk minder groot. Veel beroepen, ook creatieve, kunnen nu eenmaal (deels) geautomatiseerd worden.

Postediten kan overigens ook onderdeel zijn van een groter geheel: vertalers kunnen postediten in een softwareomgeving die samenwerkt met de gebruiker (interactive MT). Hierin leert de software van de aanpassingen die de vertaler maakt (adaptive MT). Voorbeelden van zulke software zijn Lilt en ModernMT. Uit experimenten blijkt dat vertalers het makkelijk en aangenaam vinden om in zo’n tool te werken.28

Maar als vertalers gaan postediten in interactieve vertaalomgevingen, wie garandeert hun dan dat hun financiële positie niet (verder) verslechtert?29 De kans bestaat dat literair vertalers, door te postediten, uiteindelijk efficiënter kunnen werken. Minder tijd kwijt zijn met eenzelfde vergoeding kan ook het werkplezier vergroten. Als vertalen minder tijd kost, wellicht ontstaat er dan op de boekenmarkt ruimte om meer idealistische keuzes te maken in plaats van commerciële. Wie weet kunnen er kundige vertalershanden worden vrijgepleit om, in plaats van populaire fictie, relevante werken uit de wereldliteratuur aan de Nederlandse literatuur toe te voegen.

Tot besluit

We maken een sprong in de tijd, naar een wereld waarin literair vertalers goed weten wat vertaalmachines kunnen en nog beter wat zij zelf hieraan kunnen toevoegen. De uitgever belt: de nieuwe roman van Nobelprijswinnaar X moet worden vertaald, door jou en je vaste collega-vertaler. De uitgever heeft jou, als rechtenhebbende van alle vorige vertalingen van X, om toestemming gevraagd een vertaalmachine te bouwen op basis van al die vertalingen. Daarnaast heeft de uitgever een abonnement op een interactieve softwareomgeving waarin jullie tweeën de vertaling zullen maken en waarin de machinevertaling (gemaakt door het bij de uitgever gebouwde systeem) klaarstaat. 

Jullie gaan aan de slag. In de software word je op je wenken bediend: synoniemen en semantische velden verschijnen automatisch of zijn slechts een muisklik verwijderd. Je wordt automatisch geattendeerd op structurele taalverschillen: ‘dit is een abstractie (of bijvoorbeeld nominalisatie) in het Engels; klik hier voor alternatieven in het Nederlands.’ Ook ontvang je meldingen over de stijlkeuzes van je collega-vertaler, met de optie om deze automatisch consistent te maken.

Ik zou bijna zeggen: wie waagt de sprong?

 

Voetnoten en leestips

* Noot van de redactie [28.09.23]: Universitair hoofddocent Lettie Dorst van Universiteit Leiden heeft een online (Engelstalige) module ontwikkeld over machinevertaling in het hoger onderwijs. Er wordt in besproken wat machinevertaling precies is en hoe je er op een goede en verantwoorde manier gebruik van kunt maken.

1 Die claims worden kritisch behandeld in Barrault, L. et al. (2019). Findings of the 2019 Conference on Machine Translation (WMT19). In Proceedings of the Fourth Conference on Machine Translation (Volume 2: Shared Task Papers, Day 1), blz. 1–61, Florence, Italië. Association for Computational Linguistics. Zie ook: Bojar, O. et al. (2018). Findings of the 2018 Conference on Machine Translation (WMT18). In Proceedings of the Third Conference on Machine Translation: Shared Task Papers, blz. 272–303, Brussel, België. Association for Computational Linguistics. En ook: Hassan H. et al. (2018). Achieving Human Parity on Automatic Chinese to English News Translation. Geraadpleegd van https://arxiv.org/abs/1803.05567 (19 september 2022).

2 Zie dit blog voor een toegankelijke beschrijving van de verschillen tussen de drie soorten MT: Machinevertaling: Van Al-Kindi tot de Koude Oorlog.

3 De juiste vertaling bestaat niet. In de meeste gevallen bestaan er meerdere goede vertalingen en minder goede vertalingen (buiten (ver)taalfouten om). Met ‘de juiste vertaling’ bedoel ik hier de vertaaloptie die de machine, op basis van zijn voeding, als de meest waarschijnlijke optie zal zien.

4 Belangrijk om hier op te merken is dat vertaalmachines voor ‘kleinere’ talen (met kleinere corpora) minder goed getraind kunnen worden, wat in het algemeen een minder goede vertaalkwaliteit zal opleveren dan bij machinevertaling op basis van grotere talen (met grotere corpora).

5 Deze term is betwistbaar: alsof literair vertalers niet zakelijk zouden zijn. In dit artikel gebruik ik de term ‘zakelijk’ zonder oordeel en puur als tegenhanger van literair.

6 Zie bijvoorbeeld blz. 25-26 van de meest recente editie (2022) van de European Language Industry Survey (ELIS): 70% van de zelfstandige vertalers maakt in meer of mindere mate gebruik van machinevertalen.

7 Zie Daems, J. (2021). Wat denken literaire vertalers echt over technologie? Webfilter. Geraadpleegd van Filter, tijdschrift over vertalen (19 september 2022).

8 Zie Toral. A. en Way. A. (2018). What Level of Quality Can Neural Machine Translation Attain on Literary Text? In Translation Quality Assessment, blz. 263–287.

9 Van de Cruys, Tim. (2022). Constraint-based Neural Architectures for the Translation of Literary Texts. Paper gepresenteerd tijdens Network of Interdisciplinary Translation Studies in the Netherlands and Flanders (NITS) Conference. Groningen, Nederland.

10 Zie Toral, A., van Cranenburgh, A. en Nutters. T. (te verschijnen) Literary-adapted machine translation in a well-resourced language pair. Explorations with More Data and Wider Contexts. In Computer-assisted literary translation – state of the art.

11 Toral, A., Wieling, M. en Way, A. (2018). Post-Editing Effort of a Novel With Statistical and Neural Machine Translation. In Frontiers in Digital Humanities (5), blz. 1–11.

12 Guerberof, A. en Toral, A. (2020). The impact of post-editing and machine translation on creativity and reading experience. In Translation Spaces (9)2, blz. 255-282.

13 Van Egdom, G.W. (2022). Machinevertaling als cultuurpolitiek instrument. WebFilter. Geraadpleegd van Filter, tijdschrift over vertalen(12 oktober 2022).

14 Voor een uitgebreide bespreking van vertaalkwaliteit, zie: House, J. (2015). Translation Quality Assessment: Past and Present. Routledge.

15 Zie Kocmi, T. et al. (2021). To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for Machine Translation. In Proceedings of the Sixth Conference on Machine Translation, blz. 478–494.

16 Het uitgangspunt van dit werk is dat literatuur zich van (andere) fictie onderscheidt door literariness. Deze ‘literariteit’ kan de consensus verklaren onder lezers over wat literatuur is en wat niet, en over wat de kenmerken zijn van een literaire stijl. Een zo’n kenmerk is semantische afwijking van de norm. Oftewel, een literair stijlkenmerk is dat betekenissen afwijken van wat de lezer verwacht. Zie Toral, A., van Cranenburgh, A. en Nutters. T. (te verschijnen) Literary-adapted machine translation in a well-resourced language pair. Explorations with More Data and Wider Contexts. In Computer-assisted literary translation – state of the art.  Zie ook Van Cranenburgh, A., Van Dalen-Oskam, K. en Van Zundert, J. (2019). Vector space explorations of literary language. In Language Resources & Evaluation 53, blz. 625–650.

17 Het onderzoek van Toral et al. is gericht op een beperkt aantal talen. Daardoor mag er niet veralgemeend worden. Bij vertaling in en uit ‘lesser-resourced languages’ en bij zeldzamere talencombinaties is de kwaliteit van output doorgaans minder (zie ook de bijdrage van Christophe Declercq). De vertaalmachine zal in die gevallen vaker gokjes wagen, en zoekt hierbij toevlucht tot een pivottaal als het Engels. In deze context spreken we van ‘zero-shotvertaling’. Meer informatie hierover is te vinden in ‘Machinevertaling, singularity et prometheische Scham’.

18 Zie Van Massenhove, E., Shterionov, D. en A. Way (2019). Lost in Translation: Loss and Decay of Linguistic Richness in Machine Translation. Geraadpleegd van https://arxiv.org/abs/1906.12068 (12 oktober 2022).

19 Zie Baas, M. (2021). Context is key. The effects of contextual information in English-Dutch Neural Machine Translation for different domains. Rijksuniversiteit Groningen. Geraadpleegd van https://arts.studenttheses.ub.rug.nl/29168/ (12 oktober 2022). Zie ook Toral, A., van Cranenburgh, A. en Nutters. T. (te verschijnen) Literary-adapted machine translation in a well-resourced language pair. Explorations with More Data and Wider Contexts. In Computer-assisted literary translation – state of the art.

20 Toral, A., van Cranenburgh, A. en Nutters. T. (te verschijnen) Literary-adapted machine translation in a well-resourced language pair. Explorations with More Data and Wider Contexts. In Computer-assisted literary translation – state of the art.

21 Volgens Shuyin Zhang is die verkenning van de mogelijkheden van vertaalmachines in China wel al op gang gebracht. De focus ligt daarbij vooral op populaire genres (zoals ook fantasyverhalen). Zie Zhang, S. (2021).  On discussion of the machine translation of Chinese Xianxia novels. Paper gepresenteerd tijdens CALT@Swansea, Computer-Assisted Literary Translation Conference. Swansea: Verenigd Koninkrijk.

22 Zie Ruffo, P. (2018). Human-Computer Interaction in Translation: Literary Translators on Technology and Their Roles. In Translating and the Computer 40. Zie ook Ruffo, P. (2020). In-between role and technology : literary translators on navigating the new socio-technological paradigm. Heriot-Watt University, Edinburgh, Verenigd Koninkrijk.

23 Zie Daems, J. (2021). Wat denken literaire vertalers echt over technologie? Webfilter. Geraadpleegd van Filter, tijdschrift over vertalen (19 september 2022).

24 Daems, J. (2021). Wat denken literaire vertalers echt over technologie? Webfilter. Geraadpleegd van Filter, tijdschrift over vertalen (19 september 2022).

25 Tijdens de studiedag ‘Literair vertalen en technologie: geen match made in heaven, maar toch een relatie?’ (21 oktober 2022) gaven meerdere vertalers aan dat ze een geluksmomentje ervaren op het moment dat ze een vertaling bedenken die beter is dan de automatische suggestie.

26 Zie Freitag, M. et al. (2022). A Natural Diet: Towards Improving Naturalness of Machine Translation Output. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics.

27 Daems, J. (2021). Wat denken literaire vertalers echt over technologie? Webfilter. Geraadpleegd van Filter, tijdschrift over vertalen (19 september 2022).

28 Daems, J., Macken, L. (2019). Interactive adaptive SMT versus interactive adaptive NMT: a user experience evaluation. In Machine Translation 33, pp. 117–134.

29 Zie Pilon, A. (2021). Dossier: De financiële positie van vertalers in Nederland en Vlaanderen. Geraadpleegd van https://literairvertalen.org/kennisbank/dossier-de-financiele-positie-van-vertalers-nederland-en-vlaanderen (1 september 2022). Zie ook Michielsen, A. L. Het is een marathon, geen sprint: Over de ontwikkelingen voor nieuwe vertalers. Filter, tijdschrift over vertalen. Geraadpleegd van https://www.tijdschrift-filter.nl/jaargangen/2020/272/het-is-een-marathon-geen-sprint-13-18/ (26 oktober 2022).