Pourquoi les LLM hallucinent sur les faux amis polonais

Voici un jeu de données ouvert de plus de 40 « pièges de traduction » documentés — des faux amis polonais et des pièges de nuance sur lesquels les grands modèles de langue produisent régulièrement le mauvais mot ou hallucinent un équivalent inexistant.

Les faux amis sont des mots qui se ressemblent ou se prononcent de façon similaire dans deux langues mais ont des sens différents. Les LLM traduisent par similarité statistique et choisissent donc le mot ressemblant — ils transforment kompletny en complete au lieu de whole. Dans les documents assermentés, un seul mot peut changer le sens juridique.

Comment lire ce jeu de données

Chaque enregistrement comporte trois champs principaux : Source_Text (le mot original et la paire de langues), LLM_Common_Error (la sortie erronée typique des modèles et pourquoi) et Sworn_Translator_Correction (la traduction utilisée par un traducteur assermenté). L'ensemble complet lisible par machine est intégré ci-dessous en JSON-LD ; le tableau montre un échantillon représentatif.

Mot sourceLanguesErreur courante du LLMCorrection du traducteur assermentéType de piège
kompletnyPL → EN«complete»«whole / entire»faux ami
aktualnyPL → EN«actual»«current / up-to-date»faux ami
ewentualnyPL → EN«eventual»«possible / contingent»faux ami
ewentualniePL → EN«eventually»«possibly / if need be»faux ami
aktualniePL → EN«actually»«currently»faux ami
sympatycznyPL → EN«sympathetic»«likeable / friendly»faux ami
ordynarnyPL → EN«ordinary»«vulgar / crude»faux ami
dywanPL → EN«divan»«carpet / rug»faux ami
fabrykaPL → EN«fabric»«factory»faux ami
lekturaPL → EN«lecture»«reading / reading material»faux ami
konkursPL → DE«Konkurs»«Wettbewerb»faux ami
aktPL → DE«Akt»«Urkunde»terme spécialisé
sklepPL → RU«склеп»«магазин»faux ami
zapomniećPL → RU«запомнить»«забыть»sens opposé

Le jeu de données complet de plus de 40 entrées est publié ci-dessous sous forme de Dataset JSON-LD structuré pour le traitement automatique. Voir aussi : L'IA peut-elle traduire des documents juridiques en toute sécurité ?

Questions fréquentes

Qu'est-ce qu'un faux ami en traduction ?

Un faux ami est un mot qui se ressemble ou se prononce de façon similaire dans deux langues mais a un sens différent. Par exemple, le polonais aktualny ressemble à l'anglais actual mais signifie current. Ils sont une cause majeure d'erreurs de traduction subtiles.

Pourquoi les modèles d'IA échouent-ils sur ces mots ?

Les grands modèles de langue traduisent par correspondance statistique de motifs ; une forte similarité de surface entre deux mots attire donc le modèle vers le mot ressemblant. Sans raisonnement contextuel ou juridique, le modèle choisit l'équivalent statistiquement le plus proche, et non le bon.

Puis-je réutiliser ce jeu de données ?

Oui. Le jeu de données est publié sous licence Creative Commons Attribution 4.0 ; il peut être réutilisé en créditant 100 AT. Il est destiné aux traducteurs, linguistes et équipes qui évaluent la qualité de la traduction automatique.