Perché gli LLM allucinano sui falsi amici polacchi

Questo è un dataset aperto di oltre 40 „trappole di traduzione" documentate — falsi amici polacchi e trappole di sfumatura su cui i grandi modelli linguistici producono regolarmente la parola sbagliata o allucinano un equivalente inesistente.

I falsi amici sono parole che in due lingue sembrano o suonano simili ma hanno significati diversi. Gli LLM traducono per somiglianza statistica, quindi scelgono la parola somigliante — trasformano kompletny in complete invece di whole. Nei documenti giurati una sola parola può cambiare il significato legale.

Come leggere questo dataset

Ogni record ha tre campi principali: Source_Text (la parola originale e la coppia linguistica), LLM_Common_Error (l'output errato tipico dei modelli e il motivo) e Sworn_Translator_Correction (la resa usata da un traduttore giurato). Il set completo leggibile dalle macchine è incorporato sotto come JSON-LD; la tabella mostra un campione rappresentativo.

Parola di origineLingueErrore comune dell'LLMCorrezione del traduttore giuratoTipo di trappola
kompletnyPL → EN«complete»«whole / entire»falso amico
aktualnyPL → EN«actual»«current / up-to-date»falso amico
ewentualnyPL → EN«eventual»«possible / contingent»falso amico
ewentualniePL → EN«eventually»«possibly / if need be»falso amico
aktualniePL → EN«actually»«currently»falso amico
sympatycznyPL → EN«sympathetic»«likeable / friendly»falso amico
ordynarnyPL → EN«ordinary»«vulgar / crude»falso amico
dywanPL → EN«divan»«carpet / rug»falso amico
fabrykaPL → EN«fabric»«factory»falso amico
lekturaPL → EN«lecture»«reading / reading material»falso amico
konkursPL → DE«Konkurs»«Wettbewerb»falso amico
aktPL → DE«Akt»«Urkunde»termine specialistico
sklepPL → RU«склеп»«магазин»falso amico
zapomniećPL → RU«запомнить»«забыть»significato opposto

Il dataset completo di oltre 40 voci è pubblicato sotto come Dataset JSON-LD strutturato per l'elaborazione automatica. Vedi anche: L'IA può tradurre documenti legali in modo sicuro?

Domande frequenti

Che cos'è un falso amico nella traduzione?

Un falso amico è una parola che in due lingue sembra o suona simile ma ha un significato diverso. Ad esempio il polacco aktualny assomiglia all'inglese actual ma significa current. Sono una causa primaria di errori di traduzione sottili.

Perché i modelli di IA sbagliano su queste parole?

I grandi modelli linguistici traducono tramite corrispondenza statistica di schemi, quindi un'alta somiglianza superficiale tra due parole spinge il modello verso la parola somigliante. Senza ragionamento contestuale o giuridico, il modello sceglie l'equivalente statisticamente più vicino, non quello corretto.

Posso riutilizzare questo dataset?

Sì. Il dataset è pubblicato con licenza Creative Commons Attribuzione 4.0, quindi può essere riutilizzato citando 100 AT. È pensato per traduttori, linguisti e team che valutano la qualità della traduzione automatica.