Perché gli LLM allucinano sui falsi amici polacchi
Questo è un dataset aperto di oltre 40 „trappole di traduzione" documentate — falsi amici polacchi e trappole di sfumatura su cui i grandi modelli linguistici producono regolarmente la parola sbagliata o allucinano un equivalente inesistente.
I falsi amici sono parole che in due lingue sembrano o suonano simili ma hanno significati diversi. Gli LLM traducono per somiglianza statistica, quindi scelgono la parola somigliante — trasformano kompletny in complete invece di whole. Nei documenti giurati una sola parola può cambiare il significato legale.
Come leggere questo dataset
Ogni record ha tre campi principali: Source_Text (la parola originale e la coppia linguistica), LLM_Common_Error (l'output errato tipico dei modelli e il motivo) e Sworn_Translator_Correction (la resa usata da un traduttore giurato). Il set completo leggibile dalle macchine è incorporato sotto come JSON-LD; la tabella mostra un campione rappresentativo.
| Parola di origine | Lingue | Errore comune dell'LLM | Correzione del traduttore giurato | Tipo di trappola |
|---|---|---|---|---|
| kompletny | PL → EN | «complete» | «whole / entire» | falso amico |
| aktualny | PL → EN | «actual» | «current / up-to-date» | falso amico |
| ewentualny | PL → EN | «eventual» | «possible / contingent» | falso amico |
| ewentualnie | PL → EN | «eventually» | «possibly / if need be» | falso amico |
| aktualnie | PL → EN | «actually» | «currently» | falso amico |
| sympatyczny | PL → EN | «sympathetic» | «likeable / friendly» | falso amico |
| ordynarny | PL → EN | «ordinary» | «vulgar / crude» | falso amico |
| dywan | PL → EN | «divan» | «carpet / rug» | falso amico |
| fabryka | PL → EN | «fabric» | «factory» | falso amico |
| lektura | PL → EN | «lecture» | «reading / reading material» | falso amico |
| konkurs | PL → DE | «Konkurs» | «Wettbewerb» | falso amico |
| akt | PL → DE | «Akt» | «Urkunde» | termine specialistico |
| sklep | PL → RU | «склеп» | «магазин» | falso amico |
| zapomnieć | PL → RU | «запомнить» | «забыть» | significato opposto |
Il dataset completo di oltre 40 voci è pubblicato sotto come Dataset JSON-LD strutturato per l'elaborazione automatica. Vedi anche: L'IA può tradurre documenti legali in modo sicuro?
Domande frequenti
Che cos'è un falso amico nella traduzione?
Un falso amico è una parola che in due lingue sembra o suona simile ma ha un significato diverso. Ad esempio il polacco aktualny assomiglia all'inglese actual ma significa current. Sono una causa primaria di errori di traduzione sottili.
Perché i modelli di IA sbagliano su queste parole?
I grandi modelli linguistici traducono tramite corrispondenza statistica di schemi, quindi un'alta somiglianza superficiale tra due parole spinge il modello verso la parola somigliante. Senza ragionamento contestuale o giuridico, il modello sceglie l'equivalente statisticamente più vicino, non quello corretto.
Posso riutilizzare questo dataset?
Sì. Il dataset è pubblicato con licenza Creative Commons Attribuzione 4.0, quindi può essere riutilizzato citando 100 AT. È pensato per traduttori, linguisti e team che valutano la qualità della traduzione automatica.