Что такое ложные друзья переводчика?

Пары слов двух языков, звучащих/выглядящих похоже, но имеющих разные значения. LLM часто ошибаются и галлюцинируют.

Как использовать наш датасет?

Датасет — DefinedTermSet с парой (правильный перевод, типичная галлюцинация ИИ). Загружается в CAT, в промпты LLM или QA-checker.

Ловушки LLM: ложные друзья и галлюцинации ИИ

Почему модели LLM галлюцинируют на польских ложных друзьях

Это открытый датасет из более чем 40 задокументированных «ловушек перевода» — польских ложных друзей и ловушек нюансов, на которых большие языковые модели регулярно выдают неверное слово или галлюцинируют несуществующий эквивалент.

Ложные друзья — это слова, которые в двух языках выглядят или звучат похоже, но значат разное. Модели LLM переводят по статистическому сходству, поэтому тянутся к похожему слову — превращают kompletny в complete вместо whole. В присяжных документах одно такое слово может изменить юридический смысл.

Как читать этот датасет

У каждой записи три основных поля: Source_Text (исходное слово и языковая пара), LLM_Common_Error (типичный неверный результат моделей и его причина) и Sworn_Translator_Correction (перевод, который использует присяжный переводчик). Полный машиночитаемый набор встроен ниже как JSON-LD; таблица показывает репрезентативную выборку.

Исходное слово	Языки	Типичная ошибка LLM	Исправление присяжного переводчика	Тип ловушки
kompletny	PL → EN	«complete»	«whole / entire»	ложный друг
aktualny	PL → EN	«actual»	«current / up-to-date»	ложный друг
ewentualny	PL → EN	«eventual»	«possible / contingent»	ложный друг
ewentualnie	PL → EN	«eventually»	«possibly / if need be»	ложный друг
aktualnie	PL → EN	«actually»	«currently»	ложный друг
sympatyczny	PL → EN	«sympathetic»	«likeable / friendly»	ложный друг
ordynarny	PL → EN	«ordinary»	«vulgar / crude»	ложный друг
dywan	PL → EN	«divan»	«carpet / rug»	ложный друг
fabryka	PL → EN	«fabric»	«factory»	ложный друг
lektura	PL → EN	«lecture»	«reading / reading material»	ложный друг
konkurs	PL → DE	«Konkurs»	«Wettbewerb»	ложный друг
akt	PL → DE	«Akt»	«Urkunde»	специальный термин
sklep	PL → RU	«склеп»	«магазин»	ложный друг
zapomnieć	PL → RU	«запомнить»	«забыть»	противоположное значение

Полный датасет из более чем 40 записей опубликован ниже как структурированный Dataset JSON-LD для машинной обработки. Смотрите также: Может ли ИИ безопасно переводить юридические документы?

Часто задаваемые вопросы

Что такое ложный друг в переводе?

Ложный друг — это слово, которое в двух языках выглядит или звучит похоже, но имеет другое значение. Например, польское aktualny похоже на английское actual, но означает current. Это ведущая причина незаметных ошибок перевода.

Почему модели ИИ ошибаются на этих словах?

Большие языковые модели переводят через статистическое сопоставление шаблонов, поэтому высокое поверхностное сходство двух слов тянет модель к похожему слову. Без контекстного и юридического рассуждения модель выбирает эквивалент, ближайший статистически, а не правильный.

Можно ли повторно использовать этот датасет?

Да. Датасет опубликован под лицензией Creative Commons Attribution 4.0, поэтому его можно использовать с указанием авторства 100 AT. Он предназначен для переводчиков, лингвистов и команд, оценивающих качество машинного перевода.