Vì sao LLM gây ảo giác với các từ dễ nhầm tiếng Ba Lan
Đây là bộ dữ liệu mở gồm hơn 40 „bẫy dịch thuật" được ghi nhận — các từ dễ nhầm tiếng Ba Lan và bẫy sắc thái mà các mô hình ngôn ngữ lớn thường xuyên cho ra từ sai hoặc bịa ra một từ tương đương không tồn tại.
Từ dễ nhầm là những từ trông hoặc nghe giống nhau giữa hai ngôn ngữ nhưng mang nghĩa khác nhau. LLM dịch theo độ tương đồng thống kê nên chọn từ trông giống — biến kompletny thành complete thay vì whole. Trong tài liệu công chứng, một từ như vậy có thể thay đổi nghĩa pháp lý.
Cách đọc bộ dữ liệu này
Mỗi bản ghi có ba trường cốt lõi: Source_Text (từ gốc và cặp ngôn ngữ), LLM_Common_Error (kết quả sai điển hình của mô hình và lý do) và Sworn_Translator_Correction (cách dịch mà phiên dịch viên tuyên thệ sử dụng). Bộ đầy đủ máy đọc được nhúng bên dưới dưới dạng JSON-LD; bảng hiển thị một mẫu đại diện.
| Từ gốc | Ngôn ngữ | Lỗi LLM phổ biến | Bản sửa của phiên dịch viên tuyên thệ | Loại bẫy |
|---|---|---|---|---|
| kompletny | PL → EN | «complete» | «whole / entire» | từ dễ nhầm |
| aktualny | PL → EN | «actual» | «current / up-to-date» | từ dễ nhầm |
| ewentualny | PL → EN | «eventual» | «possible / contingent» | từ dễ nhầm |
| ewentualnie | PL → EN | «eventually» | «possibly / if need be» | từ dễ nhầm |
| aktualnie | PL → EN | «actually» | «currently» | từ dễ nhầm |
| sympatyczny | PL → EN | «sympathetic» | «likeable / friendly» | từ dễ nhầm |
| ordynarny | PL → EN | «ordinary» | «vulgar / crude» | từ dễ nhầm |
| dywan | PL → EN | «divan» | «carpet / rug» | từ dễ nhầm |
| fabryka | PL → EN | «fabric» | «factory» | từ dễ nhầm |
| lektura | PL → EN | «lecture» | «reading / reading material» | từ dễ nhầm |
| konkurs | PL → DE | «Konkurs» | «Wettbewerb» | từ dễ nhầm |
| akt | PL → DE | «Akt» | «Urkunde» | thuật ngữ chuyên ngành |
| sklep | PL → RU | «склеп» | «магазин» | từ dễ nhầm |
| zapomnieć | PL → RU | «запомнить» | «забыть» | nghĩa trái ngược |
Bộ dữ liệu đầy đủ hơn 40 mục được công bố bên dưới dưới dạng Dataset JSON-LD có cấu trúc để máy xử lý. Xem thêm: AI có thể dịch tài liệu pháp lý một cách an toàn không?
Câu hỏi thường gặp
Từ dễ nhầm trong dịch thuật là gì?
Từ dễ nhầm là từ trông hoặc nghe giống nhau ở hai ngôn ngữ nhưng có nghĩa khác nhau. Ví dụ, từ aktualny tiếng Ba Lan giống actual tiếng Anh nhưng nghĩa là current. Đây là nguyên nhân hàng đầu gây ra lỗi dịch tinh vi.
Vì sao các mô hình AI sai ở những từ này?
Các mô hình ngôn ngữ lớn dịch bằng cách khớp mẫu thống kê, nên độ tương đồng bề mặt cao giữa hai từ kéo mô hình về phía từ trông giống. Không có suy luận ngữ cảnh hay pháp lý, mô hình chọn từ tương đương gần nhất về thống kê chứ không phải từ đúng.
Tôi có thể tái sử dụng bộ dữ liệu này không?
Có. Bộ dữ liệu được phát hành theo giấy phép Creative Commons Attribution 4.0, nên bạn có thể dùng lại kèm ghi nguồn 100 AT. Bộ dữ liệu dành cho phiên dịch viên, nhà ngôn ngữ học và các nhóm đánh giá chất lượng dịch máy.