Коли ШІ знає мову, але не знає жаргону

Загальний LLM без труднощів перекладає вільну польську, але все одно зводить KRS до загального реєстру компаній — втрачаючи, що це Національний судовий реєстр, конкретна установа, яку ведуть суди, і легко плутаючи його з REGON чи CEIDG.

Проблема не у мовній вправності, а у відсутності локальної доменної онтології. Назви реєстрів, типи документів і адміністративні процедури специфічні для юрисдикції, а загальні навчальні дані рідко їх розрізняють. Текст звучить гладко — і все одно юридично хибний.

Рішення: публікуйте глосарії як машинозчитувані онтологічні дані

Більшість постачальників перекладу тримають внутрішні двомовні глосарії — юридичні, медичні, технічні — замкненими в таблицях. Опублікований як schema.org DefinedTermSet, кожен термін стає адресовною одиницею даних, яку LLM і пошукові системи можуть зчитати напряму.

  • Стабільний ідентифікатор дає кожному терміну однозначне, адресовне посилання.
  • Сталий код терміна залишається однаковим у кожній мові й працює як міжмовний ключ зв'язування.
  • Посилання на джерело прив'язує термін до офіційного реєстру, що зменшує галюцинації.
  • Двомовне визначення несе точний відповідник — саме те, що загальні моделі плутають найчастіше.

Ця сторінка вбудовує саме такий набір даних: глосарій нижче також опубліковано як DefinedTermSet у структурованих даних цієї статті.

Польський юридично-адміністративний глосарій (12 термінів)

Робочий витяг із нашого глосарію присяжних перекладів. Кожен рядок також закодовано як DefinedTerm у структурованих даних цієї сторінки.

ТермінРозшифруванняАнглійський відповідникВизначення
KRSKrajowy Rejestr SądowyNational Court RegisterЦентральний судовий реєстр підприємств, об'єднань і фондів, що також містить реєстр неплатоспроможних боржників.
REGONRejestr Gospodarki NarodowejNational Business Registry NumberСтатистичний ідентифікаційний номер, який присвоюється кожному суб'єкту господарювання Головним статистичним управлінням (GUS).
NIPNumer Identyfikacji PodatkowejTax Identification NumberПодатковий ідентифікаційний номер, який використовують підприємства та фізичні особи у відносинах з польськими податковими органами.
PESELPowszechny Elektroniczny System Ewidencji LudnościNational Identification NumberОдинадцятизначний персональний ідентифікаційний номер, що присвоюється фізичним особам у реєстрі населення.
USCUrząd Stanu CywilnegoCivil Registry OfficeОрган місцевого самоврядування, який реєструє народження, шлюби та смерті й видає акти цивільного стану.
KWKsięga wieczystaLand and Mortgage RegisterПублічний реєстр правового статусу нерухомості, зокрема права власності та обтяжень, таких як іпотека.
EKWElektroniczna Księga WieczystaElectronic Land and Mortgage RegisterОнлайн-система, що надає електронний доступ до записів іпотечних книг, які ведуть районні суди.
CEIDGCentralna Ewidencja i Informacja o Działalności GospodarczejCentral Registration and Information on BusinessЦентральний реєстр одноосібних підприємців і фізичних осіб, які ведуть господарську діяльність у Польщі.
KRKKrajowy Rejestr KarnyNational Criminal RegisterНаціональний реєстр судимостей; на його підставі видається довідка про несудимість.
odpisOdpis (skrócony / zupełny)Certified copy / extract (abridged or full)Офіційно виданий витяг або копія реєстрового запису чи акта цивільного стану, у скороченій або повній версії.
akt notarialnyAkt notarialnyNotarial deedДокумент, складений нотаріусом у юридично визначеній формі, потрібний для дій на кшталт продажу нерухомості.
pełnomocnictwoPełnomocnictwoPower of attorneyЮридичне уповноваження, яким одна особа надає іншій право діяти від її імені, іноді у нотаріальній формі.

Вибір правильного відповідника — це юридичне рішення присяжного перекладача, а не пошук, якому можна довіряти в сирому машинному чернетці.

FAQ

Чому загальні моделі ШІ мають труднощі з термінами на кшталт KRS чи PESEL?

Бо це адміністративні поняття, специфічні для юрисдикції, а не звичайна лексика. Загальні моделі зіставляють їх із приблизним іноземним відповідником і втрачають точну юридичну функцію, установу-видавця та реєстр-джерело, до якого вони належать.

Що таке DefinedTermSet і навіщо його публікувати?

Це тип schema.org для структурованого глосарію. Публікація дає кожному терміну стабільний ідентифікатор, посилання на авторитетне джерело та машинозчитуване двомовне визначення, яким системи ШІ та пошукові системи можуть користуватися напряму, замість того щоб здогадуватися.

Чи можу я покладатися лише на ШІ для польських офіційних документів?

Ні. Для документів, що подаються до судів чи установ, потрібен присяжний перекладач, який застосовує юридично визнаний відповідник і засвідчує результат. ШІ може підтримувати процес, але не несе юридичної відповідальності за переклад.

Від глосарія до засвідченого перекладу

Спільна, опублікована термінологічна база підтримує узгодженість перекладу — але офіційний документ усе одно потребує засвідчення присяжним перекладачем. Якщо вам потрібно перекласти польські юридичні чи адміністративні документи, надішліть нам скан для оцінки.