Украинский

Украино-русский параллельный текстовый корпус

В Информационном центре ElVisti реализован алгоритм создания корпуса параллельных текстов, представленных на различных языках. Построен первый украино-русский параллельный корпус из веб-публикаций объемом около 30 тысяч документов.

Алгоритм базируется на использовании "опорных слов" в тестовых документах, а также средствах их автоматического перевода. Опорные слова в рамках данного алгоритма выделяются с использованием русского и украинского морфологических словарей, а также словарей переводов имен существительных для русского и украинского языков. Кроме того, для вычисления весов терминов в документах используются некоторые дополнительные эмпирико-статистические правила. Алгоритм был реализован в виде программного комплекса, интегрированного с системой контент-мониторинга InfoStream.

В результате был построен параллельный двуязычный корпус веб-публикаций, доступный для скачивания:

- украинский массив ~20 MB

- русский массив ~20 MB

Объем корпуса - 29 884 документов.

Количество источников:
- на украинском языке - 328;
- на русском языке - 574.

Информация представлена в кодировке KOI8-U, в заархивированном виде (gzip).

Использование этого корпуса в научных и учебных целях - свободное.

Подробности - в статье Д.Ландэ и В.Жигало

Препринт: arXiv:0807.0311, PDF