Язык запросов
Запросы состоят из поисковых слов и операторов. В качестве поисковых слов могут использоваться слова естественного языка или их правые усечения. По умолчанию, при отключенной морфологии, каждое слово воспринимается как усечение (слова менее 3 символов ищутся как точное совпадение). Для поиска по полному слову, а не усечению, необходимо дописать к нему специальный символ "]". Система не чувствительна к регистрам букв.
В системе используется следующий набор операторов:
- ~, - - оператор контекстного следования;
- @ - оператор контекстной близости;
- !, ^ - логическое И-НЕТ;
- &, + - логическое И;
- |, , - логическое ИЛИ;
Оператор контекстного следования (~) отбирает пары поисковых терминов, которые в тексте документа расположены друг за другом, причем учитывается порядок следования терминов.
Оператор контекстной близости (@) отбирает пары поисковых терминов, которые находятся рядом друг с другом, причем порядок следования не важен.
Различные уровни определяются с помощью круглых скобок.
Украинско-русский параллельный текстовый корпус
В Информационном центре ElVisti создан выровненный на уровне предложений украинско-русский параллельный текстовый корпус из веб-публикаций. Объем корпуса - более 2,6 млн. пар уникальных предложений.
Метод построения корпуса базируется на использовании "опорных слов" в тестовых документах, а также средствах их автоматического перевода. Опорные слова в рамках данного подхода выделяются с использованием русского и украинского морфологических словарей, а также словарей переводов имен существительных для русского и украинского языков. Кроме того, для вычисления весов терминов в документах используются некоторые дополнительные эмпирико-статистические правила. Для выравнивания параллельного корпуса на уровне предложений использовались преимущественно статистические методы.
Алгоритмы были реализованы в виде программного комплекса, который интегрирован с системой контент-мониторинга InfoStream, благодаря чему корпус постоянно пополняется.
Предполагается дальнейшее использование данного лингвистического ресурса для создания системы автоматического перевода новостных сообщений.
Для скачивания доступен заархивированный фрагмент параллельного корпуса размером в 100 тысяч пар уникальных предложений (в ZIP-архиве ~ 9 МБ).
Формат представления данных приближен к XML:
<item> <rus>предложение</rus> <ukr>речення</ukr> </item> ... 99 998 раз ;) <item> <rus>предложение</rus> <ukr>речення</ukr> </item>
Информация представлена в кодировке CP1251 (Windows).
Использование этого фрагмента корпуса в научных и учебных целях - свободное.
Подробности - в статье Д.Ландэ и В.Жигало
Препринт: arXiv:0807.0311, PDF