Язык запросов
Запросы состоят из поисковых слов и операторов. В качестве поисковых слов могут использоваться слова естественного языка или их правые усечения. По умолчанию, при отключенной морфологии, каждое слово воспринимается как усечение (слова менее 3 символов ищутся как точное совпадение). Система не чувствительна к регистрам букв.
В системе используется следующий набор операторов:
- ~, - - оператор контекстного следования;
- @ - оператор контекстной близости;
- !, ^ - логическое И-НЕТ;
- &, + - логическое И;
- |, , - логическое ИЛИ;
Оператор контекстного следования (~) отбирает пары поисковых терминов, которые в тексте документа расположены друг за другом, причем учитывается порядок следования терминов.
Оператор контекстной близости (@) отбирает пары поисковых терминов, которые находятся рядом друг с другом, причем порядок следования не важен.
Различные уровни определяются с помощью круглых скобок.
Украино-русский параллельный текстовый корпус
В Информационном центре ElVisti реализован алгоритм создания корпуса параллельных текстов, представленных на различных языках. Построен первый украино-русский параллельный корпус из веб-публикаций объемом около 30 тысяч документов.
Алгоритм базируется на использовании "опорных слов" в тестовых документах, а также средствах их автоматического перевода. Опорные слова в рамках данного алгоритма выделяются с использованием русского и украинского морфологических словарей, а также словарей переводов имен существительных для русского и украинского языков. Кроме того, для вычисления весов терминов в документах используются некоторые дополнительные эмпирико-статистические правила. Алгоритм был реализован в виде программного комплекса, интегрированного с системой контент-мониторинга InfoStream.
В результате был построен параллельный двуязычный корпус веб-публикаций, доступный для скачивания:
Объем корпуса - 29 884 документов.
Количество источников:
- на украинском языке - 328;
- на русском языке - 574.
Информация представлена в кодировке KOI8-U, в заархивированном виде (gzip).
Использование этого корпуса в научных и учебных целях - свободное.
Подробности - в статье Д.Ландэ и В.Жигало
Препринт: arXiv:0807.0311, PDF