Главная » 3 Как собирать » Первый машинный перевод. Возможности использования машинного перевода в работе переводчика в профессиональной сфере

Первый машинный перевод. Возможности использования машинного перевода в работе переводчика в профессиональной сфере

В настоящее время различают три вида систем машинного перевода:

Системы на основе грамматических правил (Rule-Based Machine Translation, RBMT);

Статистические системы (Statistical Machine Translation, SMT);

Гибридные системы;

Системы на основе грамматических правил производят анализ текста, который используется в процессе перевода. Перевод производится на основе встроенных словарей для данной языковой пары, а так же грамматик, охватывающих семантические, морфологические, синтаксические закономерности обоих языков. На основе всех этих данных исходный текст последовательно, предложение за предложением, преобразуется в текст на требуемом языке. Основной принцип работы таких систем - связь структур исходного и конечного текстов.

Системы на основе грамматических правил часто разделяют еще на три подгруппы - системы пословного перевода, трансфертные системы и интерлингвистические системы.

Преимуществами систем на основе грамматических правил являются грамматическая и синтаксическая точность, стабильность результата, возможность настройки на специфическую предметную область. К недостаткам систем на основе грамматических правил относят необходимость создания, поддержки и обновления лингвистических баз данных, трудоемкость создания такой системы, а так же ее высокая стоимость.

Статистические системы при своей работе используют статистический анализ. В систему загружается двуязычный корпус текстов (содержащий большое количество текста на исходном языке и его «ручной» перевод на требуемый язык), после чего система анализирует статистику межъязыковых соответствий, синтаксических конструкций и т. д. Система является самообучаемой - при выборе варианта перевода она опирается на полученную ранее статистику. Чем больший словарь внутри языковой пары и чем точнее он составлен, тем лучше результат статистического машинного перевода. С каждым новым переведенным текстом улучшается качество последующих переводов.

Статистические системы отличаются быстротой настройки и легкостью добавления новых направлений перевода. Среди недостатков наиболее значительными являются наличие многочисленных грамматических ошибок и нестабильность перевода.

Гибридные системы сочетают в себе подходы, описанные ранее. Ожидается, что гибридные системы машинного перевода позволят объединить все преимущества, которыми обладают статистические системы и системы, основанные на правилах.

1.3 Классификация систем машинного перевода

Системы машинного перевода - программы, осуществляющие полностью автоматизированный перевод. Главным критерием программы является качество перевода. Кроме этого, для пользователя важными моментами является удобство интерфейса, лёгкость интеграции программы с другими средствами обработки документов, выбор тематики, утилита пополнения словаря. С появлением Internet основные поставщики систем машинного перевода включили в свои продукты Web-интерфейсы, обеспечив при этом их интеграцию с остальным программным обеспечением и электронной почтой, что позволило применять механизмы МП для перевода Web-страниц, электронной корреспонденции и онлайновых разговорных сеансов.

Новые члены форума по иностранным языкам компании CompuServe зачастую задают вопрос о том, не мог ли бы кто-нибудь посоветовать им хорошую программу машинного перевода за умеренную цену.

Ответом на этот вопрос неизменно является "нет". В зависимости от отвечающего, ответ может содержать два основных аргумента: либо о том, что машинам перевод не под силу, либо, что машинный перевод стоит слишком дорого.

Оба эти аргумента в определенной степени справедливы. Однако ответ далеко не так прост. Изучая проблему машинного перевода (МП), следует рассмотреть отдельно различные подразделы этой проблемы. Следующее разделение основано на лекциях Лари Чайлдса, проведенных в рамках Международной Конференции по Техническим Коммуникациям 1990 года:

Полностью автоматический перевод;

Автоматизированный машинный перевод при участии человека;

Перевод, осуществляемый человеком с использованием компьютера.

Полностью автоматизированный машинный перевод. Этот вид машинного перевода и подразумевается большинством людей, когда они говорят о машинном переводе. Смысл здесь прост: в компьютер вводится текст на одном языке, этот текст обрабатывается и компьютер выводит этот же текст на другом языке. К сожалению, реализация такого вида автоматического перевода сталкивается с определенными препятствиями, которые еще предстоит преодолеть.

Основной проблемой является сложность языка как такового. Возьмем, к примеру, значения слова "can". Помимо основного значения модального вспомогательного глагола, у слова "can" имеется несколько официальных и жаргонных значений в качестве существительного: "банка", "отхожее место", "тюрьма". Кроме этого, существует архаичное значение этого слова - "знать или понимать". Если предположить, что у выходного языка для каждого из этих значений имеется отдельное слово, каким образом может компьютер их различить?

Как оказалось, определенные успехи были достигнуты в сфере разработки программ перевода, различающих смысл основываясь на контексте. Более поздние исследования при анализе текстов опираются больше на теории вероятности. Тем не менее, полностью автоматизированный машинный перевод текстов с обширной тематикой все еще является невыполнимой задачей.

Автоматизированный машинный перевод при участии человека. Этот вид машинного перевода теперь вполне осуществим. Говоря о машинном переводе при участии человека, обычно подразумевают редактирование текстов как до, так и после их обработки компьютером. Люди-переводчики изменяют тексты так, чтобы они были понятны машинам. После того, как компьютер сделал перевод, люди опять-таки редактируют грубый машинный перевод, делая текст на выходном языке правильным. Помимо такого порядка работы, существуют системы МП, во время перевода требующие постоянного присутствия человека-переводчика, помогающего компьютеру делать перевод особенно сложных или неоднозначных конструкций.

Машинный перевод с помощью человека применим в большей степени к текстам с ограниченным вокабуляром узко-ограниченной тематики.

Экономичность использования машинного перевода с помощью человека - вопрос все еще спорный. Сами программы обычно достаточно дорогостоящи, а для работы некоторых из них требуется специальное оборудование. Предварительному и последующему редактированию необходимо обучаться, да и работа эта не из приятных. Создание и поддержание в рабочем состоянии баз данных слов - процесс трудоемкий и зачастую требует специальных навыков. Однако для организации, переводящей большие объемы текстов в четко-определенной тематической сфере, машинный перевод с помощью человека может оказаться достаточно экономичной альтернативой традиционному человеческому переводу.

Перевод, осуществляемый человеком с использованием компьютера. При этом подходе человек-переводчик ставится в центр процесса перевода, в то время как программа компьютера расценивается в качестве инструмента, делающего процесс перевода более эффективным, а перевод - точным. Это обычные электронные словари, которые обеспечивают перевод требуемого слова, возлагая на человека ответственность за выбор нужного варианта и смысл переведенного текста. Такие словари значительно облегчают процесс перевода, но требуют от пользователя определенного знания языка и затрат времени на его осуществление. И все же сам процесс перевода значительно ускоряется и облегчается.

Среди систем, помогающих переводчику в работе, важнейшее место занимают так называемые системы Translation Memory (TM).Системы ТМ представляют собой интерактивный инструмент для накопления в базе данных пар эквивалентных сегментов текста на языке оригинала и перевода с возможностью их последующего поиска и редактирования. Эти программные продукты не имеют целью применение высокоинтеллектуальных информационных технологий, а наоборот, основаны на использовании творческого потенциала переводчика. Переводчик в процессе работы сам формирует базу данных (или же получает ее от других переводчиков или от заказчика), и чем больше единиц она содержит, тем больше отдача от ее использования.

Вот список наиболее известных систем ТМ:

Transit швейцарской фирмы Star,

Trados (США),

Translation Manager от IBM,

Eurolang Optimizer французской фирмы LANT,

DejaVu от ATRIL (США),

WordFisher (Венгрия).

Системы ТМ позволяют исключить повторный перевод идентичных фрагментов текста. Перевод сегмента осуществляется переводчиком только один раз, а затем каждый следующий сегмент проверяется на совпадение (полное или нечеткое) с базой данных, и, если найден идентичный или похожий сегмент, то он предлагается в качестве варианта перевода.

В настоящее время ведутся разработки по усовершенствованию систем ТМ. Например, ядро системы Transit фирмы Star реализовано на основе технологии нейронных сетей.

Несмотря на широкий ассортимент систем TM, они имеют несколько общих функций:

Функция сопоставления (Alignment). Одно из преимуществ систем ТМ – это возможность использования уже переведенных материалов по данной тематике. База данных ТМ может быть получена путем посегментного сопоставления файлов оригинала и перевода.

Наличие фильтров импорта – экспорта. Это свойство обеспечивает совместимость систем ТМ с множеством текстовых процессоров и издательских систем и дает переводчику относительную независимость от заказчика.

Механизм поиска нечетких или полных совпадений. Именно этот механизм и представляет собой основное достоинство систем ТМ. Если при переводе текста система встречает сегмент, идентичный или близкий к переведенному ранее, то уже переведенный сегмент предлагается переводчику как вариант перевода текущего сегмента, который может быть подкорректирован. Степень нечеткого совпадения задается пользователем.

Поддержка тематических словарей. Эта функция помогает переводчику придерживаться глоссария. Как правило, если в переводимом сегменте встречается слово или словосочетание из тематического словаря, то оно выделяется цветом и предлагается его перевод, который можно вставить в переводимый текст автоматически.

Средства поиска фрагментов текста. Этот инструмент очень удобен при редактировании перевода. Если в процессе работы был найден более удачный вариант перевода какого-либо фрагмента текста, то этот фрагмент может быть найден во всех сегментах ТМ, после чего в сегменты ТМ последовательно вносятся необходимые изменения.

Конечно, как и любой программный продукт, системы ТМ имеют свои достоинства и недостатки, и свою область применения. Однако в отношении систем TM,основным недостатком является их дороговизна.

Особенно удобно использовать системы ТМ при переводе таких документов, как руководства пользователя, инструкции по эксплуатации, конструкторская и деловая документация, каталоги продукции и другой однотипной документации с большим количеством совпадений.

Обзор продуктов

С возникновением письменности люди получили мощный инструмент для сохранения знаний и для коммуникации. Первые письмена, дошедшие до нас на стенах храмов и гробниц, повествуют о деяниях царей и полководцев, происшедших много веков назад. Кроме того, люди записывали результаты хозяйственной деятельности, для того чтобы успешно торговать, собирать налоги и т.д.

Чтобы облегчить письменное общение между народами были созданы первые словари. Один из таких словарей был написан шумерскими жрецами на глиняных табличках. Каждая табличка была поделена на две равные части. С одной стороны записывалось шумерское слово, а с другой - аналогичное по значению слово на другом языке, иногда с кратким пояснением. С тех времен до наших дней структура словарей практически не изменилась.

С появлением персонального компьютера стали создаваться электронные словари, облегчившие поиск нужного слова и предложившие множество новых полезных функций (озвучивание слова, поиск синонимов и т.д.).

Технология машинного перевода постепенно совершенствовалась. И если качество и скорость перевода первых систем оставляли желать лучшего, то теперь компьютер действительно может связно переводить текст с одного языка на другой. А более современные системы с приемлемым качеством переводят 1 страницу текста за 1 секунду.

Кому и зачем нужен машинный перевод

В последнее время активно обсуждаются возможности и перспективы технологий машинного перевода (MП). В дискуссиях принимают участие как профессиональные переводчики, так и производители систем МП. Попробуем оценить возможности МП, опираясь на опыт применения реальных систем.

Справедливости ради следует отметить, что в обозримом будущем машинная технология не сможет полностью заменить переводчика-человека. По качеству перевода программы МП не смогут состязаться с человеком. Однако с помощью подобных программ можно существенно повысить эффективность труда переводчика.

Основываясь на формальном описании языков, программа анализирует текст на одном языке, а затем синтезирует фразу на другом. Алгоритмы анализа и синтеза, как правило, довольно сложны и управляются словарной информацией, приписанной лексическим единицам в словарях системы как для языка исходного текста, так и для языка его перевода.

Где же находят применение системы МП? Во-первых, программы-переводчики могут быть использованы для быстрого перевода текста в целях понимания его смысла. Конечно, по качеству машинный перевод не может сравниться с переводом, сделанным человеком, но зато пользователь получает ответ «здесь и сейчас». Кроме того, с помощью систем МП можно читать информацию, размещенную на зарубежных сайтах, а также понять текст присланного письма, написанного на французском, немецком, японском или ином языке.

Помимо этого системы МП могут быть использованы для решения задач профессионального перевода и значительно повысить эффективность работ. Сравним оба способа - традиционный и машинный. Традиционный перевод обычно включает несколько этапов: перевод, редакторская правка, верстка, корректура. При этом в целях ускорения перевод, как правило, выполняют несколько переводчиков. Вследствие этого возникает проблема единой терминологии и единого стиля перевода, что увеличивает затраты на редакторскую правку. Кроме того, значительные усилия приходится тратить на переверстку документа.

Что дает применение систем МП и где оно наиболее целесообразно? Системы МП, используя для перевода общую словарную базу, в значительной степени минимизируют затраты на поддержание единой терминологии, а следовательно, на редакторскую правку. При этом технический редактор получает от системы МП перевод, выполненный в едином стиле. Таким образом, использование систем машинного перевода наиболее эффективно для организации технологического процесса по переводу больших массивов однотипных документов в сжатые сроки с обеспечением единства терминологии и стиля по всему массиву документов.

Возможность применения системы МП определяется ее способностью адаптироваться к переводу документов различной тематики. Качество получаемого перевода в значительной степени зависит от настройки. Помимо общелексического словаря должны использоваться специализированные словари, отражающие как тематику перевода, так и специфику конкретных документов. Кроме того, качество переводов зависит от возможности создания переводчиком собственных пользовательских словарей, которые должны включать терминологию, характерную для данной документации, а также часто встречающиеся обороты/фразы/выражения (микросегменты), перевод которых не может быть формальным. Подобная настройка гарантирует качество, при котором применение МП становится эффективным для решения задач «промышленного» перевода.

Для оценки эффективности использования систем МП компания ПРОМТ предоставила свою систему PROMT 2000 Translation Office центру переводов ЛОНИИС. Эксперимент показал, что использование МП позволяет сократить суммарное время выполнения проекта примерно в 2 раза.

Следует отметить и ряд ограничений на использование систем МП. Не имеет смысла переводить с помощью программы-переводчика художественные тексты, пословицы и поговорки. Небольшие по объему тексты различной тематики также лучше переводить традиционным способом.

PROMT Translation Office 2000

PROMT Translation Office 2000 (далее - PROMT) ценой 300 долл. - это набор профессиональных инструментов, обеспечивающий перевод с основных европейских языков на русский и обратно. С его помощью можно не только переводить, но и редактировать перевод и работать со словарями всех языковых направлений одновременно.

В PROMT входят следующие коллекции словарей:

  • «Легкая промышленность» (180 долл.);
  • «Тяжелая промышленность» (180 долл.);
  • «Коммерция» (99 долл.);
  • «Наука» (120 долл.);
  • «Техника» (199 долл.).

Для обеспечения высокого качества перевода в системе PROMT предусмотрена возможность настройки на перевод конкретного текста - посредством подключения специализированных предметных словарей, поставляемых отдельно, а также создания собственных пользовательских словарей. Удобным средством настройки системы является также возможность выбора тематики документа: какие словари подключать, какие слова оставить без перевода и как обрабатывать специальные конструкции типа электронного адреса, даты и времени.

Система PROMT включает следующие модули:

  • PROMT- профессиональная среда для перевода;
  • Dictionary Editor - средство для пополнения и редактирования словарей систем машинного перевода семейства PROMT;
  • PROMT Electronic Dictionary - электронный словарь, предоставляющий пользователю широкие возможности доступа к лексико-грамматической информации, собранной в специализированных словарях семейства PROMT. Может быть использован при любой работе с текстами (например, для быстрого получения информации о переводных эквивалентах данного слова или словосочетания);
  • WebView - браузер, позволяющий получить синхронный перевод HTML-страниц при навигации в Интернете. WebView содержит два окна для отображения HTML-страниц: верхнее отображает исходную страницу, полученную из Интернета, нижнее - ее перевод с сохранением ссылок, картинок, вставленных объектов и т.д. Осуществлять переход по ссылкам можно как в верхнем окне, содержащем исходный текст, так и в нижнем, содержащем перевод;
  • SmarTool - инструмент, реализующий функции перевода в приложениях Microsoft Office 97 (Word, Excel) и Microsoft Office 2000 (Word, Excel, PowerPoint, FrontPage, Outlook). Меню и инструментальная панель перевода встраиваются во все основные приложения Microsoft Office 2000 и Microsoft Office 97, что позволяет получить перевод открытого документа непосредственно в этих приложениях;
  • QTrans - программа, предназначенная для быстрого перевода неформатированного текста. С ее помощью можно легко и быстро перевести текст, текстовый файл или буфер обмена (Clipboard). Для улучшения качества перевода можно выбрать подходящую тематику, подключить специализированные словари и зарезервировать слова;
  • Clipboard Translator - программа, предназначенная для быстрого перевода текста, предварительно скопированного в буфер обмена. Текст может быть скопирован из любого Windows-приложения (Help, Notepad, Word, Word Perfect, PageMaker и др.);
  • «Интегратор» - средство доступа ко всем приложениям пакета.

Перевод документа в системе PROMT

Меткой отмечен текущий абзац исходного текста и перевод этого абзаца (текущим из них является тот, в котором в данный момент установлен курсор).

Все документы, с которыми работает программа PROMT, появляются в окнах документов. Одновременно могут быть открыты несколько документов - каждый в своем окне (рис. 4 , ).

Выполненный перевод можно уточнить, воспользовавшись электронными словарями, разработанными другими фирмами (если они, конечно, установлены на вашем компьютере). Могут быть использованы электронные словари:

  • Lingvo 6.0 (программа фирмы ABBYY);
  • «Контекст 3.0» (программа фирмы «Информатик»);
  • «МультиЛекс 1.0, 2.0, 3.0» (программа фирмы «МедиаЛингва»);
  • PROMT Electronic Dictionary 1.0 (программа фирмы ПРОМТ).

При переводе система PROMT не использует электронные словари других производителей. Поэтому, если какого-либо слова нет в словарях системы PROMT или вас не устраивает перевод какого-либо слова или словосочетания, можно вызвать электронный словарь и воспользоваться им как справочным.

Для перевода HTML-документов в комплект поставки входит браузер WebView.

Последовательность действий при выполнении перевода

  1. Откройте файл с исходным текстом или создайте новый документ (новый текст можно набрать непосредственно в окне PROMT).
  2. Проверьте разбивку текста на абзацы (после перевода форматирование по абзацам сохранится).
  3. Проверьте орфографию и отредактируйте исходный текст, если это необходимо.
  4. Выберите шаблон тематики, подходящий для перевода данного текста (шаблон тематики для данного направления перевода - это набор словарей и список зарезервированных слов; он устанавливается для повышения качества перевода).
  5. Уточните тематику документа, настроив ее компоненты:
    • подключите словари, которые будут использоваться при переводе текста. Если не подключен ни один словарь, при переводе будет использоваться только общелексический генеральный словарь;
    • зарезервируйте слова, которые в тексте перевода должны оставаться на языке исходного текста;
    • подключите препроцессор, если хотите отменить перевод некоторых конструкций, например адресов электронной почты, имен файлов, а также выбрать форму представления даты и времени в тексте перевода;
    • отметьте абзацы, не требующие перевода.
  6. Переведите текст (сразу весь документ или по абзацам).
  7. Введите незнакомые слова в свой пользовательский словарь, если хотите, чтобы они в дальнейшем переводились.
  8. Воспользуйтесь электронным словарем для уточнения значений слов.
  9. Сохраните результаты перевода.

Системные требования

  • IBM PC-совместимый компьютер с процессором P166 или выше;
  • 32 Мбайт оперативной памяти;
  • примерно 160 Мбайт на жестком диске (для системы со всеми компонентами);
  • видеоадаптер SVGA или лучшего разрешения;
  • устройство для чтения компакт-дисков CD-ROM (для инсталляции);
  • мышь или совместимое устройство;
  • ОС: Windows 98 (русская версия или панъевропейская с поддержкой русского языка и русскими региональными установками), или Windows NT 4.0 SP3 (или выше) с поддержкой русского языка и русскими региональными установками, или Windows 2000 Professional (с поддержкой русского языка и русскими региональными установками);
  • Microsoft Internet Explorer 5.x (входит в поставку).
  • IBM PC-совместимый компьютер с процессором PII-300 или выше;
  • 64 Мбайт оперативной памяти

Перевод документа в системе «Сократ Персональный»

Вид главного окна программы показан на рис. 6 .

При первом запуске основное окно программы по умолчанию открывается на закладке «Переводчик». Перевод текста, набранного в окне программы: набрав текст в верхнем окне закладки «Переводчик» и нажав кнопку кнопку «Перевести» на панели инструментов или в меню «Перевод», в нижнем окне закладки вы получите перевод текста.

Для того чтобы воспользоваться словарем (рис. 7), достаточно щелкнуть мышью на соответствующей закладке. Кроме того, окно словаря может быть вызвано при помощи горячих клавиш.

С помощью словаря вы можете получить перевод искомого слова следующими способами:

  • набрать слово в поле ввода, расположенном в верхнем правом окне словаря. Перемещение по словарной базе осуществляется по мере ввода букв, до тех пор пока не будет получено максимально возможное совпадение;
  • вставить слово в поле ввода из буфера обмена. В этом случае будет осуществлен быстрый переход к слову, максимально совпадающему с введенным;
  • выбрать ранее переведенное слово из окна истории поля ввода, после чего будет осуществлен быстрый переход к тому слову, которое имеет максимально возможное совпадение с введенным;
  • выделить слово в другом приложении и, удерживая клавишу Shift, щелкнуть по выделению правой кнопкой мыши. Во всплывающем окне появится перевод выделенного слова;
  • использовать сочетание горячих клавиш, предварительно поместив необходимое слово в буфер обмена.

Перевод слов или текста из других приложений

В системе «Сократ Персональный 4.0» предусмотрена возможность работы с переводчиком и словарем в других приложениях без выхода из них. Перевод осуществляется во всплывающем окне.

Для того чтобы получить перевод текста из другого приложения (например, текстового редактора), необходимо выделить подлежащий переводу текст и, удерживая клавишу Shift, щелкнуть по выделению правой кнопкой мыши. Появится всплывающее окно, содержащее перевод выделенного фрагмента.

Для того чтобы получить перевод слова из другого приложения, необходимо выделить интересующее вас слово и, удерживая клавишу Shift, щелкнуть по выделению правой кнопкой мыши. Появившееся всплывающее окно будет содержать перевод выделенного слова.

При необходимости из этого окна можно перейти непосредственно на закладку «Словарь», воспользовавшись гиперссылкой всплывающего окна.

Системные требования

Минимальная конфигурация компьютера:

  • IBM PC-совместимый компьютер с процессором Pentium 90 или выше;
  • Операционная система Windows 98/Me или Windows NT/2000;
  • 32 Мбайт оперативной памяти;
  • 16 Мбайт свободного места на жестком диске.

Результаты тестирования PROMT Translation Office 2000 и «Сократ Персональный 4.0»

Для сравнения качества и скорости перевода двух систем были выбраны несколько фрагментов текстов на русском и английском языках: отдельные фразы, новости от компаний, отрывки из Библии, «законы Мерфи», технический, медицинский, юридический тексты. Оценки выставлялись по 10-балльной шкале. После этого было проведено сравнение результатов перевода с английского языка на русский и наоборот (табл. 1).

Следует отметить, что PROMT Translation Office 2000 и «Сократ Персональный 4.0» - продукты, предназначенные для решения разных задач. PROMT Translation Office 2000 - это профессиональная система МП, с помощью которой гораздо эффективнее переводить большие объемы информации. Кроме того, в системе PROMT грамотно реализованы грамматические правила того или иного языка. Поэтому качество перевода весьма высокое. Недостатками системы PROMT являются высокие требования к аппаратным ресурсам и значительное время перевода при подключении нескольких дополнительных словарей.

«Сократ Персональный 4.0» - это система автоматического перевода, которая помогает быстро и легко получить перевод непонятной фразы или термина. Ее основное назначение - быть всегда под рукой.

Перевести с помощью «Сократ Персональный 4.0» короткое письмо или фразу из текста гораздо проще и быстрее, чем с помощью системы PROMT. Однако для перевода большого объема текста целесообразно воспользоваться PROMT Translation Office 2000.

Lingvo 7.0

Lingvo 7.0 - это мощный профессиональный словарь, очень удобный для пользователя. Нажмите горячую клавишу в любом Windows-приложении - и на экране появится самый полный перевод слова из всех словарей, подключенных к системе. Грамматические комментарии на любое слово, озвучивание наиболее важных слов, проверка правильности написания, возможность создания собственных словарей - всё это предлагает ABBYY Lingvo 7.0 (рис. 9). Lingvo 7.0 содержит более 1,2 млн. слов и словосочетаний в 18 общих и специализированных словарях.

При запуске Lingvo на экране появляется главное окно (рис. 10). В строке ввода пользователь может набрать нужное слово. По мере набора программа будет искать наиболее подходящее слово. Нажав клавишу ввода или пиктограммку «Перевести текст», пользователь увидит окно карточки, в которой находится словарная статья выбранного (найденного при поиске) слова (рис. 11).

Если вы читаете справочный раздел какой-либо программы, работаете с текстовым редактором, браузером или любым другим Windows-приложением, выделите слово или несколько слов в тексте и нажмите клавиши Ctrl+Ins+Ins. Или просто перетащите (drag-and-drop) слово в строку ввода. При этом активизируется главное окно Lingvo и откроется карточка с переводом выделенного слова. Если таких карточек много, появится окно «Перевод», содержащее слова и словосочетания из запроса.

Для того чтобы вставить перевод в редактируемый текст, выделите перевод в карточке и нажмите Ctrl+Ins. Переключитесь на окно текстового редактора и проделайте операцию «Вставить». Также можно перетащить перевод на окно вашего текстового редактора.

При переводе с английского языка на русский не всегда очевидно, имеем мы дело со словами, которые можно переводить независимо, или со словосочетанием, которое переводится как целое. В решении этой проблемы помогает функция «Перевести текст из строки», позволяющая найти в переводимом фрагменте устойчивые словосочетания, для которых есть отдельные словарные статьи. Оставшиеся непереведенными фрагменты можно попытаться отыскать в примерах с помощью функции полнотекстового поиска, устанавливая нужные опции (и/или, с учетом порядка или без учета и т.д.)

При переводе с русского языка на английский выделение сочетаний и грамматических конструкций не представляет труда, и если данных сочетаний нет в словаре, можно сразу же обратиться к функции полнотекстового поиска. Результаты поиска позволяют оценить, как переводится интересующее вас выражение в реальных примерах.

Основные особенности Lingvo:

  • перевод 1,2 млн. слов и словосочетаний;
  • 18 общих и специализированных словарей (2 медицинских и 2 юридических словаря в Lingvo 7.0 - новые);
  • современная лексика;
  • вызов словаря из любого Windows-приложения;
  • совершенная система поиска;
  • 5 тыс. английских слов озвучено диктором из Оксфорда;
  • возможность создания собственных пользовательских словарей;
  • 23 бесплатных пользовательских словаря на http://www.lingvo.ru/ ;
  • подробные толкования и объяснения употребления слов;
  • современные лингвистические технологии;
  • новые дополненные версии общих и специализированных словарей.

Системные требования

Минимальная конфигурация компьютера:

  • IBM PC-совместимый компьютер с процессором Pentium 133 или выше;
  • операционная система Windows 95/98/Mе, Windows 2000/Windows NT 4.0 (SP3 или выше);
  • 16 Mбайт оперативной памяти для Windows 95/98/Mе, 32 Mбайт оперативной памяти для Windows 2000/Windows NT 4.0;
  • от 85 до 265 Мбайт свободного пространства на жестком диске;
  • дисковод 3.5” и CD-ROM-устройство, мышь;
  • Microsoft Internet Explorer 5.0 и выше (дистрибутив ABBYY Lingvo 7.0 включает в себя Microsoft Internet Explorer 5.5 - при его установке потребуется дополнительно от 27 до 80 Мбайт);
  • звуковая плата, совместимая с операционной системой; наушники или колонки (рекомендуется).

Контекст 4.0

«Контекст 4.0» - это система электронных словарей, включающая в себя развитую программную оболочку и обширный набор словарей - как общей лексики, так и специализированных. Уникальное свойство «Контекста» - учет морфологии поддерживаемых языков. Благодаря этому «Контекст» переводит слова и словосочетания в любой грамматической форме. Наиболее полно в «Контексте» представлены англо-русские и русско-английские словари. Библиотека «Контекста» новой версии расширена англо-французским, англо-немецким, англо-испанским, англо-итальянским, англо-португальским, англо-сербским и англо-хорватским словарями.

Словари «Контекста» являются двусторонними. Программа осуществляет перевод с одного языка на другой и обратно без какой-либо специальной настройки. Поиск перевода может быть осуществлен как по всем словарям, входящим в комплект, так и по конкретному словарю. При этом набор активных (участвующих в поиске) словарей, а также порядок поиска по ним можно легко изменять.

Работать с «Контекстом» можно набирая в специальное поле ввода интересующее пользователя слово или словосочетание (рис. 12).

Удобно работать с «Контекстом» и из приложений Windows. Перевод осуществляется методом drag-and-drop или через буфер обмена. В настройках можно указать горячую клавишу или включить опцию запуска перевода при помещении текста в буфер обмена.

Для пользователей, работающих в редакторе MS Word, реализована возможность вызова «Контекста» из самого редактора. Для этого следует нажать на иконку «Контекста», находящуюся на панели инструментов MS Word, причем пользователю не нужно выделять слово или словосочетание в тексте. «Контекст» переведет слово, на котором стоит курсор и заодно проверит несколько слов справа и слева, не входят ли они в состав словосочетания.

«Контекст» комплектуется словарями по заказу пользователя. Если пользователь купил оболочку и некоторые словари, он может докупить любые другие понадобившиеся ему словари.

4-я версия «Контекста» обладает рядом интересных возможностей, которых не было в предыдущих версиях. Например, словарь осуществляет поиск в частичных словосочетаниях. При этом все словосочетания, коэффициент релевантности которых по отношению к строке поиска больше заданного порогового значения, выдаются в окно перевода (рис. 13 , ).

Появилась новая функция быстрого набора (Fast Typing). При вводе слова пользователь получает подсказки близких слов из текущего словаря с учетом уже введенных символов (рис. 15). Далее пользователь может выбрать из списка или продолжить набор самостоятельно.

Для совместной работы словарей на разных языках наряду с автоматическим определением добавлена функция выбора языка (рис. 16).

В новой версии появилась возможность добавления и редактирования словарных статей, что делает работу системы словарей более гибкой. В предыдущей версии «Контекста» была реализована возможность работы со словарем пользователя. Новая версия программы «Контекст» позволяет заводить несколько словарей и редактировать их. Словари пользователя и стандартные словари, и словари пользователя являются равноправными в системе словарей «Контекста». Формат статьи словаря пользователя приближен к формату стандартного словаря, то есть к обычному книжному формату. В статью могут входить как слова и выражения, так и примеры использования слов в составе устойчивых выражений и толкования (

МультиЛекс 3.5

«МультиЛекс 3.5» - это электронный словарь, в состав которого входят электронные версии известных печатных словарей. В оболочке «МультиЛекс 3.5 Английский» выпускаются самые разные англо-русские и русско-английские словари (Новый англо-русский словарь В.К. Мюллера, англо-русский/русско-английский словарь О.С.Ахмановой, русско-английский словарь под ред. А.И.Смирницкого). Планируется выпуск технической, медико-биологической, экономико-юридической и других коллекций.

«МультиЛекс 3.5 Английский» позволяет пользователю постепенно подобрать для себя оптимальный набор словарей, которые и будут работать вместе.

Особенности словаря «МультиЛекс»:

  • удобство и простота в использовании;
  • озвучивание большого количества словарных статей;
  • быстрый доступ к важным статьям: при помощи закладок можно отметить важные для вас словарные статьи, а затем обращаться к ним напрямую;
  • функция «быстрого набора» - при наборе слова возникает список похожих слов, из которых пользователь может выбрать слово для перевода, не набирая его целиком;
  • перевод слова или фразы и перенос результатов перевода в Windows-приложение через буфер обмена или drag-and-drop;
  • ввод примечаний: при коллективной работе важно соблюдать единство терминологии. Здесь придет на помощь механизм примечаний - к любой словарной статье вы можете написать свои примечания;
  • словарь пользователя.

Окно «МультиЛекс» содержит рамку окна, строку меню, под которой расположены панель словарей, панель инструментов и строка поиска. Под строкой поиска находится собственно рабочая область окна «МультиЛекса» .

Рабочая область по вертикали разделена на две части: панель заголовков статей (левая) и панель текста словарной статьи (правая). Границу между панелями можно передвигать вправо-влево.

Левая панель содержит список заголовков статей того словаря, который показывается в панели словарей при помощи пиктограммы в виде открытой книги (используется для просмотра заголовков словарных статей). Правая панель всегда показывает словарную статью, соответствующую заголовку, выделенному в правой панели. Словарная статья начинается с заголовка, за которым следует его транскрипция. Далее указывается часть речи, даются возможные переводы, пояснения, примеры.

Панель словарей позволяет выбрать нужный словарь. Каждому словарю соответствует своя пиктограмма, принимающая три различных состояния: закрытая книга, полуоткрытая книга или открытая книга. Форма значков показывает, какой из словарей сейчас открыт и в каких словарях в результате последнего поиска было что-либо найдено.

Если значок словаря изображает открытую книгу (блокнот) - данный словарь сейчас открыт, полуоткрытую книгу (блокнот) - данный словарь сейчас не открыт, но в нем содержится информация, соответствующая вашему запросу, а если пиктограмма изображает закрытую книгу (блокнот) - данный словарь закрыт и нужной вам информации в нем нет.

В июле 2001 года вышла новая версия словаря «МультиЛекс 3.5 Английский Популярный» (англо-русский, русско-английский словарь общей лексики под редакцией О.С. Ахмановой и Е.А.М.Уилсон). Он содержит более 40 тыс. словарных статей.

Версия 3.5 обладает рядом достоинств, которые вы не найдете в предыдущей версии:

  • возможность доустановки словарей. Купив любой английский словарь (версии не ниже 3.5), вы сможете легко встроить его в ваш «МультиЛекс». Планируется выпуск технической, медико-биологической, экономико-юридической и других коллекций;
  • всплывающий перевод. В «МультиЛекс 3.5» предусмотрена поддержка перевода по горячим клавишам из любого приложения, поддерживающего Clipboard. Для этого просто выделите слово, нажмите соответствующую функциональную клавишу (по умолчанию F10) - и на экране появится окно с переводом. Перевод в окне является гиперссылкой. Если необходима более полная информация по интересующему вас слову, нажатием на левую кнопку мыши вызовите «МультиЛекс» с уже готовыми вариантами перевода запрашиваемого слова. Окно всплывающего перевода можно установить поверх всех окон, выбрав соответствующий пункт в контекстном меню, которое становится доступным при нажатии на правую кнопку мыши по иконке «МультиЛекс» (в правом нижнем углу экрана). Подобную же функцию выполняет кнопка в левой части окна «всплывающего перевода». С помощью этой кнопки вы можете «прикрепить» полученный перевод в любом месте своего экрана;
  • звуковая плата, совместимая с операционной системой, наушники или колонки (рекомендуется).

Резюме

В заключение несколько слов о личном опыте использования систем машинного перевода и словарями.

Три года назад я использовал систему машинного перевода для подготовки отчета западному работодателю. Несколько человек, которые занимались офшорным программированием, писали программу навигационного приемника. К сожалению, мало кто из группы владел английским настолько, чтобы описать результаты своей работы на языке заказчика. В связи с этим возникла необходимость перевода отчетов, составленных на русском языке. Именно тогда мне в голову пришла идея опробовать систему машинного перевода Stylus (первые версии систем компании ПРОМТ назывались именно так). Эта попытка оказалась очень удачной: я перевел 140-страничный документ раза в три быстрее, чем планировал. Конечно, перевод, выполненный программой, был не идеален. Мне пришлось много и долго его редактировать. Но выигрыш налицо.

С того времени при переводе текстов объемом более 10 страниц я всегда пользуюсь системами машинного перевода.

Эту историю я рассказал своему другу-предпринимателю. Тогда он начинал торговать обувью и налаживал связи с немецкими поставщиками. Он также купил подобную систему и до сих пор успешно переписывается с немцами по электронной почте (ни английского, ни немецкого он не знает). Написав письмо по-русски, он переводит его на немецкий и отсылает, а полученный ответ переводит на русский. И все довольны. В итоге мой друг на днях открывает уже пятый обувной магазин в Москве.

С электронными словарями я ознакомился еще раньше, когда у меня возникла необходимость читать зарубежные книги и журналы по техническим дисциплинам со специфической лексикой. Технические электронные словари, словари по телекоммуникациям и информатике позволили мне сохранить много времени и сил. Спасибо Lingvo!

Надеемся, что мой рассказ о новых системах машинного перевода и словарях поможет вам эффективно организовать свою работу и в конечном итоге добиться успеха.

Редакция благодарит за помощь в подготовке статьи: Александра Андреева, компания ПРОМТ; Андрея Соколова, компания «Информатика»; Анастасию Савину, компания ABBYY; Константина Конина и Наталью Талпы, компания «МедиаЛингва»; Алексея Буханова, компания «Арсеналъ».

КомпьютерПресс 9"2001

Действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст на другом языке, а также результат такого действия. Современный машинный, или автоматический перевод осуществляется с помощью человека: пред-редактора, который тем или иным образом предварительно обрабатывает подлежащий переводу текст, интер-редактора, который участвует в процессе перевода, или пост-редактора, который исправляет ошибки и недочеты в переведенном машиной тексте.

Для осуществления машинного перевода в компьютер вводится специальная программа, реализующая алгоритм перевода, под которым понимается последовательность однозначно и строго определенных действий над текстом для нахождения переводных соответствий в данной паре языков L 1 – L 2 при заданном направлении перевода (с одного конкретного языка на другой). Система машинного перевода включает в себя двуязычные словари, снабженные необходимой грамматической информацией (морфологической, синтаксической и семантической) для обеспечения передачи эквивалентных, вариантных и трансформационных переводных соответствий, а также алгоритмические средства грамматического анализа, реализующие какую-либо из принятых для автоматической переработки текста формальных грамматик. Имеются также отдельные системы машинного перевода, рассчитанные на перевод в рамках трех и более языков, но они в настоящее время являются экспериментальными.

Наиболее распространенной является следующая последовательность формальных операций, обеспечивающих анализ и синтез в системе машинного перевода:

1. На первом этапе осуществляется ввод текста и поиск входных словоформ (слов в конкретной грамматической форме, например дательного падежа множественного числа) во входном словаре (словаре языка, с которого производится перевод) с сопутствующим морфологическим анализом, в ходе которого устанавливается принадлежность данной словоформы к определенной лексеме (слову как единице словаря). В процессе анализа из формы слова могут быть получены также сведения, относящиеся к другим уровням организации языковой системы.

2. Следующий этап включает в себя перевод идиоматических словосочетаний, фразеологических единств или штампов данной предметной области (например, при англо-русском переводе обороты типа in case of , in accordance with получают единый цифровой эквивалент и исключаются из дальнейшего грамматического анализа); определение основных грамматических (морфологических, синтаксических, семантических и лексических) характеристик элементов входного текста (например, числа существительных, времени глагола, синтаксических функций словоформ в данном тексте и пр.), производимое в рамках входного языка; разрешение омографии (конверсионной омонимии словоформ – скажем, англ. round может быть существительным, прилагательным, наречием, глаголом или же предлогом); лексический анализ и перевод лексем. Обычно на этом этапе однозначные слова отделяются от многозначных (имеющих более одного переводного эквивалента в выходном языке), после чего однозначные слова переводятся по спискам эквивалентов, а для перевода многозначных слов используются так называемые контекстологические словари, словарные статьи которых представляют собой алгоритмы запроса к контексту на наличие/отсутствие контекстных определителей значения.

3. Окончательный грамматический анализ, в ходе которого доопределяется необходимая грамматическая информация с учетом данных выходного языка (например, при русских существительных типа сани , ножницы глагол должен стоять в форме множественного числа, при том что в оригинале может быть и единственное число).

4. Синтез выходных словоформ и предложения в целом на выходном языке.

В зависимости от особенностей морфологии, синтаксиса и семантики конкретной языковой пары, а также направления перевода общий алгоритм перевода может включать и другие этапы, а также модификации названных этапов или порядка их следования, но вариации такого рода в современных системах, как правило, незначительны. Анализ и синтез могут производиться как пофразно, так и для всего текста, введенного в память компьютера; в последнем случае алгоритм перевода предусматривает определение так называемых анафорических связей (такова, например, связь местоимения с замещаемым им существительным – скажем, местоимения им со словом местоимения в самом этом пояснении в скобках).

Действующие системы машинного перевода ориентированы на конкретные пары языков (например, французский и русский или японский и английский) и используют, как правило, переводные соответствия либо на поверхностном уровне, либо на некотором промежуточном уровне между входным и выходным языком. Качество машинного перевода зависит от объема словаря, объема информации, приписываемой лексическим единицам, от тщательности составления и проверки работы алгоритмов анализа и синтеза, от эффективности программного обеспечения. Современные аппаратные и программные средства допускают использование словарей большого объема, содержащих подробную грамматическую информацию. Информация может быть представлена как в декларативной (описательной), так и в процедурной (учитывающей потребности алгоритма) форме.

Современный машинный перевод следует отличать от использования компьютеров в помощь человеку-переводчику. В последнем случае имеется в виду автоматический словарь, помогающий человеку быстрее подбирать нужный переводной эквивалент. Хотя и в том, и в другом случае компьютер работает вместе с человеком (переводчиком или редактором), в содержание термина «машинный перевод» входит представление о том, что главную, бóльшую часть работы по переводу и отысканию переводных эквивалентов и переводных соответствий машина берет на себя, оставляя человеку лишь контроль и исправление ошибок, в то время как компьютерный словарь в помощь человеку – это чисто вспомогательное средство для быстрого нахождения переводных соответствий; при этом, однако, в такого рода словарях в ограниченной степени могут быть реализованы и некоторые функции, присущие системам машинного перевода.

В практике переводческой деятельности и в информационной технологии различаются два основных подхода к машинному переводу. С одной стороны, результаты машинного перевода могут быть использованы для поверхностного ознакомления с содержанием документа на незнакомом языке. В этом случае он может использоваться как сигнальная информация и не требует тщательного редактирования. Другой подход предполагает использование машинного перевода вместо обычного «человеческого». Это предполагает тщательное редактирование и настройку системы перевода на определенную предметную область. Здесь играют роль полнота словаря, ориентированность его на содержание и набор языковых средств переводимых текстов, эффективность способов разрешения лексической многозначности, результативность работы алгоритмов извлечения грамматической информации, нахождения переводных соответствий и алгоритмов синтеза. На практике перевод такого типа становится экономически выгодным, если объем переводимых текстов достаточно велик (не менее нескольких десятков тысяч страниц в год), если тексты достаточно однородны, словари системы полны и допускают дальнейшее расширение, а программное обеспечение удобно для пост-редактирования. Такого рода системы машинного перевода используются в организациях, потребности которых в оперативных и качественных переводах достаточно велики.

Теоретической основой начального (конец 1940-х – начало 1950-х годов) периода работ по машинному переводу был взгляд на язык как кодовую систему. Пионерами МП были математики и инженеры. Описания их первых опытов, связанных с использованием только что появившихся ЭВМ для решения криптографических задач, были опубликованы в США в конце 1940-х годов. Датой рождения машинного перевода как исследовательской области обычно считают март 1947; именно тогда специалист по криптографии Уоррен Уивер в своем письме Норберту Винеру впервые поставил задачу машинного перевода, сравнив ее с задачей дешифровки.

Тот же Уивер после ряда дискуссий составил в 1949 меморандум, в котором теоретически обосновал принципиальную возможность создания систем машинного перевода. Вскоре началось финансирование исследований; в 1952 состоялась первая конференция по машинному переводу, организованная логиком и математиком Й.Бар-Хиллелом.

Помимо очевидных практических нужд важную роль в становлении машинного перевода сыграло то обстоятельство, что предложенный в 1950 английским математиком А.Тьюрингом знаменитый тест на разумность («тест Тьюринга») фактически заменил вопрос о том, может ли машина мыслить, на вопрос о том, может ли машина общаться с человеком на естественном языке таким образом, что тот не в состоянии будет отличить ее от собеседника-человека. Тем самым вопросы компьютерной обработки естественноязыковых сообщений на десятилетия оказались в центре исследований по кибернетике (а впоследствии по искусственному интеллекту), а между математиками, программистами и инженерами-компьютерщиками, с одной стороны, и лингвистами – с другой установилось продуктивное сотрудничество.

В 1954 общественности были предъявлены первые результаты: фирма IBM совместно с Джорджтаунским университетом (США) успешно осуществили первый эксперимент (вошедший в историю под названием Джорджтаунского), в ходе которого система, использовавшая словарь из 250 слов и грамматику из 6 синтаксических правил, осуществила перевод 49 заранее отобранных предложений. В том же 1954 первый эксперимент по машинному переводу был осуществлен в СССР И.К.Бельской (лингвистическая часть) и Д.Ю.Пановым (программная часть) в Институте точной механики и вычислительной техники Академии наук СССР, а первый промышленно пригодный алгоритм машинного перевода и система машинного перевода с английского языка на русский на универсальной вычислительной машине были разработаны коллективом под руководством Ю.А.Моторина. После этого работы начались во многих информационных институтах, научных и учебных организациях страны.

Идея машинного перевода стимулировала развитие исследований в теоретическом и прикладном языкознании во всем мире. Появились теории формальных грамматик, большое внимание стало уделяться моделированию языка и отдельных его аспектов, языковой и мыслительной деятельности, вопросам языковой формы и количественных распределений лингвистических явлений. Возникли новые направления лингвистической науки – вычислительная, математическая, инженерная, статистическая, алгоритмическая лингвистика и ряд других отраслей прикладного и теоретического языкознания. В течение 1950-х годов в учебных центрах многих стран мира были открыты отделения прикладной лингвистики и машинного перевода. Так, в СССР такие отделения были созданы в Москве (МГУ им. М.В.Ломоносова, МГПИИЯ им. М.Тореза – ныне МГЛУ), в Минском МГПИИЯ, в Ереване, Махачкале, Ленинградском университете, в университетах Киева, Харькова, Новосибирска, ряда других городов. Исследования и разработки по машинному переводу развернулись также во Франции, Англии, США, Канаде, Италии, Германии, Японии, Нидерландах, Болгарии, Венгрии и других странах, а также в международных организациях, где велик объем переводов с различных языков. В настоящее время исследования по МП ведутся и в таких странах, как Малайзия, Саудовская Аравия, Иран и др.

Исследования по машинному переводу за свою пятидесятилетнюю историю переживали как подъемы, так и спады. В начале 1960-х годов завершился первоначальный эйфорический этап в развитии МП, чему в сильнейшей степени способствовала публикация так называемой «Черной книги машинного перевода» – доклада Специального комитета по прикладной лингвистике (ALPAC) Национальной академии наук США, в котором была констатирована невозможность создания в обозримом будущем универсальных систем высококачественного машинного перевода. Следствием этой публикации было сокращение финансирования и общее снижение интереса к проблематике МП, однако полного сворачивания исследований, в особенности теоретических, не произошло.

Новый подъем исследований в области МП начался в 1970-х годах и был связан с серьезными достижениями в области компьютерного моделирования интеллектуальной деятельности. Соответствующая область исследований, возникшая несколько позже МП (датой ее рождения обычно считают 1956), получила название искусственного интеллекта , а создание систем машинного перевода было осмыслено в 1970-е годы как одна из частных задач этого нового исследовательского направления.

Можно выделить два основных стимула к развитию работ по машинному переводу в современном мире. Первый – собственно научный; он определяется комплексностью и сложностью компьютерного моделирования перевода. Как вид языковой деятельности перевод затрагивает все уровни языка – от распознавания графем (и фонем при переводе устной речи) до передачи смысла высказывания и текста. Кроме того, для перевода характерна обратная связь и возможность сразу проверить теоретическую гипотезу об устройстве тех или иных языковых уровней и эффективности предлагаемых алгоритмов. Эта характеристическая черта перевода вообще и машинного перевода в частности привлекает внимание теоретиков, в результате чего продолжают возникать все новые теории автоматизации перевода и формализации языковых данных и процессов.

Второй стимул – социальный, и обусловлен он возрастающей ролью самой практики перевода в современном мире как необходимого условия обеспечения межъязыковой коммуникации, объем которой возрастает с каждым годом. Другие способы преодоления языковых барьеров на пути коммуникации – разработка или принятие единого языка, а также изучение иностранных языков – не могут сравниться с переводом по эффективности. С этой точки зрения можно утверждать, что альтернативы переводу нет, так что разработка качественных и высокопроизводительных систем машинного перевода способствует разрешению важнейших социально-коммуникативных задач.

В ходе развития идей и создания промышленных систем машинного перевода были разработаны способы автоматического морфологического анализа для основных европейских языков, методы автоматического обнаружения синтаксических структур, сформулированы требования к семантическим компонентам систем. В рамках эффективного международного сотрудничества и обмена терминологией созданы большие автоматические словари с разнообразной лексической информацией, банки терминологических данных по разным тематическим областям (например, словарь ЕВРОДИКАТОМ и ряд других словарей, тематика которых определялась тем обстоятельством, что практический машинный перевод чаще всего имеет дело с научными и техническими текстами). Результаты работ по МП способствовали началу и развитию исследований и разработок в области автоматизации информационного поиска, логического анализа естественно-языковых текстов, экспертных систем, способов представления знаний в вычислительных системах и т.д.

В СССР в качестве головной организации по машинному переводу был в 1974 определен Всесоюзный центр переводов научно-технической литературы и документации (ВЦП), взявший на себя координацию работ в масштабе страны. Под его эгидой был проведен ряд крупных международных научных конференций (1975, 1979, 1983, 1985, 1989) по машинному переводу и проблемам научно-технического перевода. В ВЦП были созданы промышленные системы машинного перевода с английского языка на русский АМПАР (на основе исследований и разработок коллектива Ю.А.Моторина), с немецкого языка на русский НЕРПА, с французского языка на русский ФРАП, автоматические терминологические словари в помощь человеку-переводчику. Система АМПАР длительное время находилась в промышленной эксплуатации; впоследствии на ее базе были созданы более эффективные системы МП для персональных компьютеров семейства СПРИНТ. В ВПЦ была также разработана система МП с русского языка на английский АСПЕРА. Большой вклад в разработку промышленных систем МП был сделан ленинградской общесоюзной группой «Статистика речи» под руководством Р.Г.Пиотровского, а также группами специалистов по компьютерной лингвистике в Минске (А.В.Зубов), Кишиневе (В.А.Чижаковский), Махачкале (А.И.Чапля), Чимкенте (К.Б.Бектаев), Самарканде (Х.А.Арзикулов) и др. На базе исследований и научно-практического подхода группы «Статистика речи» были впоследствии разработаны и сейчас находятся в коммерческом использовании такие системы машинного перевода, как Stylus, Socrat и другие.

В настоящее время в Российской Федерации продолжаются в незначительных масштабах некоторые работы по системам МП, основанным на подходе «текст-смысл-текст», не всегда явно проговариваемым лозунгом которого в момент обоснования этого подхода в 1960-х годов был «машинный перевод без перевода, без машин, без алгоритмов» (см. обзор работ этого направления, принадлежащий Л.Н.Беляевой и М.И.Откупщиковой). Идея подхода заключалась в том, что от лингвиста требуется только декларативное описание фактов языка (т.е. лингвистическая теория, претендующая, правда, на особую точность и формализованность), а алгоритмы перевода составят программист и математик. В рамках этих исследований были получены значительные теоретико-лингвистические результаты (в частности, создана теория так называемых лексических функций, нашедшая применение в лексикографии), однако для создания практических систем подобного рода подход оказался недостаточно эффективным. Все практические системы без исключения используют идею переводных соответствий, т.е. в их основе лежит модель «текст-текст» и они реализуют краткую схему перевода Неизмеримо выросшие за последние десятилетия возможности вычислительной техники и новые программистские подходы никак не могут помочь реализовать идеи анализа и синтеза, основанные на приоритете выявления только синтаксической структуры с последующим переходом к смыслу. Выявление содержания текста в рамках человеко-машинного интерфейса может производиться, как и во всякой прикладной задаче, только с использованием как декларативных, так и процедурных знаний и при значительной опоре на лексику. Эта точка зрения обоснована, в частности, в недавних работах отечественного специалиста по программированию и искусственному интеллекту А.С.Нариньяни.

За рубежом эксплуатируется целый ряд систем машинного перевода. Наиболее известной из их числа является система SYSTRAN, разработанная и поддерживаемая компанией SYSTRAN Software Inc. и используемая службой машинного перевода при комиссии Европейского союза. Данная служба, объем переводов в которой составляет около 2,5 млн. страниц в год, использует систему SYSTRAN для перевода с английского на немецкий, французский, испанский, греческий и итальянский языки, а также с французского на английский, испанский и итальянский. В практической эксплуатации находится ряд практических систем исследовательского центра Гренобля (Франция), систему CULT (Гонконг, ныне КНР) и ряд других. На рынке коммерческого машинного перевода предлагаются системы таких фирм, как Logos Corp., Globalinc Inc., Toshiba Corp., CompuServe и др., в том числе и санкт-петербургская компания ПроМТ, выпустившая под названием PROMT 98 усовершенствованную версию популярной системы Stylus.

Проблематика машинного перевода находит свое отражение в регулярно проводимых международных конференциях по вычислительной лингвистике COLING, а также на международных конференциях по машинному переводу MT SUMMIT.

Технические инновации 1990-х годов (значительное расширение возможностей персональных компьютеров, появление качественных и доступных массовому пользователю сканеров и эффективных программ оптического распознавания текста, а также развитие глобальной компьютерной сети Internet и средств доступа к ней) придали новый стимул работам по МП, привлекли в данную область новые значительные инвестиции и увенчались серьезными практическими результатами – появлением достаточно эффективных систем машинного перевода и компьютерных словарей для работы на персональном компьютере (в том числе продуктов отечественных компаний ПроМТ, «Бит», «Арсеналъ», отчасти уже упомянутых выше); объединением систем МП с системами оптического распознавания текста и проверки орфографии; созданием специальных средств МП для работы в Internet, обеспечивающих либо перевод текстов на серверах соответствующих компаний, либо онлайновый перевод Web-страниц. В сочетании с пониманием ограничений МП и реалистической формулировкой целей его использования (прежде всего, это ознакомительно-реферативные цели, что хорошо соответствует базовой идеологии Internet как средства «навигации в информационном море») все это позволяет говорить об органичном встраивании систем МП в общий процесс формирования глобального информационного общества.

Эффективность работы современной системы МП в решающей степени зависит от ее удачной настройки на конкретный подъязык (или микроподъязык) естественного языка, на определенную лексику и ограниченный набор грамматических средств, характерных для текстов данной предметной области, а также на определенные типы документов. Учение о подъязыках с точки зрения машинного перевода было впервые сформулировано Н.Д.Андреевым (Ленинградский университет) в 1967, хотя представления о языковых регистрах, стилях, жанрах письменного текста и т.п. были хорошо известны и в традиционной лингвистике. Подъязык, с точки зрения МП, определяется в первую очередь некоторым исходным набором текстов, в рамках которого определяется входной и выходной словари, степень распространения и характер лексической неоднозначности лексем, характер и распространенность синтаксических конструкций, способы их перевода в данной языковой паре и пр. Большую роль играют параллельные тексты и словари-конкордансы, с помощью которых можно достаточно эффективно изучить и использовать в составлении алгоритмов лексическую сочетаемость и дистрибуцию (распределение) языковых элементов в речи (дискурсе, тексте). Статистические характеристики подъязыков помогают упорядочить структуру соответствующих алгоритмов анализа и синтеза. Выходной словарь, ориентированный на потребности синтеза и передачи основных видов соответствий в конкретной языковой паре, обеспечивает приемлемый выходной текст. В любом из современных видов машинного перевода необходимо участие человека-редактора, удобство работы которого обеспечивается качеством и надежностью соответствующего программного обеспечения.

Перспективы развития машинного перевода связаны с дальнейшей разработкой и углублением теории и практики перевода, как машинного, так и «человеческого». Для развития теории важны результаты сопоставительного языкознания, общей теории перевода, теории закономерных соответствий, способов представления знаний, оптимизации и совершенствования лингвистических алгоритмов. Новые и более эффективные словари с необходимой словарной информацией, строгие теории терминологизации лексики, теория и практика работы с подъязыками помогут повысить качество перевода лексических единиц. Формальные грамматики, ориентированные на перевод, дадут возможность оптимизировать алгоритмы нахождения переводных соответствий в данной коммуникативной ситуации, которая может быть описана в рамках соответствующих прикладных теорий представления знаний. Наконец, новые возможности программирования и вычислительной техники также будут вносить свой вклад в совершенствование и дальнейшее развитие теории и практики машинного перевода.

August 21st, 2016

В 1954 году занимающему несколько комнат компьютеру IBM 701 хватило словарного запаса в 250 слов и нескольких простых правил, чтобы точно перевести 60 фраз с русского на английский. Это достижение (знаменитый Джорджтаунский эксперимент) широко освещалось в СМИ, и власти США поверили в светлое будущее - машинный перевод текстов врага на английский уже через десять лет.

Однако этого не случилось. И вот почему...

Обратимся сначала к истории.

История машинного перевода берет начало в XVII веке, когда такими философами, как Лейбниц и Декарт было выдвинуто предположение о существовании некоего кода, соединяющего между собой слова разных языков. Все предположения носили гипотетический характер, и никому не удавалось в действительности создать машину для перевода.


Первые заявления на получение патента на «переводческую машину» были поданы в середине 30-х годов ХХ века. Одно заявление было подано французским изобретателем Ж. Арцруни, просто создавшим автоматический двуязычный словарь на перфоленте. Другое было сделано советским ученым Петром Троянским, чье изобретение было более детальным. Оно включало в себя, как двуязычный словарь, так и способы работы с грамматическими ролями между двумя языками на основе Эсперанто. Данная система представляла собой три этапа: первый заключался в следующем – редактор, носитель языка, должен был связать слова исходного языка (ИЯ) в логические формы в соответствии с синтаксическими функциями; на втором этапе машина должна была «перевести» все эти формы на язык перевода (ПЯ); а на третьем этапе носитель языка перевода занимался редактированием полученного результата. Его схема оставалась неизвестной до конца 50-х годов, когда появились ЭВМ.

Первый план по созданию машин для перевода на базе компьютеров был предложен Уорреном Уивером, исследователем Фонда Рокфеллера, в его меморандуме от июля 1949 года. Данные предложения базировались на теории информации, получившей успех во время Второй Мировой войны в связи с криптографией и распространения идеи об универсальных принципах естественных языков.

Несколько лет спустя, во всех университетах США началась исследовательская деятельность, связанная с машинным переводом. 7 января 1954 года фирма IBM совместно с Джорджтаунским университетом (США) успешно осуществили первую демонстрацию новой системы машинного перевода, которая проходила в Нью-Йорке в головном офисе IBM. Результаты демонстрации были освещены в печати и привлекли большой общественный интерес. Система сама по себе была не более чем, по сегодняшним меркам, игрушечной, поскольку она использовала словарь из 250 слов и осуществила перевод с русского на английский 49 заранее отобранных предложений, имеющих химическую тематику. Однако демонстрация стимулировала распространение идеи о неотвратимости появления машинного перевода, а в частности привлечение финансирования в исследовательские институты не только на территории США, но и по всему миру.

Ранние системы использовали большие двуязычные словари и запрограммированные вручную правила, по выстраиванию на выходе слов в правильном порядке. В конечном итоге, такой способ был признан ограниченным, и развитие лингвистических наук, например, генеративной лингвистики или трансформационной грамматики, было нацелено на улучшение качества перевода.

В это время устанавливались операционные системы. Военно-воздушные силы США пользовались программой, разработанной компанией IBM и Вашингтонским университетом, в то время как комиссия по атомной энергии США и Евроатом в Италии пользовались системой, разработанной Джорджтаунским университетом. И хотя качество выхода было низким, система пользовалась популярностью среди потребителей, в связи с увеличением скорости перевода.

Вернемся к Джорджтаунскому эксперименту. Разумеется, у шоу-эксперимента, помимо научной, была и политическая сторона. Испытание советской атомной бомбы в 1949-м и запуск спутника в 1957-м показали США, что СССР не намерен уступать в научной гонке. Кроме того, чтобы понять, что вообще происходит за железным занавесом, не помешал бы быстрый перевод множества открытых и секретных документов на английский. Проект машинного перевода возник на пересечении интересов американских ученых, гражданских и военных, которые хотели читать советские научные публикации, и сотрудников разведки. Авторы проекта надеялись, что «научный русский», с его простыми фразами и ясной лексикой, позволит вычислительным машинам освоить и столь сложный, вариативный обычный русский язык.

Русские пишут!

К 1948 году на русском языке издавалось 33 процента научной литературы. На немецкий язык в золотые годы «тевтонской» науки приходилось 40 процентов. В частности, если в 1913 году русские тексты составляли 2,5 процента учитываемых Химической реферативной службой (Chemical Abstracts Service) публикаций, то в 1958-м - 17 процентов, заметно обойдя немецко- (10 процентов) и франкоязычные (5 процентов). Уже в 1944 году редактор издания предупреждал читателей о необходимости учить русский.

В конце XIX века американские ученые и инженеры научились читать по-немецки. Но кто же мог подумать, что за каких-то пять лет войны немецкий уйдет на периферию и придется осваивать таинственные кириллические символы! В 1953 году из 400 тысяч опрошенных ученых и инженеров свободно читали по-русски всего 400 человек.


Одна из перфокарт с фразой на русском

Ситуация осложнилась еще из-за политики Сталина. Борясь с «низкопоклонством перед Западом» и утечкой информации, в 1947 году в СССР закрыли все научные журналы на иностранных языках (Comptes rendus АН СССР, Acta Physicochimica и Journal of Physics of the USSR). Более того, перестали публиковать содержание журнала и резюме статей на иностранных языках - и теперь не знающие русского западные ученые даже не могли понять, чему вообще посвящены новые публикации.

С конца 1940-х и особенно после запуска советского спутника Конгресс США выделял десятки миллионов долларов на обучение русскому языку. Чтобы упростить задачу, сами исследователи выдвинули концепцию «научного» или «технического» русского, далекого от непостижимого языка Пушкина и Достоевского. Международная лексика, изобилие формул, простая грамматика должны были максимально облегчить обучение. Но особого прогресса в освоении русского не наблюдалось. Вот тут американцы и обратили свои взоры на новейшие технологии - вычислительные машины.


Машины, на помощь!

Пионером машинного перевода парадоксальным образом стал человек, далекий как от структурной лингвистики, так и от вычислительной техники - личный переводчик генерала Эйзенхауэра Леон Достер (Leon Dostert). Он родился в 1904 году во Франции. В Первую мировую, в годы германской оккупации Леон быстро выучил немецкий и был привлечен к работе в качестве переводчика. То же самое произошло, когда его родной город Лонгви заняли американцы: оценив таланты юного переводчика, офицеры оплатили его обучение в США. В 1939 году он уже был профессором французского в Джорджтаунском университете. После поражения Франции в 1940-м Достер принял американское гражданство и прошел войну в штабе Эйзенхауэра, дослужившись до полковника.

В 1945-м Достер на Международном военном трибунале в Нюрнберге фактически изобрел синхронный перевод - поскольку последовательный недопустимо удлинил бы и без того растянутый процесс. Ему принадлежит идея закрыть переводчиков в «аквариуме» и вести трансляцию речей к каждому из участников процесса индивидуально, через наушники. Все оборудование бесплатно представил приятель Достера Томас Уотсон, будущий президент IBM. Организовав аналогичную систему в ООН, Достер вернулся в университет на должность президента нового Института языков и лингвистики.

Неудивительно, что этот полиглот, судьбу которого радикально изменили две мировые войны, хотел предотвратить третью. Выступая в 1951 году на страницах ARMOR, журнала бронетанковых войск США, Достер скептически отозвался о боеспособности блока НАТО - именно из-за неспособности разноязычных солдат стран-участниц понимать друг друга.

Леон Достер

Спасение пришло с неожиданной стороны. Еще в годы войны перфокартные счетные машины IBM применялись не только для расчета траекторий снарядов и решения логистических задач, но и в криптографии. Это и навело Уоррена Уивера, сотрудника Фонда Рокфеллера, на идею машинного перевода. В 1947 году он написал письмо отцу кибернетики Норберту Винеру: «Проблему перевода можно решить как проблему криптографии. Когда я вижу статью на русском, я говорю себе: "На самом деле она написана на английском, но зашифрована странными символами, которые я декодирую"». Винер, владеющий несколькими языками, разгромил проект, указав на до сих пор не решенную проблему - у слов естественных языков, в отличие от цифр, слишком много смутных и неоднозначных значений, чтобы переводить механическим образом.

Но Уивер получал от Фонда достаточно средств, чтобы и дальше продвигать свои идеи. В 1952 году он спонсировал первую конференцию по машинному переводу, где были озвучены главные технические и философские проблемы этого проекта. Участвовал в симпозиуме и Достер - и быстро смекнул, что для успеха машинного перевода надо не спорить о фундаментальных проблемах, а сконструировать аппарат, который докажет всем осуществимость этой затеи.

Машина Достера опиралась на шесть базовых операций («правил») и, следовательно, могла переводить только предложения, где те применялись. Каждое из 250 слов лексикона кодировалось двумя числами, которые определяли бинарное дерево принятия решений. Компьютер выбирал между прямым и непрямым порядком слов, а также одним из двух словарных значений. При всей ограниченности средств результаты впечатляли: русские фразы латиницей забивались в машину (на перфокартах), и примерно через десять минут выдавался результат:

KRAXMAL VIRABATIVAYETSYA MYEKHANYICHYESKYIM PUTYEM YIZ KARTOFYELYA
Starch is produced by mechanical methods from potatoes

VYELYICHYINA UGLYA OPRYEDYELYAYETSYA OTNOSHYENYIYEM DLYINI DUGI K RADYIUSU
Magnitude of angle is determined by the relation of length of arc to radius

MI PYERYEDAYEM MISLYI POSRYEDSTVOM RYECHYI
We transmit thoughts by means of speech

Чем опасны деньги от ЦРУ

Сенсационный успех демонстрации 1954 года привлек к проектам Достера внимание ВМФ, ЦРУ и других подобных ведомств. Но силовики не спешили раскошеливаться. Тут неожиданную помощь оказал СССР. На статью о Джорджтаунском эксперименте обратил внимание отец советской кибернетики Алексей Ляпунов и вскоре создал в Математическом институте исследовательскую группу. За ним последовал Дмитрий Панов из Института точной математики и вычислительной техники, а к 1958 году машинным переводом занимались уже 79 различных учреждений.

Достер и его коллеги, указав на необходимость «догонять СССР», наконец получили щедрое финансирование - сто тысяч долларов в год. Делу помогло еще и то, что старый фронтовой приятель Достера Аллен Даллес в 1956 году возглавил ЦРУ. Для обработки информации об СССР управлению не хватало русскоязычных аналитиков, и Достер уверил Даллеса, что его машины скоро придут на помощь. За 1956-1958 годы джорджтаунская группа получила от ЦРУ около миллиона трехсот тысяч долларов (10 миллионов по курсу 2016 года). Ни один научный коллектив того времени, кроме физиков-ядерщиков, и мечтать не мог о таких суммах. В коды на перфокартах перевели почти восемь тысяч терминов органической химии. Достер также подписал контракт на перевод советских документов по атомной энергетике.

Достер и Уотсон (справа) во время Джорджтаунского эксперимента

Однако к середине 1960-х над проектом сгустились тучи. Философ Иегошуа Бар-Хиллел, первый в стране специалист по машинному переводу, пришел к выводу о его невозможности даже в будущем. Компьютер, согласно известному примеру Бар-Хиллела, не понимает различия между фразами The box in the pen (коробка в манеже) и The pen is in the box (ручка в коробке) - только человек интуитивно понимает, когда pen значит «манеж», а когда - «ручка».

В 1963 году Достеру удалось отбиться от нападок конгрессменов, которые провели специальные слушания по вопросу автоматического перевода. Но в 1964-м Комитет по прикладной лингвистике Национальной академии наук США констатировал «отсутствие прогресса» - никакого машинного перевода реальных, не адаптированных статей с русского на английский не было и в помине. ЦРУ также прекратило финансирование (без объяснения причин).

Машины - в отставку

Фактически именно сногсшибательный успех Джорджтаунского эксперимента вырыл проекту могилу. Первые фразы были слишком хороши, а переводы более сложных текстов оказались неточными, корявыми или вообще непонятными без дополнительного редактирования.

По словам Гордина, фатальной ошибкой Достера было невнимание к потребителям машинных переводов. Он ориентировался исключительно на госструктуры, которые в любой момент могли прекратить финансирование (что они и сделали).

Впрочем, проблему «тайн советской науки» в США все-таки решили, причем достаточно экономичным способом. Частные издатели создали серию журналов (например, Journal of general chemistry of the USSR), где статьи из советских журналов переводились сплошняком. Сначала эти издания нашли благодарную аудиторию среди американцев, не желающих учить русский, но уже через пару лет львиная доля тиража уходила иностранным специалистам. Ученые из Франции, Японии, Индии или Бразилии, желающие знать, что исследуется и изобретается в СССР, не учили русский, а покупали американские реферативные журналы. Так революционный прогресс советской науки и техники помог утверждению английского как монопольного международного языка ученых.

Публикация отчета в большей степени повлияла на исследования машинного перевода в США и в гораздо меньшей в СССР и Великобритании. По крайней мере, в США такого рода исследования были остановлены на целое десятилетие. В Канаде, Франции и Германии исследования все-таки продолжались. В США главными исключениями стали основатели компаний Systran (Питер Тома)

Если в 60е годы упор был на определенные языковые пары и ввод, то требованием в 70е годы стали малые затраты на системы, способные переводить ряд текстов технической и коммерческой направленности. Спрос был спровоцирован ростом глобализации и спрос на перевод в Канаде, Европе и Японии.

80-е начало 90-х годов

К 80-м годам разнообразие и число программ для машинного перевода увеличилось. Использовались такие переводческие системы, основывающиеся на технологии универсальной вычислительной машины, как Metal.

В результате увеличения пригодности микрокомпьютеров, появился рынок бюджетных программ машинного перевода. Многие компании Европы, Японии и США воспользовались данной возможностью. Системы были представлены на рынке Китая, Восточной Европы, Кореи и СССР.

В 80-е годы в Японии был большой ажиотаж, связанный с машинным переводом. С появлением компьютеров пятого поколения Япония планировала прыгнуть выше всех в области техники и программирования, проект, связанный с созданием программ для перевода с/на английский, заинтересовал многие компании (Fujitsu, Toshiba, NTT, Brother, Catena, Matsushita, Mitsubishi, Sharp, Sanyo, Hitachi, NEC, Panasonic, Kodensha, Nova, Oki).

Исследования 80-х годов основывались на переводе лингвистических единиц при помощи морфологического, синтаксического и семантического анализа.

Первые коммерческие продукты машинного перевода, нашедшие практическое использование в России, появились в середине 80-х годов. Они были реализованы на персональных компьютерах и являлись системами прямого перевода, возможности которых базировались на огромных (по сравнению с первыми системами) словарях, а не на умении анализировать и синтезировать тексты.

Современные коммерческие продукты машинного перевода предлагают отечественные фирмы:

- "Виста Текнолоджиз" и "Адвентис", образованные в 1991 г. коллективом разработчиков, выделившихся из ВИНИТИ;
- ПРОМТ, образованная в 1991 г.;
- "Медиа Лингва".

Например в словарях Retrans Vista хранятся миллионы понятий, к которым относятся не только традиционные устойчивые фразеологические обороты, но, прежде всего, словосочетания, используемые в повседневной речи. Кроме того, есть программа концептуального анализа, автоматически выделяющая из текста новые словосочетания и включающая их в словарь. Основные словари системы Retrans Vista содержат термины и фразеологические единицы по естественным и техническим наукам, экономике, бизнесу и политике. Объем политематического машинного словаря - около 3,4 млн. слов (1,8 млн. в русско-английской части, 1,6 млн. - в англо-русской), причем 20% из них являются словами, а 80% - устойчивыми словосочетаниями со средней "длиной" в 2,2 слова.

В конце 80-х годов произошел рост числа методов, используемых при машинном переводе. Система, разработанная компанией IBM, базировалась на статистическом методе. Другие группы использовали методы, основывающиеся на большом числе примеров переводов, такая техника называется машинный перевод на основе примеров. Определяющая черта обоих подходов стал недостаток семантических и синтаксических правил и опора на манипуляции с корпусами текстов.

В 90-х годах после успеха программ по распознаванию речи и ее синтеза и с развитием Verbmobil, начались разработки по переводу речи.

В результате появления бюджетных и более мощных компьютеров вырос спрос на программы машинного перевода. Именно в начале 90х годов перевод стал осуществляться не громоздкими ЭВМ, а персональными компьютерами и дисплейными терминалами. Одна из компаний, которая стояла во главе рынка ПК на тот момент были Systran.

Недавние исследования

За последние несколько лет машинный перевод пережил значительные изменения. В настоящий момент большое количество исследований ведется в области статистического машинного перевода и машинного перевода на базе примеров перевода. Сегодня немногие компании используют статистический машинный перевод в коммерческих целях, например, Microsoft (использует свою собственную патентованную статистическую программу МП для перевода статей базы). Возобновился интерес к гибридизации, исследователи совмещают синтаксические и морфологические (т. е. лингвистические) знания в статистических системах с уже существующими правилами.

источники

Концевой Даниил Сергеевич,
ЧОУ ВО «Омская юридическая академия», г. Омск

Переводчик в сфере профессиональных коммуникаций - это человек, активно владеющий иностранным языком профессиональной сферы, умеющий логически верно, аргументировано и ясно строить иноязычную устную и письменную речь, а главное, владеть техникой использования систем машинного перевода, ведь даже профессионалы не могут обойтись без обращения к электронным переводчикам.

Машинный перевод - выполняемый на компьютере, или ином электронном устройстве процесс по преобразованию текста одного языка на эквивалентный по содержанию текст другого языка, а также результат такого действия. Так как не существует полностью автоматизированных электронных переводчиков, способных точно и верно по смыслу переводить текст, специалист-переводчик должен этот текст подготовить, или же исправить ошибки и недочеты уже в обработанном машиной тексте.

Существуют четыре формы организации взаимодействия компьютера и человека при осуществлении машинного перевода:

  • предредактирование: человек подготавливает текст к обработке компьютером (упрощает смысл текста, устраняет неоднозначные прочтения, размечает текст), после чего производится машинный перевод;
  • интерредактирование: человек непосредственно вмешивается в работу системы перевода, разрешая проблемные вопросы;
  • постредактирование: исходный текст целиком подвергается машинной обработке, а человек исправляет полученный результат путем редактирования переведенного текста;
  • смешанная система.

Современные электронные переводчики способны производить адекватный для восприятия перевод отдельных фраз и предложений, они служат для облегчения работы человека-переводчика, для избавления его от рутинной работы поиска значений определенных слов и словосочетаний в словарях.

Для освоения систем машинного перевода необходимо хотя бы в общих чертах понимать технологии электронного перевода. В машинном переводе их несколько:

1) Прямой машинный перевод

Прямой машинный перевод является самым старым подходом машинного перевода. При таком способе перевода текст на исходном языке не подвергается структурному анализу за пределами морфологии. Такой перевод использует большое количество словарей и является пословным, если не считать небольшой грамматической корректировки, например, касательно порядка слов и морфологии. Система прямого перевода предназначена для особых пар языков. Лексикон представляет собой хранилище информации о специфике слов. Эти системы зависят от качества подготовки словарей, морфологического анализа и программного обеспечения по обработке текста. Примером системы прямого перевода может служить Systran.

2) Машинный перевод, основанный на правилах, использует объемное хранилище лингвистических правил и двуязычных словарей для каждой языковой пары. Типами машинного перевода, основанного на правилах, можно назвать принцип Interlingua (Интерлингва) и машинный перевод типа Transfer (Перенос).

  • Машинный перевод Интерлингва

При машинном переводе, основанном на принципе Interlingua, перевод осуществляется через промежуточную (семантическую) модель текста исходного языка. Interlingua являет собой не зависящую от конкретного языка модель, из которой может быть сгенерирован перевод на любой язык. Принцип Interlingua допускает возможность трансформации текста на исходном языке в модель, общую для нескольких языков.

  • Машинный перевод Transfer основан на идее Interlingua с использованием сопоставительного анализа двух языков. Три этапа данного процесса: анализ, перенос и генерирование. Сначала текст на исходном языке переводится в абстрактную или промежуточную модель исходного языка, которая затем преобразуется в модель целевого языка, чтобы потом окончательно оформиться в текст на целевом языке. Данный принцип проще, нежели Interlingua, но зато здесь сложнее избежать неоднозначности.

3) Машинный перевод на корпусах текстов

Корпусный подход в машинном переводе использует совокупность (корпус) параллельных двуязычных текстов. Главным преимуществом систем машинного перевода с корпусным подходом является их самонастройка, т.е. они способны запоминать терминологию и даже стилистику фраз из текстов предыдущих переводов. Статистический машинный перевод и машинный перевод, основанный на примерах, представляют собой варианты корпусного подхода.

  • Статистический машинный перевод

Это разновидность машинного перевода текста, основанная на сравнении больших объемов языковых пар. Этот переводческий подход использует модели статистического перевода. Один из применяемых подходов - теорема Байеса. Построение моделей статистического перевода - процесс довольно быстрый, но эта технология в большой степени зависит от наличия многоязычного корпуса текстов. Требуется минимум 2 миллиона слов для каждой отдельной области, если речь идет о языке в целом. Статистический машинный перевод требует наличия специального оборудования, для того чтобы «усреднять» переводческие модели. Примером статистического машинного перевода служит Google Translate.

  • Машинный перевод на примерах

Системы машинного перевода, основанного на примерах, базируются на принципе параллельного двуязычного корпуса текстов, в котором в качестве примеров содержатся пары предложений. Каждое предложение дублируется на другом языке. Статистический машинный перевод обладает свойством "обучения". Чем больше в распоряжении текстов (примеров), тем лучше результат машинного перевода.

Каждый переводчик в сфере профессиональной коммуникации столкнется с проблемой выбора надлежащей программы для перевода. Исключая платные сервисы, считаем нужным проанализировать наиболее известные системы.

Большой популярностью пользуется электронный переводчик Google Translate, который разработан компанией Google в середине 2000-х годов. Данная услуга предназначена для перевода текстов и перевода сайтов "на лету". Переводчик использует самообучающийся алгоритм машинного перевода на основе языкового анализа текстов.

В отличие от большинства машинных переводчиков, которые используют технологию SYSTRAN, Google использует собственное программное обеспечение. Google Translate на данный момент является наиболее популярным переводчиком благодаря своей простоте и многофункциональности (а также прямой связи с разработчиком программного обеспечения для компьютеров - Microsoft). Благодаря этому, данная система машинного перевода очень быстро развивается и оптимизируется под нужды пользователей. Поэтому сейчас из функций данного переводчика можно наблюдать: перевод всей веб-страницы; одновременный поиск информации с переводом на другой язык; перевод текста на изображениях; перевод произнесенной фразы; перевод с рукописным вводом; перевод диалога.

Из особенностей данной системы машинного перевода можно выделить:

  1. Варианты перевода контролируются статистическим алгоритмом.

Пользователи всегда могут предлагать собственные варианты перевода тех или иных слов и/или выбирать один из вариантов перевода как наиболее подходящий. Недостатком подобного алгоритма могут служить заведомо неверные варианты перевода, в том числе нецензурные слова.

  1. Охват мировых языков.

То есть сейчас программа работает более чем со ста языками, включая суахили, китайский и валлийский языки. Так, Google Translator в силах осуществить перевод с одного поддерживаемого языка на другой поддерживаемый, но в большинстве случаев перевод выполняется через английский. Минус такого механизма очевиден - страдает качество перевода.

На российском рынке машинных переводчиков лидирующую позицию занимает PROMT, разработанный в 1991 году.

PROMT, равно как и Google Translate, использует собственное программное обеспечение, которое в 2010 году заметно обновилось. Отныне PROMT осуществляет перевод, основываясь на гибридной технологии. Её суть заключается в том, что вместо одного варианта перевода программа производит около сотни переводов одного и того же предложения в зависимости от многозначности слов, конструкций и статистических результатов. Затем машина подбирает наиболее вероятный из предложенных переводов. Таким образом, переводчик способен быстро обучаться, но имеет те же минусы, что и все переводчики, основанные на статистических методах обработки текста.

Из возможностей переводчика можно выделить: перевод слов, словосочетаний и текстов, в том числе с помощью «горячих» клавиш; перевод выделенной области экрана с графическим текстом; перевод документов разных форматов: doc(x), xls(x), ppt(x), rtf, html, xml, txt, ttx, pdf (в том числе отсканированные), jpeg, png, tiff; использование, редактирование и создание специализированных словарей и профилей перевода; подключение баз Translation Memory и глоссариев; интеграция в офисные приложения, веб-браузеры, корпоративные порталы и сайты.

Недостатками переводчика являются: небольшое количество языковых пар, с которыми работает программа; сложный интерфейс; неточности в переводах профессиональной лексики (что, впрочем, устраняется благодаря подключению тематических словарей).

Тем не менее, PROMT признавался лучшим англо-русским переводчиком в рамках ежегодного семинара по статистическому машинному переводу под эгидой Ассоциации компьютерной лингвистики (ACL) в 2013 и в 2014 годах.

Существует множество других систем машинного перевода, но они, так или иначе, копируют различные особенности отечественного переводчика PROMT или американского Google Translate.

Таким образом, переводчик в сфере профессиональной коммуникации, зная технологии машинного перевода, умеющий правильно выбрать электронный переводчик для тех или иных целей, будет подкован для осуществления успешной профессиональной деятельности, ведь на данном этапе развития компьютерных технологий думать о полностью автоматическом машинном переводе еще рано. Человек-переводчик мыслит образами и исходит из цели: донести конкретную мысль до слушателя/читателя. Пока сложно представить компьютерную программу с такими возможностями. Современные машинные переводчики носят вспомогательную роль. Они призваны избавить человека от рутинной работы в процессе перевода. Век бумажных словарей окончен, а в помощь профессионалам-переводчикам (и не только) приходят системы машинного перевода.

Список использованной литературы

  1. www.promt.ru
  2. www.translate.google.com
  3. Белоногов Г.Г. Зеленков Ю.Г. Интерактивная система русско-английского и англо-русского машинного перевода, ВИНИТИ, 1993.
  4. Вестник Московского Университета. Сер.19 Лингвистика и межкультурная коммуникация. 2004. № 4, с.51.

Ваша оценка: Пусто



Предыдущая статья: Следующая статья:

© 2015 .
О сайте | Контакты
| Карта сайта