Neural machine что это

Нейронный машинный перевод — Neural machine translation

Нейронный машинный перевод (NMT) — это подход к машинному переводу, в котором используется искусственная нейронная сеть для прогнозирования вероятности последовательности слов, обычно моделируя целые предложения в единой интегрированной модели.

1 Свойства
2 История
3 Работа
4 Ссылки

Свойства

Им требуется лишь небольшая часть памяти, необходимой традиционной статистической машине перевод (SMT) модели. Кроме того, в отличие от традиционных систем перевода, все части нейронной модели перевода обучаются совместно (от начала до конца), чтобы максимизировать производительность перевода.

История

Приложения глубокого обучения впервые появились в распознавание речи в 1990-е гг. Первая научная статья об использовании нейронных сетей в машинном переводе появилась в 2014 году, после чего в последующие несколько лет последовал большой прогресс. (NMT с большим словарным запасом, приложение для создания подписей к изображениям, Subword-NMT, Multilingual NMT, Multi-Source NMT, Character-dec NMT, Zero-Resource NMT, Google, Fully Character-NMT, Zero-Shot NMT в 2017 году). был первым появлением системы NMT на публичном конкурсе машинного перевода (OpenMT’15). WMT’15 также впервые имел соперника по NMT; в следующем году среди победителей уже было 90% систем NMT.

Работа

NMT отходит от фразовых статистических подходов, в которых используются отдельно разработанные подкомпоненты. Нейронный машинный перевод (NMT) — не радикальный шаг вперед по сравнению с тем, что традиционно делается в статистическом машинном переводе (SMT). Его основным отличием является использование векторных представлений («вложений», «непрерывных пространственных представлений») для слов и внутренних состояний. Структура моделей проще, чем модели, основанные на фразах. Не существует отдельной языковой модели, модели перевода и модели переупорядочивания, а есть только одна модель последовательности, которая предсказывает одно слово за раз. Однако это предсказание последовательности зависит от всего исходного предложения и всей уже созданной целевой последовательности. Модели NMT используют глубокое обучение и изучение представлений.

Моделирование последовательности слов сначала обычно выполнялось с использованием рекуррентной нейронной сети (RNN). Двунаправленная рекуррентная нейронная сеть, известная как кодировщик, используется нейронной сетью для кодирования исходного предложения для второй RNN, известного как декодер, который используется для предсказания слов на целевом языке. Рекуррентные нейронные сети сталкиваются с трудностями при кодировании длинных входных данных в один вектор. Это может быть компенсировано механизмом внимания, который позволяет декодеру фокусироваться на различных частях ввода при генерации каждого слова вывода. Существуют и другие модели покрытия, решающие проблемы в таких механизмах внимания, такие как игнорирование прошлой информации о согласовании, приводящей к чрезмерному и недостаточному преобразованию.

Сверточные нейронные сети (Convnets) в принципе несколько лучше для длительных непрерывных последовательности, но изначально не использовались из-за ряда недостатков. В 2017 году они были успешно компенсированы использованием «механизмов внимания».

Модель, основанная на внимании, архитектура преобразователя остается доминирующей архитектурой для нескольких языковых пар.

Технология и литература
Как работает искусственный интеллект в области литературного перевода

Как

Когда в 2006 году был запущен Google Translate, он имел в арсенале только два языка перевода. В 2016 году уже было более 103 языков, и он переводил более 100 миллиардов слов в день. Система может не только переводить, но и транскрибировать в режиме реального времени восемь наиболее распространенных языков. Машины учатся, и учатся они очень быстро.

Алана Куллен

Тем не менее, есть некоторые лингвистические коды, которые этим машинам все еще предстоит взломать. Искусственный интеллект продолжает бороться с огромной сложностью человеческого языка, и нигде язык не является таким сложным и значимым, как в литературе. В романах, стихах и пьесах красота слов порою заключается в нюансах и деталях. Машины переводят слово в слово, следуя при этом установленным лингвистикой правилам, поэтому традиционные системы перевода часто не понимают значения литературных текстов. Они не понимают переводимое слово в контексте предложения, параграфа или страницы.

Но есть новая технология, способная разобраться в этом контекстуальном хаосе — Neural Machine Translation (нейронный машинный перевод), сокращенно называемый НМП. Хотя НМП все еще находится в зачаточном состоянии, он уже доказал, что его системы со временем научатся справляться с присущей литературным переводам сложностью. НМП знаменует собой начало новой эры искусственного интеллекта. Он больше не работает по правилам, установленным лингвистами, теперь он создает свои собственные правила и даже свой собственный язык.

НЕЙРОННЫЙ МАШИННЫЙ ПЕРЕВОД (НМП)

НМП появился в 2016 году. На сегодняшний день это самое успешное программное обеспечение для перевода. Помимо того, что он смог снизить погрешность на 60 % — по сравнению со своим предшественником, статистическим машинным переводом (СМП), НМП также значительно быстрее работает.

Искусственная нейросеть. Исходный код вводится в сеть, затем отправляется в различные скрытые „слои” сети и выводится на целевом языке.

Улучшения обеспечиваются искусственной нейронной сетью системы. Это значит, что НМП базируется на модели нейронов, созданной по подобию существующей в мозге человека. Эта сеть позволяет программному обеспечению создавать контекстные связи между словами и фразами. Она может создавать эти связи, изучая языковые правила. Она сканирует миллионы блоков из вашей базы данных, определяя общие черты. Затем машина использует заученные правила для создания статистических моделей, которые помогут ей понять, каким образом должно строиться предложение.

ИСКУССТВЕННЫЙ ЯЗЫК

Новаторской особенностью НМП является создание нового языка чисел, который помогает при переводе.

Как, например, выглядит фраза «To thine own self be true» из шекспировского «Гамлета»? Машина кодирует каждое слово в число, в так называемые векторы: 1, 2, 3, 4, 5, 6. Этот числовой ряд передается в нейронную сеть, как показано по ссылкам. И далее в этих скрытых слоях происходит «магия». Опираясь на изученные языковые правила, система находит подходящие слова в языке перевода. Генерируются числа 7, 8, 9, 10, 11, соответствующие словам целевого предложения. Затем эти числа расшифровываются и в результате преобразуются в предложение: «Быть верным себе».

По сути, система переводит слова на свой собственный язык, а затем «думает» о том, как, основываясь на том, что она уже знает, она может придать этим словам форму понятного предложения — так, как это сделал бы человеческий мозг.

ПОНИМАНИЕ КОНТЕКСТА

НМП может успешно переводить литературу, поскольку он медленно, но верно понимает контекст. Система фокусируется не только на переводимом слове, но и на словах, стоящих перед ним и за ним.

Как и мозг, расшифровывающий различную информацию, эта искусственная нейронная сеть смотрит на получаемую информацию и генерирует следующее слово на основе предыдущего. Со временем она выучит, на каких словах следует сосредоточиться и, опираясь на существующие примеры, определит, какой контекст имеет основополагающее значение. Этот метод представляет собой один из видов многоуровневого обучения и способствует тому, что система заучивает все больше и больше данных и постоянно совершенствуется. В НМП расшифровка контекста называется «выравниванием», оно происходит с помощью механизма Attention («Внимание»), который занимает в системе промежуточное место между шифрованием и дешифрованием.
Процесс адаптации. Адаптация происходит с помощью механизмов внимания искусственной нейронной сети и делает выводы о контексте слова. Но и машины не совершенны. Когда шекспировская фраза переводится обратно на английский язык, она звучит как «Be true to yourself», что не соответствует тону языка Шекспира и эпохи Тюдоров. Литературный перевод, выполненный слово в слово, звучит как «будь верен своему я», но «живые» переводчики больше склонны переводить эту фразу как «будь верен себе».
Перевод, созданный людьми. Если предложения переведены человеком, соотношения намного сложнее, чем при переводах искусственного интеллекта. Это связано с тем, что люди лучше понимают контекст. Но интересно уже даже то, что Google Translate увидел важность в этом контексте слова «верен». То, что он использовал именно это слово, доказывает, что он смог различить разницу между словами «верный» и «истинный». Многоуровневое обучение означает, что неправильно переведенное предложение может быть переведено правильно, по крайней мере, частично, уже ечерез несколько недель. (Возможно, Google Translate уже исправил свои ошибки к моменту публикации этой статьи.)

Постоянное совершенствование с учетом развития собственного языка означает, что НМП может использоваться для выполнения так называемых переводов Zero-Shot (при отсутствии примеров переводов). Это означает, что он может переводить с одного языка сразу на несколько других языков без использования английского языка в качестве промежуточного варианта. Как и в случае с людьми, к машинам, по-видимому, также применима фраза «Практика приводит к совершенству».

Lost in Translation — ПОТЕРЯНО ПРИ ПЕРЕВОДЕ

Несмотря на то, что машинный перевод в последние годы уже сделал большие шаги, ему пока не удается достичь литературного стандарта. Генри Джеймс подчеркивал важность понимания текста на языке оригинала, заметив, что идеальным литературным переводчиком должен быть «человек, от которого ничто не ускользает». По крайней мере, в случае с литературой машинам, чтобы соответствовать этому идеалу, предстоит пройти еще очень длинный путь.

При выполнении литературных переводов у НМП возникают проблемы с редкими словами, именами собственными и сложным техническим языком. Только 25-30 % переводов соответствуют литературному стандарту. Соответствующее исследование, посвященное переводу с немецкого на английский язык, показало, что, хотя система и допускала мало синтаксических ошибок, она часто не находила адекватного перевода для многозначных слов. Несмотря на эти ошибки, по мнению исследователей, качество перевода было достаточным, чтобы понять историю и насладиться ею. Другое исследование, посвященное переводам с английского на каталонский язык, показало столь же хороший результат. 25 % носителей языка обнаружили, что качество машинного перевода вполне сопоставимо с переводом, выполненным человеком.

Однако система перевода не всегда добивается таких хороших результатов. В некоторых языковых парах ей приходится бороться с языками с богатой морфологией, в которых серьезную роль играют словоизменение и интонация. И это в первую очередь касается славянских языков. И особенно бросается в глаза, если вы переводите с менее сложного языка на более сложный. Поэтому НМП пока еще не может использоваться в качестве глобального инструмента перевода.

КАК НАЙТИ ПОДХОДЯЩИЙ СТИЛЬ?

Самая большая проблема заключается в том, чтобы найти для переводимого текста правильный стиль и слог. Питер Константин, директор программы литературного перевода в университете Коннектикута, объяснил, что для успешного перевода литературы машины тоже должны найти подходящий стиль.

«Чему подражает машина? Стремится ли она к блестящей иностранной интерпретации, первоклассно проводящей культурную составляющую? Или язык Чехова покажется таким, как если бы текст был написан десять минут назад в лондонском метро?»

Какой стиль выберет машина? К примеру, рассмотрим обратимся к работам немецкого нобелевского лауреата Томаса Манна. С годами стиль его письма менялся: ранние рассказы были более игривыми, что существенно отличает их слог от поздних, более сложных романов. Если стоит цель уловить точный смысл, машины должны уметь распознавать эти отличия.

ВАЖНАЯ СОВМЕСТНАЯ РАБОТА

Становится ясно, что, несмотря на все свои усилия, учитывая специфическую двусмысленность слов и гибкость литературного языка, машина все еще нуждается в человеческом руководстве. НМП не может заменить живых переводчиков, но может стать полезным инструментом при переводе литературы.

При этом важно взаимодействие между переводами, выполняемыми машиной и человеком. Одним из ответов на данный вопрос может быть постобработка машинного перевода. В данном случае профессиональные переводчики, разбирающиеся в проблемах машинного перевода, могут отредактировать первичную версию машинного перевода — как более опытные коллеги поддерживают своих не очень опытных коллег. Простая постобработка поможет исправить незначительные орфографические ошибки и улучшить грамматику, а углубленное редактирование позволит решить более серьезные проблемы, такие как структура предложений и стиль речи. В литературных переводах обязательна обработка, позволяющая найти правильный стиль перевода. Одно исследование показало, что этот метод оказался на 31 % быстрее при переводе научно-фантастического романа с гэльского на ирландский язык, чем перевод без использования какого-либо программного обеспечения. Кроме того, производительность переводчиков, которые в качестве отправной точки использовали машинный перевод, выросла на 36 %. С помощью этого метода они генерировали за один час на 182 слова больше.

Искусственный интеллект играет все большую роль в нашей жизни, и следует использовать этот инструмент перевода для развития отрасли. Машинный перевод прошел большой путь — от самых азов до отличного вспомогательного инструмента. Программное обеспечение делает мелкую неприятную работу, в то время как переводчики могут посвятить себя чистовой отделке. Это ведет к снятию нагрузки на переводчиков. К тому же, НМП также позволяет переводить с языков, переводы с которых ранее никогда не осуществлялись. Кроме того, НМП может помочь выучить язык. Во время работы мы можем использовать его в качестве обучающего инструмента — ведь он для всех обеспечивает оптимальный доступ к языку и литературе.

Материал является частью проекта Гёте-Института Великобритании, посвящённого искусственному интеллекту и литературному переводу.

Источники:

Системы машинного перевода

Вряд ли среди нас есть хоть один человек, который бы ни разу не пользовался Яндекс- или Google-переводчиком. Однако далеко не все осознают, что эти сервисы есть не что иное, как системы машинного перевода. Давайте разберёмся, что из себя представляет машинный перевод и как он появился.

Стоит отметить, что за последнее время технологии не только машинного перевода, но и искусственного интеллекта в целом сделали огромный шаг вперёд: никого уже не удивишь словосочетанием «нейронная сеть» или «самообучающаяся система». Однако так было далеко не всегда — долгое время учёные пытались создать механизм перевода с одного естественного (это важное условие в определении машинного перевода) языка на другой, но попытки были безуспешными.

Всё началось в 1930-е годы, когда советский учёный П.П. Смирнов-Троянский представил Академии наук СССР разработанную им «машину для подбора и печатания слов при переводе с одного языка на другой». Машина состояла из стола, перед которым был закреплён фотоаппарат, синхронизированный с печатной машинкой. На поверхности стола было расположено «глоссарное поле» — свободно двигающаяся пластина с напечатанными на ней словами на трёх и более языках.

Оператор фотографировал карточку, соответствующую определённому слову, а на печатной машинке набирал его морфологическую информацию — часть речи, число, падеж и т.д. Лента печатной машинки и плёнка камеры выходили одновременно. Таким образом получался набор кадров со словами и их морфологией.

Затем лингвисты превращали набор фотографий в связный литературный текст: чтобы переводить тексты, и оператору, и лингвистам достаточно было знать только свой родной язык.

К сожалению, изобретение было встречено скептически и на долгое время было забыто. Только в 1956 году уже другие советские ученые нашли патенты в архивах. И это произошло не случайно. Дело в том, что незадолго до этого, в 1954 году, в штаб-квартире IBM в Нью-Йорке был проведён так называемый «Джорджтаунский эксперимент», после которого Советский союз ощутил необходимость догонять США в разработке машинного перевода.

В ходе данного эксперимента компьютер IBM 701 впервые в мире автоматически перевёл 60 предложений с русского языка на английский. Впоследствии эксперимент не раз подвергался критике: примеры для перевода были тщательно подобраны и исключали любую неоднозначность. Для повсеместного использования эта система, безусловно, не подходила. Но интерес учёных и публики к машинному переводу заметно возрос, и с 1970-х годов его развитие стремительно набирало обороты. В настоящее время машинный перевод является одной из наиболее перспективных отраслей искусственного интеллекта.

Виды машинного перевода

Системы машинного перевода делятся на три категории: системы на основе грамматических правил (Rule-Based Machine Translation, RBMT), статистические системы (Statistical Machine Translation, SMT) и гибридные системы, сочетающие преимущества первых двух групп. Есть ещё один, относительно новый вид машинного перевода — нейронный. О нём подробнее будет рассказано далее, а пока давайте разберёмся в первых двух видах.

Системы RBMT анализируют текст и строят его перевод на базе встроенных словарей и набора грамматических правил для данной языковой пары. ПРОМТ и Systran — самые известные примеры RBMT-систем. Качество таких переводов оставляет желать лучшего, но они до сих пор используются (например, во всеми любимых переводах названий товаров на Aliexpress).

Среди плюсов RBMT можно отметить морфологическую точность (слова при переводе не путаются), воспроизводимость (всегда одинаковый результат) и возможность настроить систему под предметную область (обучить специальным терминам).

В системах SMT применяется принцип статистического анализа: в программу загружаются огромные объёмы текстов на исходном языке и их переводы, выполненные человеком. Программа анализирует статистику межъязыковых соответствий, синтаксических конструкций и т. п., затем опирается на неё при выборе вариантов перевода — это и есть самообучение.

Тут уже в дело вступает нейронный машинный перевод (англ. Neural Machine Translation, NMT), т.к. самообучение характерно, в первую очередь, для перевода на базе нейросетей. Данный вид перевода начал появляться в 1990-х годах и сейчас является основным видом машинного перевода.

Image result for neural machine translation

Нейросеть — математическая модель, построенная по принципу сетей нервных клеток живого организма. Возможность обучения является одним из главных преимуществ нейронных сетей перед традиционными алгоритмами перевода. Систему может обучать и человек, корректируя результаты перевода. Именно так и работают онлайн-переводчики Яндекс и Google. Благодаря самообучению качество перевода у них повышается с каждым новым переведённым текстом.

В середине 2000-х годов популярность приобрело «глубинное обучение» (англ. Deep learning). Главное его отличие от классических нейросетей в том, что его сети обучаются находить характерные свойства объектов, не задаваясь вопросами об их происхождении. Таким образом, при таком виде перевода независимо друг от друга действуют два механизма: сначала одна нейросеть кодирует текст на основе каких-либо характеристик, затем вторая декодирует их в текст переводного языка. Студенты переводческого отделения наверняка сейчас вспомнили любимую фразу преподавателей: «Переводите смыслы, а не слова» J

За последние несколько лет нейросети превзошли всё, что было придумано в переводе за последние 20 лет. Они даже научались согласовывать роды и падежи в разных языках (сами!). Кроме того, впервые стало возможно напрямую переводить между языками, у которых не было ни одного общего словаря. Ранее методы статистического перевода всегда работали через английский язык. Нейронному переводу же это не нужно.

А теперь неожиданный вопрос — вы когда-нибудь задумывались, чем отличается Яндекс-переводчик от Google-переводчика? Ничем? А вот и нет, различия всё-таки есть, пусть они и незаметны на первый взгляд.

GOOGLE TRANSLATE

В 2016 году Google включил нейронный перевод девяти языков между собой, в 2017 был добавлен и русский. Google разработал собственную систему под названием Google Neural Machine Translation (GNMT). GNMT улучшает качество перевода, применяя метод машинного перевода на основе примеров (англ. Example-based machine translation, EBMT). Таким образом, система обучается на основе аналогии, используя базу примеров переводов, выполненных человеком.

ЯНДЕКС ПЕРЕВОДЧИК

Яндекс запустил свой нейросетевой перевод в 2017 году и среди своих главных отличий выделял гибридность. Яндекс переводит предложение сразу двумя методами — статистическим и нейросетевым, а потом с помощью специального алгоритма находит наиболее подходящий. Google пользуется только нейросетевым методом.

У гибридного метода есть ряд преимуществ. Например, нейронный перевод не всегда хорошо справляется с короткими фразами. Простой статистический перевод, как правило, лучше находит эквиваленты устойчивых словосочетаний. Получается, что в этом плане Яндекс продвинулся немного дальше.

При этом, когда дело касается перевода предложений целиком, лучше добавлять точку в конце предложения. Тогда система включает механизм нейронного перевода и работает лучше, чем через статистический перевод. С Google-переводчиком такое срабатывает не всегда. Выходит, и тут Яндекс впереди.

Можно ли однозначно утверждать, что один онлайн-переводчик лучше другого? Скорее всего нет, так как учтены далеко не все факторы. Но это уже тема для отдельного исследования, а пока решать вам, каким переводчиком пользоваться. Ну а если верить преподавателям нашего факультета, то лучше ими не пользоваться вовсе и выполнять переводы самим – если даже нейросеть учится, то и вы точно можете!

Источники:

«Машинный перевод: от холодной войны до диплёрнинга» (блог Вастрик.ру, vas3k.ru/blog/machine_translation).
Википедия (статьи «Машинный перевод», «Смирнов-Троянский, Пётр Петрович», «Джорджтаунский эксперимент», «Глубокое обучение», «Google Neural Machine Translation»).

Обложка статьи: From Bēhance by Penelope Mavromiti.

Bio
Latest Posts

Как работает нейронный машинный перевод?

В этой публикации нашего цикла step-by-step статей мы объясним, как работает нейронный машинный перевод и сравним его с другими методами: технологией перевода на базе правил и технологией фреймового перевода (PBMT, наиболее популярным подмножеством которого является статистический машинный перевод — SMT).

Результаты исследования, полученные Neural Machine Translation, удивительны в части того, что касается расшифровки нейросети. Создается впечатление, что сеть на самом деле «понимает» предложение, когда переводит его. В этой статье мы разберем вопрос семантического подхода, который используют нейронные сети для перевода.

Давайте начнем с того, что рассмотрим методы работы всех трех технологий на различных этапах процесса перевода, а также методы, которые используются в каждом из случаев. Далее мы познакомимся с некоторыми примерами и сравним, что каждая из технологий делает для того, чтобы выдать максимально правильный перевод.

Очень простой, но все же полезной информацией о процессе любого типа автоматического перевода является следующий треугольник, который был сформулирован французским исследователем Бернардом Вокуа (Bernard Vauquois) в 1968 году:

В этом треугольнике отображен процесс преобразования исходного предложения в целевое тремя разными путями.

Левая часть треугольника характеризует исходный язык, когда как правая — целевой. Разница в уровнях внутри треугольника представляет глубину процесса анализа исходного предложения, например синтаксического или семантического. Теперь мы знаем, что не можем отдельно проводить синтаксический или семантический анализ, но теория заключается в том, что мы можем углубиться на каждом из направлений. Первая красная стрелка обозначает анализ предложения на языке оригинала. Из данного нам предложения, которое является просто последовательностью слов, мы сможем получить представление о внутренней структуре и степени возможной глубины анализа.

Например, на одном уровне мы можем определить части речи каждого слова (существительное, глагол и т.д.), а на другом — взаимодействие между ними. Например, какое именно слово или фраза является подлежащим.

Когда анализ завершен, предложение «переносится» вторым процессом с равной или меньшей глубиной анализа на целевой язык. Затем третий процесс, называемый «генерацией», формирует фактическое целевое предложение из этой интерпретации, то есть создает последовательность слов на целевом языке. Идея использования треугольника заключается в том, что чем выше (глубже) вы анализируете исходное предложение, тем проще проходит фаза переноса. В конечном итоге, если бы мы могли преобразовать исходный язык в какой-то универсальный «интерлингвизм» во время этого анализа, нам вообще не нужно было бы выполнять процедуру переноса. Понадобился бы только анализатор и генератор для каждого переводимого языка на любой другой язык (прямой перевод прим. пер.)

Эта общая идея и объясняет промежуточные этапы, когда машина переводит предложения пошагово. Что еще более важно, эта модель описывает характер действий во время перевода. Давайте проиллюстрируем, как эта идея работает для трех разных технологий, используя в качестве примера предложение «The smart mouse plays violin» (Выбранное авторами публикации предложение содержит небольшой подвох, так как слово «Smart» в английском языке, кроме самого распространенного смысла «умный», имеет по словарю в качестве прилагательного еще 17 значений, например «проворный» или «ловкий» прим. пер.)

Машинный перевод на базе правил

Машинный перевод на базе правил является самым старым подходом и охватывает самые разные технологии. Однако, в основе всех их обычно лежат следующие постулаты:

Процесс строго следует треугольнику Вокуа, анализ очень часто завышен, а процесс генерации сводится к минимальному;
Все три этапа перевода используют базу данных правил и лексических элементов, на которые распространяются эти правила;
Правила и лексические элементы заданы однозначно, но могут быть изменены лингвистом.

Тут мы видим несколько простых уровней анализа:

Таргеритование частей речи. Каждому слову присваивается своя «часть речи», которая является грамматической категорией.
Морфологический анализ: слово «plays» распознается как искажение от третьего лица и представляет форму глагола «Play».
Семантический анализ: некоторым словам присваивается семантическая категория. Например, «Violin» — инструмент.
Составной анализ: некоторые слова сгруппированы. «Smart mouse» — это существительное.
Анализ зависимостей: слова и фразы связаны с «ссылками», при помощи которых происходит идентификация объекта и субъекта действия основного глагола «Plays».

Применение этих правил приведет к следующей интерпретации на целевом языке перевода:

Тогда как правила генерации на французском будут иметь следующий вид:

Прилагательное, выраженное словосочетанием, следует за существительным — с несколькими перечисленными исключениями.
Определяющее слово согласованно по числу и роду с существительным, которое оно модифицирует.
Прилагательное согласовано по числу и полу с существительным, которое оно модифицирует.
Глагол согласован с подлежащим.

Машинный перевод на базе фраз

Машинный перевод на базе фраз — это самая простая и популярная версия статистического машинного перевода. Сегодня он по-прежнему является основной «рабочей лошадкой» и используется в крупных онлайн-сервисах по переводу.

Выражаясь технически, машинный перевод на базе фраз не следует процессу, сформулированному Вокуа. Мало того, в процессе этого типа машинного перевода не проводится никакого анализа или генерации, но, что более важно, придаточная часть не является детерминированной. Это означает, что технология может генерировать несколько разных переводов одного и того же предложения из одного и того же источника, а суть подхода заключается в выборе наилучшего варианта.

Эта модель перевода основана на трех базовых методах:

Использование фразы-таблицы, которая дает варианты перевода и вероятность их употребления в этой последовательности на исходном языке.
Таблица изменения порядка, которая указывает, как могут быть переставлены слова при переносе с исходного на целевой язык.
Языковая модель, которая показывает вероятность для каждой возможной последовательности слов на целевом языке.

Далее из этой таблицы генерируются тысячи возможных вариантов перевода предложения, например:

Однако благодаря интеллектуальным вычислениям вероятности и использованию более совершенных алгоритмов поиска, будет рассмотрен только наиболее вероятные варианты перевода, а лучший сохранится в качестве итогового.

В этом подходе целевая языковая модель крайне важна и мы можем получить представление о качестве результата, просто поискав в Интернете:

Поисковые алгоритмы интуитивно предпочитают использовать последовательности слов, которые являются наиболее вероятными переводами исходных с учетом таблицы изменения порядка. Это позволяет с высокой точностью генерировать правильную последовательность слов на целевом языке.

В этом подходе нет явного или неявного лингвистического или семантического анализа. Нам было предложено множество вариантов. Некоторые из них лучше, другие — хуже, но, на сколько нам известно, основные онлайн-сервисы перевода используют именно эту технологию.

Нейронный машинный перевод

Подход к организации нейронного машинного перевода кардинально отличается от предыдущего и, опираясь на треугольник Вокуа, его можно описать следующим образом:

Нейронный машинный перевод имеет следующие особенности:

«Анализ» называется кодированием, а его результатом является загадочная последовательность векторов.
«Перенос» называется декодированием и непосредственно генерирует целевую форму без какой-либо фазы генерации. Это не строгое ограничение и, возможно, имеются вариации, но базовая технология работает именно так.

Последовательность исходных контекстов (ContextS 1,… ContextS 5) являет внутренней интерпретацией исходного предложения по треугольнику Вокуа и, как упоминалось выше, представляет из себя последовательность чисел с плавающей запятой (обычно 1000 чисел с плавающей запятой, связанных с каждым исходным словом). Пока мы не будем обсуждать, как кодировщик выполняет это преобразование, но хотелось бы отметить, что особенно любопытным является первоначальное преобразование слов в векторе «float».

На самом деле это технический блок, как и в случае с основанной на правилах системой перевода, где каждое слово сначала сравнивается со словарем, первым шагом кодера является поиск каждого исходного слова внутри таблицы.

Предположим, что вам нужно вообразить разные объекты с вариациями по форме и цвету в двумерном пространстве. При этом объекты, находящиеся ближе всего друг к другу должны быть похожи. Ниже приведен пример:

На оси абсцисс представлены фигуры и там мы стараемся поместить наиболее близкие по этому параметру объекты другой формы (нам нужно будет указать, что делает фигуры похожими, но в случае этого примера это кажется интуитивным). По оси ординат располагается цвет — зеленый между желтым и синим (расположено так, потому что зеленый является результатом смешения желтого и синего цветов, прим. пер.) Если бы у наших фигур были разные размеры, мы бы могли добавить этот третий параметр следующим образом:

Если мы добавим больше цветов или фигур, мы также сможем увеличить и число измерений, чтобы любая точка могла представлять разные объекты и расстояние между ними, которое отражает степень их сходства.

Основная идея в том, что это работает и в случае размещения слов. Вместо фигур есть слова, пространство намного больше — например, мы используем 800 измерений, но идея заключается в том, что слова могут быть представлены в этих пространствах с теми же свойствами, что и фигуры.

Следовательно, слова, обладающие общими свойствами и признаками будут расположены близко друг к другу. Например, можно представить, что слова определенной части речи — это одно измерение, слова по признаку пола (если таковой имеется) — другое, может быть признак положительности или отрицательности значения и так далее.

Мы точно не знаем, как формируются эти вложения. В другой статье мы будем более подробно анализировать вложения, но сама идея также проста, как и организация фигур в пространстве.

Вернемся к процессу перевода. Второй шаг имеет следующий вид:

На этом этапе формируется полная последовательность с упором на «исходный контекст», после чего один за другим целевые слова генерируются с использованием:

«Целевого контекста», сформированного в связке с предыдущим словом и предоставляющего некоторую информацию о состоянии процесса перевода.
Значимости «контекстного источника», который представляет собой смесь различных «исходных контекстов» опираясь на конкретную модель под названием «Модель внимания» (Attention Model). Что это такое мы разберем в другой статье. Если кратко, то «Модели внимания» выбирают исходное слово для использование в переводе на любом этапе процесса.
Ранее приведенного слова с использованием вложения слов для преобразования его в вектор, который будет обрабатываться декодером.

Весь процесс, несомненно, весьма загадочен и нам потребуется несколько публикаций, чтобы рассмотреть работу его отдельных частей. Главное, о чем следует помнить — это то, что операции процесса нейронного машинного перевода выстроены в той же последовательности, что и в случае машинного перевода на базе правил, однако характер операций и обработка объектов полностью отличается. И начинаются эти отличия с преобразования слов в векторы через их вложение в таблицы. Понимания этого момента достаточно для того, чтобы осознать, что происходит в следующих примерах.

Примеры перевода для сравнения

Давайте разберем некоторые примеры перевода и обсудим, как и почему некоторые из предложенных вариантов не работают в случае разных технологий. Мы выбрали несколько полисемических (т.е. многозначных, прим. пер.) глаголов английского языка и изучим их перевод на французский.

Мы видим, что машинный перевод на базе фраз, интерпретирует «render» как смысл — за исключением очень идиоматического варианта «оказание помощи». Это можно легко объяснить. Выбор значения зависит либо от проверки синтаксического значения структуре предложения, либо от семантической категории объекта.

Для нейронного машинного перевода видно, что слова «help» и «assistance» обрабатываются правильно, что показывает некоторое превосходство, а также очевидную способность этого метода получать синтаксические данные на большом расстоянии между словами, что мы более детально рассмотрим в другой публикации.

На этом примере опять видно, что нейронный машинный перевод имеет семантические различия с двумя другими способами (в основном они касаются одушевленности, обозначает слово человека или нет).

Однако отметим, что было неправильно переведено слово «rounds», которое в данном контексте имеет значение слова «bullet». Мы объясним этот типа интерпретации в другой статье, посвященной тренировке нейронных сетей. Что касается перевода на базе правил, то он распознал только третий смысл слова «rounds», который применяется в отношении ракет, а не пуль.

Выше еще один интересный пример того, как смысловые вариации глагола в ходе нейронного перевода взаимодействуют с объектом в случае однозначного употребления предлагаемого к переводу слова (crime или destination).

Другие варианты со словом «crime» показали тот же результат…

Переводчики работающие на базе слов и фраз так же не ошиблись, так как использовали те же глаголы, приемлемые в обоих контекстах.

перевод
машинный перевод
нейросети
нейронный перевод
перевод на базе слов
перевод на базе фраз
Бернард Вокуа
лингвистика
семантика

Блог компании Lokalise
Семантика
Алгоритмы
Машинное обучение