Реферат на тему:


Воспользуйтесь поиском к примеру Реферат        Грубый поиск Точный поиск






Загрузка...
Национальный университет "Киево-Могилянская Академия" Колледж комп ютерних наук

Реферат

на тему

"Исследователи автоматического перевода В.Ингве, Д.М.Йейтс, М.Мастерман, Е. фон Глазерсфельд: их труда и вклад в развитие автоматического перевода"

Выполнила

студентка ДКТ-5

Фиялко Светлана

Коломыя - 2001

Содержание:

Вычислительные машины и перевод. В.Ингве

немецкой и исследователь автоматического перевода Виктор Ингве считал, что для преодоления трудностей при переводе нужно тщательно изучать морфологию и синтаксис соответствующих языков, а также разрабатывать полный перечень элементарных единиц каждого языка.

Описание языка должен быть статичным, а программа для вычислительной машины динамичной. Поэтому В.Ингве предлагал, чтобы данные о языковые факты вводились в машину в виде перечней или таблиц отдельно от программы, ориентированной на обработку этих данных. Такое распределение является удачным том, что уже существуют созданные лингвистами описания различных языков.

В своей работе по генерации английских предложений, он использовал традиционные методы описания языка. В частности для описаний синтаксиса была применена модель непосредственно составляющих (предложения последовательно делится на все меньшие части: сначала выделяется группа подлежащего и сказуемого, каждая из которых, в свою очередь, состоит из двух или более частей; деления продолжается пока не дойдем до слов или морфем) .

В данной работе описание языка подается в четырех таблицах и ориентирован на порождение английских фраз с помощью универсальной вычислительной машины. Машина порождает фразу, двигаясь от узла к узлу. На каждом шагу есть рабочий узел, который определяет следующий шаг. Если рабочий узел изображен в виде круга, то это означает наличие нескольких равноправных альтернатив, и машина делает выбор с помощью таблицы случайных чисел. Если рабочий узел изображен в виде ромба, то следующий шаг определяется однозначно. Если рабочий узел представленный в виде квадрата, то по наступний рабочий узел выбирается узел, расположенный слева под ним, а тот, что справа запомнить незапоминающаяся. Если рабочий узел треугольник, то принцип действия тот же, что и с квадратом, но узел, запомнить незапоминающаяся, используется в более поздних преобразованиях. Каждое слово в прямоугольнике это слово фразы; после размещения этого слова в тексте выбирается новый рабочий узел.

Многие фразы, которые порождаются этой программе бессмысленны, поскольку данная программа порождает только грамматически, а не семантически правильные фразы. Однако она является удобным средством для проверки точности лингвистического описания языка. Если некоторые порожденные фразы грамматически неверные, таблицы можно менять и исправлять. Если бы эта программа была приспособлена для перевода, то выбор слов зависел бы от переводимого текста.

С помощью этой программы можно получать фразы любой длины. Это возможно потому, что выбор узла может осуществляться рекурсивно.

Начиная порождать какую-нибудь двучленного конструкцию, программа должна запомнить Введенные условия один узел, для того чтобы после порождения первого члена конструкции, породить также и печати. При этом могут быть получены фразы большой длины, и возникают значительные требования к оперативной памяти памяти компьютера ютера.

Существуют две структуры порождение запомнить ятованих узлов. При регрессивной структуре машина идет вниз по дереву, разворачивая узлы, например 1, 2, 3, 4 и запомнить ятовуючы определенное количество узлов затем она должна вернуться, чтобы развернуть запомнить ятовани узлы. Глубина регрессивной структуры равно количеству запомнить ятованих узлов. При прогрессивной структуре машина идет вниз по дереву, не поворачиваясь назад и записывая на каждом шагу в оперативную памяти Пять лишь один узел. Машина обрабатывает узел на основной ветке дерева, затем принимается за запомнить ятований узел, а затем снова возвращается к основной ветви. Таким образом, рост глубины регрессивной структуры приводитк необходимости использования большего о объема памяти памяти, тогда как прогрессивная структура может иметь произвольный размер и не требовать при этом увеличение о объема памяти памяти.

Существует два решения по преодолению проблемы нехватки оперативной памяти памяти. Первое оснастить программу соответствующим сигнализатором, который будет сообщать о заполнении оперативной памяти памяти. В это время должен быть ограничен выбор следующего узла таким образом, чтобы узлы, которые надо запомнить Введенные условия, не из являлись до тех пор, пока не освободится памяти ять. Другая возможность сделать грамматику таким образом, чтобы она могла порождать прогрессивные структуры произвольного размера, а регрессивные структуры определенной длины. Однако такие ограничения неудобны, поскольку могут очень усложнить грамматику.

Для определения правильного решения были еще раз тщательно рассмотрены конструкции английского языка, и был сделан вывод, что многие свойства языка направлены на то, чтобы ограничить глубину фраз примерно до 7. С этого В.Ингве выдвинул гипотезу, что все языки имеют морфологические и синтаксические механизмы, служащие для ограничения глубины синтаксических конструкций. Кроме того, психологами установлено, что о объем оперативной памяти памяти человека также равен 7 единиц. Человек не может запомнить закладку сразу, а потом воспроизвести более 7 случайных цифр или слов.

Одним из способов ограничения глубины конструкций в английском языке есть бинарный разделение предложения. Например, предложение делится на группу подлежащего и группу сказуемого, а уже группа сказуемого на глагол и, например, приложение. Если разделить предложение сразу на три части, то нужно запомнить Введенные условия не один, а два узла. Вообще лингвисты отмечают, что речь предпочитает бинарным конструкциям.

Другим способом ограничения глубины конструкций более присущ агглютинативных языкам, является аффиксация, с помощью которой можно объединить различные элементы в одно длинное слово.

Вместе со средствами ограничьения глубины конструкций английский язык имеет механизмы, позволяющие сохранять выразительность, несмотря на жесткое ограничение глубины. Таким механизмом, например, перестановка членов предложения. Кроме того, для предоставления выразительности, предложения строятся так, чтобы сложную структуру перенести на конец, где она будет нуждаться запомнить запоминания на один узел меньше. Это объясняет, почему определительные придаточные предложения идут по своим существительными.

Пример порождение фразы. START - & gt; 103 (Simple sentense) 103 - & gt; 13 (зап. 1) 13 - & gt; HE 1 - & gt; 104 104 - & gt; 206 (зап. 2) 206 - & gt; IS 2 - & gt; 108 108 - & gt; 20 (зап. 3) 20 - & gt; BLACK 3 - & gt; 109 109 - & gt; 204 (зап. 210) 204 - & gt; , 210 - & gt; 108 108 - & gt; 20 (зап. 3) 20 - & gt; SHINY 3 - & gt; 110 110 - & gt; 209 (зап. 20) 209 - & gt; AND 20 - & gt; PROUD

Модель синтаксической структуры российской фразы и алгоритм синтеза английского при автоматическом переводе. Д.М.Йейтс.

В работе английской исследовательницы автоматического перевода Д.М.Йейтс предлагается способ записи грамматических сведений о русской фразу, полученных с помощью анализирующего алгоритма. Эта запись построен таким образом, что алгоритм синтеза английской фразы может непосредственно использовать эти данные. Модель должна была обеспечивать представление в машине любой синтаксической структуры, и это представление, насколько возможно, не должно было зависеть от особенностей обоих языков. Например, словосочетание не спросил в машине представлялось: "спрос- = ask, отрицательная форма, прошедшее время". Подобные множества были названы системами.

Синтаксическая структура представлялась с помощью дерева непосредственно составляющих с такими особенностями, как: Некоторые слова текста, например доли и вспомогательные глаголы, вообще не представлялись в синтаксической структуре. Некоторые слова могли быть представлены дважды, например слово який, которое имеет одновременно н связывать подчиненное предложение с главным и входить в структуру придаточных предложенийния.

Особенности реализации модели.

Синтаксическая структура словосочетаний представляется в машине с помощью списочного структуры, т.е. набора о объектов, каждый из которых либо содержит адреса одного или нескольких других элементов, или имеет отметку о том, что он терминальный. Терминальные о объекты это слова или идиоматические выражения, нетерминальные словосочетание, или составляющие. Например, словосочетание самое интересное семинарской занятие имеет четыре терминальных элементы и два нетерминальные, которые н связанные таким образом:

ГП группа прилагательного, ГИ группа существительного. Каждому элементу приписывается тип составляющей (группа существительного, глагола), а каждому адресу синтаксическая функция, которую выполняет эта меньшая группа в большей.

В препозитивное определения (в группе существительного), Гс главное слово (в группе существительного), проп определитель прилагательного, П прилагательное (в группе прилагательного).

При соответствующем элементе содержится набор грамматических характеристик, в этом примере число, род, и падеж главного существительного.

Существующий алгоритм синтеза сохраняет порядок слов и пунктуацию входной русской фразы, кроме особых случаев, когда есть специальные потребности для их изменения. Это обстоятельство отражается в модели следующим образом: адреса подрядных составляющих сохраняются при каждом элементе в том порядке, в котором стоят сами эти составляющие, и каждый элемент содержит указания о всех знаках препинания, которые его окружают.

Перечень всех типов составляющих и синтаксические функции их составляющих, необходимых для описания фраз.

Составляющая | Возможные компоненты данной составляющей и их синтаксические функции.

Группа существительного (ГИ) | Препозитивное определения (О)

Главное слово (Гс)

приложения (Пл)

постпозитивного определения (ПО)

Группа прилагательного (ГП) | Препозитивного определитель прилагательного (Еккл)

Прилагательное (П)

постпозитивного определитель прилагательного (ПтОП)

предложного группа (ПГ) | Предлог (Пр)

Дополнения предлога (Д)

Группа наречия (ГН) | Препозитивного определитель наречия (ПРН)

Наречие

постпозитивного определитель наречия (ПТН)

Группа глагола (ГГ) | Глагол (Г)

Дополнения (Д)

Обстоятельство (Обь)

Группа однородных членов (ОП) | Союз (С)

Члены однородной группы (ЧО)

Простое предложение (ПР) | Подлежащее (Пи)

сказуемое (Прис)

Обстоятельство (Обь)

Придаточное предложение (подр) | Союз (С)

Простое предложение (ПР)

Сложное предложение (СКР) | Простое предложение (ПР)

Обстоятельство (Обь)

Сравнительная группа (Порги) как + им. | Сравнительный союз (ПОРСА)

Сравнение (ср)

префиксальное группа (ПрфГ) вектор-функция | Префиксальное определения (ПрфО)

Основное слово (Ос)

Кроме того, каждому типу составляющих относится определенная грамматическая характеристика. Например, указания о типе (повествовательное, вопросительное, восклицательное), или оно личным или нет. Если предложение личностное, ему надо приписать указания о числе и человека. Все эти указания приписываются к нетерминального элемента.

Пример синтаксической структуры.

Алгоритм синтеза. Задачи программ обработки составляющих.

Задачей алгоритма синтеза является превращение синтаксической структуры описанного выше типа в цепь букв, представляющих собой соответствующую английскую фразу. При выборе английского эквивалента используются только синтаксические и грамматические характеристики, и не используются никакие семантические сведения или лексические характеристики.

Удобно иметь отдельные программы для обработки составляющих каждого типа. Например, программа обработки составляющих для группы существительного вызывается только тогда, когда должна быть обработана группа существительного.

Все ПОС (программы обработки составляющих) должны быть написаны как рекурсивные программы, поскольку одна составляющая может содержаться в другой, и каждой ПОС необходимо уметь вызывать другие ПОС.

Изменение порядка слов осуществляется с пОмогой изменения порядка адресов в соответствующем элементе.

Выбор английского эквивалента русского слова и придания ему нужной формы осуществляется в момент, когда есть вся информация, необходимая для данной ПОС.

Примеры ПОС. ПОС для группы существительного.

Перед группой существительного вставляется английский предлог, который определяется падежом и указанием о синтаксической функции группы, например, перед группой существительного вставляется предлог of в том случае, когда она имеет указание о родительный падеж и является несогласованным определением в группе существительного. Согласованные определения, содержащие слова, зависящие от прилагательного или причастия, и стоят после них, размещаются в конце группы, при этом ставятся соответствующие комы.

Результат анализа:

Результат синтеза: primary signs of speech signals, chosen by system ПОС для группы глагола.

В группу личного глагола вставляются вспомогательные глаголы и отрицательная частица not, когда это необходимо.

Результат анализа:

Результат синтеза: are insignificantly changed

Эта группа глагола имеет следующие грамматические характеристики: третий лицо, множество, настоящее, пассив. Поэтому ПОС для группы глагола вставляет are и передает управление ПОС для прилагательного. Эта ПОС выдаст английский прилагательное с суффиксом ly.

Предлагаемая модель синтаксической структуры и описан алгоритм являются удовлетворительными. Они имеют то преимущество, что перевод может осуществляться и при неполном алгоритме.

"Мультистор" система корреляционного анализа для английского языка. Э. фон Глаузерсфельд

Данная работа итальянского исследователя Э. фон Глаузерсфельд выполнена в рамках так называемого корреляционного подхода к автоматическому переводу, который разрабатывался с конца 50-х годов под руководством Сильвио Чеккато в Миланском университете.

Специфику этого подхода составляет его семантическое направление: при автоматическом переводе необходимо с самого начала добывать из текста и фиксировать определенным образом его смысл, который затем этИнени выражаться средствами исходного языка. В качестве основного средства изображения смысловых н связей между словами предлагается корреляция, или н связь. Корреляционный синтаксис отличается от традиционного главным образом тем, что все внимание в нем сосредоточивается на отдельных словах, а не на колесах слов. В корреляционной синтаксисе слову приписывается набор индексов, каждый из которых отражает способность данного слова образовывать определенную корреляцию с другим словом, имеющим тот же индекс корреляции. Это позволяет сразу же отбросить много комбинаций слов и словосочетаний, которые могут быть правильными с точки зрения грамматики, но бессмысленные с точки зрения семантики. Метод корреляционного анализа использует много различных "синтакисчних функций". Как следствие этого синтаксических индексов при каждом слове больше, чем признаков традиционной классификации. При таком увеличении исходных данных количество элементарных операций, необходимых для синтаксического анализа, очень возрастает. Например, пусть некотором слову приписано 50 корреляционных индексов. Для того, чтобы составить корреляцию, машина должна сравнить каждый индекс первого слова с каждым индексом второго, то есть выполнить 2500 сравнений. Если теперь пара слов, уже пол связанных в корреляцию, будет реклассифицировано, то есть получит новые возможности вступать в корреляции, то ей будет приписана новая серия из 50 индексов. Такая пара нуждается в свою очередь 2500 сравнений с последующим словом или такой же парой. Для анализа предложения средней длины при таком подходе понадобилось бы сотни тысяч сравнений корреляционных индексов. Предыдущие исследования показали, что можно достичь значительного уменьшения количества сравнений, если учитывать, например, порядок слов в корреляциях. Попытки уменьшить количество операций и породило систему "Мультистор".

Корреляционный анализ.

коррелятор языковое выражение некоторого отношения. Слова любого языка можно разделить на два типа: 1) слова, обозначающие определенные смысловые отношения между о объектами и 2) слова, позделяют сами эти об объекты. Слова первого типа называют експлицитнимы коррелятора, а слова второго типа простыми словами или кореляндамы. Когда отношения не имеет для своего выражения специального слова, говорят о имплицитные корреляторы. Корреляция с имплицитным коррелятором состоит из двух слов. Например, "девочка поет" здесь смысловые отношения выражены с помощью морфологических характеристик, а именно, личная форма глагола показывает, что действие, обозначенное глаголом, выполняется в данном случае дивчинкою. Корреляция с эксплицитно коррелятором должна содержать минимум три слова. Например, в словосочетании "красный и черный" эксплицитно коррелятором выступает союз и. Первое и третье слово называются коррелятами.

Для изображения корреляций используется графическое представление.

1 место первого коррелята, 2 место второго коррелята, 3 место коррелятора.

Корреляция "green bottle".

521 индекс того имплицитно коррелятора, которому в традиционной грамматике соответствует синтаксическая функция "прилагательное, является

Загрузка...

Страницы: 1 2