Главная > Распознавание образов > Лекции по теории образов: Анализ образов
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Глава 2. Анализ абстрактных образов

2.1. Парадигматические деформации

В разд. 2.1-2.3 мы рассмотрим (линейные) изображения-последовательности, содержащие отвлеченные символы. Конфигурации, однако, не обязательно должны иметь линейный тип соединения; мы будем изучать, что происходит при применении к ним различных механизмов деформации.

Простейший случай — когда образующие являются символами некоторого заданного алфавита, т. е. представляют собой «буквы» или «слова» некоторого языка, и — «линейный» с отношением согласования р - «истина». Это означает, что мы имеем дело с абсолютно неструктурированным случаем, который описан в начале разд. , и, следовательно, изображение — это просто произвольная цепочка символов, а группа преобразований подобия S—группа подстановок.

Обозначим образующие через и соответствующие вероятности через Удобно считать, что вероятности упорядочены по неубыванию. Вероятностная мера на — это просто Р-мера, соответствующая независимо идентично распределенным переменным, принимающим значения в

Пусть деформации вносят в конфигурации такие смещения (как это было описано в Случае 4.2.1, т. 1), что символы алфавита переставляются путем применения одного из преобразований подобия Нам не известно преобразование подобия и мы хотим найти метод восстановления идеального изображения.

Здесь мы имеем дело с обычным шифром, и интуитивно очевидно и давно известно, как восстанавливать идеальное изобраг жение I исходя из деформированного изображения Менее очевидным может оказаться то, почему этот метод в некотором смысле оптимален, так что мы бегло обсудим эту проблему и ряд связанных с ней вопросов, прежде чем перейти в следующем разделе к изучению более интересных случаев.

Мы попытаемся определить обратное преобразование с помощью критерия вида (1.4.10), т. е. воспользуемся процедурой распознавания, основанной на методе максимального правдоподобия. Если -преобразование подобия, с помощью которого реализуются то для деформированного изображения

справедливо следующее:

или, в более компактном виде,

где число случаев появления символа Наблюдению поддаются но не так что для максимизации правдоподобия следует минимизировать следующую сумму:

где это элемент преобразованного алфавита. Если некоторые то соответствующие символы просто удаляются из алфавита.

Решение уравнения (2.1.3) не вызывает никаких затруднений (см. монографию Харди, Литлвуда и Пойа (1934), гл. 10). Поскольку последовательность невозрастающая, нам остается просто найти подстановку, которая делает неубывающей. Оператор изображения принимает в этом случае вид обращения этой подстановки в применяемого по отдельности к каждому символу деформированного изображения, — решение, продиктованное обычным здравым смыслом. Если все различные, то нетрудно показать, что вероятность правильного восстановления с помощью данного метода стремится к единице при стремлении к бесконечности. Этот вид распознавания является, следовательно, состоятельным.

Здесь мы начинали со случая, когда отсутствует структура, затем на вводилась Р-мера, что делало возможным восстановление. В принципе можно было бы перейти к несколько более структурированным случаям аналогично тому, как это делалось в разд. . Если образующие представляют собой переходы отношение согласования означает «равенство», идеальные изображения все еще остаются цепочками символов заданного алфавита, то мы получаем стационарную марковскую цепь. Пусть вероятности перехода, и существует, скажем, единственное множество вероятностей равновесия. Точно такие же соображения, как и выше, позволяют определить подстановку как решение уравнения

где Преобразование, обратное найденному должно затем использоваться для восстановления

идеального изображения. Аналогичным образом дело обстоит и для марковских цепей высших порядков.

Рассмотрим еще один слабоструктурированный случай. Пусть множество определяется заданным конечным списком цепочек, составленных из символов конечного алфавита, и — деформации пульсирующего типа (см. уравнение 4.2.2, т. 1, а также случай 4.2.4, т. 1). Это означает, что все символы цепочки подвергаются воздействию деформаций независимо. Пусть вероятностью так что

Восстановление по методу максимального правдоподобия приводит в таком случае к решению уравнения

для фиксированных наблюдаемых значений при Весьма частный случай уравнения (2.1.6) возникает при

так что произвольный символ не подвергается изменениям с вероятностью . С вероятностью этот произвольный символ преобразуется в некоторый другой символ, причем вероятности для остальных символов одинаковы. Можно отметить, что эти деформации ковариантны по вероятности, однако деформации, рассмотренные в настоящем разделе выше, не обладают свойством ковариантности. Уравнение (2.1.6) сводится в таком случае к следующему:

или при использовании расстояния Хемминга

При эта процедура эквивалентна восстановлению по принципу минимума расстояния:

Этот минимум не всегда единственный.

В качестве списка может выступать, например, перечень фамилий, возможно записанных в сокращенном виде, как это иногда делается в системах бронирования авиационных билетов.

Деформации возникают из-за ошибок в написании фамилий; они могут появляться также из-за механических ошибок, вызванных неполадками на линиях связи. Человек может сделать ошибку в написании слова, поставив вместо нужной буквы другую, но существуют и другие возможности. К распространенным ошибкам относятся перестановка двух букв, пропуск буквы и введение лишней буквы. Могут встретиться комбинации подобных ошибок, а также и ошибки более сложных разновидностей. Если механизмы деформации удается определить в явном виде, то задачу восстановления можно анализировать математическими средствами, по крайней мере в принципе. Сведения о некоторых ранних работах, посвященных автоматическому исправлению ошибок в написании, читатель может найти в статьях Торелли (1962) и Алберга (1967). Этот вид деформаций, строго говоря, не относится к парадигматическому типу (см. следующий параграф), поскольку деформация может воздействовать одновременно более чем на один символ.

Парадигматическими будем называть такие деформации цепочек, которые воздействуют на отдельные символы цепочки независимо. Предыдущие случаи были слабоструктурированными, теперь же мы обратимся к алгебрам изображений, структурированным синтаксически.

Для того чтобы предельно упростить ситуацию, будем считать, что аналогично разд. 3.2 т. 1 задана алгебра порожденная автоматной грамматикой внутренними состояниями, начальное состояние и заключительное состояние. Переходам поставлены в соответствие определенные выходные символы:

где все принимают значения из конечного выходного алфавита , На множестве цепочек, порождаемых грамматикой, определена вероятностная мера (способ ее задания описан в .

Допустим теперь, что деформации действуют следующим образом. Цепочка порожденная из с помощью М, является локально искаженной в том смысле, что

где причем все статистически независимы, а принимают значения из алфавита В, который может (но не обязательно должен) совпадать с . В таком случае полностью определены, если известны все вероятности

и мы снова имеем дело с парадигматическими деформациями

Алгебра изображений и деформации описываются так, как это указано на рис. 2.1.1; мера на вводится с помощью PTRANS. Элементы матрицы TRANS указывают, какой символ поставлен в соответствие данному переходу, т. е. запись означает, что переходу соответствует символ С.

Рис. 2.1.1.

Мы ввели фиктивный элемент 0; если переход в данной грамматике допустим, то это записывается как Для того чтобы избежать неоднозначности грамматики полагаем, что при . И наконец, ERROR обозначает матрицу вероятностей ошибок, т. е. запись характеризует вероятность того, то некоторый символ X в результате деформаций превращается в некоторый другой символ Обычно ожидается, что диагональные элементы матрицы ERROR мажорируют матрицу. Состояние 0, естественно, следует поставить в соответствие нулевой вероятности.

Для отыскания оператора изображения мы применяем критерий максимального правдоподобия, и для заданного деформированного изображения решаем уравнение

где максимум берется по всем изображениям выводимым в заданной грамматике. Эта процедура вполне соответствует проведенному выше рассмотрению, однако здесь необходимо сделать несколько дополнительных замечаний.

Первое носит общий характер. Решая уравнение (2.1.14), мы Шлучаем оператор изображения Естественно, может оказаться, что найденное отображение является многозначным. Может оказаться также полезным не просто отыскивать идеальное изображение, максимизирующее значение а решать это уравнение для заданного числа изображений и определять максимально достижимое значение Подобная процедура придает оператору изображения даже еще большую многозначность.

Будем считать оператор изображения взаимно-однозначным и пусть предъявлено деформированное изображение оказавшееся выводимым в данной грамматике, . В таком случае

мы хотели бы, чтобы выполнялось равенство в противном случае нельзя было бы считать такую цепочку допустимой, хотя она и выводима в данной грамматике. Другими словами, мы требуем, чтобы оператор удовлетворял условию

т. е. оператор изображения должен оставлять неизменными изображения, выводимые в заданной грамматике. При замене уравнения (2.1.14) бейесовским критерием эта проблема становится даже еще более актуальной, поскольку в этом случае «благосклонность» по отношению к обычно встречающимся изображениям увеличивается и, таким образом, необычные, хотя и выводимые в грамматике, изображения будут подвергаться изменениям. Образующими в этой алгебре изображений служат тройки (правила подстановки) поставленные в соответствие ветвям диаграммы состояний конечного автомата (см. Случай 2.4.3, т. 1). Следовательно, деформации можно рассматривать как деформации образующей, сохраняющие показатели связей.

С другой стороны, если используется механизм деформации с правая часть также принадлежит одной из ветвей диаграммы состояний, то в результате приложения деформаций цепочки, порождаемые грамматикой, преобразуются в цепочки, порождаемые грамматикой, т. е. — автоморфны (см. разд. 4.1, т. 1). Если выбор конфигурации с зависит от то деформации являются синтаксически зависимыми (см. конец данного раздела).

Третье замечание связано со скоростью вычислений. Решение уравнения (2.1.15) с увеличением начинает требовать столь большого объема вычислений, что очень скоро становится практически неосуществимым по крайней мере решение «в лоб». Это препятствие можно, однако, обойти, если представить множество в более удобном для обработки виде, что в данном случае можно сделать, заменив идеальные изображения результатами их грамматического разбора. Поскольку в нашем случае синтаксические переменные — это просто внутренние состояния то изображение следует заменить разложением причем ограничения сводятся исключительно к тому, что и . Отсюда следует, что необходимо найти максимум выражения

Здесь все в порядке, поскольку грамматически неправильной последовательности автоматически ставится в соответствие нулевая вероятность с помощью упоминавшегося выше приема

с фиктивным терминальным символом 0. Уравнение (2.1.16) хорошо приспособлено, однако, для применения метода динамического программирования» Действительно, введем

где максимум берется по последовательностям . В результате приходим к рекурсии

Пусть обозначает то значение индекса при котором достигается максимальное значение (2.1.18) (если таких значений несколько, то соответствующие модификации очевидны). Затем мы решаем уравнение (2.1.18) при , начиная с

Тогда правдоподобный оператор изображения позволяет получить

Чтобы проиллюстрировать, как работает эта схема, мы воспроизвели с помощью ЭВМ идеальные и деформированные изображения, взяв за основу конечный автомат с диаграммой переходов, представленной на рис. 2.1.2, числом состояний и символами . Предъявлено двадцать идеальных изображений, полученных с помощью модели с синтаксически управляемыми вероятностями.

Была написана еще одна программа, которая позволяла накладывать на идеальные изображения парадигматические деформации; это было сделано при различных вариантах выбора матрицы ERROR. Полученные таким образом деформированные изображения преобразовывались с помощью третьей программы, реализующей процедуру динамического программирования (аналогично (2.1.18)).

Когда уровень вероятностей ошибок составлял величину порядка 10%, оператор изображения правильно восстанавливал

Рис. 2.1.2. (см. скан)


практически все изображения. Деформации обычно имели следующий вид:

Когда уровень вероятности ошибок достигал величины порядка 25%, наблюдалось резкое снижение точности работы и правильно восстанавливалось менее половины изображений. В этом случае мы сталкивались с резкими деформациями типа

Еще одно эмпирически обнаруженное обстоятельство заключалось в том, что, по крайней мере в наблюдавшихся случаях, оператор не вносил изменений в изображения, выводимые в данной грамматике. Остановимся на этом факте подробнее и допустим, что диагональные элементы матрицы ERROR мажорируют ее в том смысле, что

Если дело обстоит именно так, то очевидно, что когда деформированные изображения порождаются данной грамматикой, т. е. то существует последовательность такая, что . Но тогда, однако, всем сомножителям в уравнении (2.1.14) придается максимально возможное значение при помощи выбора

Если, следовательно, диагональные элементы матрицы вероятностей ошибок мажорируют матрицу, то распознавание, основанное на процедуре максимального правдоподобия, оставляет изображения, выводимые в грамматике, без изменений.

Результаты изучения парадигматических деформаций в случае бесконтекстной грамматики читатель может найти в работе Веласко и де Ренна э Соуса (1974).

Мы ввели допущение о том, что распределение вероятностей изменения символа не зависит ни от чего, кроме символа а: деформации являются синтаксически независимыми (см. разд. 4.2, т. 1). Если является также функцией текущего состояния, т. е.

деформации все еще остаются парадигматическими, но они уже синтаксически зависимы. Для подобных деформаций оптимальное восстановление изображений мы не изучали.

<< Предыдущий параграф Следующий параграф >>
Оглавление