Давно хотел написать общую статью, содержащую в себе самые основы Image Recognition, некий гайд по базовым методам, рассказывающий, когда их применять, какие задачи они решают, что возможно сделать вечером на коленке, а о чём лучше и не думать, не имея команды человек в 20.
Какие-то статьи по Optical Recognition я пишу давненько, так что пару раз в месяц мне пишут различные люди с вопросами по этой тематике. Иногда создаётся ощущение, что живёшь с ними в разных мирах. С одной стороны понимаешь, что человек скорее всего профессионал в смежной теме, но в методах оптического распознавания знает очень мало. И самое обидное, что он пытается применить метод из близрасположенной области знаний, который логичен, но в Image Recognition полностью не работает, но не понимает этого и сильно обижается, если ему начать рассказывать что-нибудь с самых основ. А учитывая, что рассказывать с основ - много времени, которого часто нет, становится всё ещё печальнее.
Эта статья задумана для того, чтобы человек, который никогда не занимался методами распознавания изображений, смог в течении 10-15 минут создать у себя в голове некую базовую картину мира, соответствующую тематике, и понять в какую сторону ему копать. Многие методы, которые тут описаны, применимы к радиолокации и аудио-обработке.
Начну с пары принципов, которые мы всегда начинаем рассказывать потенциальному заказчику, или человеку, который хочет начать заниматься Optical Recognition:
Список приведённых тут методов не полон. Предлагаю в комментариях добавлять критические методы, которые я не написал и приписывать каждому по 2-3 сопроводительных слова.
Ещё есть нейронные сети и регрессия. Но чтобы кратко их классифицировать и показать, чем они отличаются, нужна статья куда больше, чем эта.
________________________________________________
Надеюсь, у меня получилось сделать беглый обзор используемых методов без погружения в математику и описание. Может, кому-то это поможет. Хотя, конечно, статья неполна и нет ни слова ни о работе со стереоизображениями, ни о МНК с фильтром Калмана, ни об адаптивном байесовом подходе.
Если статья понравится, то попробую сделать вторую часть с подборкой примеров того, как решаются существующие задачки ImageRecognition.
Свойства объектов отличаются своим качеством и измеряются с помощью различных органов восприятия или измерительных приборов в различных единицах измерения.
Результатом измерения является снижение неопределенности в наших знаниях о значении свойств объекта. Значения свойств конкретизируются путем их сопоставления определенным градациям соответствующих измерительных шкал: номинальных, порядковых или отношений.
В номинальных шкалах отсутствуют отношения порядка, начало отсчета и единица измерения.
На порядковых шкалах определены отношения "больше – меньше", но отсутствуют начало отсчета и единица измерения.
На шкалах отношений определены отношения порядка, все арифметические операции, есть начало отсчета и единица измерения.
Можно представить себе, что шкалы образуют оси координат некоторого абстрактного многомерного пространства, которое будем называть "фазовым пространством".
В этом фазовом пространстве каждый конкретный объект представляется определенной точкой, имеющей координаты, соответствующие значениям его свойств по осям координат, т.е. градациям описательных шкал.
Оси координат фазового пространства в общем случае не являются взаимно-перпендикулярными шкалами отношений, т.е. в общем случае это пространство неортонормированное, более того – неметрическое. Следовательно, в нем в общем случае не применима Евклидова мера расстояний, т.е. не действует Евклидова метрика. Применение этой меры расстояний корректно, если одновременно выполняются два условия:
1. Все оси координат фазового пространства являются шкалами отношений.
2. Все оси координат взаимно-перпендикулярны или очень близки к этому.
Обобщенные образы классов формализуются (кодируются) путем использования классификационных шкал и градаций, которые могут быть тех же типов, что и описательные, т.е. номинальные, порядковые и отношений.
Сама принадлежность конкретных объектов к данному классу определятся либо человеком-учителем, после чего фиксируется в обучающей выборке, либо самой системой автоматически на основе кластерного анализа конкретных объектов.
Рассмотрим, как зависит степень достоверности выводов о генеральной совокупности от объема обучающей выборки.
Если обучающая выборка включает все объекты генеральной совокупности, т.е. они совпадают, то достоверность выводов будет наиболее высокой (при всех прочих равных условиях).
Если же обучающая выборка очень мала, то вряд ли на ее основе могут быть сделаны достоверные выводы о генеральной совокупности, т.к. в этом случае в обучающую выборку могут даже не входить примеры объектов всех или подавляющего большинства классов.
Под репрезентативностью обучающей выборки будем понимать ее способность адекватно представлять генеральную совокупность, так что изучение самой генеральной совокупности можно корректно заменить исследованием обучающей выборки.
Но репрезентативность зависит не только от объема, но и от структуры обучающей выборки, т.е. от того, насколько полно представлены все категории объектов генеральной совокупности (классы) и от того, насколько полно они описаны признаками.
Взвешивание данных или ремонт обучающей выборки – это операция, в результате которой частное распределение объектов по классам в обучающей выборке максимально, на сколько это возможно, приближается либо к частотному распределению генеральной совокупности (если оно известно из независимых источников), либо к равномерному.
В системе "Эйдос" режим взвешивания данных реализован.
Сразу необходимо отметить, что операция обобщения реализуется далеко не во всех моделях систем распознавания (например, в методе k-ближайших соседей), а в тех, в которых оно реализуется, – это делается по-разному.
Обычно, пока не реализовано обобщение нет возможности определить ценность признаков для решения задачи идентификации.
Например, если у нас есть 10 конкретных мячей разного размера и цвета, состоящих из разных материалов и предназначенных для разных игр, и мы рассматриваем их как совершенно независимые друг от друга объекты, наряду с другими, то у нас нет возможности определить, какие признаки являются наиболее характерными для мячей и наиболее сильно отличают их от этих других объектов. Но как только мы сформируем обобщенные образы "мяч", "стул", и т.д., сразу выясниться, что цвет мяча и материал, из которого он сделан, не является жестко связанными с обобщенным образом класса "мяч", а наиболее существенно то, что он круглый и его можно бросать или бить во время игры.
Распознавание – это операция сравнения и определения степени сходства образа данного конкретного объекта с образами других конкретных объектов или с обобщенными образами классов, в результате которой формируется рейтинг объектов или классов по убыванию сходства с распознаваемым объектом.
Ключевым моментом при реализации операции распознавания в математической модели является выбор вида интегрального критерия или меры сходства , который бы на основе знания о признаках конкретного объекта позволил бы количественно определить степень его сходства с другими объектами или обобщенными образами классов.
В ортонормированном пространстве, осями которого являются шкалы отношений, вполне естественным является использовать в качестве такой меры сходства Евклидово расстояние. Однако, такие пространства на практике встречаются скорее как исключение из правила, а операция ортонормирования является довольно трудоемкой в вычислительном отношении и приводит к обеднению модели, а значит ее не всегда удобно и целесообразно осуществлять.
Поэтому актуальной является задача выбора или конструирования интегрального критерия сходства, применение которого было бы корректно и в неортонормированных пространствах. Кроме того, этот интегральный критерий должен быть устойчив к наличию шума, т.е. к неполноте и искажению как в исходных данных, так и самой численной модели.
Требование устойчивости к наличию шума математически означает, что результат применения интегрального критерия к сигналу, состоящему только из белого шума, должен быть равным нулю. Это значит, что в качестве интегрального критерия может быть применена функция, используемая при определении самого понятия "белый шум", т.е. свертка, скалярное произведение, корреляция.
Такой интегральный критерий предложен в математической модели системно-когнитивного анализа и реализован в системе "Эйдос".
Причем, если описательные характеристики могут формироваться с помощью информационно-измерительной системы автоматически, то классификационные – представляют собой результат вообще говоря неформализуемого процесса оценки степени принадлежности данных объектов к различным классам, который осуществляется человеком-экспертом или, как традиционно говорят специалисты по распознаванию образов, "учителем". В этом случае не возникает вопроса о том, для формирования обобщенного образа каких классов использовать описание данного конкретного объекта.
Обучение без учителя или самообучение – это процесс формирования обобщенных образов классов, на основе обучающей выборки, содержащей характеристики конкретных объектов, причем только в описательных шкалах и градациях.
Поэтому этот процесс реализуется в три этапа:
1. Кластерный анализ объектов обучающей выборки, в результате которого определяются группы наиболее сходных их них по их признакам (кластеры).
2. Присвоение кластерам статуса обобщенных классов, для формирования обобщенных образов которых используются конкретные объекты, входящие именно в эти кластеры.
3. Формирование обобщенных образов классов, аналогично тому, как это делалось при обучении с учителем.
Верификация модели – это операция установления степени ее адекватности (валидности) путем сравнения результатов идентификации конкретных объектов с их фактической принадлежностью к обобщенным образам классов.
Различают внутреннюю и внешнюю, интегральную и дифференциальную валидность.
Внутренняя валидность – это способность модели верно идентифицировать объекты обучающей выборки.
Если модель имеет низкую внутреннюю валидность, то модель нельзя считать удачно сформированной.
Внешняя валидность – это способность модели верно идентифицировать объекты, не входящие в обучающую выборку.
Интегральная валидность – это средневзвешенная достоверность идентификации по всем классам и распознаваемым объектам.
Дифференциальная валидность – это способность модели верно идентифицировать объекты в разрезе по классам.
Адаптация модели – это учет в модели объектов, не входящих в обучающую выборку, но входящих в генеральную совокупность, по отношению к которой данная обучающая выборка репрезентативна.
Если моделью верно идентифицируются объекты, не входящие в обучающую выборку, то это означает, что эти объекты входят в генеральную совокупность, по отношению к которой данная обучающая выборка репрезентативна. Следовательно, на основе обучающей выборки удалось выявить закономерности взаимосвязей между признаками и принадлежностью объектов к классам, которые действуют не только в обучающей выборке, но имеют силу и для генеральной совокупности.
Адаптация модели не требует изменения классификационных и описательных шкал и градаций, а лишь объема обучающей выборки, и приводит к количественному изменению модели .
Синтез (или повторный синтез – пересинтез) модели – это учет в модели объектов, не входящих ни в обучающую выборку, ни в генеральную совокупность, по отношению к которой данная обучающая выборка репрезентативна.
Это объекты с новыми, ранее неизвестными закономерностями взаимосвязей признаков с принадлежностью этих объектов к тем или иным классам. Причем и признаки, и классы, могут быть как те, которые уже были отражены в модели ранее, так и новые. Пересинтез модели приводит к ее качественному изменению.
Простейшим вариантом распознавания является строгий запрос на поиск объекта в базе данных по его признакам, который реализуется в информационно-поисковых системах. При этом каждому полю соответствует признак (описательная шкала), а значению поля – значение признака (градация описательной шкалы). Если в базе данных есть записи, все значения заданных полей которых точно совпадают со значениями, заданными в запросе на поиск, то эти записи извлекаются в отчет, иначе запись не извлекается.
Более сложными вариантами распознавания является нечеткий запрос с неполнотой информации , когда не все признаки искомых объектов задаются в запросе на поиск, т.к. не все они известны, и нечеткий запрос с шумом , когда не все признаки объекта известны, а некоторые считаются известными ошибочно. В этих случаях из базы данных извлекаются все объекты, у которых совпадает хотя бы один признак и в отчете объекты сортируются (ранжируются) в порядке убывания количества совпавших признаков. При этом при определении ранга объекта в отсортированном списке все признаки считаются имеющими одинаковый "вес" и учитывается только их количество.
Однако:
– во-первых, на самом деле признаки имеют разный вес, т.е. один и тот же признак в разной степени характерен для различных объектов ;
– во-вторых, нас могут интересовать не столько сами объекты, извлекаемые из базы данных прецедентов по запросам, сколько классификация самого запроса , т.е. отнесение его к определенной категории, т.е. к тому или иному обобщенному образу класса.
Если реализация строгих и даже нечетких запросов не вызывает особых сложностей, то распознавание как идентификация с обобщенными образами классов, причем с учетом различия весов признаков представляет собой определенную проблему.
Обучение осуществляется путем предъявления системе отдельных объектов, описанных на языке признаков, с указанием их принадлежности тому или другому классу. При этом сама принадлежность к классам сообщается системе человеком – Учителем (экспертом).
В результате обучения распознающая система должна приобрести способность:
1. Относить объекты к классам, к которым они принадлежат (идентифицировать объекты верно).
2. Не относить объекты к классам, к которым они не принадлежат (неидентифицировать объекты ошибочно).
Эта и есть проблема обучения распознаванию образов, и состоит она в следующем:
1. В разработке математической модели, обеспечивающей: обобщение образов конкретных объектов и формирование обобщенных образов классов; расчет весов признаков; определение степени сходства конкретных объектов с классами и ранжирование классов по степени сходства с конкретным объектом, включая и положительное, и отрицательное сходство.
2. В наполнении этой модели конкретной информацией, характеризующей определенную предметную область.
Идентификация и прогнозирование часто практически ничем друг от друга не отличаются по математическим моделям и алгоритмам. Основное различие между ними состоит в том, что при идентификации признаки и состояния объекта относятся к одному времени, тогда как при прогнозировании признаки (факторы) относятся к прошлому, а состояния объекта – к будущему.
Это означает, что системы распознавания образов с успехом могут применяться не только для решения задач идентификации, но и прогнозирования.
Автоматизированная система управления состоит из двух основных частей: объекта управления и управляющей системы (рисунок 71).
Управляющая система осуществляет следующие функции:
– идентификация состояния объекта управления;
– выработка управляющего воздействия исходя из целей управления с учетом состояния объекта управления и окружающей среды;
– оказание управляющего воздействия на объект управления.
Рисунок 71
. Обобщенная схема рефлексивной
системы управления |
Распознавание образов есть не что иное, как идентификация состояния некоторого объекта. Автоматизированная система управления АСУ), построенная на традиционных принципах, может работать только на основе параметров, закономерности связей которых уже известны, изучены и отражены в математической модели. В итоге АСУ, основанные на традиционном подходе, практически не эффективны с активными многопараметрическими слабодетерминированными объектами управления, такими, например, как макро– и микро– социально-экономические системы в условиях динамичной экономики "переходного периода", иерархические элитные и этнические группы, социум и электорат, физиология и психика человека, природные и искусственные экосистемы и многие другие.
Поэтому, в состав перспективных АСУ, обеспечивающих устойчивое управление активными объектами в качестве существенных функциональных звеньев должны войти подсистемы идентификации и прогнозирования состояний среды и объекта управления, основанные на методах искусственного интеллекта (прежде всего распознавания образов), методах поддержки принятия решений и теории информации.
Кратко рассмотрим вопрос о применении систем распознавания образов для принятия решений об управляющем воздействии. Очевидно, что применение систем распознавания для прогнозирования результатов управления при различных сочетаниях управляющих факторов позволяет рассмотреть и сравнить различные варианты управления и выбрать наилучшие из них по определенным критериям. Однако, этот подход на практике малоэффективен, особенно если факторов много, т.к. в этом случае количество сочетаний их значений может быть чрезвычайно большим.
Если в качестве классов распознавания взять целевые и иные будущие состояния объекта управления, а в качестве признаков – факторы, влияющие на него, то в модели распознавания образов может быть сформирована количественная мера причинно-следственной связи факторов и состояний.
Это позволяет по заданному целевому состоянию объекта управления получить информацию о силе и направлении влияния факторов, способствующих или препятствующих переходу объекта в это состояние, и, на этой основе, выработать решение об управляющем воздействии.
Задача выбора факторов по состоянию является обратной задачей прогнозирования, т.к. при прогнозировании, наоборот, определяется состояние по факторам.
Факторы могут быть разделены на следующие группы:
– характеризующие предысторию объекта управления и его актуальное состояние управления;
– технологические (управляющие) факторы;
– факторы окружающей среды;
Таким образом, системы распознавания образов могут быть применены в составе АСУ в подсистемах:
– идентификации состояния объекта управления;
– выработки управляющих воздействий.
Это целесообразно в случае, когда объект управления представляет собой сложную или активную систему.
Кластеризация – это операция автоматической классификации, в ходе которойобъекты объединяются в группы (кластеры) таким образом, что внутри групп различия между объектами минимальны, а между группами – максимальны. При этом в ходе кластеризации не только определяется состав кластеров, но и сам их набор и границы.
Поэтому вполне обоснованно считается, что методы кластерного анализа используются в большинстве случаев тогда, когда нет каких-либо априорных гипотез относительно классов, т.е. исследование находится на первой эмпирической стадии: описательной.
Существует большое количество различных алгоритмов кластеризации, которые обычно связаны с полным перебором объектов и весьма трудоемки в вычислительном отношении, здесь же мы упомянем лишь о трех из них:
– объединение (древовидная класт ризация);
– двухвходовое объединение;
– метод K средних .
Рассмотрим кратко эти алгоритмы (описание взято с сайта http://StatSoft.ru) .
1.3.2.6.1. Древовидная кластеризация
Древовидная диаграмма (диаграмму (рисунок 72) начинается с конкретных объектов (в левой части диаграммы). Теперь представим себе, что постепенно (очень малыми шагами) вы "ослабляете" ваш критерий о том, какие объекты являются уникальными, а какие нет. Другими словами, вы понижаете порог, относящийся к решению об объединении двух или более объектов в один кластер.
В результате, вы связываете вместе всё большее и большее число объектов и агрегируете (объединяете ) все больше и больше кластеров, состоящих из все сильнее различающихся элементов. Окончательно, на последнем шаге все объекты объединяются вместе.
Исследователь может кластеризовать конкретные образы наблюдаемых объектов для определения кластеров объектов со сходными признаками.
Он может также кластеризовать признаки для определения кластеров признаков, которые связаны со сходными конкретными объектами.
В двувходовом алгоритме эти процессы осуществляются одновременно.
В этом методе принадлежность объектов к кластерам определяется таким образом, чтобы:
– минимизировать изменчивость (различия) объектов внутри кластеров;
– максимизировать изменчивость объектов между кластерами.
1. Основные понятия и определения, связанные с системами распознавания образов.
2. Признаки и образы конкретных объектов, метафора фазового пространства.
3. Признаки и обобщенные образы классов.
4. Обучающая выборка и ее репрезентативность по отношению к генеральной совокупности. Ремонт (взвешивание) данных.
5. Основные операции: обобщение и распознавание.
6. Обучение с учителем (экспертом) и самообучение (кластерный анализ).
7. Верификация, адаптация и синтез модели.
8. Проблема распознавания образов.
9. Классификация методов распознавания образов.
10. Применение распознавания образов для идентификации и прогнозирования. Сходство и различие в содержании понятий "идентификация" и "прогнозирование".
11. Роль и место распознавания образов в автоматизации управления сложными системами.
12. Обобщенная структура системы управления.
13. Место системы идентификации в системе управления.
14. Управление как задача, обратная идентификации и прогнозированию.
15. Методы кластерного анализа.
16. Метод кластеризации: "Древовидная кластеризация".
17. Метод кластеризации: "Двувходовое объединение".
18. Метод кластеризации: "Метод K средних".
1. Луценко Е.В. Теоретические основы и технология адаптивного семантического анализа в поддержке принятия решений (на примере универсальной автоматизированной системы распознавания образов "ЭЙДОС-5.1"). - Краснодар: КЮИ МВД РФ, 1996. - 280с.
2. Луценко Е. В.Автоматизированный системно-когнитивный анализ в управлении активными объектами (системная теория информации и ее применение в исследовании экономических, социально-психологических, технологических и организационно-технических систем): Монография (научное издание). – Краснодар:КубГАУ. 2002. – 605 с.
Процесс распознавания состоит в том, что система распознавания на основании сопоставления апостериорной информации относительно каждого поступившего на вход системы объекта или явления с априорным описанием классов принимает решение о принадлежности этого объекта (явления) к одному из классов. Правило, которое каждому объекту ставит в соответствие определенное наименование класса, называют решающим правилом. В литературе, посвященной распознаванию образов, утвердилось мнение, что суть проблемы распознавания заключается в определении решающих правил, нахождении в признаковом пространстве таких границ (решающих границ), придерживаясь которых признаковые пространства оптимальным образом, например с точки зрения минимизации ошибок распознавания, подразделяются на области, соответствующие классам. Так, в сказано, что в отыскании таких решающих правил на основании заданных описаний классов и заключается проблема распознавания.
При определении решающих правил (решающих границ в признаковом пространстве) в зависимости от объема исходной априорной информации рассматриваются следующие ситуации:
1. Количество исходной информации достаточно для того, чтобы путем ее анализа и непосредственной обработки определить решающие правила (системы распознавания без обучения, см. рис. 1.4).
2. Количество исходной информации недостаточно для определения решающих правил на основе ее непосредственной обработки, в связи с чем реализуется процедура обучения (обучающиеся системы распознавания, см. рис. 1.5).
В ситуациях 1 и 2 задача отыскания решающих правил базируется на том, что алфавит классов объектов и априорный словарь признаков, предназначенных для их описаний, известны. Рассматривается также и такая ситуация, когда словарь признаков известен, но неизвестен алфавит классов. При этом, однако, определен некоторый набор правил, в соответствии с которыми на основании процедуры самообучения находится искомый алфавит классов. Затем определяются решающие правила (самообучающиеся системы, см. рис. 1.6).
Исторически сложилось так, что первые теоретические исследования и прикладные работы в области распознавания базировались на том, что признаковое пространство известно, известен также и алфавит классов. В этих условиях проблема распознавания действительно может трактоваться как проблема определения в некотором смысле наилучших решающих границ (решающих правил). В настоящее время часто при построении распознающих устройств имеет место ситуация, когда известны и алфавит классов, и словарь признаков. Однако в общем случае при построении реальных систем распознавания, требующих разработки специальных измерительных средств и целых измерительных комплексов, исходить из того, что алфавит классов и словарь признаков априорно известны, к сожалению, не приходится.
Назначение систем распознавания - получить информацию, необходимую для принятия определенных решений, о принадлежности неизвестного объекта (явления) к тому или иному классу. Именно так обстоит дело в системах медицинской и технической диагностики, геологической разведки, метеорологического прогноза, криминалистике, системах распознавания целей и т. п. Поэтому системы распознавания, являясь частью системы управления (автоматической или автоматизированной), должны строиться с учетом обеспечения наиболее эффективного использования всего набора допустимых решений. Этот факт накладывает на построение систем распознавания следующие ограничения.
1. При прочих равных условиях повышение эффективности принимаемых решений следует связывать со степенью детализации определения или назначения либо характера распознаваемого объекта или явления. Степень детализации определяется количеством классов, на которое подразделено множество объектов или явлений. Так, если система управления располагает m различными решениями, то в алфавите классов системы распознавания, учитывая сказанное, целесообразно предусмотреть m+1 классов. Тогда, если распознанный объект относится к классу Ω 1 принимается решение l 1 , если к классу Ω 2 - решение h и т. д., если же объект относится к классу Ω m +1 , решение не принимается.
2. Эффективность принимаемых системой управления решений при прочих равных условиях (в том числе, естественно, при заданном алфавите классов) зависит от точности определения принадлежности распознаваемого объекта или явления к соответствующему классу. Точность же определения или ошибка распознавания при заданном по точности априорном описании классов определяется размерностью и информативностью признакового пространства, объемом и качеством апостериорной информации о значениях признаков (параметров), которыми характеризуется распознаваемый объект. Иначе говоря, расширение алфавита классов, увеличивающее степень детализации определения назначения либо характера распознаваемого объекта (явления), при неизменном словаре признаков увеличивает ошибку распознавания.
Пусть заданы три класса Ω 1 , Ω 2 и Ω 3 объектов распределениями f 1 (х), f 2 (x),f 3 (x) априорными вероятностями появления объектов соответствующих классов P(Ω 1)=P(Ω 2)=P(Ω 3)=P, а также потерями c 11 = c 22 = с 33 = 0 и с 12 = с 21 = c 13 = с 31 = с 23 = с 32 = с.
На рис. 2.1 представлены законы распределений. Средний (байесовский) риск (см. § 4.2)
Положим теперь, что объекты, относящиеся к классам Ω 1 и Ω 2 , решено объединить в один класс Ω 4 , описание которого
Средний риск в данном случае в предположении неизменности границы b составит
Из сравнения величин Rã 1 и Rã 2 видно, что Rã l >Rã 2 на величину
Следовательно, при заданном признаковом пространстве и прочих равных условиях уменьшение числа классов приводит
Рис. 2.1
к уменьшению ошибок распознавания и, наоборот, при увеличении числа классов системы распознавания в целях поддержания на заданном уровне или даже уменьшения среднего риска (вероятности ошибочных решений) надо расширять словарь признаков (естественно, при прочих равных условиях). В то же время расширение признакового пространства в целях уменьшения ошибок распознавания сопряжено с увеличением числа технических измерительных средств, каждое из которых обеспечивает определение соответствующего признака или группы признаков. Это, в свою очередь, требует увеличения затрат на построение системы распознавания. На величину же затрат в реальных условиях, как правило, накладываются те или другие ограничения.
Таким образом, стремление по возможности наиболее эффективно использовать набор возможных решений системы управления приводит к необходимости увеличения алфавита классов до m+1. Однако естественная ограниченность ресурсов, ассигнованных на построение измерительных средств системы распознавания или системы распознавания в целом, приводит к тому, что по мере увеличения алфавита классов ошибки распознавания растут, а это уменьшает эффективность использования возможных решений. Только некоторый компромисс между размерами алфавита классов и объемом рабочего словаря признаков системы, базирующийся на исходных данных относительно набора возможных решений и величины ресурсов, отпущенных на создание измерительной аппаратуры, реализующей словарь признаков, позволяет обеспечить решение задачи построения системы распознавания оптимальным образом.
Итак, в общем случае при построении систем распознавания приходится иметь дело со следующей ситуацией. Создается некоторая система управления, реализующая то или другое управление в зависимости от результатов оценки, существенных свойств, характера, назначения объекта или явления, его распознавания. Система управления располагает конечным числом решений. Составляющая эффективности управлений, зависящая от функционирования системы распознавания, обусловливается двумя факторами. Первый фактор связан со степенью детализации распознавания объектов или явлений, наибольшее значение которой будет в том случае, если число классов, содержащихся в алфавите классов системы распознавания, равно количеству возможных решений (плюс единица - последний класс, объекты которого не распознаются). Второй фактор - точность решения задачи распознавания. Естественно, чем она выше, тем меньше вероятность принять решение, не соответствующее особенностям данного объекта или явления. Например, применить не адекватную заболеванию стратегию лечения в случае использования системы медицинской диагностики; применить не по назначению данное средство противодействия в случае использования системы распознавания целей и т. п. Однако при заданном словаре признаков увеличение алфавита классов уменьшает точность решения задачи распознавания. Увеличение же словаря признаков в общем случае связано с разработкой новой или использованием существующей измерительной аппаратуры, что влечет за собой увеличение расходов на построение системы распознавания.
Таким образом, суть проблемы распознавания состоит в разработке таких алфавита классов и словаря признаков, которые в условиях ограниченных ресурсов на построение системы распознавания обеспечивают максимальную эффективность системы управления, принимающей соответствующее решение в зависимости от результатов решения задачи распознавания. При этом, безусловно, выбирая словарь признаков и определяя алфавит классов, следует находить наилучшие решающие правила, решающие границы между классами. Однако в общем случае не в этом состоит проблема распознавания, как не важна и как подчас не сложна задача определения оптимальных решающих правил, обеспечивающих в условиях заданных алфавита классов и словаря признаков наибольшую точность распознавания . Более того, при построении логических систем распознавания, использующих либо алгоритмы распознавания, основанные на методах алгебры логики, либо структурных (лингвистических) систем (см. гл. 8), решающие правила вообще не определяются.
Таким образом, нет достаточных оснований считать справедливым суждение о том, что проблема распознавания состоит в определении решающих правил (решающих границ).
Конец работы -
Эта тема принадлежит разделу:
В а скрипкин.. методы распознавания.. общая характеристика проблемы распознавания объектов и явлений..
Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ:
Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:
Твитнуть |
Качественное описание задачи распознавания i
Распознавание образов (объектов, сигналов, ситуаций, явлений или процессов) - едва ли не самая распространенная задача, которую человеку приходится решать практически ежесекундно от первого до посл
Основные задачи построения систем распознавания
Рассмотренный в § 1.1 пример свидетельствует о том, что распознавание сложных объектов и явлений требует создания специальных систем распознавания - сложных динамических систем, сос
Экспертные системы распознавания
Рассмотренная классификация систем распознавания и принципы их функционирования отражают современное состояние вопроса. Все виды систем распознавания базируются на строго формализов
Постановка задачи распознавания
Пусть задано множество объектов или явлений Ω={w1 ..., ..., wz}, а также множество возможных решений L={l1, ..., lk}, которые могут
Метод решения задачи распознавания
Рассмотренная постановка проблемы распознавания позволяет определить последовательность задач, возникающих при разработке системы распознавания, предложить их формулировки и возможн
Системы распознавания без обучения
Построение систем распознавания без обучения возможно при наличии полной первоначальной априорной информации, которая представляет собой совокупность: 1) сведений о том, какова есте
Обучающиеся системы распознавания
Использование методов обучения для построения систем распознавания необходимо в случае, когда отсутствует полная первоначальная априорная информация. Ее объем позволяет подразделить
Самообучающиеся системы распознавания
На практике иногда приходится сталкиваться с необходимостью построения распознающих устройств в условиях, когда провести классификацию объектов либо невозможно, либо по тем или другим соображениям
Некоторые сведения из теории статистических решений
Рассмотрим основные результаты теории статистических решений на следующем примере. Пусть совокупность объектов подразделена на классы Ω1 и Ω2, а дл
Критерий Байеса
Критерий Байеса - правило, в соответствии с которым стратегия решений выбирается таким образом, чтобы обеспечить минимум среднего риска. Применение критерия Байеса целесообразно в с
Минимаксный критерий
При построении систем распознавания возможны такие ситуации, когда априорные вероятности появления объектов соответствующих классов неизвестны. Минимизировать значение среднего риск
Критерий Неймана-Пирсона
При построении некоторых систем распознавания могут быть неизвестны не только априорные вероятности появления объектов соответствующих классов, но и платежная матрица (1.7). В подоб
Процедура последовательных решений
Ранее предполагалось, что решение о принадлежности распознаваемого объекта w соответствующему классу Ωi, i=l, ..., m, принимается после измерения всей совокупности
Регуляризация задачи распознавания
В соответствии со стратегией Байеса, если у распознаваемого объекта со измеренное значение признака х = х0 , то
Рабочего словаря признаков
В § 5.1 был рассмотрен один из возможных методов выбора пространства признаков системы распознавания, обеспечивающий в пределах выделенных ресурсов максимальное значение критерия ка
Сравнительная оценка признаков
Выше были рассмотрены достаточно общие методы выбора совокупности признаков, которые целесообразно и доступно использовать при построении системы распознавания. Однако на практике д
Изображающие числа и базис
Булева функция считается заданной, если можно указать значения истинности этой функции при всех возможных комбинациях значений истинности входящих в нее элементов. Таблицу, которая
Восстановление булевой функции по изображающему числу
Рассмотрим методы, позволяющие переходить от задания булевой функции в виде изображающего числа к явному выражению ее через элементы.
Дизъюнктивная нормальная форма (ДНФ).
Зависимость и независимость высказываний
Условия независимости. Поскольку каждая булева функция может иметь два значения истинности, n булевых функций могут образовывать 2n комбинаций значений истинности. По опр
Булевы уравнения
Решение многих задач, связанных с распознаванием объектов, может быть сведено к нахождению решений булевых алгебраических уравнений с одним (или более) неизвестным. Примером булева
Замена переменных
Понятие замены переменных в алгебре логики аналогично понятию замены переменных в обычной алгебре. Если А, В, С, ... - элементарные высказывания и совершается замена переменных, то,
Решение логических задач распознавания
В логических системах распознавания классы и признаки объектов рассматриваются как логические переменные. Чтобы подчеркнуть эту особенность, для обозначения классов и признаков введ
Решение задач распознавания при большом числе элементов
Приложение изложенных в предыдущих параграфах методов построения сокращенного базиса и решения логических задач существенно ограничивается объемом памяти ЭВМ и их быстродействием. Т
Алгоритм построения сокращенного базиса
В § 7.1 было показано, как с помощью ЭВМ, опираясь на сокращенный базис b´ [А1, А2, ...Ω1, Ω2,...], находить
Распознавание объектов в условиях их маскировки
Маскировка - один из основных методов снижения эффективности разведки противника в общем комплексе мероприятий по противодействию. Решение проблемы маскировки требует привлечения, с
Распознавание в условиях противодействия
Рассмотрим задачу распознавания объектов в условиях, когда противник может препятствовать как выявлению отдельных признаков объектов, так и сознательно изменять свою тактику в отнош
Алгоритмы распознавания, основанные на вычислении оценок
Логические алгоритмы распознавания, рассмотренные выше, в ряде случаев не позволяют получить однозначное решение о принадлежности распознаваемого объекта к определенному классу. Ю.
Общая характеристика структурных методов распознавания
Во многих случаях апостериорная информация о распознаваемых объектах или явлениях содержится в записях соответствующих сигналов (электрокардиограмм, энцефалограмм, отраженных от цел
Основные элементы аппарата структурных методов распознавания
Говоря о средстве описания объектов в терминах непроизводных элементов и их отношений, употребляют понятие язык. Правила этого языка, определяющие способы построения объекта из непр
Реализация процесса распознавания на основе структурных методов
Для распознавания неизвестного объекта на основе структурных методов необходимо прежде всего найти его непроизводные элементы и отношения между ними, а затем с помощью синтаксическо
Постановка задачи оптимизации процесса распознавания
Прежде всего покажем, что с увеличением числа признаков, используемых при распознавании, вероятность правильного распознавания неизвестных объектов также увеличивается.
Вер
Алгоритм управления процессом распознавания
Рассмотренные понятия позволяют построить алгоритм управления процессом распознавания в виде правила последовательного поиска решений, обеспечивающего разработку оптимального плана
Частные подходы к принятию решений при распознавании
Решение задачи оптимизации распознавания в рассмотренной постановке требует наличия определенных данных. Когда они отсутствуют, приходится пользоваться частными подходами к пр
Алгебраический подход к задаче распознавания
Выше рассмотрены алгоритмы распознавания: детерминированные алгоритмы, основанные на проведении в признаковом пространстве решающей границы (границы, разделяющей классы и представля
Эффективность вероятностных систем распознавания
Чтобы оценить эффективность вероятностных систем распознавания на основе математического моделирования, можно использовать метод статистических испытаний. Для проведения таких испыт
Эффективность логических систем распознавания
При построении логических систем распознавания приходится сталкиваться с ситуацией, когда значения истинности элементов А1..., Аn, выражающих признаки объектов
20 Проблема распознавания образов
Человеческий мозг, так же как и мозг животных, с самого рождения и на протяжении всей жизни ежеминутно решает задачи распознавания образов. Ребенок или детеныш животного с первых минут своего появления на свет узнает пищу, мать, ее голос, окружающие предметы. По мере взросления ребенок учится узнавать свои игрушки, комнату, дом, множество необходимых предметов, лица друзей, их речь, музыку, буквы, слова, книги и т.д.
В своей повседневной жизни человек настолько легко справляется с задачами распознавания, что это считается само собой разумеющимся. Между тем, попытки моделирования на компьютерах этих высокоинтеллектуальных функций наталкиваются на весьма серьёзные трудности.
Для того чтобы человек сознательно воспринял информацию, она должна пройти довольно длительный цикл предварительной обработки. Рассмотрим на примере восприятия зрительного образа:
1. Вначале свет попадает в глаз. Пройдя через всю оптическую систему фотоны попадают на сетчатку (слой светочувствительных клеток). Здесь происходит первый этап обработки информации. У млекопитающих, сразу за светочувствительными клетками находится обычно два слоя нервных клеток, которые выполняют сравнительно несложную обработку.
2. По зрительному нерву информация поступает в головной мозг, в так называемые "зрительные бугры".
3. Далее зрительная информация поступает в отделы мозга, которые уже выделяют из неё отдельные составляющие (горизонтальные, вертикальные, диагональные линии; контуры; области светлого, темного, цветного). До этих пор можно без труда смоделировать работу мозга применяя различные графические фильтры.
4. Постепенно образы становятся все более сложными и размытыми, но графический образ пройдет еще долгий путь, прежде чем достигнет уровня сознания. Причём на уровне сознания к образу могут примешаться еще звуки, запахи и вкусовые ощущения.
В целом проблема распознавания образов состоит из двух частей: обучения и распознавания. Обучение осуществляется путём показа отдельных объектов с указанием их принадлежности тому или другому образу. В результате обучения распознающая система должна приобрести способность реагировать одинаковыми реакциями на все объекты одного образа. За обучением следует процесс распознавания новых объектов, который характеризует действия уже обученной системы.
Круг задач, которые могут решаться с помощью распознающих систем, чрезвычайно широк. Сюда относятся не только задачи распознавания зрительных и слуховых образов, но и задачи распознавания сложных процессов и явлений, возникающих, например, при выборе целесообразных действий руководителем предприятия или выборе оптимального управления технологическими, экономическими, транспортными или военными операциями.
В настоящее время наибольших успехов удалось добиться в распознавании зрительных образов, таких как печатные символы. Не вызывает сомнений полезность известных программ распознавания текстовой информации FineReader и CuneiForm . Функции обнаружения и распознавания военных объектов противника уже давно закладываются в бортовые компьютеры ракет, самолетов, кораблей и подводных лодок.
Какие идеи и принципы могут быть заложены в основу распознающих систем? Первое, что приходит в голову, действовать "с позиции грубой силы": заложить в компьютер как можно больше известных образов-шаблонов и сравнивать их с поступающими для распознавания неизвестными образами. Однако этот путь сразу заводит в тупик. Предположим, что зрительное изображение считывается с помощью стандартной системы светочувствительных элементов 32 позиции по ширине и 48 по высоте, т.е. всего 1536 элементов. Но даже на такой грубой сетке можно воспринять порядка 10 460 возможных образов. Хранить в памяти такое число шаблонных изображений и осуществлять с ними сравнение поступающих на вход образов невозможно.
Поэтому на практике системы распознавания на первой стадии обязательно обрабатывают изображение и выделяют характерные признаки, качественные или количественные. Таким образом, количество информации для распознавания существенно уменьшается.
Следующая идея, которая обычно используется в распознающих системах, это идея обучения. Она является обязательным элементом многих современных интеллектуальных систем.
Образ, класс - классификационная группировка в системе классификации, объединяющая (выделяющая) определенную группу объектов по некоторому признаку.
Образное восприятие мира - одно из загадочных свойств живого мозга, позволяющее разобраться в бесконечном потоке воспринимаемой информации и сохранять ориентацию в океане разрозненных данных о внешнем мире. Воспринимая внешний мир, мы всегда производим классификацию воспринимаемых ощущений, т. е. разбиваем их на группы похожих, но не тождественных явлений. Например, несмотря на существенное различие, к одной группе относятся все буквы А, написанные различными почерками, или все звуки, соответствующие одной и той же ноте, взятой в любой октаве и на любом инструменте, а оператор, управляющий техническим объектом, на целое множество состояний объекта реагирует одной и той же реакцией. Характерно, что для составления понятия о группе восприятий определенного класса достаточно ознакомиться с незначительным количеством ее представителей. Ребенку можно показать всего один раз какую-либо букву, чтобы он смог найти эту букву в тексте, написанном различными шрифтами, или узнать ее, даже если она написана в умышленно искаженном виде. Это свойство мозга позволяет сформулировать такое понятие, как образ.
Образы обладают характерным свойством, проявляющимся в том, что ознакомление с конечным числом явлений из одного и того же множества дает возможность узнавать сколь угодно большое число его представителей. Примерами образов могут быть: река, море, жидкость, музыка Чайковского, стихи Маяковского и т. д. В качестве образа можно рассматривать и некоторую совокупность состояний объекта управления, причем вся эта совокупность состояний характеризуется тем, что для достижения заданной цели требуется одинаковое воздействие на объект. Образы обладают характерными объективными свойствами в том смысле, что разные люди, обучающиеся на различном материале наблюдений, большей частью одинаково и независимо друг от друга классифицируют одни и те же объекты. Именно эта объективность образов позволяет людям всего мира понимать друг друга.
Способность восприятия внешнего мира в форме образов позволяет с определенной достоверностью узнавать бесконечное число объектов на основании ознакомления с конечным их числом, а объективный характер основного свойства образов позволяет моделировать процесс их распознавания. Будучи отражением объективной реальности, понятие образа столь же объективно, как и сама реальность, а поэтому это понятие может быть само по себе объектом специального исследования.
В литературе, посвященной проблеме обучения распознавания образов (ОРО), часто вместо понятия образа вводится понятие класса.
Одним из самых интересных свойств человеческого мозга является способность отвечать на бесконечное множество состояний внешней среды конечным числом реакций. Может быть, именно это свойство позволило человеку достигнуть высшей формы существования живой материи, выражающейся в способности к мышлению, т. е. активному отражению объективного мира в виде образов, понятий, суждений и т. д. Поэтому проблема ОРО возникла при изучении физиологических свойств мозга.
Рассмотрим пример задач из области ОРО.
Рис 1
Здесь представлены 12 задач, в которых следует отобрать признаки, при помощи которых можно отличить левую триаду картинок от правой. Решение данных задач требует моделирования логического мышления в полном объеме.
В целом проблема распознавания образов состоит из двух частей: обучения и распознавания. Обучение осуществляется путем показа отдельных объектов с указанием их принадлежности тому или другому образу. В результате обучения распознающая система должна приобрести способность реагировать одинаковыми реакциями на все объекты одного образа и различными - на все объекты различных образов. Очень важно, что процесс обучения должен завершиться только путем показов конечного числа объектов без каких-либо других подсказок. В качестве объектов обучения могут быть либо картинки, либо другие визуальные изображения (буквы), либо различные явления внешнего мира, например звуки, состояния организма при медицинском диагнозе, состояние технического объекта в системах управления и др. Важно, что в процессе обучения указываются только сами объекты и их принадлежность образу. За обучением следует процесс распознавания новых объектов, который характеризует действия уже обученной системы. Автоматизация этих процедур и составляет проблему обучения распознаванию образов. В том случае, когда человек сам разгадывает или придумывает, а затем навязывает машине правило классификации, проблема распознавания решается частично, так как основную и главную часть проблемы (обучение) человек берет на себя.
Проблема обучения распознаванию образов интересна как с прикладной, так и с принципиальной точки зрения. С прикладной точки зрения решение этой проблемы важно прежде всего потому, что оно открывает возможность автоматизировать многие процессы, которые до сих пор связывали лишь с деятельностью живого мозга. Принципиальное значение проблемы тесно связано с вопросом, который все чаще возникает в связи с развитием идей кибернетики: что может и что принципиально не может делать машина? В какой мере возможности машины могут быть приближены к возможностям живого мозга? В частности, может ли машина развить в себе способность перенять у человека умение производить определенные действия в зависимости от ситуаций, возникающих в окружающей среде? Пока стало ясно только то, что если человек может сначала сам осознать свое умение, а потом его описать, т. е. указать, почему он производит действия в ответ на каждое состояние внешней среды или как (по какому правилу) он объединяет отдельные объекты в образы, то такое умение без принципиальных трудностей может быть передано машине. Если же человек обладает умением, но не может объяснить его, то остается только один путь передачи умения машине - обучение примерами.
Круг задач, которые могут решаться с помощью распознающих систем, чрезвычайно широк. Сюда относятся не только задачи распознавания зрительных и слуховых образов, но и задачи распознавания сложных процессов и явлений, возникающих, например, при выборе целесообразных действий руководителем предприятия или выборе оптимального управления технологическими, экономическими, транспортными или военными операциями. В каждой из таких задач анализируются некоторые явления, процессы, состояния внешнего мира, всюду далее называемые объектами наблюдения. Прежде чем начать анализ какого-либо объекта, нужно получить о нем определенную, каким-либо способом упорядоченную информацию. Такая информация представляет собой характеристику объектов, их отображение на множестве воспринимающих органов распознающей системы.
Но каждый объект наблюдения может воздействовать по-разному, в зависимости от условий восприятия. Например, какая-либо буква, даже одинаково написанная, может в принципе как угодно смещаться относительно воспринимающих органов. Кроме того, объекты одного и того же образа могут достаточно сильно отличаться друг от друга и, естественно, по-разному воздействовать на воспринимающие органы.
Каждое отображение какого-либо объекта на воспринимающие органы распознающей системы, независимо от его положения относительно этих органов, принято называть изображением объекта, а множества таких изображений, объединенные какими-либо общими свойствами, представляют собой образы.
При решении задач управления методами распознавания образов вместо термина "изображение" применяют термин "состояние". Состояние - это определенной формы отображение измеряемых текущих (или мгновенных) характеристик наблюдаемого объекта. Совокупность состояний определяет ситуацию. Понятие "ситуация" является аналогом понятия "образ". Но эта аналогия не полная, так как не всякий образ можно назвать ситуацией, хотя всякую ситуацию можно назвать образом.
Ситуацией принято называть некоторую совокупность состояний сложного объекта, каждая из которых характеризуется одними и теми же или схожими характеристиками объекта. Например, если в качестве объекта наблюдения рассматривается некоторый объект управления, то ситуация объединяет такие состояния этого объекта, в которых следует применять одни и те же управляющие воздействия. Если объектом наблюдения является военная игра, то ситуация объединяет все состояния игры, которые требуют, например, мощного танкового удара при поддержке авиации.
Выбор исходного описания объектов является одной из центральных задач проблемы ОРО. При удачном выборе исходного описания (пространства признаков) задача распознавания может оказаться тривиальной и, наоборот, неудачно выбранное исходное описание может привести либо к очень сложной дальнейшей переработку информации, либо вообще к отсутствию решения. Например, если решается задача распознавания объектов, отличающихся по цвету, а в качестве исходного описания выбраны сигналы, получаемые от датчиков веса, то задача распознавания в принципе не может быть решена.