Оценить:
 Рейтинг: 0

Фотопейзаж и компьютер

Год написания книги
2020
<< 1 2 3 4 5 6 7 8 9 >>
На страницу:
4 из 9
Настройки чтения
Размер шрифта
Высота строк
Поля

Основная цель решения этой задачи не в том, чтобы получить составные изображения, близкие к исходным, а в том, чтобы найти элементарные компоненты изображений данного класса, позволяющие экономным образом закодировать их структуру.

Когда такой алгоритм (sparse coding, разреженное кодирование) обработал около полумиллиона кусочков изображений пейзажей и других сцен окружающего нас мира, то полученные элементарные картинки оказались невероятно похожи на картинки, на которые настроены рецептивные поля некоторых из нейронов первичных зрительных зон головного мозга!

Если составление изображений из кусочков сравнить с составлением слов из букв, то получается, что полученный алфавит (набор элементарных картинок) содержит много букв, но каждое изображение представляет собой короткое слово. В этом и состоит «разреженность». Получается что-то вроде китайской азбуки, но вид иероглифов не придуман людьми, а вычислен оптимальным образом для заданного набора понятий, которые должны быть описаны этим языком.

Если это все действительно так, то вырисовывается следующая схема.

1. Каждый «пиксель» изображения на сетчатке представлен в высших разделах зрительной коры головного мозга в виде возбуждения только тех нейронов, для которых картинка в окрестности этого пикселя «совпала» с той, на которую настроены их рецептивные поля. Нейронов, в рецептивных полях которых находится окрестность данного пикселя – много, может быть, сотни тысяч и больше, но для конкретного изображения (одного из тех, которые могут встретиться в природе), всегда сработает только небольшое их количество, возможно, единицы или десятки (в этом и проявляется разреженность!).

2. Картинки в рецептивных полях, на которые реагируют нейроны зрительной коры, формируются в процессе самообучения в раннем возрасте, а может быть, и в течение всей жизни. Когда младенец с удивлением рассматривает яркую игрушку, может быть, в это время это и происходит. Получающиеся картинки различаются рисунком, ориентацией и полосой пространственных частот этого рисунка.

Если верно, что наружное коленчатое тело преобразует изображение на сетчатке в последовательность изображений с разными интервалами пространственных частот, то тем самым дается шанс нейронам, настроенным на разные частоты, «опознать» свой рисунок.

Полагают, что разреженное кодирование является общим принципом кодирования сенсорной информации в нервной системе и используется, в частности, для кодирования природных звуков или запахов.

Благодаря представлению информации, полученной от сенсоров, в виде разреженного кода:

• выявляется структура сложных входных данных, что упрощает их анализ на последующих уровнях;

• повышается емкость ассоциативной памяти, т. к. повышается различимость сходных состояний;

• экономится энергия (а подсчитано, что в коре головного мозга энергии хватает только для одновременной активации не более чем 2 % всех нейронов коры).

По мере перехода к последующим слоям нейронов их рецептивные поля все усложняются и для моделирования их структуры, если такое окажется возможным, уже нужно будет учитывать степень значимости для организма элементарного изображения (какое типичное поведение оно вызывает: опасность это, или добыча, или что-то другое жизненно важное).

На заключительных стадиях обработки зрительной информации, о которых на клеточном уровне мало что известно, осуществляется следующее:

• отсутствующие, например, из-за наличия на сетчатке слепого пятна, части изображения восстанавливаются, видимо, с помощью интерполяции и сведений, хранящихся в памяти;

• информация, которая была отсечена на этапе структуризации изображения, домысливается (если она требуется), снова с помощью интерполяции и памяти;

• мозг «улучшает» поступившую картинку с помощью ранее полученных знаний об изображенных предметах и, в частности, о законах перспективы;

• конечный результат мысленной реконструкции изображения мозгом помещается в долговременную память человека.

1.7. Механизмы константности зрительного восприятия

Деятельность мозга по улучшению картинки нужно описать подробнее. Еще Декарт заметил, что часто мы визуально воспринимаем вещи правильнее, чем это можно было бы сделать, основываясь только на том, как они видны в реальности. Это явление называется константностью зрительного восприятия.

Существует множество видов константности восприятия: константность восприятия размеров, формы, яркости, цвета и другие.

Так, в изображении на сетчатке размеры предметов подчиняются законам передачи перспективы. Но благодаря механизму константности размеров мы воспринимаем размер очень близких предметов уменьшенным по сравнению с тем размером, который получился на сетчатке. А размер удаленных предметов воспринимается немного увеличенным. То есть, мозг частично исправляет перспективные искажения размеров предметов. Коррекция восприятия осуществляется на основе сведений об условиях просмотра (в том числе, с учетом признаков глубины) и хранящихся в памяти знаний о свойствах предметов, которые мы видим.

Включив лампу накаливания, мы обнаруживаем, что белая бумага стала восприниматься немного желтоватой. Однако через небольшой промежуток времени бумага снова станет восприниматься белой. Произошла адаптация к цвету источника освещения. Влияние цвета источника освещения на воспринимаемый цвет ослабляется свойством зрительной системы человека, которое называется хроматическая адаптация.

Видя нарисованный на картинке эллипс, мы часто можем легко определить по остальным деталям картинки, что на самом деле это – круг, видимый сбоку. Сработала константность формы.

Наличие механизмов константности зрительного восприятия объясняется тем, что человеку важнее выделить в изображении реальные знакомые объекты, чем определить фотометрический уровень освещенности или, к примеру, цвет источника освещения.

Разумеется, мозг корректирует (с помощью накопленных знаний) информацию, получаемую не только от органов зрения, но и от других органов чувств.

Обнаружено, что степень такой коррекции (коэффициент константности), обычно составляет 10–70 %. Константность восприятия наблюдается уже у трехлетних детей, и ее развитие продолжается до 10–12 лет.

Мы можем не только видеть предметы или пейзажи, но и вспоминать их и даже мысленно конструировать их. Различают следующие основные виды визуальной памяти.

• Сенсорная (иконическая) память – это, например, изображение, остающееся в памяти после срабатывании вспышки в темной комнате. Длится около полусекунды, но содержит многие детали. Объясняется продолжающейся активностью фоторецепторов и тех нейронов, которые находятся в сетчатке и, возможно, в первичной зрительной коре.

• Кратковременная память хранит последовательные менее детальные визуальные образы и в более структурированном виде, но не более 30 секунд. Также объясняется продолжающейся деятельностью нейронов, но уже, возможно, той, которая обеспечивается обратными связями между ними.

• Долговременная память может хранить картинки (фрагменты картинок) годами и даже всю жизнь. Объясняется возникшими при запоминании изменениями в структуре связей между нейронами и в свойствах синаптических переходов. Долговременная память ассоциативна. Чтобы вспомнить какой-либо пейзаж, часто бывает нужно сначала вспомнить ту поездку, во время которой он был увиден, или какие-то обстоятельства, с ним связанные. Картинки, хранящиеся в такой памяти, сильно перемешиваются с воспоминаниями других типов (звуки, запахи, эмоции и другие). Запомненные картинки, похоже, с течением времени постепенно деградируют.

Процесс восприятия изображения сложным образом переплетен с деятельностью визуальной памяти:

• восприятие картинки непрерывно корректируется с помощью информации, хранящейся в визуальной памяти;

• воспринимаемые картинки непрерывно поступают в память;

• видимая картинка содержит больше деталей, чем находится в памяти.

Говорят, что встречается фотографическая память (эйдетическая). Это когда человек может взглянуть на лист бумаги с каким-то незнакомым ему текстом, закрыть глаза и по памяти зачитывать этот текст хоть слева направо, хоть наоборот, а хоть и снизу вверх. И даже правильно отвечать на неожиданные вопросы, например, если соединить заданные три слова линиями, то получится острый угол или тупой. Вместо текста может быть взята картинка. Однако, похоже, научным образом этот феномен никогда не исследовался, и существует ли он на самом деле, неизвестно.

1.8. Сравнение с фотоаппаратом

Попробуем сравнить процессы обработки изображения (в нашем случае пейзажа) фотокамерой и зрительной системой человека.

Сначала сравним «угол зрения» объектива с углом зрения глаза.

Нормальная острота зрения у человека – это когда не сливаются в одну точку две точки, разделенные углом в 1 дуговую минуту, что соответствует 60 пикселям на градус (пнг). Средняя острота зрения примерно равна 85 пнг, а для пилотов морской авиации США – 150 пнг.

Для человека с остротой зрения 85 пнг и полем зрения 180° ? 125° получаем, что полное изображение состоит из 15300 ? 10625 пикселей, то есть, около 163 мегапикселей.

Для одного «кадра» поле зрения приблизительно равно 1° 40' ? 1° 40', и часть изображения, спроецированного на фовеа, состоит из 142 ? 142 пикселей, то есть, около 0.02 мегапикселей.

Для 100-миллиметрового объектива (углы зрения по горизонтали 20° и по вертикали 14°) и камеры с сенсором 5472 ? 3648 пикселей получаем «остроту зрения» этой пары в 273 пнг по горизонтали и 243 пнг по вертикали.

Теперь сравним рецепторы сетчатки с пикселями сенсора камеры.

Размер наружной части рецептора, содержащей светочувствительный пигмент, равен 1 ? 2 микрон для палочки или 1 ? 5 микрон для колбочки. Размер пикселя сенсора равен 2.5 ? 8 микрон, размер зерна фотопленки: 0.05 ? 3 микрон.

Плотность палочек: 40–150 тысяч на мм

, колбочек: 5–150 тысяч на мм

. Плотность фоторецепторов сенсора – до 40 тысяч на мм

. На цветной фотографии: около 30 тысяч точек на мм

.
<< 1 2 3 4 5 6 7 8 9 >>
На страницу:
4 из 9