Как настроить смартфоны и ПК. Информационный портал

JPEG, JPEG2000, JPEG-LS. Сжатие изображений с потерями и без

Фотографии и картинки отличаются друг от друга не только по содержанию, но и по другим «компьютерным» характеристикам. Например, по размеру.

Бывает так, что, вроде бы, два одинаковых рисунка, но у одного размер в три раза больше, чем у другого.

Также изображения отличаются по качеству. Думаю, Вам не раз встречались фото крайне плохого качества. Это видно невооруженным глазом. Например, две одинаковые фотографии, но одна лучшего качества, а другая - худшего.

А бывает так, что рисунку как будто не хватает красок. Вот пример.

И за все это отвечает формат или тип файла.

Вообще-то изображения бывают самых разных форматов. И существует их очень и очень много. Мы не будем рассматривать их все, а поговорим про самые распространенные. Это такие форматы, как bmp, gif, jpg, png, tiff .

Отличаются он друг от друга, в первую очередь, качеством. А качество отличается по количеству (насыщенности) цветов.

Например, я рисую картину, используя разные цвета . И тут вдруг часть из них закончилась, и приходится дорисовывать тем, что есть. Я, конечно, постараюсь сделать всё возможное, чтобы это не сильно отразилось на результате, но все равно картина получится не такая, как хотелось бы - более блеклая, размытая.

Вот так и с форматами изображений. Какой-то оставляет все цвета, другой же обрезает часть. И, бывает, из-за этого картинка портится.

Это довольно грубый пример. На самом деле, там все несколько сложнее, но, думаю, главное Вы уловили.

Распространенные форматы изображений

BMP - формат рисунков, сделанных в программе Paint . Его можно использовать для хранения нарисованных картинок на компьютере. Но вот в Интернете такой тип файлов не используется из-за большого объема. Так что если Вы хотите опубликовать картинку, нарисованную в Paint, в блоге или социальной сети , она должна быть другого типа - gif, jpg или png.

GIF - популярный формат картинок в Интернете. В нем можно сохранять их без потери качества, но с ограниченным количеством цветов - 256. Особую популярность gif получил благодаря тому, что в нем можно создать небольшие анимированные (движущиеся) картинки.

JPG - формат фотографий и картин с большим количеством цветов. В нем можно сохранить изображение как без потери качества, так и с потерей.

PNG - современный формат рисунков. Изображение такого типа получается небольшого размера и без потери качества. Очень удобно: и файл маленький, и качество хорошее. А еще он поддерживает прозрачность.

TIFF - изображения очень хорошего качества, без сжатия.Соответственно, и размер у таких файлов огромный. TIFF используют тогда, когда качество имеет большое значение. Например, при создании визиток, буклетов, журнальных обложек.

Какой формат выбрать

  • BMP - если это рисунок, сделанный в программе Paint, и Вы собираетесь держать его только в компьютере.
  • GIF - если анимация или рисунок с небольшим количеством цветов для публикации в Интернете.
  • PNG - если это рисунок, в котором много цветов или есть какие-то прозрачные части.
  • JPG (jpeg) - если фотография.
  • TIFF - изображение для полиграфии (визитки, буклеты, плакаты и т.д.).

Здравствуйте, уважаемые друзья. Сегодня поговорим о том, какой формат изображения лучше использовать на сайте, какие сегодня доступны форматы графических файлов для сайта и нужно ли гнаться за новинками графических форматов.

Таких вопросов я получаю довольно много, многие из моих учеников спрашивают можно ли им использовать новые форматы SVG и WebP, и где лучше применить эти изображения. Разумеется, можно использовать и новые форматы, только нужно понимать какой формат и для чего подходит лучше.

На сегодняшний день изображения на сайте являются неотъемлемой частью. Начиная от графического дизайна и закачивая изображениями в статьях, графика сопровождает большинство сайтов в сети. Но за красоту приходится расплачиваться

Не оптимизированные изображения являются одним из факторов замедления сайта, на что указывают сервисы проверки.

Поэтому вы будете всегда перед выбором, какой формат выбрать для изображения. От этого будет зависеть его размер и качество. А чтобы использовать изображения меньшего размера и без потери качества, вы должны знать некоторые вещи.

Какие изображения для сайтов использую сегодня

Все изображения для сайтов, подразделяются:

  • растровые (пример - JPG, JPEG, GIF, PNG),
  • векторные (пример - SVG).

Растровые изображения состоят из пикселей, в которых хранится цвет и значение прозрачности. Такими форматами представлены изображения в статьях, кнопками, иконками и элементами дизайна. Эти изображения популярны среди разработчиков и владельцев сайтов. Основной минус растровых изображений – они плохо масштабируются.

То есть при увеличении размера картинки, идёт потеря качества.

Векторные изображения состоят из линий и точек маршрутов. Информация об изображении хранится в математических инструкциях по отрисовке, что позволяет масштабировать такие изображения сколько угодно без потери качества.

Все эти изображения могут и используются на современных сайтах. Только нужно понимать, что перед загрузкой на сайт, !

Описание популярных форматов изображения для сайта

Из описания этих форматов вы поймёте, где и какой формат применять лучше всего на сайте.

JPEG

JPEG или JPG – один из самых популярных форматов изображений для сайтов. Формат поддерживает миллионы цветов, что и даёт ему лидирующую позицию в представлении фотографий и картинок на сайте.

Изображения в этом формате достаточно хорошо оптимизируются практически без потери качества, что позволяет получить файл меньшего размера без визуальной потери качества. Следует помнить, что каждая последующая оптимизация снижает качество.

Файлы этого формата поддерживаются всем устройствами и браузерами, что ещё раз подтверждает его популярность и позволяет не беспокоиться за проблемы с отображением на сайтах.

Большим недостатком этого формата является отсутствие прозрачности. То есть, комбинировать изображения в таком формате не получится. Для таких задач лучше использовать следующий формат.

PNG

Этот формат использует алгоритм сжатия без потери качества. По количеству цветов и уровню прозрачности доступен в двух видах 8 и 24-бит. Оба поддерживают прозрачность.

8-битный пользуется малой популярностью, а вот 24-битный широко используется для различных изображений на сайте. За счёт прозрачности позволяет создавать комбинированные изображения. Часто используется для создания анимированных кнопок, иконок, где необходим эффект прозрачности.

Изображения в формате PNG можно много раз оптимизировать, редактировать – оно сохранит первоначальное качество.

Формат также поддерживается всеми браузерами и устройствами, что гарантирует его отображение на любом экране.

По качеству изображения выглядят лучше, чем JPG, но вес файла будет больше. Это нужно учитывать при размещении файлов на сайте.

GIF

Это 8-битный формат, поддерживающий 256 цветов, прозрачность и анимацию. За счёт поддержки малого количества цветов, вес файла тоже минимальный.

Формат не подходит для фотографий и изображений с широким диапазоном цветов.

Зато широко используется при создании, баннеров, кнопок, иконок и так далее.

В современных сайтах этот формат используется всё реже.

Далее поговорим об относительно свежих форматах SVG и WebP, которые не так популярны, но набирают популярность и поддержку, и как нельзя лучше подходят под требования скорости загрузки и адаптивности сайтов.

SVG

Это формат векторных файлов на основе XML. Формат стал набирать популярность совсем недавно, так как ранее он слабо поддерживался в браузерах. И из-за проблем отображения никто не торопился его использовать.

На сегодняшний день SVG поддерживается всеми современными браузерами. Но, проблемы с отображением все, же встречаются.

Наиболее часто используют этот формат для простых изображений, таких как логотипы, элементы дизайна и так далее. Неприменим для фотографий.

Формат SVG имеет малый вес, отлично масштабируются, обеспечивая чёткость изображения на любом разрешении экрана, поддерживает анимацию, можно управлять через CSS и размещать в HTML, сокращая количество запросов.

WebP

Формат с открытым исходным кодом, разработан Google специально для интернета. Сегодня YouTube использует преобразование миниатюр для видео в формат WebP.

Формат обеспечивает превосходное сжатие и поддерживает прозрачность. Он сочетает в себе преимущества JPG и PNG форматов без увеличения размера файла.

Но, несмотря на преимущества формата, он поддерживается не всем браузерами, например, IE, Edge, Firefox и Safari.

Существуют способы обхода этих ограничений, но они не дают использовать формат повсеместно.

Заключение

Друзья, надеюсь, объяснил всё понятно, и вы теперь знаете, какой формат изображений лучше использовать на сайте, и почему я не настаиваю на использовании одного какого-то формата, а рекомендую комплексный подход.

Возможно, когда WebP получит широкую поддержку, мы все перейдём на него и заменим jpg и png на своих сайтах.

Давайте обсудим в комментариях, какие вы используете форматы на своих сайтах, что нравится и что не нравится.

На сегодня у меня всё, жду ваших комментариев.

С уважением, Максим Зайцев.

    С амыми популярными являются три формата файлов – JPEG, RAW, TIFF. Порой можно слышать разногласия среди фотографов – какой же формат файла для фотографии лучше, в каком формате лучше делать снимки, ведь современные фотоаппараты позволяют делать фо тографии в любом из этих форматов, а порой и сразу в нескольких одновременно!

    Формат файла, в котором хранится изображение - это, по сути, определенный компромисс между качеством изображения и размером файла.

    Наверное вы уже знаете о том, что растровое изображение состоит из пикселей. Как организован растровый файл и в каком виде в нем хранится информация о пикселях и определяет формат файла. Качество изображения для растрового файла определяется двумя основными параметрами: размером пикселя (то есть общим количеством пикселей) и точностью передачи реального цвета цветом пикселя. С размером пикселя понятно – чем больше пикселей (или – чем «мельче» пиксель), тем лучше. А точность передачи цвета зависит от количества цветов на пиксель или глубиной цвета.

    Глубина цвета (качество цветопередачи, битность изображения) - объём памяти в количестве бит, используемых для хранения и представления цвета при кодировании одного пикселя растровой графики или видеоизображения. Количество бит говорит о количестве градаций (тональных ступеней) в каждой цветовой составляющей или, просто – о количестве цветов. Добавление 1 бита – это добавление еще одного разряда в двоичном коде цветности.

    • 1-битный цвет (21 = 2 цвета) бинарный цвет, чаще всего представляется чёрным и белым цветами (или черный и зелёный)
    • 2-битный цвет (22 = 4 цвета) CGA, градации серого цвета NeXTstation
    • 3-битный цвет (23 = 8 цветов) множество устаревших персональных компьютеров с TV-выходом
    • 4-битный цвет (24 = 16 цветов) известен как EGA и в меньшей степени как VGA-стандарт с высоким разрешением
    • 5-битный цвет (25 = 32 цвета) Original Amiga chipset
    • 6-битный цвет (26 = 64 цвета) Original Amiga chipset
    • 8-битный цвет (28 = 256 цветов) Устаревшие Unix- рабочие станции, VGA низкого разрешения, Super VGA, AGA
    • 12-битный цвет (212 = 4,096 цветов) некоторые Silicon Graphics-системы, цвет NeXTstation-систем, и Amiga- систем HAM-режима.

    Например, мы работаем в цветовом пространстве RGB. Значит, есть три канала, из которых образуется итоговый цвет пикселя: красный канал (Rad), зеленый канал (Green), синий канал (Blue). Предположим, каналы четырехбитные. Значит, в каждом канале есть возможность отобразить 16 цветов. В итоге, весь RGB будет 12-битным, а отобразить он сумеет

    C=16х16х16=4096 цвета

    Глубина цвета в этом случае – 12 бит.

    Когда говорят о 24-битном RGB, имеют в виду 8-битные каналы (по 256 цветов) с общим количеством цветовых вариантов на один пиксель

    C=256x256x256=16777216 цветов.

    Цифра впечатляет. Такое количество цветов для каждого пикселя удовлетворяет требованиям самого взыскательного фотохудожника.

    Немного о самих форматах.

    Формат TIFF

    TIFF расшифровывается как «формат файла размеченного изображения» (Tagged Image File Format) и является стандартом для типографской и печатной индустрии.

    В итоге, получается вот что:

    1. Если ваша камера настолько проста, что снимает только JPEG, и вы хотите получить максимальное качество, задавайте максимальный размер и минимальное сжатие и не терзайте себя тем, что у вас нет других форматов. В большинстве случаев, кропотливо выведенный вручную снимок из RAW соответствует автоматически сделанному камерой JPEG.

    2. Не стоит, пожалуй, фотографировать в TIFF. Запись этого формата идет тяжелее, а заметной разницы по сравнению с качественным JPEG нет.

    3. Если у вас есть возможность делать снимки в , поработайте с ним. Вы сами почувствуете, подходит ли он вам. В некоторых случаях только RAW дает возможность сделать уникальное фото для большого увеличения при печати.

    Остается еще одно решение, можно сказать универсальное. Есть режим, позволяющий делать кадры в двух форматах одновременно: RAW+ JPEG. Снимайте важные сюжеты в этом режиме. Современные хранилища цифровой информации – и карты памяти, и жесткие диски – позволяют это сделать. В таком случае вы получаете JPEG для использования фотографии сразу, без затрат времени на доработку. А, если понадобится этой – доверите файл RAW специалисту для обработки.

    Фотография. Форматы файлов.

    Легко подсчитать, что несжатое полноцветное изображение, размером 2000*1000 пикселов будет иметь размер около 6 мегабайт. Если говорить об изображениях, получаемых с профессиональных камер или сканеров высокого разрешения, то их размер может быть ещё больше. Не смотря на быстрый рост ёмкости устройств хранения, по-прежнему весьма актуальными остаются различные алгоритмы сжатия изображений.
    Все существующие алгоритмы можно разделить на два больших класса:

    • Алгоритмы сжатия без потерь;
    • Алгоритмы сжатия с потерями.
    Когда мы говорим о сжатии без потерь, мы имеем в виду, что существует алгоритм, обратный алгоритму сжатия, позволяющий точно восстановить исходное изображение. Для алгоритмов сжатия с потерями обратного алгоритма не существует. Существует алгоритм, восстанавливающий изображение не обязательно точно совпадающее с исходным. Алгоритмы сжатия и восстановления подбираются так, чтобы добиться высокой степени сжатия и при этом сохранить визуальное качество изображения.

    Алгоритмы сжатия без потерь

    Алгоритм RLE
    Все алгоритмы серии RLE основаны на очень простой идее: повторяющиеся группы элементов заменяются на пару (количество повторов, повторяющийся элемент). Рассмотрим этот алгоритм на примере последовательности бит. В этой последовательности будут чередовать группы нулей и единиц. Причём в группах зачастую будет более одного элемента. Тогда последовательности 11111 000000 11111111 00 будет соответствовать следующий набор чисел 5 6 8 2. Эти числа обозначают количество повторений (отсчёт начинается с единиц), но эти числа тоже необходимо кодировать. Будем считать, что число повторений лежит в пределах от 0 до 7 (т.е. нам хватит 3 бит для кодирования числа повторов). Тогда рассмотренная выше последовательность кодируется следующей последовательностью чисел 5 6 7 0 1 2. Легко подсчитать, что для кодирования исходной последовательности требуется 21 бит, а в сжатом по методу RLE виде эта последовательность занимает 18 бит.
    Хоть этот алгоритм и очень прост, но эффективность его сравнительно низка. Более того, в некоторых случаях применение этого алгоритма приводит не к уменьшению, а к увеличению длины последовательности. Для примера рассмотрим следующую последовательность 111 0000 11111111 00. Соответствующая ей RL-последовательность выглядит так: 3 4 7 0 1 2. Длина исходной последовательности – 17 бит, длина сжатой последовательности – 18 бит.
    Этот алгоритм наиболее эффективен для чёрно-белых изображений. Также он часто используется, как один из промежуточных этапов сжатия более сложных алгоритмов.

    Словарные алгоритмы

    Идея, лежащая в основе словарных алгоритмов, заключается в том, что происходит кодирование цепочек элементов исходной последовательности. При этом кодировании используется специальный словарь, который получается на основе исходной последовательности.
    Существует целое семейство словарных алгоритмов, но мы рассмотрим наиболее распространённый алгоритм LZW, названный в честь его разработчиков Лепеля, Зива и Уэлча.
    Словарь в этом алгоритме представляет собой таблицу, которая заполняется цепочками кодирования по мере работы алгоритма. При декодировании сжатого кода словарь восстанавливается автоматически, поэтому нет необходимости передавать словарь вместе с сжатым кодом.
    Словарь инициализируется всеми одноэлементными цепочками, т.е. первые строки словаря представляют собой алфавит, в котором мы производим кодирование. При сжатии происходит поиск наиболее длинной цепочки уже записанной в словарь. Каждый раз, когда встречается цепочка, ещё не записанная в словарь, она добавляется туда, при этом выводится сжатый код, соответствующий уже записанной в словаре цепочки. В теории на размер словаря не накладывается никаких ограничений, но на практике есть смысл этот размер ограничивать, так как со временем начинаются встречаться цепочки, которые больше в тексте не встречаются. Кроме того, при увеличении размеры таблицы вдвое мы должны выделять лишний бит для хранения сжатых кодов. Для того чтобы не допускать таких ситуаций, вводится специальный код, символизирующий инициализацию таблицы всеми одноэлементными цепочками.
    Рассмотрим пример сжатия алгоритмом. Будем сжимать строку кукушкакукушонкукупилакапюшон. Предположим, что словарь будет вмещать 32 позиции, а значит, каждый его код будет занимать 5 бит. Изначально словарь заполнен следующим образом:

    Эта таблица есть, как и на стороне того, кто сжимает информацию, так и на стороне того, кто распаковывает. Сейчас мы рассмотрим процесс сжатия.


    В таблице представлен процесс заполнения словаря. Легко подсчитать, что полученный сжатый код занимает 105 бит, а исходный текст (при условии, что на кодирование одного символа мы тратим 4 бита) занимает 116 бит.
    По сути, процесс декодирования сводится к прямой расшифровке кодов, при этом важно, чтобы таблица была инициализирована также, как и при кодировании. Теперь рассмотрим алгоритм декодирования.



    Строку, добавленную в словарь на i-ом шаге мы можем полностью определить только на i+1. Очевидно, что i-ая строка должна заканчиваться на первый символ i+1 строки. Т.о. мы только что разобрались, как можно восстанавливать словарь. Некоторый интерес представляет ситуация, когда кодируется последовательность вида cScSc, где c - это один символ, а S - строка, причём слово cS уже есть в словаре. На первый взгляд может показаться, что декодер не сможет разрешить такую ситуацию, но на самом деле все строки такого типа всегда должны заканчиваться на тот же символ, на который они начинаются.

    Алгоритмы статистического кодирования
    Алгоритмы этой серии ставят наиболее частым элементам последовательностей наиболее короткий сжатый код. Т.е. последовательности одинаковой длины кодируются сжатыми кодами различной длины. Причём, чем чаще встречается последовательность, тем короче, соответствующий ей сжатый код.
    Алгоритм Хаффмана
    Алгоритм Хаффмана позволяет строить префиксные коды. Можно рассматривать префиксные коды как пути на двоичном дереве: прохождение от узла к его левому сыну соответствует 0 в коде, а к правому сыну – 1. Если мы пометим листья дерева кодируемыми символами, то получим представление префиксного кода в виде двоичного дерева.
    Опишем алгоритм построения дерева Хаффмана и получения кодов Хаффмана.
  1. Символы входного алфавита образуют список свободных узлов. Каждый лист имеет вес, который равен частоте появления символа
  2. Выбираются два свободных узла дерева с наименьшими весами
  3. Создается их родитель с весом, равным их суммарному весу
  4. Родитель добавляется в список свободных узлов, а двое его детей удаляются из этого списка
  5. Одной дуге, выходящей из родителя, ставится в соответствие бит 1, другой - бит 0
  6. Шаги, начиная со второго, повторяются до тех пор, пока в списке свободных узлов не останется только один свободный узел. Он и будет считаться корнем дерева.
С помощью этого алгоритма мы можем получить коды Хаффмана для заданного алфавита с учётом частоты появления символов.
Арифметическое кодирование
Алгоритмы арифметического кодирования кодируют цепочки элементов в дробь. При этом учитывается распределение частот элементов. На данный момент алгоритмы арифметического кодирования защищены патентами, поэтому мы рассмотрим только основную идею.

Легко подсчитать, что несжатое полноцветное изображение, размером 2000*1000 пикселов будет иметь размер около 6 мегабайт. Если говорить об изображениях, получаемых с профессиональных камер или сканеров высокого разрешения, то их размер может быть ещё больше. Не смотря на быстрый рост ёмкости устройств хранения, по-прежнему весьма актуальными остаются различные алгоритмы сжатия изображений.
Все существующие алгоритмы можно разделить на два больших класса:

  • Алгоритмы сжатия без потерь;
  • Алгоритмы сжатия с потерями.
Когда мы говорим о сжатии без потерь, мы имеем в виду, что существует алгоритм, обратный алгоритму сжатия, позволяющий точно восстановить исходное изображение. Для алгоритмов сжатия с потерями обратного алгоритма не существует. Существует алгоритм, восстанавливающий изображение не обязательно точно совпадающее с исходным. Алгоритмы сжатия и восстановления подбираются так, чтобы добиться высокой степени сжатия и при этом сохранить визуальное качество изображения.

Алгоритмы сжатия без потерь

Алгоритм RLE
Все алгоритмы серии RLE основаны на очень простой идее: повторяющиеся группы элементов заменяются на пару (количество повторов, повторяющийся элемент). Рассмотрим этот алгоритм на примере последовательности бит. В этой последовательности будут чередовать группы нулей и единиц. Причём в группах зачастую будет более одного элемента. Тогда последовательности 11111 000000 11111111 00 будет соответствовать следующий набор чисел 5 6 8 2. Эти числа обозначают количество повторений (отсчёт начинается с единиц), но эти числа тоже необходимо кодировать. Будем считать, что число повторений лежит в пределах от 0 до 7 (т.е. нам хватит 3 бит для кодирования числа повторов). Тогда рассмотренная выше последовательность кодируется следующей последовательностью чисел 5 6 7 0 1 2. Легко подсчитать, что для кодирования исходной последовательности требуется 21 бит, а в сжатом по методу RLE виде эта последовательность занимает 18 бит.
Хоть этот алгоритм и очень прост, но эффективность его сравнительно низка. Более того, в некоторых случаях применение этого алгоритма приводит не к уменьшению, а к увеличению длины последовательности. Для примера рассмотрим следующую последовательность 111 0000 11111111 00. Соответствующая ей RL-последовательность выглядит так: 3 4 7 0 1 2. Длина исходной последовательности – 17 бит, длина сжатой последовательности – 18 бит.
Этот алгоритм наиболее эффективен для чёрно-белых изображений. Также он часто используется, как один из промежуточных этапов сжатия более сложных алгоритмов.

Словарные алгоритмы

Идея, лежащая в основе словарных алгоритмов, заключается в том, что происходит кодирование цепочек элементов исходной последовательности. При этом кодировании используется специальный словарь, который получается на основе исходной последовательности.
Существует целое семейство словарных алгоритмов, но мы рассмотрим наиболее распространённый алгоритм LZW, названный в честь его разработчиков Лепеля, Зива и Уэлча.
Словарь в этом алгоритме представляет собой таблицу, которая заполняется цепочками кодирования по мере работы алгоритма. При декодировании сжатого кода словарь восстанавливается автоматически, поэтому нет необходимости передавать словарь вместе с сжатым кодом.
Словарь инициализируется всеми одноэлементными цепочками, т.е. первые строки словаря представляют собой алфавит, в котором мы производим кодирование. При сжатии происходит поиск наиболее длинной цепочки уже записанной в словарь. Каждый раз, когда встречается цепочка, ещё не записанная в словарь, она добавляется туда, при этом выводится сжатый код, соответствующий уже записанной в словаре цепочки. В теории на размер словаря не накладывается никаких ограничений, но на практике есть смысл этот размер ограничивать, так как со временем начинаются встречаться цепочки, которые больше в тексте не встречаются. Кроме того, при увеличении размеры таблицы вдвое мы должны выделять лишний бит для хранения сжатых кодов. Для того чтобы не допускать таких ситуаций, вводится специальный код, символизирующий инициализацию таблицы всеми одноэлементными цепочками.
Рассмотрим пример сжатия алгоритмом. Будем сжимать строку кукушкакукушонкукупилакапюшон. Предположим, что словарь будет вмещать 32 позиции, а значит, каждый его код будет занимать 5 бит. Изначально словарь заполнен следующим образом:

Эта таблица есть, как и на стороне того, кто сжимает информацию, так и на стороне того, кто распаковывает. Сейчас мы рассмотрим процесс сжатия.

В таблице представлен процесс заполнения словаря. Легко подсчитать, что полученный сжатый код занимает 105 бит, а исходный текст (при условии, что на кодирование одного символа мы тратим 4 бита) занимает 116 бит.
По сути, процесс декодирования сводится к прямой расшифровке кодов, при этом важно, чтобы таблица была инициализирована также, как и при кодировании. Теперь рассмотрим алгоритм декодирования.


Строку, добавленную в словарь на i-ом шаге мы можем полностью определить только на i+1. Очевидно, что i-ая строка должна заканчиваться на первый символ i+1 строки. Т.о. мы только что разобрались, как можно восстанавливать словарь. Некоторый интерес представляет ситуация, когда кодируется последовательность вида cScSc, где c - это один символ, а S - строка, причём слово cS уже есть в словаре. На первый взгляд может показаться, что декодер не сможет разрешить такую ситуацию, но на самом деле все строки такого типа всегда должны заканчиваться на тот же символ, на который они начинаются.

Алгоритмы статистического кодирования
Алгоритмы этой серии ставят наиболее частым элементам последовательностей наиболее короткий сжатый код. Т.е. последовательности одинаковой длины кодируются сжатыми кодами различной длины. Причём, чем чаще встречается последовательность, тем короче, соответствующий ей сжатый код.
Алгоритм Хаффмана
Алгоритм Хаффмана позволяет строить префиксные коды. Можно рассматривать префиксные коды как пути на двоичном дереве: прохождение от узла к его левому сыну соответствует 0 в коде, а к правому сыну – 1. Если мы пометим листья дерева кодируемыми символами, то получим представление префиксного кода в виде двоичного дерева.
Опишем алгоритм построения дерева Хаффмана и получения кодов Хаффмана.
  1. Символы входного алфавита образуют список свободных узлов. Каждый лист имеет вес, который равен частоте появления символа
  2. Выбираются два свободных узла дерева с наименьшими весами
  3. Создается их родитель с весом, равным их суммарному весу
  4. Родитель добавляется в список свободных узлов, а двое его детей удаляются из этого списка
  5. Одной дуге, выходящей из родителя, ставится в соответствие бит 1, другой - бит 0
  6. Шаги, начиная со второго, повторяются до тех пор, пока в списке свободных узлов не останется только один свободный узел. Он и будет считаться корнем дерева.
С помощью этого алгоритма мы можем получить коды Хаффмана для заданного алфавита с учётом частоты появления символов.
Арифметическое кодирование
Алгоритмы арифметического кодирования кодируют цепочки элементов в дробь. При этом учитывается распределение частот элементов. На данный момент алгоритмы арифметического кодирования защищены патентами, поэтому мы рассмотрим только основную идею.
Пусть наш алфавит состоит из N символов a1,…,aN, а частоты их появления p1,…,pN соответственно. Разобьем полуинтервал . Эти шаги важны для эффективной работы кодера на следующем этапе.

1.2. ДКП

Являясь ключевым шагом алгоритма сжатия, дискретное косинусное преобразование (далее ДКП) представляет собой разновидность преобразования Фурье и, также как и последнее, имеет обратное преобразование (ОДКП). Если рассматривать изображение как совокупность пространственных волн, где оси X и Y соответствуют ширине и высоте картинки, а по оси Z откладываются значения цвета соответствующих пикселей, то можно перейти от пространственного представления картинки к ее спектральному представлению и обратно. ДКП преобразует матрицу пикселей размера N x N в матрицу частотных коэффициентов соответствующего размера.



Рис. 4.

В получаемой матрице низкочастотные компоненты расположены ближе к левому верхнему углу, а более высокочастотные смещаются вправо вниз. В связи с тем, что основная часть графических образов на экране состоит из низкочастотной информации, используя полученную матрицу можно дифференцированно отбрасывать наименее важную информацию с минимальными визуальными потерями. Таким образом ДКП позволяет выбрать информацию, которую можно безболезненно отбросить, не внося серьезных искажений в картинку. Трудно представить, как можно было бы выполнить эту задачу на исходном изображении.

Из формул (рис. 4) видно, что вычисление одного элемента результирующей матрицы требует O(N 2) времени, поэтому почти невозможно выполнить преобразование всей матрицы целиком. Группа разработчиков JPEG предложила оптимальный вариант решения этой проблемы: разбивать исходную матрицу на квадраты стандартного размера 8x8 и выполнять преобразование каждого из них. Использование блоков большего размера позволит улучшить качество сжатия, но не до бесконечности, так как слишком мала вероятность того, что сильно отдаленные точки похожи друг на друга.

Стоит отметить, что в ходе вычислений используется только 32 заранее вычисленных значения косинусов, что позволяет заметно увеличить скорость работы преобразования. Это уже, несомненно, приводит к частичной потери информации, но ее объемы относительно несущественны.

Небольшого увеличения производительности можно добиться, если при вычислениях использовать только целочисленную арифметику, что, правда, является актуальным только для старых вычислительных машин, так как в современных компьютерах стоимость операций над числами с плавающей запятой не отличается от операций над целыми. Также использование целочисленной арифметике негативно сказывается на качестве сжимаемого изображения, что делает этот метод неприемлемым для современных компьютеров. Так как ДКП является разновидностью преобразования Фурье, то все методы увеличения производительности преобразования Фурье могут быть использованы и здесь.

1.3. Округление

Следующим этапом, на котором и происходит основная потеря информации, является округление или квантование. Как видно, ДКП не выполняет какого-либо сжатия или кодирования. Основной его задачей является преобразование исходного изображения к виду, удобному для последующих операций над ним.

Округлением называется процесс уменьшения объема информации, необходимого для хранения матрицы ДКП, с частичной потерей точности. По стандарту JPEG для этого используется матрица округления (МО). Каждому элементу исходной матрицы ДКП соответствует элемент МО. Результирующая матрица получается делением исходной матрица на МО. При этом низкочастотным значениям в матрице ДКП соответствуют меньшие коэффициенты МО, что позволяет оставлять более значимую, низкочастотную информацию и отбрасывать менее важную высокочастотную. В связи с тем, что низкочастотные компоненты сосредоточены в левом верхнем углу матрицы ДКП, значения МО растут слева направо и сверху вниз.


3 5 7 9 11 13 15 17
5 7 9 11 13 15 17 19
7 9 11 13 15 17 19 21
9 11 13 15 17 19 21 23
11 13 15 17 19 21 23 25
13 15 17 19 21 23 25 27
15 17 19 21 23 25 27 29
17 19 21 23 25 27 29 31

Пример матрицы округления с фактором качества равным 2.

Результаты округления и качества восстановленного изображения напрямую зависят от выбранной матрицы округления. Стандарт JPEG позволяет использовать любую МО, однако ISO в ходе долгих экспериментальных тестирований разработала набор матриц, позволяющих добиться оптимальных результатов.

1.4. Сжатие

Последний этап работы алгоритма кодирования JPEG — это сжатие. После обработки матрицы ДКП с помощью МО, в результирующей матрице появляется большое количество нулей, особенно в высокочастотной области (правый нижний угол).

Первым шагом значение в левом верхнем углу результирующей матрицы заменяется на относительное. Так как соседние блоки изображения похожи друг на друга, то кодирование очередного элемента (0,0) через разницу с предыдущим будет более эффективным. Вторым шагом является непосредственно применение алгоритма кодирования повторов (LZW), для обработки большого количества подряд идущих нулей. Экспериментальные тестирования показали, что наилучших результатов можно добиться, если обходить матрицу зигзагом, как показано на рисунке ниже.

Рис. 5.

Наконец, на третьем и заключительном шаге полученный результат сжимается, как обычные данные с помощью алгоритма Хаффмана или арифметического кодирования в зависимости от реализации. Этот этап носит название «кодирование энтропии» (в терминологии JPEG).

1.5. Декодирование

Так как ДКП является преобразованием Фурье, к нему существует обратное дискретное косинусное преобразование (ОДКП). Алгоритм декодирования повторяет алгоритм кодирования в обратном порядке.

2. JPEG2000

Изначально новый стандарт разрабатывался как база для будущего стандарта сжатия без потерь JPEG-LS, но позднее был отвергнут в связи с появлением более эффективных алгоритмов. В связи с развитием технологий стандарт JPEG постепенно терял свою актуальность. Разработчики JPEG2000 надеялись создать стандарт, который исправил бы многие ошибки уже существующих стандартов. Среди их задач были:

  • Устранение неэффективного сжатия в области низких частот . Существующие алгоритмы неплохо справлялись со сжатием среднечастотных и высокочастотных областей, но в области низких частот они показывали плохие результаты.
  • Сжатие с потерями и без потерь . На момент разработки не существовало стандарта, позволяющего сжимать с потерями и без потерь в едином сжимающем потоке.
  • Обработка больших изображений . Существующие алгоритмы не позволяли эффективно сжимать изображения размером более 64Kx64K без разбиения на тайлы.
  • Единая структура алгоритма сжатия . Текущая реализация JPEG поддерживала 44 модификации, большая часть которых была специфичной для некоторых приложений и не поддерживалась большей частью декодеров.
  • Помехоустойчивость . Во время разработки JPEG сетевые технологии не были еще достаточно развиты, и проектировщики JPEG не задумывались над помехоустойчивостью при передаче изображений по небезопасным каналам и возможностью восстановления изображения в случае его повреждения в результате передачи.
  • Компьютерно-сгенерированные изображения . Исходные алгоритмы неплохо работали на цифровых фотографиях и изображениях, полученных с помощью цифровой фотокамеры или сканера, но неэффективно обрабатывали изображения, созданные на компьютере, например, с помощью графических редакторов.
  • Сложные документы . JPEG показывал очень плохие результаты при обработке сложных двумерных изображений (в частности изображений текста).

На следующей диаграмме представлены основные шаги работы кодера JPEG2000.


Рис. 6.


Рис. 7.

В отличие от JPEG кодер JPEG2000 не требует разбиения изображения на малые квадратные блоки, так как используемое в ходе работы алгоритма ДВП (дискретное вейвлетное преобразование) работает на фрагментах любого размера. С другой стороны иногда, в случае, если объем памяти, доступный кодеру для работы, меньше, чем объем памяти, необходимый для кодирования всего изображения, выполняется разбиение изображения на квадратные тайлы, которые кодируются независимо друг от друга. Далее будет рассматриваться кодирование одного тайла. Остальные шаги аналогичны JPEG.

Рис. 8.

2.2. ДВП

JPEG2000 использует дискретное вейвлетное преобразование (Discrete Wavelet Transformation), для разбиения изображения на высокочастотные и низкочастотные области. ДВП обрабатывает каждую строку и столбец исходного изображения с помощью частотного фильтра.

Рис. 9.

В связи с тем, что каждый проход с использованием частотного фильтра на выходе увеличивает объем информации в два раза, после обработки размер изображения уменьшается в два раза. После одного этапа ДВП обрабатываемый фрагмент делится на четыре сегмента:

  • LL – низкие частоты по строкам и столбцам
  • HL – высокие частоты по строкам и низкие по столбцам
  • LH – низкие частоты по строкам и высокие по столбцам
  • HH – высокие частоты по строкам и столбцам

По стандарту количество этапов может быть от 0 до 32. Для обычного изображения используют от 4-х до 8-ми этапов. На каждом следующем этапе обрабатывается только низкочастотная область (LL), так как в высокочастотных областях обычно не содержится важной информации.


Рис. 10.

Рис. 11.

2.3. Округление

Для округления коэффициентов ДВП используется постоянный квантователь с мертвой зоной. (рис. 14) Для каждого фрагмента используется постоянное значение шага округления для всех коэффициентов этого фрагмента. Формула вычисления округленных значений представлена на рисунке 12. Здесь y - исходное значение коэффициента, sign(y) определяет знак коэффициента, а Δb - значение шага округления. Мертвая зона квантователя - это интервал диапазоном 2Δb около нуля, она дает большее количество нулей на выходе.

2.4. Кодирование

Кодирование полученных округленных коэффициентов выполняется поблочно. По стандарту JPEG2000 непосредственно перед кодированием фрагменты разбиваются на достаточно малые блоки (например, размером 32x32 или 64x64) так, чтобы все блоки одного фрагмента были одинакового размера. Разбиение на блоки выполняется для того, чтобы осуществить более гибкую организацию сжатой информации для повышения помехоустойчивости и так далее.


Рис. 16.

В JPEG2000 каждый блок кодируется по отдельности. Алгоритм кодирования обходит матрицу коэффициентов округления каждого блока полосами, как показано на рисунке 17. Блоки разбиваются на блоки с номинальной высотой 4. Далее полосы сканируются сверху вниз, а колонки в каждой полосе обходятся слева направо.


Рис. 17.

В процессе кодирования коэффициенты в блоке виртуально представляются в виде битовых плоскостей. Одну из таких плоскостей составляют знаки коэффициентов; остальные плоскости соответствуют различным разрядам величин коэффициентов (положение бита в плоскости соответствует положению коэффициента в блоке). Кодирование осуществляется по плоскостям: сначала кодируется плоскость, соответствующая старшему разряду коэффициентов, затем следующая по убыванию, и т.д. Может случиться так, что N наиболее приоритетных битовых плоскостей (НПБ-плоскостей), не будут содержать единиц. В этом случае НПБ-плоскостью становится первая по порядку плоскость, содержащая хотя бы одну единицу. Предшествующие ей пустые плоскости опускаются при кодировании, а информация о их количестве заносится в заголовок блока.

Арифметическое кодирование основано на контекстно-зависимой модели. Контекст формируется как функция от значений битов, окружающих кодируемый бит. Каждая битовая плоскость, кроме НБП, обычно кодируется в три прохода. Во время первого кодового прохода осуществляется распространение информации о значимости коэффициентов. Во время кодирования каждому коэффициенту в кодируемом блоке ставится в соответствие параметр значимость. Коэффициент называется значимым, если в уже закодированных на дынный момент битовых плоскостях, присутствует хотя бы один ненулевой разряд данного коэффициента.

Для каждого бита плоскости, если соответствующий коэффициент еще не является значимым, и если хоть один соседний коэффициент уже является значимым, осуществляется кодирование факта значимости для текущего коэффициента, то есть фактически осуществляется кодирование значения данного бита текущей кодируемой плоскости. Если кодируемый бит оказался ненулевым, сразу после его обработки кодируется соответствующий бит битовой плоскости знаков коэффициентов (кодирование знака).

Во время второго прохода выполняется кодирование нетронутых в первом проходе битов коэффициентов, значимых на данный момент. В отличие от предыдущего прохода, когда решение о кодировании принималось на основе информации о значимости соседних коэффициентов, во время данного прохода биты кодируются в обязательном порядке.

Во время третьего, заключительного прохода выполняется обработка тех битов, которые не были обработаны во время первого и второго проходов. Во время этого заключительного этапа арифметическое кодирование применяется совместно с групповым кодированием.

Существенной деталью, предусмотренной стандартом, является возможность пропуска кодовых проходов, что является еще одним источником повышения эффективности за счет информационных потерь (первым, наиболее явным источником является квантование). Данная возможность активно используется для осуществления контроля над скоростью генерации кода.

2.5. Организация данных

Важным преимуществом рассматриваемого стандарта является возможность доступа к отдельным элементам изображения без полного декодирования его представления. Обеспечивается такая возможность, во-первых, разбиением исходного изображения на непересекающиеся области (тайлы), которые кодируются как отдельные изображения, а во-вторых, представлением кода отдельного тайла в виде частей (слоев), каждая из которых является суммарным кодом коэффициентов, соответствующих некоторой его (тайла) области. Слои в свою очередь делятся на так называемые пакеты, содержащие код блоков коэффициентов на разных уровнях декомпозиции. Для того, чтобы декодировать какую-либо область изображения, достаточно определить, каким тайлам она принадлежит, и какие слои, относящиеся к этим тайлам, содержат код блоков коэффициентов, необходимых для восстановления требуемой области.



Рис. 20.

Безусловно, «удобное» представление изображения не может быть выгодным с точки зрения эффективности сжатия. Действительно, с уменьшением размера структурных элементов (тайлов, областей тайлов, образующих слои и др.) эффективность сжатия несколько снижается. Стандарт в данном случае оставляет нам выбор: с одной стороны, мы имеем возможность получать информационные представления, позволяющие достаточно быстро извлекать и редактировать части изображения, с другой стороны, стандарт не препятствует созданию информационных представлений, эффективных по объему.

Для обеспечения помехоустойчивости и удобства доступа к информации в стандарте JPEG2000 предусмотрена система маркеров и маркерных сегментов. Маркерные сегменты содержат в себе параметры фрагментов информации ограниченных маркерами. Данные, начинающиеся с маркера, могут быть корректно проинтерпретированы без какой-либо дополнительной информации (это не означает возможность восстановления целого по фрагментам), что обеспечивает возможность частичного восстановления изображения, представление которого было повреждено. Введение элементов помехоустойчивости дает зеленый свет использованию стандарта во всевозможных телекоммуникационных приложениях.

Достижение высокого качества сжатия, безусловно, было одной из главных задач при создании стандарта, и здесь разработчики добились явного прогресса. Стандарт JPEG2000 превосходит по эффективности стандарт JPEG примерно в 2 раза при сжатии с потерями и на 5-20% при сжатии без потерь. Конечно, эффективность при сжатии без потерь в данном случае оказывается не такой высокой, как, скажем, у стандарта JPEG-LS, однако она вполне приемлема. Что же касается эффективности сжатия с потерями, здесь стандарт позволяет получать результаты, близкие к наилучшим на сегодняшний день результатам для подобного рода методов.

3. JPEG-LS

Формат JPEG-LS был основан на формате LOCO-I (Low Complexity Lossless Compression for Images). Алгоритм сжатия без потерь LOCO-I, принятый за основу при разработке стандарта JPEG-LS, впервые предусматривал не только lossless, но и near lossless режим (сжатие с ограниченными, задаваемыми пользователем потерями). В отличие от JPEG2000 lossless mode, JPEG-LS получился по-настоящему удачным: при большей эффективности сжатия новый стандарт обеспечивает высокую скорость компрессии/декомпрессии и не слишком требователен к ресурсам компьютера.

Важно понимать, что формат JPEG-LS:

  • не является расширением или модификацией метода JPEG;
  • не использует ни DCT (ДКП), ни арифметическое кодирование;
  • использует слабое квантование только в моде «почти без потерь»

3.1. Введение основных понятий и принципов работы

Сжатие данных без потерь состоит из двух отдельных независимых частей: моделирования (modeling) и кодирования (coding). Определим некоторые термины, которые будем активно использовать в дальнейшем:

Кодер (Encoder) «отвечает» за процесс кодирования, а именно: получает на вход исходное изображение в цифровом формате и все необходимые параметры, определенные стандартом, и с помощью специального набора процедур создает набор данных, содержащих сжатое изображение Декодер (Decoder) «отвечает» за процесс декодирования и преобразование фрагментов, а именно: получая на вход данные со сжатым изображением и все необходимые параметры, выводит реконструированное изображение

Декодер JPEG-LS мало отличается от кодера, поэтому этот алгоритм сжатия можно назвать почти симметричным. Приведем упрощенную схему, показывающую принципы кодирования:



Рис. 21.

Немного информации об исходном изображении : как ниже показано на схеме (рис. 22), исходное изображение может состоять из Nf компонент. Каждая компонента Ci содержит двумерный массив пикселей (samples) из x i столбцов и y i строк. Размеры компонент зависят от двух параметров: X и Y, где X - максимум среди x i значений, а Y - максимум среди y i значений всех компонент. (В стандарте JPEG-LS целая глава посвящена отличиям в работе с мультикомпонентными изображениями по сравнению с однокомпонентными, однако в этой статье мы остановимся лишь на работе однокомпонентными изображениями).



Рис. 22.

На рисунке отмечена ориентация каждой компоненты: top (верх), bottom (низ), left (лево), и right (право). Порядок, в котором пиксели подаются на обработку процедурам кодирования, определен так: left-to-right (слева направо) и top-to-bottom (сверху вниз) по компоненте.

Для прогнозирования текущего пикселя x используются пиксели контекста a, b, c, d. В зависимости от контекста кодер выбирает моду: серийную (run mode) или регулярную (regular mode) . Серийная мода выбирается, если y и z скорее всего будут совпадать, регулярная – в противном случае. Сделаем тут замечание, связанное с наличием опции «почти без потерь» : при включении этой опции серийная мода будет выбрана, если y и z будут почти совпадать в соответствии с параметром допустимого отклонения NEAR.

В случае использования серийной моды мы начинаем просмотр текущей строки с пикселя x и находим наибольшую длину серии пикселей, совпадающих с контекстным пикселем a. Таким образом, в пределах текущей строки мы получаем серию одинаковых пикселей, совпадающих по значению с известным нам пикселем a. Осталось только закодировать длину серии. (Это делается с помощью массива J из 32 элементов). Вы уже могли догадаться, что при включенной опции «почти без потерь» выбирается серия пикселей, близких к a с помощью параметра NEAR.

Теперь рассмотрим наши действия в случае использования регулярной моды. Для вычисления прогноза пикселя x (Px) используются величины пикселей a, b и c. Затем вычисляется так называемая ошибка прогноза (Errval). Ее значение равно разности значения x и Px. Errval корректируется некоторым членом, зависящим от контекста, а затем кодируется с помощью кодов Голомба. Код Голомба зависит от a, b, c, d и Errval этих же пикселей, которые хранятся в специальных массивах A и N. При включении опции «почти без потерь» перед кодированием ошибка прогноза ещё дополнительно квантуется.


Рис. 23.

3.2. Кодер

В основном JPEG-LS используется как метод сжатия информации без потерь, следовательно, восстановленный файл изображения обычно идентичен исходному файлу. В моде почти без потерь исходный и реконструированный образ могут отличаться. Будем обозначать реконструированный пиксель Rp, а исходный пиксель - p.

На стадии инициализации кодер выполняет следующие операции:

  • Вычисляются параметры RANGE = floor((MAXVAL + 2 * NEAR) / (2 * NEAR + 1)) + 1, qbpp = ceil(log RANGE), bpp = max(2, ceil(log(MAXVAL + 1))), LIMIT = 2 * (bpp + max(8, bpp)) . (В случае кодирования без потерь NEAR = 0, RANGE = MAXVAL + 1 . Если включена мода «почти без потерь», NEAR > 0). MAXVAL и NEAR - параметры, задаваемые приложением, реализующим алгоритм.
  • Инициализируются индексные массивы N , A , B и C . Поясним их предназначение: N используется для хранения частоты вхождения каждого контекста, A — для накопления величины ошибки предсказания, B — для вычисления систематического отклонения, C — для хранения величин корректирования ошибки прогноза.
  • Инициализируются переменные для серийной моды (run mode) RUNindex=0 и J = {0, 0, 0, 0, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 5, 5, 6, 6, 7, 7, 8, 9,10,11,12,13,14,15} .
  • Инициализируются две вспомогательные переменные Nn , Nn=0 для кодирования пикселя прерывания серии.

Введем некоторые функции и переменные, которые будут использоваться в дальнейшем:

GetNextSample() Функция: получает информацию о следующем пикселе исходного изображения и устанавливает соответствующие значения переменных x, a, b, c, d, Ix, Ra, Rb, Rc, Rd . Если считанный пиксель лежит в конце строки, то GetNextSample() устанавливает EOLine = 1 . Во всех остальных случаях EOLine = 0 . Значения Ra, Rb, Rc, Rd наследуют свои значения от вычисленного прежде значения Rx . EOLine Глобальная переменная: устанавливается функцией GetNextSample(): равна 1, если текущий пиксель - последний в строке, равна 0 - в противном случае. AppendToBitStream(a,b) Функция: добавляет неотрицательное число в двоичной форме в поток из закодированных битов, используя b бит. Наиболее значимые биты добавляются первыми. Quantize(a) Функция: используется для квантования ошибки предсказания в режиме «почти без потерь». ComputeRx() Функция: возвращает реконструированное значение Rx для текущего пикселя (использует квантованную «ошибку предсказания»).

Из приведенного изображения (рис. 23) ясно, что немалую роль в кодировании пикселя x играют пиксели a, b, c и d. Попробуем разобраться, что происходит, когда эти пиксели отсутствуют. Так при кодировании верхней строки контекстные пиксели с, b и d отсутствуют, поэтому их значения считаются нулевыми. Если текущий пиксель находится в начале или конце строки, то пиксели a, с или d не определены. В этом случае для a и d используется реконструированное значение Rb пикселя b (или нуль для верхней строки), а для c используется реконструированное значение a при кодировании первого символа предыдущей строки. Таким образом, кодер должен выполнить часть работы декодера, реконструируя некоторые пиксели.

Кодер начинает работу со следующих трех шагов:

После установления контекста Q, кодер прогнозирует пиксель х. Сначала производится вычисление прогноза Рх с помощью так называемого «правила края» (edge-detecting predictor):

if (Rc > = max(Ra, Rb)) Px = min(Ra, Rb);
else {
if (Rc <= min(Ra, Rb))
Px= max(Ra, Rb);
else
Px = Ra + Rb - Rc;
}

Поясним суть «правила края». Для этого рассмотрим случай b < а. При этом условии «правило края» выбирает b в качестве прогноза х во многих случаях, когда вертикальный край изображения находится непосредственно слева от х. Аналогично, пиксель а выбирается в качестве прогноза х во многих случаях, когда горизонтальный край находится непосредственно над х. Если край не обнаруживается, то «правило края» вычисляет прогноз в виде а + b - с, что имеет простую геометрическую интерпретацию. Если каждый пиксель является точкой трехмерного пространства, то прогноз а + b - с помещает Рх на ту же плоскость, что и точки а, b и с.

Следующий шаг — корректировка прогноза (prediction correction from the bias) с помощью числа SIGN (зависящего от трех зонных чисел Qi), корректирующих величин C(Q) (выводимых из систематических смещений, и здесь не обсуждаемых) и параметра MAXVAL.

if (SIGN == +1)
Px = Px + C(Q);
else
Px = Px - C(Q);

If (Px > MAXVAL)
Px = MAXVAL;
else if (Px < 0)
Px = 0;

После того, как прогноз Рх найден, кодер вычисляет ошибку прогноза Errval в виде разности х - Рх, но меняет знак, если величина SIGN отрицательная.

В моде почти без потерь ошибка квантуется, и кодер использует это реконструированное значение Rx пикселя х так же, как это будет делать декодер. Основной шаг квантования заключается в следующем:

if (Errval > 0)
Errval = (Errval + NEAR) / (2 * NEAR + 1);
else
Errval = - (Errval - NEAR) / (2 * NEAR + 1);

При этом используется параметр NEAR, однако имеются некоторые детали, которые здесь не приводятся. Основной шаг реконструкции состоит в нахождении Rx = Px + SIGN * Errval * (2 * NEAR + 1) .

Ошибка прогноза (после возможного квантования) претерпевает сокращение области (modulo reduction). (После этого она готова для главного этапа кодирования).

if (Errval < 0)
Errval = Errval + RANGE;
if (Errval >= ((RANGE + 1) / 2))
Errval = Errval - RANGE;

Коды Голомба (основной параметр был обозначен через b). В JPEG-LS этот параметр обозначается m. Если число m уже выбрано, то код Голомба неотрицательного целого числа n состоит из двух частей: унарного кода целой части числа n/m и двоичного представления n mod m . Этот код является идеальным для целых чисел, имеющих геометрическое распределение (то есть, когда вероятность числа n равна (1 - r) * r n , 0 < r < 1) . Для каждого геометрического распределения найдется такое число m, что код Голомба, построенный по m, имеет наименьшую возможную среднюю длину. Простейший случай, когда m равно степени 2 (m = 2 k), приводит к простым операциям кодирования/декодирования. Код числа n состоит в этом случае из k младших разрядов числа n, перед которыми стоит унарный код числа, составленного из остальных старших разрядов числа n. Этот специальный код Голомба обозначается через G(k) .

Для примера вычислим код G(2) числа n = 19 = 10011 2 . Поскольку k = 2, то m = 4. Начнем с двух младших разрядов, 11 2 , числа n. Они равны 3, что то же самое, что n mod m (3 = 19 mod 4) . Оставшиеся старшие разряды, 100 2 дадут число 4, которое равно целой части n/m (19/4 = 4.75). Унарный код 4 равен 00001, значит код G(2) числа n = 19 равен 00001|11.

На практике всегда имеется конечное число неотрицательных целых чисел. Обозначим наибольшее число через I. Наибольшая длина G(0) равна I + 1, а поскольку I может быть велико, желательно лимитировать размер кода Голомба. Это делается с помощью специального кода Голомба LG(k, glimit) , который зависит от двух параметров k и glimit. Сначала следует сформировать число q из самых старших разрядов числа n. Если q < glimit- - 1 , то код LG(k, glimit) совпадает с кодом LG(k]. В противном случае, приготавливается унарный код числа glimit - ceil(log I) - 1 (то есть, glimit - ceil(log I) - 1 нулей, за которыми стоит единственная 1). Это действует как код esc, после которого стоит двоичный код n - 1 из ceil(log I) бит.

Ошибки прогнозов не обязательно являются положительными числами. Они равны некоторым разностям, которые могут быть нулевыми или отрицательными. Однако коды Голомба были построены для положительных чисел. Поэтому перед кодированием отрицательные значения ошибок следует отразить на множество неотрицательных чисел. Для этого используется отображение:
MErrval =
2 * Errval если Errval >= 0,
2 * |Errval| если Errval < 0.

Это отображение перемежает отрицательные и положительные величины в виде последовательности 0, -1, +1, -2, +2, -3,... .

В нижеприведенной таблице перечислены некоторые ошибки прогноза, отображенные значения и их коды LG(2, 32) при условии, что алфавит имеет размер 256 (то есть, I = 255 и ceil(log I) = 8).

Таблица: ошибки прогнозов, отображения и коды LG(2, 32)

Ошибка прогноза Отображенное значение Код
0 0 1 00
-1 1 1 01
1 2 1 10
-2 3 1 11
2 4 01 00
-3 5 01 01
3 6 01 10
-4 7 01 11
4 8 001 00
-5 9 001 01
5 10 001 10
-6 11 001 11
6 12 0001 00
...
50 100 000000000000
000000000001
01100011

Теперь необходимо обсудить выбор параметра k для кодов Голомба. Это делается адаптивно. Параметр k зависит от контекста, и его значение обновляется каждый раз, когда обнаруживается пиксель с этим контекстом. Вычисление k можно выразить простой строкой:
for (k=0; (N[Q]< где А и N - массивы индексов от 0 до 364. В этой формуле используется контекст Q в качестве индекса двух массивов. В начале k инициализируется нулем, а затем совершается цикл. На каждой итерации цикла элемент массива N[Q] сдвигается влево на k разрядов и сравнивается с A[Q]. Если сдвинутое значение N[Q] больше или равно A[Q], то выбирается текущее значение k. В противном случае, k увеличивается на 1, и тест повторяется.

После нахождения числа k, ошибка прогноза Errval преобразуется с помощью в число MErrval, которое кодируется с помощью кода LG(k, LIMIT). Число LIMIT является параметром. Обновление массивов А и N (вместе со вспомогательным массивом B) иллюстрирует следующий фрагмент кода (параметр RESET устанавливается приложением):

B[Q] = B[Q] + Errval * (2 * NEAR + 1);
A[Q] = A[Q] + abs(Errval);
if (N[Q] == RESET) {
A[Q] = A[Q]>>1;
B[Q] = B[Q]>>1;
N[Q] = N[Q]>>1;
}
N[Q] = N[Q] + 1;

Теперь поговорим о просчитывании систематического отклонения прогноза. Значение C[Q], корректирующее прогноз, должно быть обновлено в конце кодирования пикселя x. Для этого необходимы две переменные — B[Q] и N[Q]. N[Q] — это количество вхождений контекста Q с момента инициализации. B[Q] — систематическое отклонение, позволяющее обновлять значение C[Q] как максимум один раз за итерацию. Итак, прогнозирующее значение C[Q] вычисляется в соответствии со следующим кодом:

if (B[Q] <= -N[Q]) {
B[Q] = B[Q] + N[Q];
if (C[Q] > MIN_C)
C[Q] = C[Q] - 1;
if (B[Q] <= -N[Q])
B[Q] = -N[Q] + 1;
}
else if (B[Q] > 0) {
B[Q] = B[Q] - N[Q];
if (C[Q] < MAX_C)
C[Q] = C[Q] + 1;
if (B[Q] > 0)
B[Q] = 0;
}

Константы MIN_C и MAX_C — это минимальное и максимальное возможное значение индексного массива C, равные соответственно -128 и 127.

Кодирование в серийной моде делается иначе. Напомним, что кодер выбирает эту моду, когда обнаруживает последовательные пиксели x, чьи значения Ix совпадают и равны восстановленной величине Ra контекстного пикселя a. Для опции «почти без потерь» пиксели в серии должны иметь значения Ix, которые удовлетворяют неравенству |Ix - Ra| <= NEAR . Серия не должна выходить за пределы текущей строки. Длина серии кодируется (сам пиксель кодировать не нужно, поскольку он равен Ra), и если конец серии находится раньше конца строки, то после ее закодированной длины будет сразу записан код следующего пикселя (который прерывает серию). Две основные задачи кодера в этой моде состоят

  1. в отслеживании серии и кодировании ее длины;
  2. в кодировании пикселя, прервавшего серию.

Отслеживание серии можно проводить следующим образом:

RUNval = Ra;
RUNcnt = 0;
while (abs(Ix - RUNval) <= NEAR) {
RUNcnt = RUNcnt + 1;
Rx = RUNval;
if (EOLine == 1)
break;
else
GetNextSample();
}

Поясним некоторые введенные величины: RUNcnt — это счетчик повторяющихся пикселей (для серийной моды), а RUNval - текущее значение реконструированного повторяющегося пикселя.

Опишем процесс кодирования серий. Первый фрагмент кода описывает кодирование для сегментов серий длины rm:

while (RUNcnt >= (1< AppendToBitStream(1, 1);
RUNcnt = RUNcnt - (1< if (RUNindex < 31))
RUNindex = RUNindex + 1;
}

Следующий же код иллюстрирует кодирование для сегментов серий длины меньше, чем rm:

if (EOLine == 0) {
AppendToBitStream(0, 1);
AppendToBitStream(RUNcnt, J);
if (RUNindex > 0)) {
RUNindex = RUNindex - 1;
}
else if (RUNcnt > 0)
AppendToBitStream(1, 1);

Здесь кодер использует таблицу J, состоящую из 32 записей, обозначаемых rk. J инициализируется величинами
0, 0, 0, 0, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 5, 5, 6, 6, 7, 7, 8, 9, 10, 11, 12, 13, 14, 15 .

Для каждого значения rk обозначим rm = 2 rk . Числа rm (их всего 32) называются порядком кода. Первые 4 величины rk имеют rm = 2 0 = 1. Для второй четверки rm = 2 1 = 2, а для следующей четверки rm = 2 2 = 4. Для последнего числа rm = 2 15 = 32768. Кодер выполняет процедуру, описанную , для нахождения длины серии, которая сохраняется в переменной RUNlen . Затем эта переменная кодируется разбиением на слагаемые, величины которых равны последовательным числам rm. Например, если RUNlen=6 , то его представляют в виде 6 = 1 + 1 + 1 + 1 + 2 с помощью первых пяти чисел rm. Оно кодируется с помощью 5 бит. Запись производится инструкцией AppendToBitStream(l,l) . Каждый раз, когда пишется 1, соответствующая величина rm вычитается из RUNlen . Если RUNlen было равно в начале 6, то она последовательно уменьшается до 5, 4, 3, 2 и 0.

Может случиться, что длина RUNlen серии не равна целой сумме чисел rm. Например, RUNlen = 7 . В этом случае в качестве кода записывается пять битов 1, за которыми следует префиксный бит и остаток от RUNlen (в нашем примере это 1), который запишется в файл в виде числа из rk бит (текущее значение rk из нашего примера равно 2). Эта последняя операция выполняется вызовом процедуры AppendToBitStream (RUNcnt, J) . Префиксным битом служит 0, если серия прерывается в строке другим пикселем. Если же серия идет до конца строки, то префиксный бит равен 1.

Вторая основная задача кодера, состоящая в кодировании пикселя прерывания серии, делается аналогично кодированию текущего пикселя. Обсудим детали её реализации.

Рассмотрим ситуацию, когда ход кодирования прерван концом строки пикселей: как будет кодироваться новый пиксель, вызывающий прерывание? Этот вопрос решается кодированием разницы между значением Ix в текущей позиции x и реконструированным значением пикселей a или b (напомним, что это соседние пиксели по отношению к x - см. рис. 23). В этом случае рассматриваются две различные ситуации: первая, когда abs(Ra - Rb) <= NEAR , вторая - в противном случае. По сути кодирование пикселя прерывания серии происходит теми же методами, что и кодирование нового пикселя в регулярной моде с тем лишь дополнением, что Ix должно отличаться от Ra на величину большую NEAR, иначе ход кодирования будет продолжен. Опишем операции, которые должны быть выполнены:

if (abs(Ra - Rb) <= NEAR)
RItype = 1;
else
RItype = 0;
if (RItype == 1)
Px = Ra;
else
Px = Rb;
Errval = Ix - Rb;

Фрагмент кода выше определяет индекс RItype и ошибку предсказания для пикселя x. Затем следует в случае необходимости изменить знак Errval, а для опции «почти без потерь» также провести квантование ошибки предсказания:

if ((RItype == 0) && (Ra > Rb)) {
Errval = -Errval;
SIGN = -1;
else
SIGN = 1;
if (NEAR > 0) {
Errval = Quantize(Errval);
Rx = ComputeRx();
}
else
Rx = Ix;
Errval = ModRange(Errval, RANGE);

Теперь вычислим вспомогательную переменную TEMP, которая будет использоваться для вычисления параметра k в кодах Голомба.

if (RItype == 0)
TEMP = A;
else
TEMP = A + (N>>1);

Установим Q = RItype + 365 . Параметр k для кодов Голомба будем вычислять следующим образом: for (k=0; (N[Q]<

if (Errval < 0) {
Nn[Q] = Nn[Q] + 1;
A[Q] = A[Q] + ((EMErrval + 1 -RItype)>>1);
if (N[Q] == RESET) {
A[Q] = A[Q]>>1;
N[Q] = N[Q]>>1;
Nn[Q] = Nn[Q]>>1;
}
N[Q] = N[Q] + 1;

На этом и завершим описание кодера JPEG-LS. Отметим, что оно, безусловно, неполное, но мы и не ставили перед собой цели — скопировать стандарт этого метода. Все опущенные детали вы сможете найти в стандарте. Сейчас же перейдем к краткому описанию принципов работы декодера.

3.3. Декодер

Как упоминалось ранее, метод JPEG-LS почти симметричный, поэтому копировать с небольшими изменениями описание кодера мы не будем — эту информацию можно прочитать и в стандарте. Остановимся лишь на том, как происходит декодирование в серийной моде. После того, как вычислены все величины для текущего пикселя, считывается новый бит R из потока битов. Если он равен 1, то:

  1. Изображение дополняется 2 J|RUNindex| пикселями со значением Ra.
  2. Если на предыдущем шаге изображение уже было дополнено 2 J|RUNindex| пикселями и RUNindex < 31, то RUNindex увеличивается на 1. Если последний пиксель в строке ещё не декодирован, то мы снова считываем биты, в противном случае переходим к вычислению всех требуемых величин.

Если же бит равен 0, то:

  1. Считывается J|RUNindex| бит из битового потока и преобразовывается в число, а изображение дополняется пикселями со значениями Ra в количестве, соответствующем вычисленному числу.
  2. Если RUNindex > 0, то RUNindex уменьшается на 1.
  3. Декодируется пиксель прерывания серии и снова начинается вычисление всех необходимых величин.

3.4. Формат файла

Сжатый файл состоит:

  • из сегментов данных, содержащих коды Голомба и длины серий;
  • из сегментов маркеров (информация необходимая декодеру);
  • из сегмента «остальных» маркеров (некоторые зарезервированные маркеры JPEG).

Маркером здесь мы называем байт из единиц, за которым следует специальный код, сигнализирующий о начале нового сегмента. Если за маркером следует байт, у которого старший бит равен 1, то этот байт является началом сегмента маркеров. В противном случае, начинается сегмент данных.

3.5. Коды Голомба

Мы уже не раз упоминали коды Голомба. Что же это такое? Код Голомба неотрицательного целого числа «может быть эффективным кодом Хаффмана». Он зависит от выбора некоторого параметра b. Принцип кодирования таков:

  • вычисляются две величины
    q = floor((n - 1) / b) и
    r = n - qb - 1 ;
  • происходит построение кода из двух частей: первая часть — q в унарном коде, вторая часть — двоичное выражение для r , состоящее из floor(log 2 b) бит для малых остатков и из ceil(log 2 b) бит для больших.

Мы не приводим математическое обоснование использования кодов Голомба в JPEG-LS, отметим лишь, что, если входной поток данных состоит из целых чисел, причем вероятность числа n равна P(n) = (1 - p) n - 1 p (0 <= p <= 1) , то коды Голомба будут оптимальными кодами для этого потока данных, если выбрать параметр b следующим образом:
(1 - p) b + (1 - p) b + 1 <= 1 <= (1 - p) b - 1 + (1 - p) b .

3.6. Заключение

Формат JPEG-LS разрабатывался, прежде всего, для хранения изображений в медицинских целях, то есть для тех случаев, когда важно иметь большое изображение без малейших потерь качества. Как уже говорилось, за основу был взят формат LOCO-I, разработанный в стенах «HP Labs». Затем он был доработан совместными усилиями «HP» и «Mitsubishi». Обе компании разрешили использовать их патенты на этот формат без оплаты лицензии, поэтому JPEG-LS можно встретить и в обычных программах для PC.

Поясню на собственном примере. Может быть и поможете мне в понимании некоторых вещей. Задача поставленная передо мной самим собой следующая. Передать кадр (по команде) из WEB камеры в память сотового телефона с последующей передачей на другой сотовый. Из Вашей статьи не понятно, на какой формат следует забазироваться, доступность алгоритма. Далее - сосинусное преобразование - только поверхностное толкование, а где посмотреть детальный алгоритм с конкретным примером (скажете учи мат. анализ, но и там почти нет конкретных примеров, а если есть, то пропущены целые куски расчетов. Может есть конкретная методичка, так сошлитесь. Структуру организации файла вообще выкинули и даже ссылок не указали. "В получаемой матрице низкочастотные компоненты расположены ближе к левому верхнему углу, а более высокочастотные смещаются вправо вниз", мне кажется, что она так делается, а не получается (может ошибаюсь!).

Вопрос: как из JPG кадра отловить например только нужную информацию для дальнейшего декодирования в разрешении экрана телефона, не применяя PC, используя МК. Достаточно черно-белого варианта кадра. На какие FFxx надо обратить внимание и записать только ту информацию. Где взять структуру кадра WEB камеры. Я понимаю, что вопрос сложен, многопланов. Что например на МК не сделать расшифровку кадра и сжать затем с нужным разрешением, но вот вырезать хотя-бы верхний угол с нужным форматом это наверное можно.

Буду благодарен за информацию.

Что умею = программировать на VB, МК. Самостоятельная действующая интерактивная разработка управлением по сот.телефону несколькими реле, аудиоконтроль с использованием сотового телефона.

>> Вторым шагом является непосредственно применение >>алгоритма кодирования повторов (LZW)

может, RLE?

Разумеется, на этом шаге JPEG (см. контект), — RLE. Спасибо за обнаружение погрешности.

Лучшие статьи по теме