Смекни!
smekni.com

Графические форматы (стр. 2 из 4)

При этом у двух существующих компрессирующих форматов существуют серьезные недостатки. GIF, к примеру, не может содержать больше 256 цветов. Для текста, конечно, этого более чем достаточно, но что делать, если на странице напечатаны красивые цветные фотографии? Для представления фотографий обычно используют формат JPEG, и свои задачи, в подавляющем большинстве случаев, он реализует "на ура". Но в то же время, сохранять в JPEG текст или, скажем, чертежи (lineart) – полнейший абсурд: JPEG "размоет" и испортит их. Разделять же представляемую информацию на разные форматы не менее трудоемко, чем распознавать тексты, но при этом еще и страшно неудобно в дальнейшем использовании.

Очевидно, что идеальным выходом из сложившейся ситуации стало бы либо появление крайне умных систем распознавания, не делающих ошибок, либо создание нового графического формата, умеющего компрессировать и объединяющего все преимущества существующих форматов – качественное представление текста, как в GIF, и качественное представление фотоизображений, как в JPEG.

Оказывается, такой формат уже придуман. При чем придуман по умному, хотя и не без недочетов. Называется он DjVu ("дежа вю"). Работает примерно следующим образом. Сначала выделяет на странице весь текст и lineart, после чего отдельно отображает картинки. При чем и то и другое – качественно. Да и объем файла, представляющего обычную страницу A4 с текстом и фотографиями в разрешении 300 DPI получается примерно 45-50 килобайт, что, по последним исследованиям, равно усредненному весу web-странички.

Для того чтобы иметь возможность просматривать подобные картинки, необходимо установить специальный plug-in, который весит немногим меньше девятисот килобайт. При этом сделан он очень интересно. Дело в том, что, в отличие от обычных программ-просмотрщиков, DjVu не расшифровывает сжатый файл полностью, а только ту его часть, которую в данный момент демонстрирует. Это позволяет просматривать файлы огромного размера и разрешения даже на очень слабых компьютерах. Да и демонстрировать эти картинки он может постепенно – по мере скачивания. Скажем, после того как вы зашли на дежавюшную страничку, в течении пары секунд вы можете полностью увидеть макет страницы. Еще через пару секунд сможете прочитать текст, а подождав еще буквально чуть-чуть – видите картинки. Конечно, web-сёрфер и так имеет то же самое – сначала текст, потом постепенно картинки. Но не забывайте – то, что вы видите с помощью DjVu – это полностью графика, а не комбинация распознанного текста и картинок.

Технология сжатия файлов изображений DjVu

В настоящее время бурное развитие телекоммуникационных сетей, в том числе и Интернета, выдвигает большие требования к скорости сжатия и декомпрессии, а также к размерам передаваемых файлов изображений. Не всегда имеющиеся на сегодняшний день технологии удовлетворяют этим требованиям, вследствие чего возникают сложности с использованием изображений в реальном времени.

В этой статье речь пойдет о DjVu – новейшей технологии сжатия файлов изображений от компании LizardTech, возможности которой на порядки выше возможностей существующих технологий.

Компания LizardTech приобрела эту разработку у AT&T Labs и затем доработала ее до состояния, пригодного к продаже, в виде компьютерной программы для корпораций и частных лиц.

Рассмотрим сначала назначение и основные достоинства DjVu.

DjVu – технология, преобразующая отсканированные документы (книги, каталоги и т. д.) в файлы малых размеров, сохраняющие высокое качество исходного изображения, которые могут передаваться и размещаться в Интернет и Интранет-сетях.

Следует отметить, что технология DjVu прежде всего ориентирована на различные документы, содержащие смешанную информацию – в основном текстовую и графические изображения. Для представления и преобразования сложных графических изображений, таких как, например, фотографии, существует другая технология от LizardTech – MrSID.

Новая технология DjVu сжимает файлы изображений до рекордно малых размеров без потери четкости и разрешения изображения. Так, если отсканировать цветные документы с разрешением 300 dpi, содержащие текст и картинки, то в формате DjVu они будут иметь размеры в 10-20 раз меньшие, чем в формате GIF или JPEG, при прочих равных условиях и одинаковых параметрах.

Что же касается сравнения PDF-файлов и DjVu-файлов, то файлы в формате DjVu могут иметь размеры в 50-100 раз меньшие, чем в формате PDF. Например, цветная страница документа в формате PDF, имеющая размер 12 Mb, в виде файла DjVu имеет размер всего 80 Kb.

Кроме того, данная технология позволяет сжимать файлы в 150 раз быстрее, чем это делается с использованием форматов PDF, и в 20 раз быстрее, чем при использовании форматов JPEG или GIF.

Как же достигаются такие высокие скорости кодирования и малые размеры сжатых файлов?Все дело в особенностях обработки исходного отсканированного изображения, осуществляемой с помощью данной технологии.

DjVu выделяет из исходного отсканированного изображения два слоя: слой, содержащий высококонтрастные изображения – текст, а также штриховые рисунки (контуры), и слой, содержащий графические изображения, фотографии, цветной фон. Далее каждый слой кодируется соответствующим методом, обеспечивающим максимальные скорость и степень сжатия для данного слоя и максимальное качество.

При сжатии файла с использованием DjVu имеют место некоторые потери информации. Основной информационный слой исходного отсканированного изображения кодируется без потерь, в то время как для кодирования слоя, соответствующего фону, используется сжатие с потерями. Однако при просмотре DjVu-документов эти потери не будут заметными.

Следует отметить, что методы сжатия информации, используемые в JPEG и GIF, допускают значительно большие потери, чем DjVu.

Компанией LizardTech разработан целый ряд программных продуктов с технологией DjVu – от DjVu Solo для индивидуального использования до DjVu Enterprise для офисных систем.

Работа в программе DjVu Solo в упрощенном виде сводится к двум этапам: 1) сканирование изображения; 2) преобразование в формат DjVu и некоторые простейшие преобразования полученного файла. После опубликования DjVu-файла в сети Интернет возможен его просмотр с помощью DjVu Web Browser Plug-in.

Программные продукты DjVu позволяют производить различные операции над отсканированными документами. Так, программы DjVu Solo и DjVu Editor (для Linux) позволяют редактировать полученные файлы. (Скоро также появится редактор DjVu Editor для Windows.) Другой программный продукт – DjVu Enterprise – предусматривает операцию поворота изображения (rotation) на определенный угол.

DjVu Web Browser Plug-in позволяет встраивать файлы DjVu в HTML-страницы. Кроме того, с помощью программ DjVu Solo и DjVu Editor возможно добавление гиперссылок в файлы DjVu.

С помощью специальной утилиты PDF/PS to DjVu Conversion utility можно осуществлять преобразование PDF- и Postscript-файлов в формат DjVu.

Однако не все операции редактирования и обработки изображения доступны в существующих программных продуктах DjVu на данный момент. Так, например, пока что отсутствует операция выделения фрагмента исходного изображения (crop). Осуществление этой операции возможно в других программах перед преобразованием изображения в формат DjVu.

Совсем недавно была выпущена новая версия DjVu Solo – DjVu Solo 3.1, содержащая программу распознавания образов (OCR), которая позволяет искать в отсканированном и сжатом документе с иллюстрациями ключевые слова. Стоимость данной программы составляет примерно 0.

Упрощенная версия данной программы не содержит модуля OCR и, следовательно, не позволяет производить поиск по ключевым словам. Но она поставляется бесплатно и ее можно скачать на сайте компании LizardTech – www.lizardtech.com.

Минимальные системные требования для работы с данной программой следующие: CPU Pentium 100 MHz, RAM 32 Mb.

DjVu Solo 3.1 работает под управлением ОС Microsoft Windows 95/98/2000 или Windows NT 4.0. Необходимо наличие Internet Explorer версии 5.0 или выше, или Netscape Navigator 4.0-4.7.

Программу DjVu Web Browser Plug-in также можно скачать с сайта компании LizardTech.

В заключение следует сказать, что благодаря своим высоким возможностям технология DjVu найдет широкое применение как среди обычных пользователей, так и в офисах больших компаний.

Сетевые графические форматы

Как говорили И. Ильф и Е. Петров, статистика знает все. Эта самая всезнающая статистика утверждает, что большинство пользователей Интернета на нашей планете применяют для связи со Всемирной сетью соединение по коммутируемым телефонным каналам при помощи модема. Поскольку это весьма медленный способ связи, время загрузки графического изображения в клиентский броузер в данном случае должно быть как можно меньшим. Действительно, длительное ожидание, когда закончится считывание картинки с сервера, занятие не из приятных. Именно поэтому два наиболее популярных стандарта, в которых хранится 90 % всей графики, представленной ныне в Интернете, это GIF и JPEG. В них заложены различные алгоритмы сжатия изображения с потерей качества, благодаря использованию которых удается значительно уменьшить размер целевого файла.

GIF

В далеком 1978 году двое израильских исследователей Якоб Зив (Jacob Ziv)и Абрахам Лемпел (Abraham Lempel) разработали принципиально новый для того времени алгоритм сжатия информации без потери данных, которому, немудрствуя лукаво, дали полученное из сокращения собственных фамилий и даты завершения своего проекта название: LZ78. Информация о принципах построения этого алгоритма была общедоступной, и спустя несколько лет американский программист Терри Уэлч (Terry Welch) усовершенствовал его, добавил в обозначение первую букву своей фамилии и запатентовал новый алгоритм под названием LZW, также предоставив свою разработку для использования всем желающим.