Djvu — что это за формат, чем его открыть и какие программы для чтения файлов в дежавю использовать на компьютере или андроиде
Здравствуйте уважаемые читатели блога. Вы наверняка видели в Интернете отсканированные книги в формате Djvu (файлы у них имеют такое же расширение).
Как правило, в сети таким образом распространяется не художественная литература, а книги, содержащие рисунки, графики, формулы и прочее, что довольно сложно оцифровать с помощью программ OCR.
Сначала я подумал, что этот странный формат djvu (déjà vu — что это такое) — это обычный набор растровых изображений (фотографий), получившийся в результате сканирования книги. Но в этом случае размер файла был бы очень большим и мы этого не видим.
Что представляет собой файл с таким загадочным расширением и как его открыть, чтобы начать читать информацию, заключенную в «дежа вю», и какие программы для этого лучше всего использовать. На все эти вопросы я постараюсь ответить в этой статье.
Что из себя представляет файл в формате Djvu
Оказывается, djvu был разработан лет пятнадцать назад и представляет собой очень удачную смесь тестовых и графических форматов. В принципе, при оцифровке книг возможны два сценария:
- Выполните распознавание текста на отсканированной странице и сохраните его с помощью алгоритмов сжатия, что позволяет получить очень малый вес конечного файла. Недостатком является то, что вы теряете изображения, фоны, сноски, собачьи уши и другие вещи, которые могут быть важны в некоторых случаях. Но, с другой стороны, можно будет осуществлять полноценный поиск по распознанным текстам.
- Вы можете сохранить отсканированный текст в виде изображений, для которых подходят форматы растровой графики, такие как gif, png, jpeg или tiff. Однако вес одной отсканированной страницы будет чрезмерно велик, если мы хотим сохранить качество. Ну и по текстам будет невозможно перерыть.
Djvu сочетает в себе достоинства описанных выше способов, при этом практически не имея недостатков. Формат «Дежа Вю» можно отнести к текстово-графическим, что само по себе звучит необычно, но сулит немало дивидендов. Судите сами:
- Исходное отсканированное изображение сжимается в десять раз сильнее в формате Djvu, чем в формате JPEG, практически без изменения качества. При этом jpeg обязательно размоет и текст, и графику, причем максимально, а наш герой оставит все в первозданном виде.
- Отсканированный и преобразованный в дежа вю лист формата А4 будет весить около 50 килобайт (читайте, сколько килобайт в мегабайте), если исходник был с цветной графикой (или фоном), и около 10 килобайт, если он черно-белый. Лепота, и это с учетом того, что скан делался в высоком разрешении 300 DPI. Тот же файл, сохраненный в формате tiff (без потери качества), весил бы в несколько сотен раз больше.
- Файл Djvu содержит текстовый слой, который полностью доступен для поиска, и, если вы хотите, вы можете оставить его в покое (удалив цветовую маску и фоновую информацию), что еще больше уменьшит размер.
Все это достигается благодаря довольно оригинальному подходу. Могу ошибаться, но мне кажется, что это так:
- Разделяйте текст на странице и ее фон. Алгоритм отслеживает множество факторов и при правильных настройках может даже извлечь текстовую составляющую обложки журнала, где слова также могут использоваться в качестве фона.
- Текст сохраняется в один бит (черно-белый) и сжимается достаточно сильно.
- Отдельно сохраняется фон, который сжимается чуть менее эффективно.
- Информация о цвете текста и иллюстраций, используемых в книге, также сжата, но по другому алгоритму.
- Как я уже упоминал, в формате Djvu предусмотрено отдельное текстовое поле, благодаря которому можно осуществлять поиск по отсканированным книгам.
Но темы создания и принципы формирования данных в файлах дежавю интересуют нас постольку, и гораздо интереснее будет узнать, как Djvu умеет их открывать и читать.
Естественно, для этого используются специальные программы для чтения (читалки), которые имеют место как для компьютера, так и для мобильных устройств на базе Android или iOs (ipad, iPhone). Ведь удобно по дороге домой или на работу повышать свой уровень образования, читая умную книгу на мобильном телефоне.
Чем открыть Djvu — программы для чтения на компьютере
Есть несколько программ, ориентированных на работу только с файлами дежавю, и есть ряд универсальных решений, позволяющих читать книги практически в любом виде. Существуют также редакторы Djvu, которые позволяют редактировать или даже создавать собственные шедевры.
Среди ридеров Deja Vu, предназначенных для компьютеров, следует выделить следующие ридеры:
-
WinDjView — первая программа, которую я встретил много лет назад и до сих пор использую для чтения книг и журналов в формате Djvu.
Из преимуществ перед предыдущей читалкой можно назвать остроумную систему разрезания больших листов (например, журналов) на фрагменты как по горизонтали, так и по вертикали (например, четыре экрана на каждой странице), которые будут загружаться друг за другом простым двойной щелчок по экрану.
Именно благодаря этой последней функции Orion Viewer позволяет довольно комфортно читать DjVu и крупноформатные PDF на сравнительно небольшом экране смартфона. Работает субъективно быстрее предыдущей читалки для Android, хотя разница не очень большая.