Просмотр полной версии : форматы книги Триши Гринхальх

AslanE

21.04.2010, 00:00

В сети «Основы доказательной медицины» Триши Гринхальх нашел только в djvu, а этот формат не удобен для чтения на коммуникаторе. Поделитесь, пожалуйста, у кого есть в любом другом формате. Спасибо.

[Ссылки могут видеть только зарегистрированные и активированные пользователи]

Everybody_lies

21.04.2010, 00:22

Вариант с конвертацией не рассматриваете? Программа DjvuOCR представляет собой конвертор файла в формате Djvu в любой другой графический формат (jpg,tiff,png,gif,bmp)
и позволяет сохранить файл Djvu в заданное при конвертации количество страниц с заданным разрешением сканирования (от 25 до 2500) ,а также сохранять текст и изображения или весь документ, откидывать фон ,выбирать размер сохраняемого файла ...
После того, как программа перевела файлы Djvu в графический формат , их легко можно распознать ABBYY FineReader и сохранить в любом удобном Вам формате (doc,pdf,txt) ,если Вы скачали книгу или оставить файлы в графическом формате ,если это чертежи ,схемы или фотографии ,что позволяет легко просматривать и редактировать нужную информацию.

Программа для добавление OCR информации к DJVU-книги
с помощью програму распознавания текста FineReader версии 7.x/8.x

OCR-информация в DJVU-книга позволяет поиск и копирование текста.

Основная идея програмы:

1) Есть Djvu-книга
2) Программа помогает извлечь из нее графические изображения страниц - тиффы;
3) Загружаем их в FineReader и распознаем;
4) Программа обрабатывает рабочие файлы FineReader-а, извлекается нужная информация и создает OCR-слой в первоначальную книгу.

Используем FineReader как лучший продукт распознавания текста. Вполне достаточно использовать try&buy или demo версию.

AslanE

21.04.2010, 00:54

Классное решение, не знал.
Спасибо :) завтра попробую

Iluhin

21.04.2010, 09:46

Расскажите потом. Предложенный способ может оказаться очень трудоемким - будет зависеть от качества первоначальной съемки текста и качества распознаванеия. Если после распознавания придется каждое слово править - проще, по-моему, в дежавю читать.

AslanE

21.04.2010, 11:19

Скачал djvuOCR 2.4 beta, перевел книгу в html :выбираем извлечь OCR слои-> добавляем в список djvu файл-> жмем "обработать" и вуаля, полегчала в 3 раза :)
На все ушло минут 5. Ошибок почти нет. Правда таблиц и схем тоже нет, только фразы из них вставлены в текст. Но, в общем, разобраться можно.
С файнридером не стал заморачиваться, как и не особо вникал в возможности djvuOCR 2.4 beta.
Результатом доволен :)