неділя, 17 березня 2013 р.

Зручне копіювання тексту з pdf-документів

Про формат pdf ми вже говорили неодноразово (в т.ч. про те, як просто створити pdf-документи з інших форматів), і, мабуть, ще не раз будемо звертатись до цієї теми.

Конкретно зараз хочу розказати про свій досвід вирішення такої проблеми – при копіюванні тексту з pdf-документа він (текст) у Ворді став відображатись без пробілів, ось так:
 текст из pdf без пробелов
Оскільки скопіювати (для подальшого перекладу) треба було сторінок зо 100, перспектива вручну проставляти десятки тисяч пробілів явно не радувала:(.
До речі, іноді буває й зворотна ситуація – при перенесенні тексту із pdf у Word пробілів стає «забагато» - вони нещадно розривають слова на склади або й на просто «абракадаблені» буквосполучення...(це все через особливості «графічного сприйняття» формату pdf).

Отож, я став шукати якийсь автоматизований шлях «нормалізації» копійованого тексту.
В принципі, мабуть нормально з цим справляється FineReader, але хотілось знайти якусь легку безкоштовну програму...

Зайшовши в розділ «Офіс та текст» на Бібліотеці безкоштовних програм (ось тут на блозі ми писали про надійність цього сайту), серед програм для перегляду pdf і djvu знайшов таку, що дозволяє «витягувати» текст та малюнки різних форматів із pdf-документів – CoolPDFReader. Привабив мінімальний розмір (біля 1 МБ) та наявність портативної версії (CoolPDFReader Portable), яка не потребує інсталяції на комп’ютер. Тож саме її я й скачав, просто запустив із розпакованого архіву (через «Выполнить»), і отримав таке:
програма дозволяє посторінково витягувати текст або зображення з PDF
Далі відкриваємо потрібний нам pdf-документ (через File-Open) та натискаємо зображення дискетки (або File-Save as) – для перезбереження у потрібному нам форматі. Вибираємо нове ім’я файлу та формат (нам треба текст – тож обираєм .txt):
выбор текстового формата файла для конвертации
Далі вискакує віконечко з повідомленням, що конвертація проходить, і з пропозицією «спробуйте наш конвертер для Windows».
Незалежно від того, чи натиснути Ок, чи закрити це вікно – відкривається відповідна сторінка в інтернеті.

Ну а новий файл із витягнутим з pdf текстом вже чекає у вказаному нами місці. Але разом із ним чекало й розчарування – файл містив текст лише однієї сторінки документу!, - тієї, що була відкрита у момент збереження. Звичайно, в опціях програми можна вибирати щоразу потрібну сторінку, але ж це все одно дужже довго! Крім того, трохи засмутила мене і швидкість прогортання сторінок у pdf – вони досить таки «підвисали». Можливо, цих недоліків немає у повній версії програми...

Все ж став я шукати далі, і знайшов (за цим описом) дуже класну програмку - A-PDF Text Extractor. Зайшовши на сайт компанії A-PDF (здається, вона японська), побачив безліч програмних продуктів, що стосуються роботи з pdf – і читачі, і редактори, і «витягувалки», і «секуризатори» та багато ін. (в т.ч. і для різних ОС, напр., для Android OS). Частина з них платна, інша – безкоштовна.
Потрібна нам A-PDF Text Extractor – саме безкоштовна. Скачуємо її з цієї сторінки: http://www.a-pdf.com/text/index.htm (на ній ще пропонується пожертвувати від 5 доларів через систему PayPal, але можна й просто натиснути Download).
скачивание A-PDF Text Extractor
Вибираємо «зберегти файл», скачуємо, запускаємо.
процес установки - 20с, місця на диску - 3 МБ
Клікаємо потрібну кількість разів Next, далі Install, і за секунд 20 програма встановлена (зауважте – потребує всього 2,5Мб на диску!).

Ось такий «аскетичний» вигляд має інтерфейс A-PDF Text Extractor:
Тиснемо «Open», вказуємо потрібний до перетворення файл, і далі у віконці відображається лише скупа інформація про нього (це, мабуть, плюс, бо при цьому не витрачається ресурс і час на відкриття й перегляд – як у CoolPDFReader)
показано розміщення файлу та кількість сторінок
На вкладці “Option” можна задати, які саме сторінки «екстрагувати» - усі, парні чи непарні, чи задати діапазон. Також можна вказати, як будуть розділятись окремі сторінки у новому текстовому документі (по замовчуванню – в кінці, надписом  = Page № =).
выбор страниц и их подписей в A-PDF Text Extractor
Якщо все влаштовує, далі просто натискаємо кнопку «Extract text», при потребі змінюєм назву файла, і чекаємо...
окно A-PDF Text Extractor в процессе конвертации
Але чекаємо зовсім недовго!, – файл з 336 сторінок був перетворений за 30 секунд! Далі програмка питає, чи хочемо відкрити новостворений файл:
Відкриваємо, і маємо готовий витягнутий текст, з яким вже можна далі працювати як заманеться...

Немає коментарів:

Дописати коментар