четверг, 13 ноября 2008 г.
Конвертируем PDF в TXT
Для конвертирования файлов Portable Document Format (PDF) в обычный текст используется утилита pdftotext. Она считывает pdf файл и создает txt. Если текстовый файл не указан, pdftotext конвертирует file.pdf в file.txt. Если вместо текстового файла указано -, текст передается в стандартный поток вывода.
Для установки pdftotext в Ubuntu достаточно набрать в терминале:
$ sudo apt-get install poppler-utils
Синтаксис:
pdftotext {pdf-file} {text-file}
Примеры использования:
Конвертируем pdf файл hp-manual.pdf в hp-manual.txt:
$ pdftotext hp-manual.pdf hp-manual.txt
Чтобы указать первую страницу, с которой начинать конвертацию, введите:
$ pdftotext -f 5 hp-manual.pdf hp-manual.txt
Для указания последней страницы, введите:
$ pdftotext -l 5 hp-manual.pdf hp-manual.txt
Если pdf файл защищен паролем владельца password:
$ pdftotext -opw 'password' hp-manual.pdf hp-manual.txt
Если pdf файл защищен пользовательским паролем password:
$ pdftotext -upw 'password' hp-manual.pdf hp-manual.txt
Перевод этой статьи.
Подписаться на:
Комментарии к сообщению (Atom)
2 комментария:
Спасибо за инфу. Я студент технического факультета. Часто приходится делать курсовые и рефераты. Для меня pdftotext стал очень простым и изящным инструментом
Да неплохо. Пишу курсач классификатор pdf html и txt файлов. С конвертировкой проблем нету. А вот как вывеси из 60 000 (которые дал препод) книг их названия, и отсортировать по папкам соответствующие книги это непростая задача. )
Отправить комментарий