четверг, 13 ноября 2008 г.

Конвертируем PDF в TXT


Для конвертирования файлов Portable Document Format (PDF) в обычный текст используется утилита pdftotext. Она считывает pdf файл и создает txt. Если текстовый файл не указан, pdftotext конвертирует file.pdf в file.txt. Если вместо текстового файла указано -, текст передается в стандартный поток вывода.

Для установки pdftotext в Ubuntu достаточно набрать в терминале:

$ sudo apt-get install poppler-utils

Синтаксис:

pdftotext {pdf-file} {text-file}

Примеры использования:

Конвертируем pdf файл hp-manual.pdf в hp-manual.txt:
$ pdftotext hp-manual.pdf hp-manual.txt
Чтобы указать первую страницу, с которой начинать конвертацию, введите:
$ pdftotext -f 5 hp-manual.pdf hp-manual.txt
Для указания последней страницы, введите:
$ pdftotext -l 5 hp-manual.pdf hp-manual.txt
Если pdf файл защищен паролем владельца password:
$ pdftotext -opw 'password' hp-manual.pdf hp-manual.txt
Если pdf файл защищен пользовательским паролем password:
$ pdftotext -upw 'password' hp-manual.pdf hp-manual.txt

Перевод этой статьи.

2 комментария:

Unknown комментирует...

Спасибо за инфу. Я студент технического факультета. Часто приходится делать курсовые и рефераты. Для меня pdftotext стал очень простым и изящным инструментом

Анонимный комментирует...

Да неплохо. Пишу курсач классификатор pdf html и txt файлов. С конвертировкой проблем нету. А вот как вывеси из 60 000 (которые дал препод) книг их названия, и отсортировать по папкам соответствующие книги это непростая задача. )