Перейти к содержимому

Как поменять кодировку в пдф файле

  • автор:

как изменить кодировку в PDF ?

проблема у меня такая: часть чертежей в формате pdf часть в нормальном чертежном dwg . И во всех есть текст в кодировке UnicodeLatine1. В автокаде я смог изменить кодировку с помощью приложения по направлению UniCodeLatine1 -> Ansi1251 (из UnicodeLatine1 в Windows-1251)
А вот как сделать тоже в pdf понятия не имею.
я не знаю даже как извлеч текст из pdf для редактирования?

1)главная задача которую я не могу одолеть это: изменить кодировку в файле pdf
2)а второе это переконвертировать чертеж в dwg (но с этой задачей я надеюсь справиться)

Блок 1_Чертежи_лист 8.pdf (169.7 Кб, 630 просмотров)
гост а б.rar (40.7 Кб, 454 просмотров)

Последний раз редактировалось freedomparrots, 10.04.2010 в 10:30 .

Научный форум dxdy

У меня есть книга в формате PDF, созданная с помощью LATEXa. Текст поидее должен быть распознан. Но при попытке скопировать текст в ворд выдает абракабадру. Пробовал все виды Шрифтов в ворде, не получилось. Попробовал каким то левым редактором (в Origine Label) поменять (шрифт или кодировку) получилось, Но при копировании снова в ворд опять проблемы. При попытке сохранить весь PDF документ в doc выдает также ерунду. Как узнать в какой кодировке был записан PDF файл и побороть непонимание?
Acrobat Pro 7
В книге много формул

24.04.2009, 19:09

Заслуженный участник

Постараюсь ответить на вторую часть Вашего вопроса о том как побороть непонимание .

Насколько я знаю — никак, если нет исходника, т.е. *.tex.

Если он есть, то поправить дело можно.

Про кодировку ничего не могу сказать.

Добавлено спустя 1 минуту 44 секунды:

Хотя можно пойти более долгим путем: распустить pdf-файл на tiff-файлы и распознать их в FR. Вот Вам и текст.

Re: Проблема с кодировкой у PDF
01.10.2009, 14:16
у меня была точно такая же проблема. пришлось пользоваться програмкой по переводу из PDF в Word
Re: Проблема с кодировкой у PDF
02.10.2009, 12:00
recvezitor в сообщении #207266 писал(а):

У меня есть книга в формате PDF, созданная с помощью LATEXa. Текст поидее должен быть распознан. Но при попытке скопировать текст в ворд выдает абракабадру. Пробовал все виды Шрифтов в ворде, не получилось. Попробовал каким то левым редактором (в Origine Label) поменять (шрифт или кодировку) получилось, Но при копировании снова в ворд опять проблемы. При попытке сохранить весь PDF документ в doc выдает также ерунду. Как узнать в какой кодировке был записан PDF файл и побороть непонимание?
Acrobat Pro 7
В книге много формул

Если книга в PDF растровая, то пробуйте следующую процедуру:
1. Убедитесь что у вас установлен принтер ADOBE PDF;
2. Смените стандартные настройки принтера на свои, чтобы исключить сжатие любых объектов и обеспечте встраивание в текст фонтов TrueType и OpenType (хорошо бы Вам иметь современную библиотеку фонтов Adobe);
3. Распечатайте книгу с новыми настройками;
4. Распечатанный текст конвертируйте в Word.
P.S.
Acrobat 7 устарел, лучше пользоваться Acrobat 9.

Сменить кодировку текста pdf

Даны pdf-файл, сделаны latex+dvips+ps2pdf, исходник утеряны или скрыты создателями 🙂
Если в adobe pdf reader выделить текст и скопировать куда-нибудь, скопируются крякозябры, например «Ñòîõàñòè÷åñêèé».
Вследствие плохой кодировки не работает, например поиск по файлу.
Для некоторых из имеющихся файлов помогает использование foxit вместо adobe для поиска, но хочется, чтобы любой ридер мог читать. Требуется, видимо, изменить кодировку чего-то внутри (или вне?) pdf. Порылся в интернетах, ничего полезного не нашёл, хотя проблема, вроде, не редкая. Посоветуйте какой-нибудь софт или последовательность действий, чтобы это исправить. Операционная система любая.

  • Вопрос задан более трёх лет назад
  • 210302 просмотра

Комментировать
Решения вопроса 1
PoCTo @PoCTo Автор вопроса
Нашёл решение для моих случаев:

gs -sDEVICE=pdfwrite -dNOPAUSE -dBATCH -dSAFER -sOutputFile=output.pdf input.pdf

После этого у output.pdf невероятным образом появляется верная кодировка.
В Windows исполняемый файл должен называться gsw32c, gswin32c, или тоже gs.

Ответ написан более трёх лет назад
Нравится 10 9 комментариев
В моём случае не работает Т__Т (Ubuntu 12.10, GPL Ghostscript 9.06)

romakoks

на windows не вышло просто потому что ghostscript не хотел добавляться в path. На ubuntu все прошло гладко.

у меня тоже не сработало.

vlasovde

romakoks: Скачал Ghostscript c «ghostscript.com/download/gsdnld.html». Установил версию x64, Win 8.1. Затем запустил грубо указав полный путь к файлам^ C:\>»C:\Program Files\gs\gs9.19\bin\gswin64.exe» -sDEVICE=pdfwrite -dNOPAUSE -dBATCH -dSAFER -sOutputFile=»C:\test\output.pdf» «C:\test\Input.pdf»

Дмитрий Власов:
У меня при выполнении данных действий Ghostscript выдаёт ошибку:

Error: /undefined in C:\
Operand stack:

Execution stack:
%interp_exit .runexec2 —nostringval— —nostringval— —nostringval-
— 2 %stopped_push —nostringval— —nostringval— %loop_continue —n
ostringval— —nostringval— false 1 %stopped_push .runexec2 —nostr
ingval— —nostringval— —nostringval— 2 %stopped_push —nostringval

Dictionary stack:
—dict:1194/1684(ro)(G)— —dict:0/20(G)— —dict:78/200(L)—
Current allocation mode is local
Last OS error: No such file or directory
Current file position is 3

Не подскажете, как решить проблему? Win7 32

PoCTo @PoCTo Автор вопроса

R80: попробуйте слеш в пути к файлу другую сторону развернуть, проверьте, что взяли пути в кавычки, или просто указывайте относительные пути вместо полных. Судя по «Last OS error: No such file or directory», не получилось распознать путь, который вы задали.
Чтобы не мучаться с путями, добавьте в PATH путь к бинарнику gs, тогда будет удобно и коротко, как в моем изначальном решении

Впрочем, через полтора месяца после вопроса это уже может быть и неважно 🙂

PoCTo: да нет, почему же, очень важно. Потому как имеющийся документ тянет почти на 300 страниц. Через OCR его заново прогонять просто дикость. Что касается GS, то попробовал сейчас ваши рекомендации относительно слэша и кавычек — всё тщетно. Кавычки стоят. Разворот слэша ничего не меняет. Вот фраза про добавление в PATH путь к бинарнику gs, мне, как полнейшему профану в этом деле, не совсем понятна.
Сейчас я действую по сценарию, описанному у Дмитрия. Я просто копирую его путь C:\>»C:\Program Files\gs\gs9.19\bin\gswin64.exe» -sDEVICE=pdfwrite -dNOPAUSE -dBATCH -dSAFER -sOutputFile=»C:\test\output.pdf» «C:\test\Input.pdf», естественно поместив в указанные папки нужные файлы с указанными наименованиями, и меняю gswin64.exe на gswin32c.exe. Может быть я где-то на этом этапе допускаю некую кощунственную ошибку, которая и является причиной гневных ответов gs в мой адрес? Хотелось бы разобраться.

iLeonidze

Пытаюсь сконвертировать CP1252 → CP1251, увы, фокус не удался, хотя все верно отработало и новый файл даже создался

unixforum.org

Решено: Кодировка pdf документа или отсутствующие шрифты? (куда копать)

7 сообщений • Страница 1 из 1
TweeKane Сообщения: 102 ОС: Arch GNU/Linux

Решено: Кодировка pdf документа или отсутствующие шрифты?

Сообщение TweeKane » 02.03.2010 18:37

Вот такой текст показывает мне читалка epdfview. При этом текст я могу выделить и когда вставляю в редактор, он там в читаемом виде. Даже не знаю с какой стороны подойти.

Я возвращаюсь к простоте; я снова направляюсь к чистоте.
Спасибо сказали:
Reboot Сообщения: 321 Статус: Красен глаз — темна душа

Re: Решено: Кодировка pdf документа или отсутствующие шрифты?

Сообщение Reboot » 02.03.2010 20:27

Отчасти схожая проблема:
один и тот-же файл. Тоже беда с кириллицей
Epdfview
http://omploader.org/vM3Bwcw/epdf.png
и Xpdf:
http://omploader.org/vM3BwdA/xpdf.png
Это со всеми pdf’ми собранными мной через TeX и в большинстве «не моих» pdf’k (их происхождение мне не известно). Но попадаются некоторые, которые нормально выглядят и в epdfview
P.S. в xpdf тоже не особо здорово всё выглядит. Буквы словно «пляшут».
P.P.S. окно открытия нового файла у xpdf просто ужасно медленное! Есть способы исправить ситуацию?

Мой компьютер зовут Марвин
Спасибо сказали:
Bizdelnick Модератор Сообщения: 20642 Статус: nulla salus bello ОС: Debian GNU/Linux

Re: Решено: Кодировка pdf документа или отсутствующие шрифты?

Сообщение Bizdelnick » 02.03.2010 21:31

Reboot, а в чём связь с первым сообщением темы?
02.03.2010 20:27
P.S. в xpdf тоже не особо здорово всё выглядит. Буквы словно «пляшут».

У меня та же фигня, и виноват в этом, видимо, TeX или используемые им шрифты. От просмотрщика не зависит, PDFы другого происхождения выглядят нормально.

Пишите правильно:

в консоли
вку́пе (с чем-либо)
в общем
вообще
в течение (часа)
новичок
нюанс
по умолчанию
приемлемо
проблема
пробовать
трафик

Спасибо сказали:
Nazyvaemykh Сообщения: 438 Статус: Подопытный участник

Re: Решено: Кодировка pdf документа или отсутствующие шрифты?

Сообщение Nazyvaemykh » 02.03.2010 22:16

TweeKane,
это на всех файлах или какой-то такой особенный?

попробовал поставить epdfview, показывает отвратительно, как в примерах выше, но на русском языке…

¡ Страсть к разрушению есть творческая страсть !
Спасибо сказали:
TweeKane Сообщения: 102 ОС: Arch GNU/Linux

Re: Решено: Кодировка pdf документа или отсутствующие шрифты?

Сообщение TweeKane » 02.03.2010 22:53

Не во всех, но вот этот и в xpdf не котрывается. Ещё когда через epdfview отправляю на печать файл, даже если он нормально отображается кириллица не печатается.
В Том файле что на скрине есть сноски с примечаниями переводчика и они отображаются нормально.

Я возвращаюсь к простоте; я снова направляюсь к чистоте.
Спасибо сказали:
Nazyvaemykh Сообщения: 438 Статус: Подопытный участник

Re: Решено: Кодировка pdf документа или отсутствующие шрифты?

Сообщение Nazyvaemykh » 04.03.2010 17:42

В случае плохо отображаемых pdf-файлов, сгенерированных tex’ом… Если выделить текст, а потом изменить масштаб, то всё становится нормально… Так что поведение epdfview очень непредсказуемое, работать хорошо может, но не хочет. (:

¡ Страсть к разрушению есть творческая страсть !
Спасибо сказали:
TweeKane Сообщения: 102 ОС: Arch GNU/Linux

Re: Решено: Кодировка pdf документа или отсутствующие шрифты?

Сообщение TweeKane » 08.03.2010 12:12

Проблема была в отсутствующем шрифте AOldTyper. Нашел похожий шрифт, но назывался он чуть-чуть иначе — a_OldTyper, сделал замену в /etc/fonts/local.conf

  AOldTyper a_OldTyper  

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *