martes, 29 de julio de 2014

Extraer páginas de archivos pdf y juntarlas en un archivo nuevo (Linux)

Hay dos maneras para extraer páginas de un archivo pdf en Linux.

Primero hay que abrir una terminal. Algunas distribuciones la abren con las teclas Ctrl-Alt-t. Si esto no funciona, tal vez apretando primero Alt-F2 y escribiento "Terminal" en la barra que se abre con las teclas anteriores (dependiendo de la distribución gráfica, en lugar de "terminal" hay que escribir "xterm" o "mate-terminal")...Lo que nunca falla es abrir el menú de aplicaciones y buscarla..

Nota para los nuevos. El modo 2 de hacerlo es más eficiente según mi punto de vista (échenle un ojo antes de ponerse a teclear comandos).


  1. El primero de los programas que extraen páginas es el "pdftops" (sudo apt-get install pdftops en caso de que no lo tengan instalado). En realidad, este programa fue diseñado para convertir páginas o documentos pdf en archivos ps, pero funciona bien si anidamos el archivo ps generado con el que convierte los archivos de este tipo en pdf (es decir, con pdftopstransformamos las páginas elegidas del archivo pdf a un archivo nuevo que es tipo ps e, inmediatamente, transformamos este archivo nuevo en ps a un archivo nuevo en pdf).


Vale, esta es la instrucción ejemplo (por supuesto, deben estar situados en la terminal dentro de la carpeta en donde se encuentre el archivo pdf al que le quieran extraer las páginas...si no saben hacer esto, hay que usar el comando cd para cambiar de directorio):

pdftops documento.pdf - | psselect -p11-14 | ps2pdf - archivoNuevo.pdf

En el ejemplo, el archivo "documento.pdf" es el archivo al que se le quieren extraer las páginas. p11-14 son las páginas que se quieren extraer y "archivoNuevo.pdf" es el archivo que crearán con esas páginas.
Este programa tiene varias opciones adicionales que pueden revisarse en
http://linux.about.com/library/cmd/blcmdl1_pdftops.htm


  1. Ahora el segundo método que, en lo personal, es el que uso. Es el paquete "pdftk" (sudo apt-get install pdftk)


Tres ejemplos rápidos:

1.- pdftk archivo1.pdf archivo2.pdf cat output archivocombinado.pdf

2.- pdftk A=archivo1.pdf B=archivo2.pdf cat A1-3 B2-5 output archivocombinado2.pdf

3.- pdftk A=archivo1.pdf B=archivo2.pdf C=archivo1.pdf cat A1-3 B1 C5-8 output archivocombinado3.pdf

El primer comando nos combina los dos archivos en uno solo (el orden en el que se escriben es el orden como los combina)

El segundo ejemplo nos combina las páginas 1 a 3  (A1-3) del primer archivo pdf con las páginas 2 a 5 (B2-5) en un archivo nuevo pdf

El último ejemplo (nótese que A y C son EL MISMO pdf) sirve para SUSTITUIR una página intermedia en el archivo1.pdf. En el ejemplo, se están extrayendo las páginas 1 a 3 (A1-3) del primer archivo, la primera página del segundo archivo (B1) y las páginas 5 a 8 del PRIMER archivo y se combinan todas en un nuevo archivo.

Para más opciones y cosas:

http://www.pdflabs.com/docs/pdftk-cli-examples/


No hay comentarios: