Computación y electrónica

Cómo extraer texto de un documento pdf

Escrito por amanda morin

Puede resultar muy frustrante tratar de extraer el texto de un archivo PDF para usarlo en otra aplicación. No es extraño que tengas gráficos en el camino o que el diseño del documento hagan que sea muy difícil obtener oraciones con sentido. Aunque no es imposible extraer el texto con el método copiar y pegar, esto puede llevar mucho tiempo y no te permitirá que exportes un documento PDF en un formato diferente. Hay, sin embargo, algunas maneras de extraer el texto desde un archivo PDF.

Nivel de dificultad:
Moderadamente fácil

Otras personas están leyendo

Necesitarás

  • Documento PDF
  • Adobe Acrobat Reader
  • Cuenta Gmal(opcional)
  • Software de conversión de texto a PDF(opcional)

Lista completaMinimizar

Instrucciones

    Extraer texto utilizando Acrobat Reader

  1. 1

    Abre el archivo en Acrobat Reader. En Windows, selecciona "Archivo -> Exportar documento de texto", nombra el documento y guárdalo.

  2. 2

    En una Mac o el sistema operativo Linux , copia el texto accediendo al menú "Ver" y selecciona "Continuo" o "Continuo-Orientación"(La primera opción te proporcionará el texto en una columna, mientras que la segunda el texto con formato como páginas de lado a lado). Ve a "Editar -> Seleccionar todo" y luego "Editar -> Copiar".

  3. 3

    Utiliza la herramienta Seleccionar si sólo quieres extraer parte del texto. Haz clic en la herramienta "Seleccionar texto" y luego elige la información que desees. En un documento con formato de múltiples columnas, tendrás que utilizar la primera herramienta "Selección de Columna". Ve a "Editar -> Copiar"

    Convertir PDF a HTML

  1. 1

    Utiliza Gmail como un acceso directo. Adjunta el archivo PDF a un correo electrónico y envíalo a tu cuenta de Gmail. Al abrir el correo electrónico verás una serie de opciones al lado del archivo adjunto. Selecciona la opción "Ver como HTML" y guarda el archivo que se abre en una ventana separada. Aunque no podrás ver los gráficos, el archivo HTML conserva el formato del documento de texto.

  2. 2

    Extrae y convierte los archivos en la línea de comandos. Los usuarios de Linux pueden utilizar un comando de conversión básica que cambiará un archivo .pdf a un archivo .txt: "Pdftotext filename.pdf". Asegúrate de cambiar el nombre del archivo con el nombre del archivo PDF.

  3. 3

    Descarga un programa de conversión de texto PDF. Hay un número de código abierto y programas de software gratuito disponibles, tales como PDFBox y Easy PDF to Text Converter (ve Recursos más adelante). Muchos de estos programas también pueden convertir archivos PDF a HTML.

Consejos y advertencias

  • Determina si el documento tiene el formato para contener texto y gráficos. El enfoque de Adobe Acrobat solamente funcionará si el archivo PDF contiene ambos, no funcionará para los archivos con imágenes solamente. En algunos casos, el texto de un documento PDF tiene en realidad el formato de una imagen. Esto suele ocurrir cuando un documento original es escaneado y el archivo PDF es creado a partir de la imagen escaneada.
  • Prepárate para volver a formatear parte del texto cuando utilices Acrobat Reader. Esta forma de extracción sólo exporta el archivo PDF en un archivo de texto - no mantendrá necesariamente el mismos formato. Sin embargo, si sólo tienes que utilizar el texto, esto no debería ser un problema.

Más galerías de fotos

comentarios

Filtrar por:
  • Mostrar todos
  • Artículos
  • Galerías de fotos
  • Videos
Ordenar:
  • Más relevante
  • Más popular
  • Más reciente

No se encuentran artículos disponibles

No se encuentran slideshows disponibles

No se encuentran videos disponibles

Copyright © 1999-2014 Demand Media, Inc. Acerca de

El uso de este sitio constituye la aceptación de los términos y política de privacidad de eHow. Ad Choices es-US

Demand Media