Convertir PDF a PDF A OCR Reconocimiento Optico de Caracteres, reconocimiento de texto en PDF SIMO

Convertir PDF a PDF A OCR Reconocimiento Optico de Caracteres, reconocimiento de texto en PDF SIMO

Cómo convertir un PDF convencional a un PDF OCR

Introducción al PDF OCR

  • En este vídeo se explica cómo transformar un PDF convencional en un PDF tipo OCR (Reconocimiento Óptico de Caracteres), permitiendo seleccionar y editar texto.

Identificación del problema

  • Se presenta un ejemplo de un archivo PDF que es una imagen escaneada, donde no se puede seleccionar el texto, solo la imagen.

Herramienta recomendada

  • Se sugiere utilizar una herramienta online llamada PDF Tools, accesible en https://tools.pdf24.org. Esta plataforma ofrece diversas herramientas para trabajar con PDFs.

Proceso de conversión

  • La función específica que se utilizará es la de OCR, que permite reconocer texto y crear archivos PDF con búsqueda habilitada.
  • Para iniciar, se debe cargar el archivo arrastrándolo o seleccionándolo directamente en la herramienta.

Configuración del OCR

  • Es importante configurar el tipo de salida como "PDF" y forzar el OCR. También se debe seleccionar el idioma adecuado (en este caso, español).
  • Se recomienda desactivar la opción de enderezar páginas si las imágenes escaneadas están alineadas correctamente; esto evita distorsiones en los documentos.

Finalización del proceso

  • Una vez configurado todo, se inicia el proceso de OCR y se espera a que finalice la conversión.
  • Al finalizar, se puede descargar el nuevo archivo generado, que ahora permite seleccionar y copiar texto correctamente.

Verificación del resultado

  • Se abre el archivo convertido para verificar que cumple con los estándares de un PDF OCR, confirmando que ahora es posible seleccionar texto dentro del documento.
Video description

En este video podrán observar cómo convertir un archivo PDF a un PDF/A con OCR (Reconocimiento Optico de Caracteres) el cual genera un archivo con reconocimiento del texto, así se trate de una imagen. Este tipo de archivo es muy útil en el caso de que se requiera extraer el texto para copiar y pegar en otro lado, editar texto del archivo, copiar partes importantes del mismo, etc. Igualmente, este tipo de archivos es necesario para cargar en diferentes plataformas que así lo exigen, como por ejemplo en la plataforma SIMO de la Comisión Nacional del Servicio Civil (CNSC) para poder validar los documentos en los concursos de mérito que allí aparecen.