Bloquear la indexación de ficheros PDF: ¡Mejora el SEO!

SEO

En esta entrada te explico como prevenir que los motores de búsqueda indexen los ficheros PDF de tu sitio web, y así evitar que aparezcan en los resultados de búsqueda.

  • Nivel de dificultad: Fácil
  • Conocimientos previos: FTP, htaccess básico
  • Tiempo de implementación: 2 minutos

Esta implementación es útil para evitar canibalizaciones SEO dentro de tu sitio. Si quieres saber lo que son las canibalizaciones y cómo solucionarlas puedes leer este artículo donde abordo la cuestión a fondo:

Pasos para evitar que los PDF aparezcan en las SERP

  • Accede a tu servidor: Utiliza un cliente FTP para conectarte al servidor de tu sitio web.
  • Localiza o crea el archivo .htaccess: Navega hasta el directorio raíz de tu sitio web. Si ya existe un archivo .htaccess, ábrelo. Si no existe, crea uno nuevo.
  • Añade el código de bloqueo: Agrega las siguientes líneas al archivo .htaccess:
<Files *.pdf>
  Header set X-Robots-Tag "noindex, nofollow"
</Files>
  • Guarda y sube el archivo: Si has editado el archivo localmente, guarda los cambios y súbelo al servidor. Si lo has editado directamente en el servidor, simplemente guarda los cambios.
  • Verifica la implementación: Puedes comprobar que la implementación funciona correctamente revisando el encabezado HTTP de tus archivos PDF. Esta herramienta para chequear los encabezados http te puede ayudar.

¿Qué hacen estas directivas en htaccess?

<Files *.pdf>: Esta línea indica que las reglas siguientes se aplicarán a todos los archivos con extensión .pdf.

Header set X-Robots-Tag "noindex, nofollow": Esta línea añade un encabezado HTTP que indica a los motores de búsqueda que no deben indexar ni seguir los enlaces de estos archivos.

¿Por qué utilizar esta implementación?

Este método es rápido y sencillo de implementar, sin necesidad de modificar los archivos PDF individualmente. Al utilizar .htaccess, la regla se aplica a nivel de servidor, lo que significa que afecta a todos los PDFs presente.

Alternativas

Existen oltras alternativas, te las comento, aunque creo que no son tan óptimas como la de modificar el htaccess:

Robots.txt:

  • Puedes utilizar el archivo robots.txt para evitar que los buscadores accedan a los PDFs.
User-agent: * 
Disallow: /*.pdf$
  • Ventaja: Fácil de implementar.
  • Desventaja: No es una solución definitiva, ya que los motores de búsqueda pueden ignorarlo.

Meta robots tag en la página que enlaza al PDF:

  • Añade rel="nofollow" a los enlaces que apuntan a PDFs.
  • Ejemplo: <a href="documento.pdf" rel="nofollow">Descargar PDF</a>
  • Ventaja: Control más granular.
  • Desventaja: Requiere modificar cada enlace individualmente.

Protección con contraseña:

  • Coloca los PDFs en un directorio protegido con contraseña.
  • Ventaja: Ofrece un nivel adicional de seguridad.
  • Desventaja: Puede afectar la experiencia del usuario.
Daniel Pajuelo
Daniel Pajuelo es ingeniero informático y SEO Senior, actualmente trabajando en Guruwalk e impartiendo clases en BIG School (antes BIGSEO Academy). Ver más
Categorías SEO

Continua leyendo

ChatGPT para Keyword Research

Descubre cómo combinar el poder de la IA con herramientas tradicionales como Semrush y Ahrefs para descubrir oportunidades SEO únicas. Con ejemplos de prompts y casos reales.

Cómo encontrar enlaces rotos con Python

En este artículo, te explico cómo utilizar scripts Python para analizar el SEO y detectar enlaces rotos en tu sitio web. ¡Vamos al grano!

Cómo encontrar los Backlinks de un sitio con Python

En este artículo, te explico cómo encontrar los backlinks existentes y distinguir su calidad, diferenciando entre enlaces dofollow y nofollow utilizando código Python.