Bloquear la indexación de ficheros PDF: ¡Mejora el SEO!

SEO

En esta entrada te explico como prevenir que los motores de búsqueda indexen los ficheros PDF de tu sitio web, y así evitar que aparezcan en los resultados de búsqueda.

  • Nivel de dificultad: Fácil
  • Conocimientos previos: FTP, htaccess básico
  • Tiempo de implementación: 2 minutos

Esta implementación es útil para evitar canibalizaciones SEO dentro de tu sitio. Si quieres saber lo que son las canibalizaciones y cómo solucionarlas puedes leer este artículo donde abordo la cuestión a fondo:

Pasos para evitar que los PDF aparezcan en las SERP

  • Accede a tu servidor: Utiliza un cliente FTP para conectarte al servidor de tu sitio web.
  • Localiza o crea el archivo .htaccess: Navega hasta el directorio raíz de tu sitio web. Si ya existe un archivo .htaccess, ábrelo. Si no existe, crea uno nuevo.
  • Añade el código de bloqueo: Agrega las siguientes líneas al archivo .htaccess:
<Files *.pdf>
  Header set X-Robots-Tag "noindex, nofollow"
</Files>
  • Guarda y sube el archivo: Si has editado el archivo localmente, guarda los cambios y súbelo al servidor. Si lo has editado directamente en el servidor, simplemente guarda los cambios.
  • Verifica la implementación: Puedes comprobar que la implementación funciona correctamente revisando el encabezado HTTP de tus archivos PDF. Esta herramienta para chequear los encabezados http te puede ayudar.

¿Qué hacen estas directivas en htaccess?

<Files *.pdf>: Esta línea indica que las reglas siguientes se aplicarán a todos los archivos con extensión .pdf.

Header set X-Robots-Tag "noindex, nofollow": Esta línea añade un encabezado HTTP que indica a los motores de búsqueda que no deben indexar ni seguir los enlaces de estos archivos.

¿Por qué utilizar esta implementación?

Este método es rápido y sencillo de implementar, sin necesidad de modificar los archivos PDF individualmente. Al utilizar .htaccess, la regla se aplica a nivel de servidor, lo que significa que afecta a todos los PDFs presente.

Alternativas

Existen oltras alternativas, te las comento, aunque creo que no son tan óptimas como la de modificar el htaccess:

Robots.txt:

  • Puedes utilizar el archivo robots.txt para evitar que los buscadores accedan a los PDFs.
User-agent: * 
Disallow: /*.pdf$
  • Ventaja: Fácil de implementar.
  • Desventaja: No es una solución definitiva, ya que los motores de búsqueda pueden ignorarlo.

Meta robots tag en la página que enlaza al PDF:

  • Añade rel="nofollow" a los enlaces que apuntan a PDFs.
  • Ejemplo: <a href="documento.pdf" rel="nofollow">Descargar PDF</a>
  • Ventaja: Control más granular.
  • Desventaja: Requiere modificar cada enlace individualmente.

Protección con contraseña:

  • Coloca los PDFs en un directorio protegido con contraseña.
  • Ventaja: Ofrece un nivel adicional de seguridad.
  • Desventaja: Puede afectar la experiencia del usuario.
Categories SEO

Continua leyendo

google crawl js

Cómo Google indexa contenido JS en 2024

El último estudio de MERJ y Vercel revela cómo Google maneja la renderización e indexación de JavaScript en 2024, desmintiendo mitos comunes sobre el SEO para sitios pesados en JS. En este artículo explico las implicaciones qie todo esto tiene para el SEO, ofreciendo algunas recomendaciones clave para optimizar sitios web que utilizan frameworks como React y Next.js.

Qué es la Canibalización SEO: Cómo detectar y solucionar

La canibalización SEO ocurre cuando varias páginas de un mismo dominio compiten por las mismas palabras clave, afectando negativamente al SEO. Te explico cómo detectar y solucionar las canibalizaciones.
PRG en el black hat SEO

¿Penaliza Google el uso del patrón PRG Post-Redirect-Get para crear enlaces?

Si has oído hablar del patrón PRG para los enlaces, aquí te explico porqué no deberías usarlo si no quieres estar en riesgo de ser penalizado