En esta entrada te explico como prevenir que los motores de búsqueda indexen los ficheros PDF de tu sitio web, y así evitar que aparezcan en los resultados de búsqueda.
- Nivel de dificultad: Fácil
- Conocimientos previos: FTP, htaccess básico
- Tiempo de implementación: 2 minutos
Esta implementación es útil para evitar canibalizaciones SEO dentro de tu sitio. Si quieres saber lo que son las canibalizaciones y cómo solucionarlas puedes leer este artículo donde abordo la cuestión a fondo:
Pasos para evitar que los PDF aparezcan en las SERP
- Accede a tu servidor: Utiliza un cliente FTP para conectarte al servidor de tu sitio web.
- Localiza o crea el archivo .htaccess: Navega hasta el directorio raíz de tu sitio web. Si ya existe un archivo .htaccess, ábrelo. Si no existe, crea uno nuevo.
- Añade el código de bloqueo: Agrega las siguientes líneas al archivo .htaccess:
<Files *.pdf>
Header set X-Robots-Tag "noindex, nofollow"
</Files>
- Guarda y sube el archivo: Si has editado el archivo localmente, guarda los cambios y súbelo al servidor. Si lo has editado directamente en el servidor, simplemente guarda los cambios.
- Verifica la implementación: Puedes comprobar que la implementación funciona correctamente revisando el encabezado HTTP de tus archivos PDF. Esta herramienta para chequear los encabezados http te puede ayudar.
¿Qué hacen estas directivas en htaccess?
<Files *.pdf>
: Esta línea indica que las reglas siguientes se aplicarán a todos los archivos con extensión .pdf.
Header set X-Robots-Tag "noindex, nofollow"
: Esta línea añade un encabezado HTTP que indica a los motores de búsqueda que no deben indexar ni seguir los enlaces de estos archivos.
¿Por qué utilizar esta implementación?
Este método es rápido y sencillo de implementar, sin necesidad de modificar los archivos PDF individualmente. Al utilizar .htaccess, la regla se aplica a nivel de servidor, lo que significa que afecta a todos los PDFs presente.
Alternativas
Existen oltras alternativas, te las comento, aunque creo que no son tan óptimas como la de modificar el htaccess:
Robots.txt:
- Puedes utilizar el archivo robots.txt para evitar que los buscadores accedan a los PDFs.
User-agent: *
Disallow: /*.pdf$
- Ventaja: Fácil de implementar.
- Desventaja: No es una solución definitiva, ya que los motores de búsqueda pueden ignorarlo.
Meta robots tag en la página que enlaza al PDF:
- Añade
rel="nofollow"
a los enlaces que apuntan a PDFs. - Ejemplo:
<a href="documento.pdf" rel="nofollow">Descargar PDF</a>
- Ventaja: Control más granular.
- Desventaja: Requiere modificar cada enlace individualmente.
Protección con contraseña:
- Coloca los PDFs en un directorio protegido con contraseña.
- Ventaja: Ofrece un nivel adicional de seguridad.
- Desventaja: Puede afectar la experiencia del usuario.