Factores que determinan el crawl budget de Google

crawl budget factores

Google no rastrea ni indexa todas las páginas de un sitio web con la misma profundidad. En sitios grandes, el buscador asigna un presupuesto de rastreo (crawl budget) que determina cuántas URLs de tu sitio puede y quiere rastrear Googlebot en un periodo dado. Este presupuesto es limitado y dinámico: depende tanto de la capacidad de rastreo (lo que tu servidor soporta) como de la demanda de rastreo (lo que Google considera valioso rastrear) . Si una página pierde relevancia o calidad a ojos de Google, con el tiempo podría dejar de ser rastreada e incluso salir del índice.

En este artículo comparto mi investigación sobre los factores que influyen en el crawl budget de Google y explicaremos por qué ciertas páginas que antes estaban indexadas dejan de estarlo. Abordaremos conceptos clave de la gestión del índice de Google, incluyendo la patente “Managing URLs” (US7509315B1) de Google (que introduce los límites soft y hard), el concepto de “umbral de importancia” (importance threshold), declaraciones de Gary Illyes sobre cómo Google “olvida” URLs con el tiempo, y las categorías de páginas no indexadas en Google Search Console identificadas por Indexing Insight.

También explicaremos técnicamente cómo se calcula y ajusta el crawl budget, cómo factores como la autoridad, el enlazado interno, la frecuencia de actualización y las señales de calidad afectan ese presupuesto, y qué señales pueden hacer que Google deje de rastrear o indexar una URL que antes sí estaba indexada.

¿Qué es el crawl budget y cómo funciona?

El crawl budget (presupuesto de rastreo) es la cantidad de URLs de tu sitio que Googlebot puede y quiere rastrear en un determinado intervalo. En otras palabras, es el equilibrio entre el límite de rastreo impuesto por Google para no sobrecargar tu servidor, y la demanda de rastreo que Google tiene según la importancia o novedad de tu contenido. Google ha explicado que este presupuesto se determina combinando dos factores: Crawl Rate Limit y Crawl Demand.

  • Límite de rastreo: Es la velocidad máxima a la que Googlebot puede hacer peticiones a tu sitio sin causar problemas de rendimiento. Si tu servidor responde rápido y sin errores, Googlebot puede aumentar esta tasa; pero si encuentra errores 5XX o lentitud, la reduce. El objetivo es no saturar tu servidor.
  • Demanda de rastreo: Es el interés que tiene Google en rastrear tu contenido. Depende de cuán popular o importante sea la página y de qué tan frecuentemente cambia. Por ejemplo, las URLs con muchas referencias o que reciben mucho tráfico suelen tener mayor prioridad de rastreo (Google quiere mantener su contenido fresco). Asimismo, si tu sitio realiza cambios masivos (por ejemplo, una migración), la demanda de rastreo aumenta temporalmente para reindexar las nuevas URLs. En cambio, páginas muy estáticas o con poco valor pueden tener una demanda baja y ser rastreadas con menos frecuencia.

En resumen, Google ajusta continuamente el crawl budget de cada sitio según estos factores. Incluso si el límite de tu servidor es alto, Googlebot no usará todo ese margen si considera que no hay suficiente contenido valioso o actualizado que merezca ser rastreado. De hecho, “Google determina la cantidad de recursos de rastreo para cada sitio en base a su popularidad, valor para el usuario, contenido único y capacidad del servidor”, y aumentar el crawl budget solo es posible mejorando la capacidad del servidor y, más importante, incrementando el valor de tu contenido.

En sitios pequeños o medianos con pocas páginas, el crawl budget raramente es un problema, pero en sitios grandes (ecommerce, portales de noticias, etc.) optimizarlo es crucial para que las páginas importantes sean rastreadas e indexadas regularmente.

La patente “Managing URLs”: límites soft y hard en el índice de Google

Una pieza clave para entender cómo Google decide qué indexar y qué desindexar es la patente de Google “Managing URLs” (US7509315B1). Esta patente describe un sistema de gestión del índice que utiliza dos tipos de límites para controlar cuántas páginas mantiene Google en su índice de resultados:

  • Límite Soft (límite blando): Es un objetivo aproximado del número de páginas que el buscador quiere tener indexadas. Actúa como un punto de referencia o “presupuesto” de indexación. Por ejemplo, si el límite soft se establece en 1.000.000 de páginas, Google intentará mantener alrededor de ese número de URLs indexadas.
  • Límite Hard (límite duro): Es un tope absoluto que evita que el índice crezca sin control. Por encima de este límite, Google no indexará más páginas. Siguiendo el ejemplo, podría ser un 130% del límite soft (en la patente se menciona un caso donde el límite hard era 130% del soft). El límite hard actúa como techo para el tamaño del índice.

Cuando el número de URLs indexadas de un sitio alcanza el límite soft, comienza un proceso de selección basado en importancia. En lugar de seguir indexando todo lo nuevo, el sistema eleva el umbral de importancia requerido para que una URL pueda permanecer indexada. Es decir, a partir de ese punto, solo las páginas con un puntaje de importancia mayor o igual al umbral actual se mantienen o ingresan en el índice. Las páginas que estén por debajo de ese umbral “blando” de importancia son susceptibles de ser desindexadas para mantener el índice dentro del límite establecido remove pages.

En la práctica, Google está continuamente equilibrando qué páginas merece la pena tener indexadas según su importancia relativa.

Umbral de importancia: una barrera dinámica para la indexación

El umbral de importancia (importance threshold) es ese puntaje mínimo que una URL necesita tener para ser indexada cuando el índice se acerca al límite asignado. Este concepto, derivado de la patente mencionada, implica que la indexación de URLs es un proceso competitivo: las páginas “compiten” por un lugar en el índice. ¿Cómo? Google asigna a cada URL un ranking de importancia (que podemos asimilar a una combinación de señales como PageRank, relevancia, calidad, etc.), y mantiene en su índice solo aquellas que superan cierto umbral.

Lo clave es que este umbral no es fijo, sino dinámico. Cuando aparecen nuevas páginas de alta calidad o mayor importancia en la web, elevan el listón: el umbral de importancia sube para darles cabida, y en consecuencia algunas páginas de menor importancia relativa caen por debajo del nuevo umbral ([Google’s index needs to actively remove pages. Dicho de otro modo, solo las páginas con un puntaje por encima de un umbral dinámico permanecen en el índice; cuando se descubren nuevas páginas de alta calidad, el umbral aumenta, y las páginas de menor calidad caen por debajo y son eliminadas.

Esta estrategia explica por qué a veces páginas nuestras que estaban indexadas pasan a no estarlo: no necesariamente porque empeoraron en sí mismas, sino porque otras páginas más fuertes entraron en escena, elevando el estándar de importancia requerido.

Un ejemplo de este fenómeno se refleja en los estados de indexación que vemos en Google Search Console. Según análisis de Indexing Insight (Adam Gent), una página puede atravesar una degradación gradual de estado a medida que su importancia relativa desciende en comparación con el umbral vigente. Inicialmente, podía estar “Indexada”. Si su puntaje cae por debajo del umbral, podría pasar a “Rastreada – actualmente no indexada” (Google la siguió rastreando por un tiempo pero decidió no indexarla). Si su importancia sigue decayendo, podría marcarse como “Descubierta – actualmente no indexada” (Google conoce la URL pero ni siquiera gasta recursos en rastrearla activamente). Y en el peor caso, si ya no cumple ningún criterio de importancia, puede llegar al estado “URL desconocida para Google”. En este último, la URL prácticamente ha salido del radar de Google: es como si el buscador la hubiera olvidado por completo.

image 10
Diagrama: Relación entre el umbral de importancia y la prioridad de rastreo (basado en Indexing Insight).

Las páginas con importancia por encima del umbral permanecen indexadas (zona verde), mientras que las que caen por debajo pierden prioridad de rastreo. Esto provoca que algunas pasen de “Rastreada – no indexada” a “Descubierta – no indexada”, hasta llegar a “URL desconocida para Google” si su puntaje cae lo suficiente. Las flechas indican cómo disminuye la prioridad de rastreo a medida que baja la importancia de la URL.

En términos simples, el umbral de importancia actúa como filtro evolutivo del índice: conforme tu sitio (y la web en general) suma contenido, Google eleva el estándar y las páginas menos importantes se filtran hacia fuera. Esto enfatiza la necesidad de mantener o aumentar la importancia relativa de tus URLs (mediante mejor contenido, más enlaces, etc.) si quieres que sigan indexadas a largo plazo.

Prioridad de rastreo y las URLs “olvidadas” por Google

¿Qué ocurre con esas páginas que caen por debajo del umbral de importancia? No solo dejan de estar indexadas, sino que también ven reducida drásticamente su prioridad de rastreo. De hecho, según la patente y corroborado por expertos de Google, las URLs con un puntaje de importancia muy por debajo del umbral pasan a tener prioridad de rastreo nula. Esto significa que Googlebot dejará de perder el tiempo incluso en rastrearlas: la página entra en una especie de “estado zombi” a nivel de rastreo.

El propio Gary Illyes, analista de Google, ha confirmado que Google “se olvida” de ciertas URLs con el tiempo cuando estas pierden las señales que las hacían relevantes. En una conversación reciente, Illyes explicó que las URLs marcadas en Search Console como “URL desconocida para Google” no tienen ninguna prioridad de rastreo: “no son conocidas por Google, así que intrínsecamente no tienen prioridad alguna” . En sus palabras, las señales recopiladas (enlaces, tráfico, etc.) “contaron una historia que hizo que nuestros sistemas olvidaran que la URL existe; es como si hubiera caído fuera del barril” . Dicho de otra forma, Google purga de su memoria aquellas páginas que ya no le aportan nada y las trata como si nunca hubieran existido.

Desde la perspectiva de Search Console, estas serían las páginas con estado “URL desconocida para Google”, y efectivamente no figuran en el índice ni en la agenda de rastreo de Google. Este “olvido” no ocurre de la noche a la mañana; suele ser el resultado de un declive prolongado en las señales de la URL. Primero pierde posiciones o relevancia (quizá degradando a “rastreadas no indexadas”), luego Google deja de rastrearla con regularidad (“descubierta, no indexada”), y finalmente, si nada cambia, la abandona por completo (“desconocida”) .

Gary Illyes señaló que varias señales influyen en este proceso de olvido. Si una URL pierde enlaces entrantes de peso, su importancia a ojos de Google disminuye. Si la gente deja de visitarla (por ejemplo, baja drásticamente su tráfico orgánico), indica que quizá ya no es tan útil o relevante. Si el contenido se vuelve obsoleto o de baja calidad, también pierde valor y Google puede ignorarla. En resumen, cuando una página pierde todas las señales de mérito, queda fuera del índice y con prioridad cero de rastreo. Como lo resumió Malcolm Slade en ese debate: “si algo antes era conocido y luego pasa a ser desconocido, me imagino que simplemente es porque esa URL ya no tiene (o ha perdido) cualquier señal de valor” .

Tipos de páginas “no indexadas” en Search Console y su importancia

Google Search Console refleja diferentes estados para las páginas que no están indexadas, lo cual puede darnos pistas sobre el nivel de importancia que Google les asigna en cada caso. En el contexto que hemos descrito, podemos identificar tres tipos principales de páginas no indexadas (excluyendo aquellas intencionalmente bloqueadas por noindex u otros motivos manuales):

  • “Descubierta – actualmente no indexada”: Significa que Google conoce la URL (p. ej., por un sitemap o enlace externo), pero aún no la ha rastreado o lo ha postergado. Esto suele ocurrir cuando la página es nueva o de baja prioridad. Indica que la URL tiene cierta relevancia (al menos fue descubierta), pero no suficiente importancia para merecer una visita de Googlebot inmediata. Muchas veces páginas en este estado pueden eventualmente ser rastreadas si mejoran sus señales o si Google tiene excedente de presupuesto, pero por ahora están en espera.
  • “Rastreada – actualmente no indexada”: Aquí Google sí llegó a rastrear (visitar) la página, posiblemente varias veces, pero decidió no indexarla. Esto suele indicar que tras ver el contenido, Google determinó que no aportaba suficiente valor o era muy similar a otras páginas, o simplemente que su importancia global no supera el umbral para entrar al índice en ese momento. Es un estado típico de páginas con contenido duplicado, muy ligero o con señales de calidad insuficientes. También puede reflejar un caso de indexación diferida: Google la rastrea para evaluar, pero la deja pendiente, quizás a la espera de más señales de valor.
  • “URL desconocida en Google”: Como discutimos, es la etapa más “extrema”. La URL ni siquiera está reconocida en el sistema; Google actualmente no sabe nada de ella. Puede ser una URL nunca antes vista, o (como es más interesante) una URL que antes fue conocida pero se “olvidó” por falta de señales. En este estado, la URL no tiene ninguna prioridad de rastreo – Googlebot no la buscará a menos que surja una nueva señal muy fuerte que la redescubra. En esencia, es una página desindexada y descartada del todo.

Estas categorías se relacionan con la evolución de la importancia de la URL en el índice, tal como indica la teoría del umbral de importancia. Una página valiosa normalmente estaría “Indexada”. Si su valor cae un poco (pero sigue siendo relevante), puede que quede como rastreada pero no indexada – Google la sigue monitoreando, por si mejora. Si sigue cayendo en importancia, pasará a descubierta no indexada – la conoce pero ya ni la visita regularmente. Y si termina de perder toda señal, acabará desconocida – fuera del radar. En estudios de Indexing Insight se ha observado exactamente este descenso escalonado en páginas que antes estaban indexadas y luego fueron perdiendo posicionamiento: “una URL puede pasar de ‘Enviado e indexado’ ➜ ‘Rastreada – actualmente no indexada’ ➜ ‘Descubierta – actualmente no indexada’ ➜ ‘URL desconocida’ en Google” ([Google’s index needs to actively remove pages.

Esto refuerza la idea de que la posición de una página en el índice de Google no es permanente; está continuamente reevaluada frente al contenido nuevo de la web y las señales cambiantes ([Google’s index needs to actively remove pages.

¿Cómo se calcula y ajusta el crawl budget?

Volviendo al crawl budget, ¿cómo decide Google cuántas páginas rastrear de tu sitio cada día? Como mencionamos, es una combinación de capacidad y necesidad:

  • Capacidad de rastreo (crawl rate limit): Googlebot asigna a cada sitio un límite de cuántas solicitudes por segundo (o por día) puede hacer, buscando no sobrecargarlo. Este límite se ajusta dinámicamente. Si tu servidor responde rápido y consistentemente, el límite puede subir con el tiempo. Si en cambio devuelve muchos errores 503/504, señales de sobrecarga o de bloqueo, Google reduce el ritmo. Un sitio robusto técnicamente tendrá un límite de rastreo más alto disponible que uno lento o inestable.
  • Demanda de rastreo (crawl demand): Es cuánto “quiere” Googlebot rastrear tu sitio. Aquí entran las señales de importancia y frescura del contenido. Si tienes muchas páginas nuevas o actualizadas frecuentemente, o contenido muy popular, la demanda de rastreo será alta (Google quiere obtener esa información lo antes posible) . Por el contrario, si tu sitio no publica nada nuevo o las páginas existentes tienen poco interés, la demanda será baja.

Google ha indicado que, combinando ambos factores, prioriza rastrear lo importante sin exceder lo que el sitio soporta. Por ejemplo, imagina que tu sitio tiene capacidad para 10.000 peticiones al día antes de mostrar señales de fatiga, pero la mayoría de tus páginas no han cambiado en meses y reciben poco tráfico. En tal caso, quizá la demanda efectiva solo sea de 2.000 páginas/día, y Google se limitará a eso aunque podría físicamente rastrear más. Inversamente, si tu sitio publica cientos de noticias al día (alta demanda) pero el servidor aguanta poco (bajo límite), Googlebot tendrá que moderar su ritmo para no tumbarlo, posiblemente tardando más en cubrir todo.

El crawl budget real consumido en un sitio en un día es, pues, el mínimo entre el límite de rastreo y la demanda. Y se recalcula constantemente. Si mejoras la infraestructura (más velocidad, mejor respuesta), Googlebot subirá gradualmente el límite y quizá rastree más. Si de pronto tu sitio genera interés (ej. viralidad, más búsquedas hacia tu contenido), la demanda subirá y Googlebot intentará rastrear más páginas, hasta donde el límite lo permita. Si la demanda cae (páginas obsoletas, menos búsquedas), Google reducirá la actividad de rastreo correlativamente.

Cabe destacar que Google asigna los recursos de rastreo basándose también en la importancia global de tu sitio. Sitios con mayor autoridad (por ejemplo, dominios con muchos enlaces entrantes de calidad) tienden a recibir un crawl budget mayor, porque Google espera que contengan contenido valioso que merece ser explorado con más profundidad.

En cambio, si Google detecta que en tu sitio gasta mucho tiempo rastreando URLs que no aportan nada al índice (páginas duplicadas, parámetros infinitos, contenido muy pobre), puede decidir no aumentar tu presupuesto de rastreo porque “no vale la pena dedicar más tiempo a ver el resto de tu sitio”.

En sus guías, Google recomienda gestionar eficientemente el “inventario” de URLs: consolidar contenido duplicado, bloquear vía robots.txt lo innecesario, y eliminar páginas eliminadas con 404, para que Googlebot no desperdicie tiempo en ellas. Si logramos que Googlebot se enfoque solo en nuestras páginas útiles, es más probable que considere aumentar el crawling de ellas.

En resumen, el crawl budget se ajusta mediante un delicado equilibrio: Googlebot acelera o frena según la respuesta del sitio, y recorre más o menos URLs según la relevancia del contenido. Como administradores web, podemos influir en él mejorando la salud técnica del sitio (para permitir más crawl) y aumentando las señales de valor de nuestro contenido (para justificar más crawl).

Factores que afectan al crawl budget y la indexación

Ahora profundicemos en los principales factores que influyen en el presupuesto de rastreo de Google y en que una página permanezca indexada o sea desindexada. Muchos de estos factores están interrelacionados con el concepto de importancia que discutimos:

  • Autoridad y popularidad del sitio: La autoridad de dominio, frecuentemente relacionada con la cantidad y calidad de backlinks que recibe tu sitio, afecta fuertemente el crawl budget. Google prioriza rastrear sitios populares en la web, ya que espera encontrar contenido importante allí. Un dominio con muchos enlaces de sitios reputados tendrá un mayor flujo de PageRank, lo que suele traducirse en que Googlebot rastree más páginas y con más frecuencia.

    Estudios indican que métricas como la autoridad de dominio y el número de páginas influyen en la tasa de rastreo: dominios fuertes y sitios grandes tienen crawl rates más altos, mientras que sitios pequeños o con menos respaldo externo se rastrean con menos frecuencia. Además, a nivel de página, si una URL en particular tiene muchos enlaces entrantes (externos o internos), es señal para Google de que es importante, y por tanto la rastreará e indexará con prioridad. Por el contrario, páginas huérfanas o sin enlaces de otros sitios carecen de esa votación de confianza y pueden recibir menos atención de Googlebot.
  • Enlazado interno y arquitectura del sitio: La forma en que organizas y enlazas internamente tus páginas impacta en cómo Google distribuye la importancia dentro de tu sitio. Un buen enlazado interno puede impulsar ciertas páginas para que Google las considere más relevantes. Por ejemplo, tener enlaces desde la página de inicio hacia una página profunda indica a Google que esta última es importante en la estructura. John Mueller de Google ha dicho que la profundidad de clics (qué tan lejos está una página de la home en términos de clics) se evalúa por enlaces internos, no por la URL en sí: “Google se fija en cuán rápidamente desde la página principal se puede llegar a una página dada”, y esto depende de la estructura de links internos. De hecho, añadir enlaces internos hacia páginas de baja prioridad puede acelerar su rastreo.

    Mueller comentó un caso donde al vincular temporalmente en la página principal unas páginas previamente no indexadas, Google “vio los cambios de enlazado interno y fue a rastrear esas URLs vinculadas, lo que ayuda a mostrar que son páginas importantes en el sitio”. Sin embargo, advirtió que cambiar drásticamente el enlazado interno redistribuye la importancia: si de pronto destacas unas páginas, otras podrían perder visibilidad. Un cambio significativo en la estructura interna “puede causar que otras partes de tu sitio que apenas estaban indexadas se caigan del índice” . Esto concuerda con la idea del umbral: al reasignar la “fuerza” de enlaces, algunas páginas pueden caer por debajo del umbral y ser desindexadas. Por tanto, la estrategia de internal linking debe ser equilibrada, resaltando páginas clave sin descuidar el conjunto.
  • Frecuencia de actualización del contenido: Google trata de mantener su índice actualizado, de modo que las páginas que cambian con frecuencia serán rastreadas más a menudo (alta demanda de rastreo). Si tu sitio publica contenido nuevo diariamente o actualiza páginas importantes con regularidad, Googlebot estará atento para visitarlo frecuentemente. En cambio, páginas con contenido estático o que llevan mucho sin cambios verán reducida su frecuencia de rastreo con el tiempo. Google incluso ha mencionado que no le gusta tener contenido “rancio” en su índice, y que las páginas que no se han rastreado en mucho tiempo adquirirán eventualmente una mayor prioridad de rastreo para verificar si han cambiado.

    Esto significa que incluso si una página es menos importante, Googlebot ocasionalmente la recrawleará si ha pasado mucho tiempo, para asegurarse de no mantener información obsoleta. Sin embargo, si al recrawlearla ve que sigue sin cambios y sin señales nuevas, probablemente alargará aún más el intervalo de rastreo la próxima vez. En términos de indexación, actualizar el contenido con mejoras puede elevar la importancia de una URL (por ejemplo, añadir información útil, refrescar datos, etc.), lo que podría salvarla de caer fuera del índice (US7509315B1 – Managing URLs – Google Patents). La patente Managing URLs señalaba que “una página que antes estaba por debajo del umbral podría luego subir por encima del umbral, por ejemplo, basándose en cambios en su contenido”. Por tanto, la frescura y vigencia del contenido ayudan a mantener a las URLs por encima del umbral necesario.
  • Señales de calidad y engagement: La calidad percibida de una página es un factor crucial. Google recoge diversas señales de calidad: desde evaluaciones algorítmicas de contenido (originalidad, profundidad, cumplimiento de E-E-A-T, etc.), hasta indicadores de experiencia de usuario (tiempo en página, tasa de rebote, datos de Chrome UX, etc.) aunque estos últimos de forma indirecta. Si una página es valorada por los usuarios (por ejemplo, resuelve su intención de búsqueda, recibe clics frecuentes, no es rápidamente abandonada), es más probable que mantenga o suba su importancia relativa.

    En cambio, páginas con contenido superficial, duplicado o poco útil suelen quedarse rezagadas. Con las actualizaciones de algoritmo principales (Core Updates), Google suele recalibrar qué considera contenido de calidad; esto puede causar que de pronto algunas páginas pierdan posiciones o sean excluidas del índice si se determina que no alcanzan el nuevo umbral de calidad. De hecho, tras core updates es recomendable monitorear los estados de indexación de tus URLs, ya que podrías ver páginas que antes estaban indexadas pasar a “no indexadas” debido a un reevaluación de calidad ([Google’s index needs to actively remove pages.

Gary Illyes mencionó que páginas desindexadas a menudo carecen de señales de calidad o relevancia: “si tu página no aporta valor, Google puede dejar de indexarla” . Esto incluye contenido obsoleto (ej.: un artículo de noticias antiguo que ya no es relevante), páginas thin content (muy poca sustancia) o doorway pages. También forma parte de la calidad la redundancia: si muchas páginas de tu sitio repiten lo mismo (por ejemplo, variaciones de productos con descripciones idénticas), Google puede indexar solo una o unas pocas y omitir el resto. En resumen, cada URL compite en calidad; si no destaca, puede ser sacrificada en favor de otras.

Además de estos factores, existen elementos técnicos que pueden afectar la rastreabilidad e indexación de una página: por ejemplo, errores de servidor persistentes, tiempos de carga extremadamente lentos, etiquetas noindex accidentales, bloqueos en robots.txt, redireccionamientos mal implementados, etc. Un fallo técnico puede hacer que Google deje de acceder o confiar en una URL, llevándola a la exclusión. Sin embargo, asumiendo que no hay trabas técnicas, son las señales mencionadas arriba (autoridad, enlaces, frescura, calidad) las que determinan principalmente si Google seguirá invirtiendo su crawl budget en una página o la irá relegando.

¿Qué señales pueden provocar la desindexación de una URL previamente indexada?

A modo de resumen, vale la pena enumerar las señales o situaciones concretas que pueden hacer que Google deje de rastrear o indexar una URL que en el pasado sí estuvo indexada. Cuando observamos que una página ha caído del índice, típicamente ha ocurrido una o varias de las siguientes cosas:

  • Pérdida de enlaces entrantes: Si la página antes recibía enlaces externos de calidad (o incluso enlaces internos destacados) y estos se eliminaron o redujeron, su “puntaje de importancia” disminuirá. Los enlaces son como votos; sin ellos, la página pierde autoridad. Gary Illyes confirmó que al perder backlinks valiosos, la importancia de la URL a ojos de Google se reduce, pudiendo caer bajo el umbral de indexación.
  • Disminución de señales de usuario/tráfico: Aunque Google no use Google Analytics para indexación, sí puede inferir interés por indirectas (por ejemplo, mediante las búsquedas o clics en resultados). Si una página recibía tráfico orgánico estable y de pronto cae en rankings (quizá por contenido desactualizado o competencia) y deja de recibir visitas, Google interpreta que es menos relevante actualmente. Illyes señaló que páginas con tráfico en declive pueden indicar a Google que ya no son tan útiles para los usuarios. Esa falta de interés puede contribuir a su desindexación, sobre todo si otras páginas más frescas ocupan su lugar.
  • Contenido irrelevante o degradado en calidad: Con el tiempo, un contenido que no se mantiene puede volverse irrelevante. Si tu página era de “top 10 gadgets en 2021” y nunca se actualizó, en 2025 quizás Google la considere obsoleta frente a contenidos más recientes. El contenido desactualizado, de baja calidad o duplicado es una de las razones citadas por Google para que una URL pase a estado “desconocida”. En esencia, si la página dejó de aportar valor único, podría ser descartada para dar paso a otras más útiles.
  • Cambios en la estructura interna desfavorables: Si la URL quedó aislada en tu sitio (por ejemplo, se removieron enlaces internos hacia ella, o quedó enterrada a muchos clics de profundidad tras una remodelación web), es posible que Google la rastree con menos frecuencia. Sin enlaces internos que la destaquen, su importancia relativa decae. En casos así, Googlebot puede “olvidarla” gradualmente, sobre todo si otras señales también faltan. A la inversa, añadir enlaces internos a una página puede revivirla (como vimos con la recomendación de Mueller de enlazar temporalmente páginas para re-crawl) ; pero quitarle enlaces hace lo contrario.
  • Directivas o bloqueos intencionales: Aunque obvio, merece mención: si accidental o deliberadamente añadiste una **etiqueta <meta name=»robots» content=»noindex»>** en la página, esta será retirada del índice al próximo rastreo. Igualmente, un bloqueo en robots.txt` impedirá que Google la rastree y eventualmente la indexe (si no estaba indexada aún). Estas no son “señales” de baja importancia sino órdenes explícitas, pero suceden. Un caso común es cuando se migra un sitio y ciertas páginas quedan huérfanas con noindex, causando que desaparezcan del índice.
  • Problemas técnicos persistentes: Si la URL estuvo caída (errores 404/500) por un periodo largo, o redirigía mal, Google podría haberla descartado pensando que ya no existe contenido útil allí. Aunque Google intenta no olvidar una URL que conoce y volverá a probar ocasionalmente, una racha larga de errores puede hacer que la frecuencia de rastreo baje a casi cero, y mientras tanto la página salga del índice (especialmente si hay contenidos alternativos que sí responden).
  • Competencia de canibalización o duplicados: Si existen otras páginas muy similares en tu sitio (o incluso en otros sitios) que Google considera más relevantes, puede elegir indexar una en detrimento de otra. Por ejemplo, si tienes dos URLs con contenido prácticamente igual, Google podría indexar solo una (quizá la que tenga más enlaces o mejor performance) y al resto marcarlas como “excluidas por contenido duplicado” o simplemente no indexarlas. Esto no es exactamente la página “olvidada” por falta de señales, sino Google filtrando duplicados, pero desde la perspectiva del SEO es otra razón por la que una URL previamente indexada (quizá cuando estaba sola) deje de estarlo al surgir duplicados o similares.

En general, la ausencia de “señales fuertes” es el común denominador detrás de la desindexación orgánica (no provocada por noindex). Si una URL no tiene enlaces, ni tráfico, ni contenido valioso, ni presencia en tu propio sitio (enlaces internos), Google no tiene motivos para seguir almacenándola o gastando presupuesto en rastrearla. Como consejo, conviene auditar regularmente las páginas que fluctúan dentro/fuera del índice. Si identificas URLs que están oscilando en Search Console (a veces indexadas, luego no), es señal de que están en el límite del umbral. Mejorarlas (en contenido, en enlaces internos, en experiencia) o consolidarlas con otras puede marcar la diferencia. A veces menos es más: es preferible tener una página excelente que mantenga indexación, que varias mediocres compitiendo y saliendo.

Estrategas del Crawl Budget

El proceso de crawling e indexación de Google es dinámico y basado en méritos relativos. Google asigna un crawl budget a cada sitio y distribuye sus esfuerzos de rastreo e indexación donde cree que aportará más valor a los usuarios. Para los SEO profesionales, entender esto significa cambiar la mentalidad de “¿Cómo consigo que TODO mi sitio esté indexado?” a “¿Cómo consigo que las páginas importantes de mi sitio sean indexadas (y permanezcan indexadas) de forma consistente?”.

Hemos visto que Google utiliza mecanismos avanzados, como límites soft y hard en su índice y un umbral de importancia variable, para decidir cuántas páginas indexar. Cuando muchas páginas nuevas de alta calidad aparecen, otras de menor calidad pueden quedar desplazadas. Así, el índice de Google no es un conjunto fijo, sino un ecosistema competitivo donde tus páginas compiten por seguir presentes.

El crawl budget, por su parte, es tanto una restricción técnica como estratégica: Google no rastreará más de lo que deba, y centrará su tiempo en lo que considera más valioso. Los factores de autoridad, enlazado interno, frecuencia de actualización y calidad influyen directamente en esa percepción de valor y en la prioridad de rastreo. Mantener un sitio técnicamente saludable, con contenido fresco y de calidad, y con una arquitectura que destaque lo importante, ayudará a que Googlebot visite con más frecuencia y a que tus mejores páginas superen el umbral de importancia.

En la práctica, la indexación es un proceso continuo, no un resultado final. Una página que hoy está indexada podría no estarlo en unos meses si pierde relevancia. Por eso, monitorizar los informes de indexación (Coverage/Index Status en Search Console) es fundamental. Si notas que páginas importantes pasan a estados “no indexado”, investiga las causas: ¿han perdido enlaces? ¿su contenido se quedó anticuado? ¿hubo cambios en la web que les restaron prioridad? A veces la solución será mejorar ese contenido o darle más soporte (enlaces internos, promoción externa); otras, quizás debas aceptar que esa página ya no aporta y es mejor dejar que quede fuera.

En conclusión, Google rastrea e indexa de forma selectiva. El crawl budget nos recuerda que los recursos de Google no son infinitos, y el umbral de importancia nos recuerda que el índice es meritocrático. Como profesionales SEO, debemos asegurarnos de que nuestras páginas más valiosas cumplan con creces esos criterios de importancia (contenido útil, enlaces de calidad, experiencia óptima) para ganar y conservar su lugar en el índice de Google. Y para aquellas páginas que no logran pasar el corte, quizá la estrategia deba ser repensarlas o fusionarlas en otras más fuertes, en lugar ofuscarse por forzarlas a indexar. Al final del día, calidad y relevancia consistentemente altas son la mejor garantía de indexación duradera en Google.

Aprende más sobre mejoras en el Crawl Budget

Daniel Pajuelo
Daniel Pajuelo es ingeniero informático y SEO Senior, actualmente trabajando en Guruwalk. En su blog personal escribe sobre Inteligencia Artificial, SEO, Vibe Coding, Blockchain... Ver más
Categorías SEO

Continua leyendo

Leer más sobre: SEO