El archivo robots.txt de la mayoría de los proyectos webs es un gran olvidado…

Para mejorar el posicionamiento orgánico de una web la mayoría se centran en enlaces, optimizar las palabras clave, mejorar la velocidad de carga… pero se olvidan de este pequeño archivo.

En ParaAyer vamos a explicar la importancia de este archivo y por qué es esencial a la hora de posicionar un proyecto online.

 

¿Qué es el Robots.txt?

El robots.txt de tu página web es el primer archivo que van a buscar los rastreadores o «crawlers» al visitar tu web para saber por dónde pueden seguir rastreando.

Podemos hacer un símil con las señales de tráfico. Al llegar al robots.txt verán cuáles son las calles por las que está prohibido el paso.

Desde el robots.txt podemos denegar o permitir el acceso a determinados robots.

 

¿Por qué es tan importante?

Cuando hablamos de SEO en España nos referimos principalmente a Google, ya que es el buscador más extendido.

Google asigna cierto “presupuesto de rastreo” a tu web.

Este presupuesto dependerá de la autoridad de tu página, la cantidad de enlaces (tanto internos como externos), la frecuencia de actualización del sitio…

No podemos perder el punto de vista que Google es una empresa, y como tal, busca aprovechar el máximo rendimiento de sus activos, en este caso sus crawlers.

Si nuestra web tiene asignado un presupuesto de rastreo X al día, podrá descargar una cantidad determinada de información de nuestra web.

Conociendo esto podemos sacar dos conclusiones:

  • Cuanto menos ocupe nuestra página, más cantidad de información podrán obtener los robots.
  • Como la cantidad de páginas diarias rastreadas por los robots es limitada, debemos restringir el acceso a las páginas que no nos interesa posicionar o cuya información no sea relevante de cara a los robots.

¿Qué páginas debemos bloquear y cuáles permitir?

Por norma general el robots.txt debe permitir el acceso a la gran mayoría de páginas de nuestro sitio.

Sin embargo, y sobre todo en proyectos más grandes, se generan páginas sin interés de cara al SEO. Estas páginas son:

  • Landing pages orientadas a conversión (ejemplo: consigue este eBook en tu correo electrónico)
  • Subpáginas de archivos (Segundas páginas de blogs o categorías con prácticamente la misma información)
  • Etiquetas
  • Información acerca de los envíos, devoluciones, política de cookies…
  • Páginas de acceso al panel de administración

Analizando los logs de nuestro servidor conoceremos cuáles de estas páginas han sido visitadas y cuáles no.

Mediante un buen análisis y una correcta optimización del robots.txt se conseguirá aprovechar mejor el presupuesto de rastreo que Google asigna a nuestra web.

Supongamos que de media los robots rastrean 100 páginas de nuestro sitio al día.

Si entre estas 100 páginas se encuentran algunas de las páginas mencionadas más arriba, estamos desaprovechando en cierto modo los recursos que asigna Google a nuestra web.

Denegando el acceso a los robots a las páginas sin interés para SEO, conseguiremos que los robots rastreen con más frecuencia las páginas que verdaderamente nos interesa posicionar.

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Para continuar navegando, por favor, acepta las mencionadas cookies y la aceptación de nuestra política de privacidad, pinche el enlace para mayor información.plugin cookies

ACEPTAR
Aviso de cookies