Optimización del presupuesto de rastreo: 7 pasos para optimizar un sitio para un mejor SEO


domar las arañas– Optimice su presupuesto de rastreo para aumentar la indexación y las clasificaciones

Optimizacion del presupuesto de rastreo 7 pasos para optimizar un

De: Juan JutarniukGerente de SEO, SEO PowerSuite

27 de junio de 2017

1659304189 871 Optimizacion del presupuesto de rastreo 7 pasos para optimizar un

El presupuesto de rastreo es uno de los conceptos de SEO que no parece estar prestando suficiente atención. Muchos de nosotros hemos oído hablar de él, pero en su mayoría tendemos a aceptar el presupuesto de rastreo tal como es, asumiendo que se nos ha asignado una determinada cuota de rastreo en la que tenemos poco o ningún impacto.

¿O nosotros? La mayoría de los webmasters no deberían preocuparse mucho por la velocidad de rastreo. Pero si ejecuta un sitio web a gran escala, el presupuesto de rastreo es algo que podemos, y debemos, optimizar para el éxito de SEO.

Por supuesto, a medida que avanza el SEO, la relación entre el presupuesto de rastreo y la clasificación no es sencilla. En enero de 2017, Google lanzó un mandar en Webmaster Central Blog, donde el motor de búsqueda dejó en claro que el rastreo en sí mismo no es un factor de clasificación. Pero en cierto modo, el presupuesto de rastreo es importante para el SEO.

En esta guía, lo guiaré a través de los conceptos básicos del rastreo, la mecánica detrás de cómo los motores de búsqueda asignan presupuestos de rastreo a los sitios web y consejos para ayudarlo a aprovechar al máximo su presupuesto de rastreo para maximizar su clasificación y tráfico orgánico.

Araña web: el bien y el mal

Las arañas web, rastreadores o bots son computadoras programas que continuamente «visitan» y rastrean páginas web para recopilar cierta información de y sobre ellos.

Dependiendo del propósito del escaneo, se pueden distinguir los siguientes tipos de arañas:

  • arañas de buscadores,
  • Las arañas de servicios web,
  • Arañas piratas informáticos.

Las arañas de los motores de búsqueda están a cargo de motores de búsqueda como Google, Yahoo o Bing. Estas arañas descargan todas las páginas web que encuentran y las envían al índice del motor de búsqueda.

Muchos servicios web, como las herramientas de SEO, los sitios web de compras, los viajes y los cupones, tienen sus propios índices web y de araña. Por ejemplo, Web Me arriba tiene una araña llamada Blexbot. Blexbot rastrea hasta 15 mil millones de páginas por día para recopilar datos de backlinks y colocar esos datos en su índice de enlaces (el que se usa en SEO SpyGlass).

Los piratas informáticos también crían arañas. Usan arañas para probar sitios web contra diversas vulnerabilidades. Una vez que encuentran una laguna, pueden intentar acceder a su sitio web o servidor.

Es posible que escuche a la gente hablar sobre arañas buenas y malas. Los distingo de esta manera: cualquier araña que tenga como objetivo recopilar información para fines ilegítimos es mala. Todo lo demás está bien.

La mayoría de las arañas se identifican con la ayuda de la cadena de agente de usuario y proporcionan la URL donde puede obtener más información sobre la araña:

  • Mozilla / 5.0 (compatible; Googlebot / 2.1; + o
  • Mozilla / 5.0 (compatible; BLEXBot / 1.0; +

En este artículo, me centraré en las arañas de los motores de búsqueda y en cómo rastrean los sitios web.

Comprender el presupuesto de rastreo

El presupuesto de rastreo es el número de veces que una araña de motor de búsqueda visita su sitio web durante un cierto período de tiempo. Por ejemplo, Googlebot generalmente visita mi sitio unas 1000 veces al mes, puedo decir que 1K es mi presupuesto de rastreo mensual para Google. Tenga en cuenta que no existe un límite universal en el número y la frecuencia de estos rastreos; hablaremos de los factores que componen su presupuesto de rastreo en un momento.

¿Por qué es importante el presupuesto de rastreo?

Lógicamente, debe preocuparse por el presupuesto de rastreo porque desea que Google descubra tantas páginas importantes en su sitio como sea posible. También desea que encuentren rápidamente contenido nuevo en su sitio. Cuanto mayor sea su presupuesto de rastreo (y más inteligente será su gestión), más rápido sucederá.

Determinar su presupuesto de rastreo

Puedes hacerte una idea del presupuesto de rastreo de tu sitio en Consola de búsqueda de Google Y Herramientas para webmasters de Bing. Los datos de escaneo que obtendrá en estas herramientas son muy generales, pero suficientes para este paso.

Supongamos que necesita determinar su presupuesto de rastreo de Google. Inicie sesión en su cuenta de Search Console y vaya a Escanear -> Estadísticas de escaneo. Aquí verá la cantidad promedio de páginas rastreadas por día en su sitio.

1659304190 654 Optimizacion del presupuesto de rastreo 7 pasos para optimizar un

Del informe anterior, puedo ver que, en promedio, Google rastrea 32 páginas de mi sitio por día. A partir de eso, puedo entender que mi presupuesto de escaneo mensual es 32 * 30 = 960.

Por supuesto, ese número está sujeto a cambios y fluctuaciones. Pero le dará una idea sólida de cuántas páginas de su sitio puede esperar que se rastreen en un período de tiempo determinado.

Si necesita un análisis más detallado de sus estadísticas de rastreo para páginas individuales, deberá analizar las huellas de araña en los registros de su servidor. La ubicación de los archivos de registro depende de la configuración del servidor. Apache normalmente los almacena en una de estas ubicaciones:

/var/registro/httpd/acceso_registro
/var/log/apache2/access.log
/var/log/httpd-access.log

Si no está seguro de cómo obtener acceso a los registros del servidor, solicite ayuda al administrador del sistema o al proveedor de alojamiento.

Los archivos de registro sin procesar son difíciles de leer y analizar. Para dar sentido a esto, necesitarás el nivel Jedi. expresiones regulares habilidades o herramientas especializadas. prefiero usar experto en blogs (tienen una versión de prueba de 30 días).

¿Cómo se asigna el presupuesto de rastreo?

En cuanto al SEO, no sabemos exactamente cómo los motores de búsqueda forman presupuestos de rastreo para los sitios. Según Google, el motor de búsqueda tiene en cuenta dos factores a la hora de determinar el presupuesto de rastreo:

  • Popularidad – las páginas más populares se rastrean con más frecuencia y
  • Cansancio – Google no permite que la información de las páginas quede desactualizada. Para los webmasters, esto significa que si el contenido de una página se actualiza con frecuencia, Google intenta rastrear la página con más frecuencia.

Parece que Google usa el término popularidad para reemplazar el PageRank obsoleto.

En 2010, Matt Cutts de Google dijo lo siguiente sobre el tema:

«La cantidad de páginas que rastreamos es aproximadamente proporcional a su PageRank».

Aunque PageRank ya no se actualiza públicamente, aún es seguro asumir que el presupuesto de rastreo de un sitio es en gran medida proporcional a la cantidad de vínculos de retroceso y la importancia del sitio a los ojos de Google; tiene sentido que Google intente garantizar que las páginas más importantes se mantengan actualizadas. en su índice.

¿Qué pasa con los enlaces internos? ¿Se puede aumentar la velocidad de rastreo de una página dada al indicarle más enlaces internos?

Para responder a estas preguntas, decidí verificar la correlación entre los enlaces internos y externos y las estadísticas de rastreo. Recopilé datos de 11 sitios web y realicé un análisis simple. En resumen, esto es lo que hice.

Análisis

Con Website Auditor creé proyectos para los 11 sitios que iba a analizar. Calculé el número de enlaces internos que apuntan a cada página de cada uno de estos sitios. Después de eso, administré SEO Spyglass y creé proyectos para los mismos 11 sitios. En cada proyecto, he comprobado Estadísticas y copió el URL de anclaje con el número de enlaces externos que apuntan a cada página. Luego, analicé las estadísticas de rastreo en los registros del servidor para ver con qué frecuencia Googlebot llega a cada página. Finalmente, puse todos esos datos en una hoja de cálculo y calculé la correlación entre los enlaces internos y el presupuesto de rastreo y los enlaces externos y el presupuesto de rastreo.

Encontré algo muy interesante. Aquí hay una hoja de cálculo de muestra para uno de los sitios que analicé:

1659304190 956 Optimizacion del presupuesto de rastreo 7 pasos para optimizar un

Mi conjunto de datos ha demostrado que un fuerte correlación (0,978) entre el número de visitas de araña y el número de enlaces externos. Al mismo tiempo, la correlación entre los hits de la araña y los enlaces internos resultó ser muy débil (0,154). Esto muestra que los backlinks son mucho más importantes para el rastreo de sitios web que los enlaces internos.

¿Eso significa que la única forma de aumentar su presupuesto de rastreo es vincular y publicar contenido nuevo? Si estamos hablando del presupuesto para todo el sitio, diría que sí: haga crecer su perfil de enlace y actualice su sitio web con frecuencia y el presupuesto de rastreo de su sitio aumentará proporcionalmente. Pero cuando tomamos páginas individuales, aquí es donde se pone interesante. Como descubrirá en las instrucciones a continuación, podría estar desperdiciando gran parte de su presupuesto de rastreo sin siquiera darse cuenta. Al administrar su presupuesto de manera inteligente, a menudo puede duplicar el recuento de escaneos para páginas individuales, pero seguirá siendo proporcional a la cantidad de vínculos de retroceso en cada página.

Cómo: aprovechar al máximo su presupuesto de rastreo

1659304190 271 Optimizacion del presupuesto de rastreo 7 pasos para optimizar un

Ahora que entendemos que el rastreo es importante para la indexación, ¿no es hora de centrarse en las mejores formas de administrar su presupuesto de rastreo para disfrutar al máximo del SEO?

Hay algunas cosas que debe (o no debe) hacer para permitir que las arañas de búsqueda consuman más páginas de su sitio web y lo hagan con más frecuencia. Aquí hay una lista de acciones para maximizar el poder de su presupuesto de rastreo:

1. Asegúrese de que las páginas importantes se puedan rastrear y que el contenido que no proporcionará valor si se encuentra en la búsqueda esté bloqueado.

Su .htaccess y robots.txt no deberían bloquear páginas importantes en el sitio, y los bots deberían poder acceder a archivos CSS y Javascript. Al mismo tiempo, puede y debe bloquear el contenido que no desea que aparezca en la búsqueda. Los mejores candidatos para el bloqueo son páginas con contenido duplicado, áreas del sitio web «en construcción», URL generadas dinámicamente, etc.

Website Auditor es excelente para crear y administrar archivos robots.txt.

1659304190 6 Optimizacion del presupuesto de rastreo 7 pasos para optimizar un

Aquí hay un procedimiento rápido:

  • Ejecute la herramienta (si aún no tiene Website Auditor, puede descargarlo gratis aquí) y cree o abra un proyecto.
  • Pasar a Paginas pestaña y haga clic Robot.txt icono. Verá el contenido actual de su archivo robots.txt.
  • Para agregar una nueva regla a su archivo robots.txt, haga clic en Agregar regla. El software le permitirá elegir una instrucción (No permitir o Permitir), una araña (puede ingresar su nombre manualmente o seleccionarlo de una lista de robots de búsqueda populares) y una URL o directorio que necesita bloquear.
  • Asimismo, también puede eliminar y editar reglas existentes.
  • Cuando haya terminado de editar, haga clic en próximo y guarde el archivo en su disco duro o súbalo inmediatamente a su sitio a través de FTP.

Regreso en el Paginas módulo, también obtendrá una gran cantidad de estadísticas relacionadas con el rastreo, como la fecha de caché para Google, Bing y Yahoo, instrucciones de robots.txt y código de estado HTTP.

1659304191 20 Optimizacion del presupuesto de rastreo 7 pasos para optimizar un

1659304191 901 Optimizacion del presupuesto de rastreo 7 pasos para optimizar un Tenga en cuenta que las arañas de los motores de búsqueda no siempre respetan las instrucciones contenidas en robots.txt. ¿Alguna vez has visto un fragmento como este en Google?

1659304192 168 Optimizacion del presupuesto de rastreo 7 pasos para optimizar un

Aunque esta página está bloqueada en robots.txt, Google lo sabe. No lo almacena en caché ni crea un fragmento estándar para él. Sin embargo, lo golpea de vez en cuando. Esto es lo que dice Google al respecto:

Robots.txt Disallow no garantiza que una página no aparecerá en los resultados: Google aún puede decidir, basándose en información externa como enlaces entrantes, que es relevante. Si desea bloquear explícitamente una página para que no se indexe, debe usar la metaetiqueta de robots noindex o el encabezado HTTP X-Robots-Tag en su lugar. En este caso, no es necesario desactivar la página en robots.txt, ya que se debe rastrear la página para que la etiqueta se vea y se respete.

Además, si no permite grandes áreas de su sitio web mediante el bloqueo de carpetas o el uso de instrucciones con comodines, Googlebot puede suponer que lo hizo por error y continuar rastreando algunas páginas de áreas restringidas.

Entonces, si está buscando ahorrar su presupuesto de rastreo y bloquear páginas individuales que no considera importantes, use robots.txt. Pero si no quieres que Google conozca una página, usar etiquetas meta.

2. Evite cadenas de redirección largas.

Si hay una cantidad irrazonable de redireccionamientos 301 y 302 a continuación en su sitio, las arañas de búsqueda dejarán de seguir los redireccionamientos en algún momento y es posible que su página de destino no se rastree. Además, cada URL redirigida es una pérdida de una «unidad» de su presupuesto de rastreo. Asegúrese de usar redireccionamientos no más de dos veces seguidas y solo cuando sea absolutamente necesario.

Puede obtener una lista completa de páginas con redireccionamientos en WebSite Auditor.

  • Abre tu proyecto y sube Verificación del sitio módulo.
  • Haga clic en Páginas con redirecciones 302 Y Páginas con redirección 301 para obtener una lista completa de las páginas redirigidas.
  • Haz clic en Páginas con largas cadenas de redireccionamiento para obtener una lista de URL con más de 2 redireccionamientos.

1659304192 326 Optimizacion del presupuesto de rastreo 7 pasos para optimizar un

3. Administrar parámetros de URL.

Los sistemas de administración de contenido populares generan muchas URL dinámicas que en realidad conducen a la misma página. De manera predeterminada, los bots de los motores de búsqueda tratarán estas URL como páginas separadas; como resultado, podría desperdiciar su presupuesto de rastreo y potencialmente generar problemas de duplicación de contenido.

Si el motor de su sitio web o CMS agrega parámetros a las URL que no afectan el contenido de la página, asegúrese de notificar a Googlebot agregando estos parámetros en su cuenta de Google Search Console, en Escanear -> Parámetros de URL.

4. Encuentra y corrige errores HTTP.

Cualquier URL que obtenga Google, incluidos CSS y Java Script, consume una unidad de su presupuesto de rastreo. No querrás desperdiciarlo en 404 o 503 páginas, ¿verdad? Tómese un momento para probar su sitio en busca de enlaces rotos o errores del servidor y arréglelos lo antes posible.

  • En su proyecto de Website Auditor, vaya a Estructura del sitio> Auditoría del sitio.
  • haga clic en Enlaces rotos factor. En el panel derecho, verá una lista de enlaces rotos en su sitio que deberá corregir, si corresponde.
  • Luego haga clic Recursos con código de estado 4xx Y Recursos con código de estado 5xx para obtener una lista de recursos que devuelven errores HTTP.

1659304192 774 Optimizacion del presupuesto de rastreo 7 pasos para optimizar un

5. Utilice RSS.

Por lo que he podido comprobar, los canales RSS se encuentran entre las primeras páginas visitadas por la araña de Google. Si una determinada sección de su sitio web se actualiza con frecuencia (un blog, una página de productos destacados, una sección de recién llegados), asegúrese de crear una fuente RSS y enviarla a Google. Quemador de energía. Recuerde mantener las fuentes RSS libres de páginas no canónicas, bloqueadas por índice o 404.

6. Mantenga su mapa del sitio limpio y actualizado.

Los mapas de sitio XML son importantes para el rastreo adecuado del sitio web. Informan a los motores de búsqueda sobre la organización de su contenido y permiten que los robots de búsqueda descubran contenido nuevo más rápido. Su mapa del sitio XML debe actualizarse regularmente y estar libre de basura (páginas 4xx, páginas no canónicas, URL que redirigen a otras páginas y páginas bloqueadas para la indexación).

Puede obtener una lista de dichas URL en Website Auditor y excluirlas fácilmente de su mapa del sitio.

  • En su proyecto de WebSite Auditor, vaya a Verificación del sitio módulo.
  • Haga clic en Páginas con código de estado 4xx para obtener una lista de páginas 4xx, si las hay. Copie las URL en un archivo separado (una hoja de cálculo o cualquier editor de texto sin formato hará esto).

1659304193 949 Optimizacion del presupuesto de rastreo 7 pasos para optimizar un

  • Haga clic en Páginas con redirección 301 para una lista de 301 páginas. Copia esos también.
  • Haz lo mismo para Páginas con redirecciones 302.
  • Haga clic en Páginas con rel = ‘canónico’ para obtener una lista de páginas canónicas y no canónicas. También agregue estas URL a su lista.

Website Auditor también tiene un práctico generador de mapas de sitios XML. Simplemente haga click mapa del sitio para comenzar a crear su mapa del sitio XML.

1659304193 252 Optimizacion del presupuesto de rastreo 7 pasos para optimizar un

Si está ejecutando un sitio web grande con muchas subsecciones, es útil crear un mapa del sitio separado para cada subsección. Esto simplificará la administración de su mapa del sitio y le permitirá detectar rápidamente las áreas del sitio web donde se producen problemas de rastreo. Por ejemplo, puede tener un mapa del sitio para el foro de discusión, otro mapa del sitio para el blog y otro mapa del sitio para cubrir las páginas principales del sitio web. Para los sitios de comercio electrónico, es recomendable crear mapas de sitio individuales para grandes categorías de productos.

Asegúrese de que las arañas detecten todos los mapas del sitio. Puede incluir enlaces de mapa de sitio en robots.txt y registrarlos en Search Console.

7. Cuida la estructura de tu sitio y los enlaces internos.

Si bien los enlaces internos no tienen una correlación directa con su presupuesto de rastreo, la estructura del sitio sigue siendo un factor importante para que los robots de búsqueda puedan encontrar su contenido. Una estructura de sitio web similar a un árbol lógico tiene muchos beneficios, como la experiencia del usuario y la cantidad de tiempo que los visitantes pasarán en su sitio, y un mejor rastreo es definitivamente uno de ellos.

En general, mantener las áreas importantes de su sitio a no más de 3 clics de cualquier página es un buen consejo. Incluya las páginas y categorías más importantes en el menú o pie de página de su sitio. Para sitios más grandes, como blogs y sitios de comercio electrónico, las secciones con publicaciones/productos relacionados y publicaciones/productos destacados pueden ser de gran ayuda para publicar sus páginas de destino, tanto para los usuarios como para los bots de los motores de búsqueda.

Si necesita instrucciones detalladas, le recomiendo que consulte esta guía de conexión interna.


Como puede ver, el SEO no se trata solo de «contenido valioso» y «enlaces confiables». Cuando el frente de su sitio web se vea brillante, podría ser el momento de bajar al sótano y cazar arañas; definitivamente hará maravillas para mejorar el rendimiento de búsqueda de su sitio.

Ahora que tiene todas las herramientas y el conocimiento que necesita para domesticar las arañas de los motores de búsqueda, continúe y pruébelo en su sitio y por favor comparte los resultados en los comentarios!

PD: Ah, y aquí hay una linda araña para alegrar tu día:

1659304193 926 Optimizacion del presupuesto de rastreo 7 pasos para optimizar un

Optimizacion del presupuesto de rastreo 7 pasos para optimizar un

De: Juan Jutarniuk
SEO PowerSuite Administrador de SEO

Deja un comentario

Tu dirección de correo electrónico no será publicada.

Ir arriba