¿Cómo se encuentran todas las páginas existentes en un sitio web? La primera idea que me viene a la mente es buscar en Google el nombre de dominio del sitio.
Pero, ¿qué pasa con las URL que no se indexan? ¿O páginas huérfanas? ¿O caché web?
Encontrar todas las páginas de un sitio web es bastante fácil; sin embargo, requiere una atención extra teniendo en cuenta que hay páginas que están ocultas a los ojos de los visitantes o de los robots de búsqueda. Esta guía muestra 8 métodos diferentes para encontrar todas las páginas del sitio junto con las herramientas a utilizar.
Porque puede ser necesario encontrar todas las páginas de un sitio web
Hay muchas razones por las que podría necesitar encontrar todas las páginas de un sitio web. Para nombrar unos pocos:
1. Para consultar el sitio web de un nuevo cliente y encontrar problemas de indexación.
Los problemas técnicos, como enlaces rotos, errores del servidor, velocidad lenta de la página o mala usabilidad en dispositivos móviles, impiden que Google indexe sus páginas. Por lo tanto, las auditorías de sitios revelan cuántas URL tiene un sitio y cuáles de ellas son problemáticas. En última instancia, ayuda a los SEO a estimar el alcance del trabajo futuro en el proyecto.
2. Descubre las páginas de tu sitio que no han sido indexadas por error.
Si su sitio web tiene contenido duplicado, es posible que Google no pueda indexar todos los duplicados. Lo mismo ocurre con las cadenas de redireccionamiento largas y las URL 404: si hay muchas en un sitio, el presupuesto de rastreo se gasta en vano. Como resultado, los robots de búsqueda visitan el sitio con menos frecuencia y se indexará peor en general. Es por eso que se necesitan auditorías periódicas incluso si algo parece normal en general.
3. Para localizar páginas indexadas que no están destinadas a ser indexadas por Google.
Algunas páginas no son necesarias en el índice de búsqueda, como las páginas de inicio de sesión del administrador, las páginas en desarrollo o los carritos de compras. Sin embargo, estas páginas pueden indexarse en contra de su voluntad debido a reglas contradictorias o errores en sus archivos técnicos. Por ejemplo, si confía únicamente en robots.txt para rechazar una página, la URL aún puede rastrearse y mostrarse en la búsqueda.
4. Para encontrar páginas desactualizadas y programar una revisión completa del contenido.
Google tiene como objetivo proporcionar los mejores resultados posibles para sus usuarios, por lo que si su contenido es de mala calidad, escaso o está duplicado, es posible que no se indexe. Es bueno tener una lista de todas tus páginas para saber qué temas aún no has cubierto. Con todo su inventario de contenido al alcance de su mano, podrá planificar su estrategia de contenido de manera más efectiva.
5. Encuentra páginas huérfanas y planifica estrategias de enlace.
Los huérfanos son páginas sin enlaces entrantes, por lo que los usuarios y los robots de búsqueda rara vez las visitan o nunca las visitan. Las páginas huérfanas pueden ser indexadas por Google y atraer usuarios accidentales. Sin embargo, una gran cantidad de páginas huérfanas en un sitio web arruina su autoridad: la estructura del sitio no es muy clara, las páginas pueden parecer inútiles o sin importancia, y toda la madera muerta reducirá la visibilidad total del sitio web.
6. Para rediseñar un sitio web y cambiar su arquitectura.
Para planificar el rediseño de un sitio web y mejorar la experiencia del usuario, primero debe encontrar todas sus páginas y métricas relevantes.
Una estructura clara y organizada con una jerarquía lógica de todas las páginas puede ayudar a los motores de búsqueda a encontrar su contenido más fácilmente. Por lo tanto, todas las URL importantes deben ser accesibles con uno, dos o tres clics desde la página de inicio.
Si bien la experiencia del usuario no afecta el rastreo y las clasificaciones, sí es importante para las señales de calidad de su sitio web: compras exitosas, cantidad de visitantes que regresan, páginas vistas por visitante y muchas otras métricas muestran qué tan bueno es su sitio web y útil para los visitantes.
7. Analice los sitios web de la competencia.
Al auditar las páginas de sus competidores, puede profundizar en sus estrategias de SEO: revelar sus páginas con más tráfico, las páginas con más enlaces, las mejores fuentes de referencia, etc. De esta manera, puede obtener información valiosa y aprender que funciona bien para sus competidores. Puede tomar prestadas sus técnicas y comparar los resultados para ver cómo puede mejorar su sitio web.
Hay muchas formas de encontrar todas las páginas de un sitio web, pero para cada caso puedes usar un método diferente para hacerlo. Entonces, veamos los pros y los contras de cada método y cómo emplearlo sin problemas.
1. Búscalo con los operadores de búsqueda de Google
La búsqueda de Google puede ayudarlo a encontrar rápidamente todas las páginas de un sitio web. Solo ingresa el «sitio: tu dominio» en la barra de búsqueda y Google le mostrará todas las páginas del sitio web que ha indexado.
Sin embargo, es importante recordar que los resultados de búsqueda que muestra el operador «sitio:» no reflejan necesariamente el número exacto de páginas indexadas en su sitio.
Primero, no hay garantía de que Google indexe cada página justo después de rastrearla. Puede excluir ciertas páginas del índice por varias razones: por ejemplo, considera que algunas páginas están duplicadas o son de baja calidad.
En segundo lugar, el operador de búsqueda «sitio:» también puede mostrar páginas que se han eliminado de su sitio web, pero que se mantienen como páginas almacenadas en caché o archivadas en Google.
Por lo tanto, la consulta de búsqueda «sitio:» es un buen comienzo para obtener una imagen aproximada del tamaño de su sitio. Pero para encontrar el resto de las páginas que pueden faltar en el índice, necesitará otras herramientas.
2. Revisa el archivo robots.txt
Robots.txt es un archivo técnico que instruye a los robots de búsqueda sobre cómo rastrear su sitio web, con la ayuda de reglas de permitir/deshabilitar para páginas individuales o directorios completos.
Por lo tanto, el archivo no le mostrará todas las páginas de su sitio. Sin embargo, puede ayudarlo a ubicar páginas a las que los robots de búsqueda no pueden acceder.
Como
Aquí están los pasos sobre cómo encontrar páginas restringidas usando robots.txt:
- Busque el archivo robots.txt en el sitio web. Por lo general, se encuentra en el directorio raíz, por lo que puede escribir ejemplo.com/robots.txt y allí estará.
- Abra el archivo en un editor de texto o navegador.
- mira la linea «Agente de usuario» que especifica el rastreador del motor de búsqueda al que se aplican las siguientes reglas.
- busca las reglas «Rechazar». Estas líneas especifican las páginas o directorios a los que el rastreador del motor de búsqueda no puede acceder.
- Si encuentra alguno, examine las URL y los directorios que están bloqueados.
Este es un ejemplo de políticas de bot para YouTube.
Directrices de robots para el sitio web de YouTube
Comprueba cómo funciona. Por ejemplo, la página de registro no está permitida. Sin embargo, aún puede obtenerlo al buscar en Google; tenga en cuenta que no hay información descriptiva para la página.
Debe verificar dos veces las reglas del archivo robots.txt para asegurarse de que todas sus páginas se rastreen correctamente. Por lo tanto, es posible que necesite una herramienta como Google Search Console o un rastreador de sitios para revisarlo. Me centraré en eso en un momento.
Y hasta ahora, si quieres saber más sobre el propósito del archivo, lee esta guía para ocultar páginas web para que no sean indexadas.
3. Examine el mapa del sitio
Un mapa del sitio es otro archivo técnico que los webmasters utilizan para la indexación adecuada del sitio. Este documento, a menudo en formato XML, enumera todas las URL de un sitio web que deben indexarse. Un mapa del sitio es una valiosa fuente de información sobre la estructura y el contenido de un sitio web.
Los sitios web grandes pueden tener varios mapas de sitio: dado que el tamaño del archivo está limitado a 50 000 URL y 50 MB, se puede dividir en varios mapas de sitio e incluir un mapa de sitio separado para directorios, imágenes, videos, etc. Las plataformas de comercio electrónico como Shopify o Wix generan mapas de sitio automáticamente. Para otros, existen complementos o herramientas generadoras de mapas de sitios para crear los archivos.
Como
Entre todos, el mapa del sitio de un sitio web le facilita encontrar todas las páginas en él y asegúrese de que estén indexados:
- Busque un enlace de mapa del sitio en el pie de página o en el encabezado del sitio web. El mapa del sitio generalmente se encuentra en yourdomain.com/sitemap.xml o una URL similar. También puede verificar el archivo del robot porque es el lugar más común para incluir una referencia de mapa del sitio.
- Abra el mapa del sitio en un editor de texto o un visor XML.
- Mira las etiquetas en el archivo del mapa del sitio. Estas etiquetas contienen la URL de cada página del sitio web.
- Puede copiar URL de etiquetas en una hoja de cálculo o documento de texto.
También debe verificar que su mapa del sitio sea correcto de vez en cuando, ya que también puede tener problemas: puede estar vacío, responder con un código 404, almacenarse en caché hace mucho tiempo o simplemente puede contener las URL incorrectas que usted no desea aparecer en el mapa del sitio index.
Un buen método para validar su mapa de sitio es usar una herramienta de escaneo de sitios web. Hay varias herramientas de rastreo de sitios web disponibles en línea y una de ellas es WebSite Auditor, que es una poderosa herramienta de SEO para auditorías a nivel de sitio. Veamos cómo puede ayudarte a encontrar todas las páginas de un sitio web y validar archivos técnicos.
4. Escanea con una araña SEO
Como
Así es como puedes use WebSite Auditor para encontrar todas las páginas de su sitio web:
- Inicie WebSite Auditor y escriba la URL de su sitio web para crear un nuevo proyecto.
- Marque la casilla Configuración avanzada y complete la configuración indicando los parámetros de escaneo exactos. (Si aún no sabe qué buscar, omita la configuración avanzada y deje que la araña SEO rastree su sitio con la configuración predeterminada).
- En la configuración avanzada, tiene varias opciones para asegurarse de que el rastreador del sitio web encuentre todas las páginas. Por ejemplo, seleccione Buscar páginas huérfanas y recopilará todas las URL sin enlaces entrantes.
Puede especificar instrucciones para un bot de búsqueda o agente de usuario en particular; dígale al rastreador que ignore los parámetros de URL, rastree un sitio protegido con contraseña, rastree un dominio solo o junto con subdominios, etc.
Configuración del rastreador web para encontrar todas las páginas, incluidas las que no están vinculadas desde otras páginas
Después de hacer clic Buenola herramienta verificará su sitio y recopilará todas las páginas en el archivo Estructura del sitio > Páginas sección.
WebSite Auditor lo ayudará a verificar dos veces si las URL están optimizadas correctamente para los motores de búsqueda. Conocerá la herramienta en minutos, ya que la configuración es rápida y la interfaz es bastante intuitiva.
Veamos qué puede obtener de la herramienta de escaneo del sitio web.
Recoge la lista de páginas con todos sus recursos
En el Todas las páginas pestaña, puede ordenar la lista por URL, título o cualquier otra columna haciendo clic en el encabezado de la columna.
Obtenga listas de páginas afectadas por errores técnicos
EL Verificación del sitio La sección le mostrará listas de páginas desglosadas por tipos de error, como:
- Problemas duplicados
- Malas redirecciones y cadenas de redireccionamiento
- Páginas limitadas por la indexación
- Recursos rotos
Debajo de cada tipo de problema, verá una explicación de por qué este factor es importante y algunos consejos sobre cómo solucionarlo.
Ver la estructura del sitio que se muestra
Además, puede examinar su mapa de sitio visual en el archivo Estructura del sitio > Mostrar que muestra las relaciones entre todas sus URL. El mapa interactivo le permite agregar o eliminar páginas y enlaces para ajustar la estructura de su sitio. Puede volver a calcular el valor de PageRank interno y verificar las páginas vistas (según el seguimiento de Google Analytics).
Utilice las herramientas del generador para validar sus archivos técnicos
Además, WebSite Auditor también verifica la disponibilidad tanto de su archivo robots.txt como de su mapa del sitio.
Le permite editar archivos técnicos en el formato Herramientas del sitio web y cárguelos directamente en su sitio con la configuración adecuada.
No necesitará observar ninguna sintaxis especial al editar archivos, simplemente seleccione las URL requeridas y aplique las reglas necesarias. Luego, haga clic para generar los archivos y guárdelos en su computadora o súbalos al sitio a través de FTP.
5. Revisa tus páginas en Search Console
Otra gran herramienta para descubrir todas las páginas de su sitio es Consola de búsqueda de Google. Te ayudará a comprobar la indexación de las páginas. y revelar los problemas que impiden que los robots de búsqueda indexen correctamente estas URL.
Como
Puede obtener un análisis detallado de todas sus páginas en función de su estado de indexación, incluidas aquellas páginas que aún no han sido indexados.
Aquí le mostramos cómo encontrar todas las páginas de su sitio con Search Console:
1. Ir a Informe de indexación y haga clic Ver datos en páginas indexadas. Verá todas las páginas que el robot de búsqueda rastreó por última vez en su sitio web. Sin embargo, tenga en cuenta que habrá un límite en la tabla de hasta 1000 URL. Hay un filtro rápido para ordenar todas las páginas conocidas por todas las URL enviadas, etc.
2. Habilite el No indexado forma. A continuación, la herramienta brinda detalles sobre por qué cada URL no está indexada.
Haga clic en cada motivo y vea las URL afectadas.
La dificultad es que obtendrá no solo las URL principales de sus páginas, sino también enlaces ancla, páginas de paginación, parámetros de URL y otra basura que requiere clasificación manual. Y la lista puede estar incompleta debido al límite de 1000 entradas en la tabla.
Entre otras cosas, tenga en cuenta que los diferentes motores de búsqueda pueden tener otras reglas de indexación y debe usar sus herramientas para webmasters para encontrar y tratar tales problemas. Por ejemplo, use las herramientas Bing Webmaster, Yandex Webmaster, Naver Webmaster y otras para verificar la indexación en sus respectivos motores de búsqueda.
6. Utiliza Google Analytics
Supongo que Google Analytics es una de las plataformas de análisis más utilizadas, por lo que cualquier propietario o editor de un sitio web lo sabe. El buen Universal Analytics pronto será reemplazado por Google Analytics 4. Así que veamos ambas versiones de la herramienta.
Como
Para recopilar las páginas de su sitio en Universal Analytics de GoogleSigue estos pasos:
- En su cuenta de Google Analytics, seleccione el sitio web que desea explorar.
- Vaya al módulo Comportamiento en la barra lateral izquierda.
- Seleccione la pestaña Contenido del sitio > Todas las páginas. Ahora debería ver una lista de todas las páginas de su sitio web que han sido rastreadas por Google Analytics.
Verá las páginas con sus estadísticas de comportamiento del usuario, como páginas vistas, tasa de rebote, tiempo promedio en la página, etc. Preste atención a las páginas con la menor cantidad de páginas vistas todo el tiempo; probablemente sean páginas huérfanas.
Para recrear una secuencia similar en Google Analytics 4:
- Vaya a Informes > Módulo de interacción.
- Seleccione la sección Páginas y pantallas.
- Cambie el tamaño de Título de página y Clase de pantalla a Ruta de página y Clase de pantalla. Ahora debería ver una tabla que muestra todas las URL en su sitio web que han sido rastreadas por Google Analytics 4.
Al igual que con la consola, incluirá parámetros de URL y demás. Puede exportar la lista de páginas como CSV o hoja de Excel haciendo clic en Exportar botón en la parte superior de la página.
7. Analizar registros
Algunos sitios web son realmente enormes e incluso las potentes arañas de SEO pueden tener dificultades para rastrear todas sus páginas. El análisis de registros es una buena opción para encontrar y examinar todas las páginas en sitios web grandes.
Al analizar el archivo de registro de su sitio web, puede identificar todas las páginas que atraen visitantes de la web, sus respuestas HTTP, la frecuencia con la que los rastreadores visitan las páginas, etc.
Los archivos de registro se encuentran en su propio servidor y necesitará el nivel de acceso necesario para recuperarlos y una herramienta de análisis de registros. Por lo tanto, este método es más adecuado para personas con conocimientos de tecnología, webmasters o desarrolladores.
Como
Estos son los pasos para encontrar todas las páginas de su sitio mediante el análisis de registros:
- Descargue los registros del servidor de su sitio web y ábralos con la herramienta de análisis de registros de su elección.
- Filtre los datos de registro según el código de estado HTTP. Le ayudará a identificar todas las páginas de su sitio web que han atraído a algunos visitantes.
- Busque entradas de registro con un código de estado 200 que indique que se accedió correctamente a la página. También puede filtrar por otros códigos de estado para encontrar páginas que se han redirigido, como redireccionamientos 301 o 302.
- Al igual que con otras herramientas, puede exportar la lista de páginas a una hoja de cálculo u otro formato para un análisis más detallado.
8. Trabaja con tu CMS
Otra forma de encontrar todas las páginas de un sitio web es consultar su sistema de administración de contenido (CMS), ya que contendrá todas las URL en el sitio web que creó una vez. Un ejemplo de CMS son WordPress o Squarespace, que contienen herramientas de creación de sitios web para editar contenido en diferentes dominios: noticias y blogs, comercio electrónico, sitios corporativos y similares.
Como
Si bien los CMS tienen una apariencia bastante diversa, los pasos generales se aplican a la mayoría de ellos:
- Inicie sesión en el panel de su CMS y vaya a la página o sección de publicación.
- Busque una lista de todas las páginas o publicaciones en su sitio web, en una barra lateral, submenú o página separada.
- Haga clic en el enlace Todas las páginas o Todas las publicaciones para ver una lista de todas las páginas de su sitio web.
Tenga en cuenta que puede haber categorías, publicaciones de blog o páginas de destino, que son diferentes tipos de páginas que pueden pertenecer a diferentes secciones en el CMS.
La mayoría de los CMS le permiten ordenar las URL por fecha de creación, autor, categoría u otros criterios. También puede utilizar el cuadro de búsqueda para filtrar la lista de páginas por palabras clave o títulos.
Resumen
Para encontrar todas las páginas de un sitio web, hay una variedad de métodos y herramientas. El que elija depende del propósito y el alcance del trabajo en cuestión.
Espero que haya encontrado útil esta lista y ahora podrá recopilar fácilmente todas las páginas de su sitio, incluso si es nuevo en SEO.
Si tiene una pregunta que aún no ha respondido, no dude en preguntar en nuestro grupo de usuarios en facebook.