Contenido duplicado en SEO: cómo encontrarlo y solucionarlo


7 tipos furtivos de contenido duplicado

(y cómo mantenerse a salvo de cada uno)

Contenido duplicado en SEO como encontrarlo y solucionarlo

De: Juan Jutarniuk

9 octubre 2018

1659309410 568 Contenido duplicado en SEO como encontrarlo y solucionarlo

El contenido duplicado es un tema importante en el espacio de SEO. Cuando nos enteramos de ello, es principalmente en el contexto de las sanciones de Google; pero este posible efecto secundario de la duplicación de contenido no solo se ha disparado en importancia (Google prácticamente nunca penaliza a los sitios por contenido duplicado per se), pero tampoco es la consecuencia más grave del problema. Los 3 problemas más probables que puede causar una página SEO duplicada son los siguientes:

  • Rastreo de presupuesto desperdiciado. Si la duplicación de contenido aparece internamente en su sitio, se garantiza que parte de su presupuesto de rastreo (es decir, la cantidad de páginas que rastrean los motores de búsqueda por unidad de tiempo) se desperdiciará. Esto significa que las páginas importantes de su sitio se rastrearán con menos frecuencia.
  • Conecte la dilución de jugo. Tanto para la duplicación de contenido externo como interno, la dilución del jugo de enlace es uno de los mayores inconvenientes de SEO. Con el tiempo, ambas URL pueden crear backlinks que apunten a ellas y, a menos que una de ellas tenga un enlace canónico (o redirección 301) que apunte a la pieza original, los valiosos enlaces que habrían ayudado a clasificar la página original se distribuirán entre ambas URL.
  • Solo una de las páginas se clasifica para las palabras clave de destino. Cuando Google encuentra contenido duplicado o instancias de contenido copiado, generalmente solo muestra uno en respuesta a las consultas de búsqueda, y no hay garantía de que sea el que desea clasificar.

Pero todos estos escenarios se pueden prevenir si sabe dónde se puede ocultar el contenido duplicado, cómo detectarlo y cómo tratar el contenido duplicado. En este artículo, primero cubriré «Qué es el contenido duplicado», junto con los 7 tipos comunes de duplicación de contenido, y luego cubriré el contenido duplicado.

1. Contenido raspado

El contenido extraído es básicamente contenido no original en un sitio que ha sido copiado de otro sitio web sin permiso. Como dije anteriormente, es posible que Google no siempre pueda diferenciar entre el contenido original y el contenido duplicado, por lo que a menudo es el trabajo del propietario del sitio estar atento a los raspadores y saber qué hacer si se roban su contenido.

Desafortunadamente, esto no siempre es fácil o directo. Pero aquí hay un pequeño truco que yo personalmente uso.

Si realiza un seguimiento de cómo se comparte y vincula su contenido en línea (y si tiene un blog, realmente debería hacerlo) a través de una aplicación de monitoreo web/redes sociales, como Avaro, aquí puedes golpear dos pájaros de un tiro. En su herramienta de seguimiento, normalmente usaría la URL y el título de su publicación como palabras clave en la alerta. Para buscar incluso versiones raspadas de su contenido, todo lo que necesita hacer es agregar otra palabra clave: un extracto de su publicación. Idealmente, debería ser bastante largo, por ejemplo, una oración o dos. Rodee la pieza con comillas dobles para asegurarse de que está buscando una coincidencia exacta. Se verá así:

Creación del primer aviso en Awario

Con esta configuración, la aplicación buscará menciones de su artículo original (como recursos compartidos, enlaces y similares) y posible contenido extraído o copiado de versiones encontradas en otros sitios.

Si encuentra contenido duplicado en el sitio web, es una buena idea ponerse en contacto primero con el webmaster y pedirle que elimine la pieza (o inserte un enlace canónico al original si funciona para usted). Si eso no es efectivo, es posible que desee denunciar el raspador a través de Google. informe de infracción de derechos de autor.

2. Contenido sindicado

El contenido sindicado es contenido que se vuelve a publicar en un sitio web diferente con el permiso del autor de la pieza original. Esto es a lo que generalmente se refiere el contenido duplicado, por lo que si bien es una forma legítima de mostrar su contenido a una nueva audiencia, es importante establecer pautas para los editores con los que trabaja para asegurarse de que la sindicación no transforme una página. en un problema de SEO.

Idealmente, el editor debería usar la etiqueta ‘rel = canonical’ en el artículo para indicar que su sitio es la fuente original del contenido, evitando una penalización por contenido duplicado. Otra opción es usar una etiqueta noindex en el contenido distribuido. Siempre es mejor verificarlo manualmente cada vez que una parte sindicada de su contenido se publique en otro sitio.

3. Páginas HTTP y HTTPS

Uno de los problemas de duplicación interna más comunes son las URL HTTP y HTTPS idénticas en un sitio, incluso cuando ambas tienen el mismo contenido original. Estos problemas surgen cuando el cambio a HTTPS no se implementa con toda la atención que requiere el proceso. Los dos escenarios más comunes en los que esto sucede son:

1. Parte de su sitio es HTTPS y utiliza URL relativas. A menudo está bien usar una sola página o directorio seguro (piense en páginas de inicio de sesión y carritos de compras) en un sitio HTTP. Sin embargo, es importante tener en cuenta que estas páginas pueden tener enlaces internos que apuntan a URL relativas en lugar de URL absolutas:

  • URL absoluta: / rastreador de rango /
  • URL relativa: / rastreador de rango /

Las URL relativas no contienen información de protocolo; en cambio, usan el mismo protocolo que la página principal en la que se encuentran. Si un robot de búsqueda encuentra un enlace interno como este y decide seguirlo, irá a una URL HTTPS. Luego, podría continuar rastreando siguiendo más enlaces internos relativos, e incluso podría rastrear todo su sitio web en un formato seguro y luego indexar dos versiones completamente idénticas de las páginas de su sitio. En este escenario, le gustaría usar URL absolutas en lugar de URL relativas en enlaces internos. Si ya tiene páginas HTTP y HTTPS duplicadas en su sitio, su mejor opción es redirigir permanentemente las páginas protegidas a las versiones HTTP correctas.

2. Ha cambiado todo el sitio a HTTPS, pero aún se puede acceder a su versión HTTP. Esto puede suceder si hay vínculos de retroceso de otros sitios que apuntan a páginas HTTP, o porque algunos de los vínculos internos de su sitio aún contienen el protocolo anterior y las páginas no seguras no redirigen a los visitantes a las seguras. Para evitar diluir el jugo de los enlaces y desperdiciar su presupuesto de rastreo, use la redirección 301 en todas sus páginas HTTP y asegúrese de que todos los enlaces internos a su sitio estén especificados a través de URL relativas.

Puede verificar rápidamente si su sitio tiene un problema de duplicación de HTTP / HTTPS en WebSite Auditor de SEO PowerSuite. Todo lo que tienes que hacer es crear un diseño para tu sitio web; cuando la aplicación haya terminado de rastrear, haga clic en Problemas de versión del sitio HTTP/HTTPS en la verificación de su sitio para ver dónde se encuentra.

Verifique las versiones HTTPS de sus sitios

4. Páginas WWW y no WWW

Una de las causas más antiguas de contenido duplicado en el libro es cuando se puede acceder a las versiones WWW y no WWW del sitio. Al igual que con HTTPS que causa la duplicación de contenido interno, este contenido duplicado generalmente se puede resolver implementando redirecciones 301. Quizás una opción aún mejor es especificar su propia dominio preferido en la consola de búsqueda de Google.

Para verificar si hay casos de dicha duplicación en su sitio, busque Solucionado el problema con las versiones www y no www (por debajo Redirecciones) en su proyecto de WebSite Auditor.

Realizar una auditoría en diferentes versiones de su sitio web

5. Parámetros de URL generados dinámicamente

Los parámetros generados dinámicamente a menudo se usan para almacenar cierta información del usuario (como ID de sesión) o para mostrar una versión ligeramente diferente de la misma página (como la que tiene los ajustes de clasificación o filtrado realizados). Esto da como resultado direcciones URL que se ven así:

  • URL 1: /rank-tracker.html?nuevousuario=true
  • URL 2: /rank-tracker.html?order=desc

Si bien estas páginas generalmente contienen el mismo contenido (o muy similar), ambas son un juego justo para el rastreo de Google. A menudo, los parámetros dinámicos crean no dos, sino docenas de versiones diferentes de la URL, lo que puede dar como resultado que se gaste en vano una gran cantidad de presupuesto de rastreo.

Para verificar si esto es un problema en su sitio, vaya a su proyecto de WebSite Auditor y haga clic en proyecto de reconstrucción. En el paso 1, marque la casilla Habilitar opciones avanzadas. En el siguiente paso, seleccione Robot de Google en Siga las instrucciones de robots.txt para… opción.

Cambiar la configuración del rastreador

Luego, pasa a parámetros de URL pestaña y desmarque la Ignorar parámetros de URL caja.

Ajuste de la configuración del rastreador

Esta configuración le permitirá rastrear su sitio como lo haría Google (siguiendo las instrucciones de robots.txt para Googlebot) y tratar las URL con parámetros únicos como páginas separadas. Hacer clic próximo y continúe con los siguientes pasos como de costumbre para iniciar el escaneo. Cuando WebSite Auditor haya terminado de escanear, vaya a Paginas panel de control y ordene los resultados por columna de página haciendo clic en su encabezado. Esto debería permitirle ubicar fácilmente páginas duplicadas o contenido copiado con parámetros en la URL.

Comprender los resultados de la auditoría

Si encuentra este tipo de problemas en su sitio, asegúrese de utilizar el Herramienta de gestión de parámetros en la consola de búsqueda de Google. De esta manera, le dirá a Google qué parámetros deben ignorarse durante los escaneos.

6. Contenido similar

Cuando las personas hablan de duplicar contenido, a menudo implican contenido completamente idéntico. Sin embargo, piezas de contenido muy similares también caen dentro de Google definición de contenido duplicado:

«Si tiene muchas páginas similares, considere expandir cada página o consolidar las páginas en una sola. Por ejemplo, si tiene un sitio de viajes con páginas separadas para dos ciudades, pero la misma información en ambas páginas, puede fusionar las páginas en una página en ambas ciudades, o puede expandir cada página para incluir contenido único en cada ciudad».

Tales problemas pueden ocurrir con frecuencia con los sitios de comercio electrónico, con descripciones de productos para productos similares que difieren solo en unos pocos detalles. Para abordar este problema y evitar problemas con las clasificaciones de los motores de búsqueda, intente hacer que las páginas de sus productos sean diversas en todas las áreas además de la descripción; las reseñas de los usuarios son una excelente manera de lograrlo. En los blogs, pueden surgir problemas de contenido similares cuando toma contenido anterior, agrega algunas actualizaciones y lo vuelve a procesar en una nueva publicación. En este escenario, usar un enlace canónico (o una redirección 301) en el artículo anterior es la mejor solución.

7. Páginas imprimibles

Si sus múltiples páginas en su sitio tienen versiones imprimibles a las que se puede acceder a través de URL separadas, será fácil para Google encontrarlas y rastrearlas a través de enlaces internos. Por supuesto, el contenido de la página en sí y su versión imprimible serán idénticos, desperdiciando así su presupuesto de rastreo una vez más.

Si ofrece páginas imprimibles a los visitantes de su sitio, es mejor cerrarlas de los bots de los motores de búsqueda a través de una etiqueta noindex. Si todos están almacenados en un solo directorio, por ejemplo, también puede agregar una regla de rechazo para todo el directorio en su archivo robots.txt.

Pensamientos finales

El SEO de contenido duplicado específico puede ser una molestia para aquellos que trabajan con SEO, ya que diluye el jugo de enlace de sus páginas (también conocido como poder de clasificación) y agota su presupuesto de rastreo, evitando que se rastreen e indexen nuevas páginas. . Recuerde que sus mejores herramientas para combatir el problema son las etiquetas canónicas, los redireccionamientos 301 y robots.txt, e incorpore verificaciones de contenido duplicado en la rutina de verificación de su sitio para mejorar la indexación y las clasificaciones.

¿Qué instancias de contenido duplicado ha visto en su sitio y qué técnicas utiliza para evitar la duplicación? Espero sus pensamientos y preguntas en los comentarios a continuación.

Contenido duplicado en SEO como encontrarlo y solucionarlo De: Juan Jutarniuk
SEO PowerSuite Administrador de SEO

Deja un comentario

Tu dirección de correo electrónico no será publicada.

Ir arriba