¿Qué es el contenido duplicado y cómo podemos arreglarlo?

El contenido duplicado es un factor de posicionamiento de Google, y un problema muy común en las páginas web.

¿Qué es el contenido duplicado y cómo podemos arreglarlo?

El contenido duplicado es uno de los problemas más comunes que los desarrolladores (y creadores) solemos cometer cuando creamos nuestras webs.

Consideramos contenido duplicado cuando dos URLs diferentes tienen el mismo contenido. Algunos de los casos más comunes de contenido duplicado son:

  • Mismo contenido en la versión HTTP y en la versión HTTPS
  • Mismo contenido en la versión WWW y en la versión sin WWW
  • Las URLs contienen el identificador del registro en la base de datos

Contenido duplicado en la versión HTTP y HTTPS

Como ya hablamos en nuestro post sobre HSTS, siempre deberíamos redirigir a nuestros usuarios a la versión segura de nuestra web.

Por ello, este problema tiene una fácil solución: Si programamos una redirección permanente 301 desde la versión HTTP a la versión segura de nuestra web, habremos solucionado este problema de contenido duplicado!

En la bibliografía os hemos adjuntado un enlace en el que se explica cómo programar estas redirecciones en .htaccess y Nginx; además de en el propio código utilizando PHP, NodeJS (Express), Laravel y Django (Python).

Contenido duplicado en la versión WWW y la no WWW

En este caso, el problema radica en que un mismo contenido se puede encontrar en ambas versiones de la web. Por ejemplo:

https://raullg.com/blog/que-es-page-rank/
vs
https://www.raullg.com/blog/que-es-page-rank/

Afortunadamente, la solución de este problema también es bastante sencilla: programar una redirección 301 desde una de las dos versiones a la otra. Para ello, tenemos que seleccionar cuál será nuestra versión canónica.

¿Qué significa esto de versión canónica? Básicamente, tenemos que elegir si queremos que el dominio de nuestra web sea raullg.com o www.raullg.com, pero no ambos. Una vez lo hayamos seleccionado, redirigiremos todo el tráfico a nuestra versión canónica.

Contenido duplicado en URLs con identificador

Es bastante común ver URLs que, en alguna parte, contienen el identificador de un registro de la base de datos. Por ejemplo:

https://ejemplo.com/blog/123-la-paz-mundial/

Hasta aquí nada raro. Sin embargo, si estos sistemas no están bien programados, podríamos mostrar el mismo contenido siempre y cuando mantengamos el identificador correcto:

https://ejemplo.com/blog/123-la-paz-mundial-con-otro-enlace/

Si al realizar este tipo de cambio en la URL, nos encontramos que nuestro servidor responde con un código 200 y el contenido original, estamos ante un potencial problema de contenido duplicado.

Es un problema potencial porque es posible que aún no tengamos ningún enlace entrante hacia una URL modificada, pero podríamos obtenerlo en algún momento. Otra forma de que exista el problema es cambiar una URL que ya ha sido indexada por Google: ¡la URL antigua y la nueva tendrán el mismo contenido!

Para solucionar esto (no os lo vais a creer) también podemos utilizar una redirección 301! Sin embargo, a veces no podemos realizar una redirección y tenemos que acudir a otras alternativas.

Solucionar contenido duplicado utilizando link[rel="canonical"]

Una etiqueta canonical es un método alternativo para indicar a Google (y otros crawlers) cuál es la URL preferida para cierto contenido. Esto nos permitirá indicarle a Google que, aunque la URL actual sea diferente, la versión original de un contenido se encuentra en otra URL.

Aunque la solución ideal sería una redirección 301, utilizar una canonical tampoco es tan malo :-)

Simplemente tenemos que tener en cuenta que la etiqueta debe estar dentro de head y que debe apuntar a una url absoluta (con https://...).

Uso de la etiqueta link[rel=canonical]

Bibliografía