Sitemap

Por qué la indexación al 100 % no es posible y por qué está bien

Cuando se trata de temas como el presupuesto de rastreo, la retórica histórica siempre ha sido que es un problema reservado para sitios web grandes (clasificados por Google como más de 1 millón de páginas web) y sitios web de tamaño mediano con una alta frecuencia de cambio de contenido.

Sin embargo, en los últimos meses, el rastreo y la indexación se han convertido en temas más comunes en los foros de SEO y en las preguntas que se hacen a los Googlers en Twitter.

Desde mi propia experiencia anecdótica, los sitios web de diferentes tamaños y frecuencias de cambio han visto desde noviembre mayores fluctuaciones e informes de cambios en Google Search Console (tanto estadísticas de rastreo como informes de cobertura) que históricamente.

Varios de los principales cambios de cobertura que he presenciado también se han correlacionado con actualizaciones de Google no confirmadas y alta volatilidad de los sensores/observadores SERP.Dado que ninguno de los sitios web tiene demasiado en común en términos de pila, nicho o incluso problemas técnicos, ¿es esto una indicación de que el 100% indexado (para la mayoría de los sitios web) ahora no es posible, y eso está bien?

Esto tiene sentido.

Google, en sus propios documentos, describe que la web se está expandiendo a un ritmo que supera con creces su propia capacidad y medios para rastrear (e indexar) cada URL.

Obtenga el boletín informativo diario en el que confían los especialistas en marketing.

En la misma documentación, Google describe una serie de factores que afectan su capacidad de rastreo, así como la demanda de rastreo, que incluyen:

  • La popularidad de sus URL (y contenido).
  • Es ranciedad.
  • Qué tan rápido responde el sitio.
  • Conocimiento de Google (inventario percibido) de URL en nuestro sitio web.

De las conversaciones con John Mueller de Google en Twitter, la popularidad de su URL no se ve necesariamente afectada por la popularidad de su marca y/o dominio.

Habiendo tenido experiencia de primera mano de un editor importante que no tiene contenido indexado en función de su singularidad con respecto a contenido similar ya publicado en línea, como si estuviera por debajo del umbral de calidad y no tuviera un valor de inclusión SERP lo suficientemente alto.

Es por eso que, cuando trabajo con todos los sitios web de cierto tamaño o tipo (por ejemplo, comercio electrónico), establezco desde el primer día que 100% indexado no siempre es una métrica de éxito.

Indexación de niveles y fragmentos

Google ha sido bastante abierto al explicar cómo funciona su indexación.

Usan indexación por niveles (parte del contenido en mejores servidores para un acceso más rápido) y tienen un índice de servicio almacenado en varios centros de datos que esencialmente almacena los datos servidos en un SERP.

Simplificando esto aún más:

El contenido de la página web (el documento HTML) se tokeniza y almacena en fragmentos, y los propios fragmentos se indexan (como un glosario) para que se puedan consultar más rápido y más fácilmente por palabras clave específicas (cuando un usuario busca).

Muchas veces, los problemas de indexación se atribuyen al SEO técnico, y si no tiene un índice o tiene problemas e inconsistencias que impiden que Google indexe el contenido, entonces es técnico, pero la mayoría de las veces es un problema de propuesta de valor.

Propósito beneficioso y valor de inclusión SERP

Cuando hablo de propuesta de valor, me refiero a dos conceptos de las pautas de calificación de calidad (QRG) de Google, que son:

  • Propósito beneficioso
  • Calidad de la página

Y combinados, estos crean algo a lo que me refiero como el valor de inclusión SERP.

Esta es comúnmente la razón por la cual las páginas web caen en la categoría "Descubierto - actualmente no indexado" dentro del informe de cobertura de Google Search Console.

En los QRG, Google hace esta declaración:

Recuerde que si una página carece de un propósito beneficioso, siempre debe clasificarse como la Calidad de página más baja, independientemente de la calificación de Necesidades satisfechas de la página o de lo bien diseñada que esté la página.

¿Qué significa esto?Que una página pueda orientar las palabras clave correctas y marcar las casillas correctas.Pero si generalmente es repetitivo con otro contenido y carece de valor adicional, entonces Google puede optar por no indexarlo.

Aquí es donde nos encontramos con el umbral de calidad de Google, un concepto de si una página cumple con la “calidad” necesaria para ser indexada.

Una parte clave de cómo funciona este umbral de calidad es que es casi en tiempo real y fluido.

Gary Illyes de Google confirmó esto en Twitter, donde una URL puede indexarse ​​cuando se encuentra por primera vez y luego eliminarse cuando se encuentran nuevas (mejores) URL o incluso recibir un impulso temporal de "frescura" desde el envío manual en GSC.

Averiguar si tiene un problema

Lo primero que debe identificar es si está viendo la cantidad de páginas en el informe de cobertura de Google Search Console que se mueven de incluidas a excluidas.

Este gráfico por sí solo y fuera de contexto es suficiente para causar preocupación entre la mayoría de las partes interesadas en marketing.

Pero, ¿cuántas de estas páginas te importan?¿Cuántas de estas páginas generan valor?

Podrás identificar esto a través de tus datos colectivos.Verá si el tráfico y los ingresos/clientes potenciales están disminuyendo en su plataforma de análisis, y notará en las herramientas de terceros si está perdiendo visibilidad y clasificación general en el mercado.

Una vez que haya identificado si está viendo páginas valiosas que abandonan el índice de Google, los siguientes pasos son comprender el por qué y Search Console divide las exclusiones en otras categorías.Los principales que debe conocer y comprender son:

Rastreado: actualmente no indexado

Esto es algo que he encontrado más con el comercio electrónico y los bienes raíces que con cualquier otra vertical.

En 2021, la cantidad de registros de nuevas aplicaciones comerciales en los EE. UU. batió récords anteriores, y con más empresas compitiendo por los usuarios, se está publicando una gran cantidad de contenido nuevo, pero probablemente no mucha información o perspectivas nuevas y únicas.

Descubierto: actualmente no indexado

Al depurar problemas de indexación, encuentro esto mucho en sitios web de comercio electrónico o sitios web que han implementado un enfoque programático considerable para la creación de contenido y han publicado una gran cantidad de páginas a la vez.

Las razones principales por las que las páginas entran en esta categoría pueden deberse al presupuesto de rastreo, ya que acaba de publicar una gran cantidad de contenido y URL nuevas y ha aumentado exponencialmente la cantidad de páginas rastreables e indexables en el sitio, y el presupuesto de rastreo que Google ha determinado que su sitio no está orientado a tantas páginas.

No hay mucho que puedas hacer para influir en esto.Sin embargo, puede ayudar a Google a través de mapas de sitio XML, mapas de sitio HTML y buenos enlaces internos para pasar el rango de página de páginas importantes (indexadas) a estas nuevas páginas.

La segunda razón por la que el contenido puede caer en esta categoría se debe a la calidad, y esto es común en contenido programático o sitios de comercio electrónico con una gran cantidad de productos y PDP que son productos similares o variables.

Google puede identificar patrones en las URL, y si visita un porcentaje de estas páginas y no encuentra ningún valor, puede (y a veces lo hará) suponer que los documentos HTML con URL similares serán de la misma (baja) calidad, y lo hará. elija no rastrearlos.

Muchas de estas páginas se habrán creado intencionalmente con un objetivo de adquisición de clientes, como páginas de ubicación programáticas o páginas de comparación dirigidas a usuarios de nicho, pero estas consultas se buscan con baja frecuencia, es probable que no atraigan muchos ojos y el contenido puede no ser lo suficientemente único en comparación con otras páginas programáticas, por lo que Google no indexará el contenido de la propuesta de bajo valor cuando haya otras alternativas disponibles.

Si este es el caso, deberá evaluar y determinar si los objetivos se pueden lograr dentro de los recursos y parámetros del proyecto sin que las páginas excesivas que obstruyen el rastreo no se consideren valiosas.

Contenido duplicado

El contenido duplicado es uno de los más sencillos y es común en el comercio electrónico, la publicación y la programación.

Si el contenido principal de la página, que contiene la propuesta de valor, se duplica en otros sitios web o páginas internas, entonces Google no invertirá el recurso en la indexación del contenido.

Esto también se relaciona con la propuesta de valor y el concepto de propósito beneficioso.He encontrado numerosos ejemplos en los que los sitios web grandes y autorizados no tienen contenido indexado porque es el mismo que otro contenido disponible, no ofrece perspectivas únicas o propuestas de valor únicas.

Tomando acción

Para la mayoría de los sitios web grandes y los sitios web medianos de tamaño decente, lograr una indexación del 100% solo será más difícil, ya que Google tiene que procesar todo el contenido nuevo y existente en la web.

Si encuentra contenido valioso que se considera por debajo del umbral de calidad, ¿qué acciones debe tomar?

  • Mejore los enlaces internos de las páginas que son de "alto valor": esto no significa necesariamente las páginas con la mayor cantidad de backlinks, pero aquellas páginas que se clasifican para una gran cantidad de palabras clave y tienen buena visibilidad pueden transmitir señales positivas a través de anclas descriptivas a otras páginas. .
  • Elimine el contenido de baja calidad y bajo valor.Si las páginas que se excluyen del índice tienen un valor bajo y no generan ningún valor (por ejemplo, páginas vistas, conversiones), deben eliminarse.Tenerlos en vivo es simplemente desperdiciar el recurso de rastreo de Google cuando elige rastrearlos, y esto puede afectar sus suposiciones de calidad basadas en la coincidencia de patrones de URL y el inventario percibido.

Las opiniones expresadas en este artículo pertenecen al autor invitado y no necesariamente a Search Engine Land.Los autores del personal se enumeran aquí.