En el video anterior empezamos a hablar sobre el funcionamiento de un motor de búsqueda como Google.
En el video de hoy hablaremos de las 5 fases por las que pasa una url para ser correctamente puntuada y aparecer en las posición que le corresponde en el ranking para una búsqueda o consulta.
Debemos entender que todos estos procesos son muy densos y aunque hoy vamos a dar unas pinceladas sobre ellos, me gustaría llegar a dedicarle series exclusivas a estas 5 fases.
Así que, vamos allá:
Como vimos en el video anterior, Google es un buscador, y la tarea de un buscador es coger la consulta que un usuario realiza y devolver la url que mejor se aproxima.
Para esto entran en juego estas 5 fases:
- Crawleo
- Clasificación
- Indexación
- Puntuación
- Respuesta de usuario
Crawleo:
Un crawler es un software que sistemáticamente buscan webs en internet para tratar su información.
Vale, Google tiene su propio crawler, GoogleBot (¿qué ingeniosos eh?) y da la casualidad que yo el MollaBot (que curiosamente es muy parecido al de Google). En este video he pensado mostrar un crawler en funcionamiento para que se tiendan bien:
Todo parte de una acción del usuario. En este caso a este crawler yo le doy una web a analizar WEB, este programa de apenas 100 líneas se va a encargar de navegar por la url que yo le he proporcionado, va a descargar el contenido de esta url y a extraer las urls que haya encontrado (sean externas o internas) y almacenarlas.
Posteriormente volverá a ejecutarse con las urls que haya encontrado extrayendo así a su vez más urls, que posteriormente volverá a ejecutar, y así un sinfín de veces.
Esto es un crawler, (la parte sencilla de lo que hace Google) y digo la parte sencilla porque es fácil replicar, pero mirad lo que le pasa a mi base de datos después de una semana funcionando:


Imaginad si esto me pasa a mi, con un ordenador sencillo en casa, cuánto deben ocupar los datos de los scrapeos de Google y lo difícul de debe ser escalar esto. (Por aquí os dejo un vídeo de Nate Gentile la mar de interesante sobre el tema):
Después de leer una url, extraer el contenido y almacenarlo, empiezan los procesos más duros.
En un primer lugar, entra en juego un algoritmo de clasificación:
Este algoritmo obtiene el texto de la url que hemos crawleado y crea un listado de palabras que asocia a la url a la que pertenecen.
Estos listados son pequeños índices de palabras que se asocian con los corpus key words de búsqueda. En definitiva ordenan un poco la información crawleada, y la disponen para ser puntuada.
Este algoritmo es mucho más complejo que el programa que os he enseñado antes, pero es mucho más sencillo de entender.
Indexación:
La indexación, de una forma muy general, es introducir un resultado en el índice de búsqueda.
A día de hoy, una urls es indexada sin siquiera haber analizado su contenido, con analizar no me refiero a leer, si no a puntuar.
Pensar, que si el trabajo de Google de encontrar nuevas urls es increíblemente complicado a nivel de computación. Analizar y puntuar este contenido, por pura lógica, es muchísimo más laborioso. Por lo que Google para agilizar este proceso, prefiere indexar las urls sin siquiera analizarlas.
Dado que la url si no ha sido evaluada, no tiene una puntuación, esta no alcanzará buenos resultados de búsqueda.
Este es uno de los motivos por los que cuando forzamos la indexación de una nueva url en el índice, pasa un tiempo hasta que empieza a rankear.
Recapitulemos rápidamente:
- Google encuentra una url
- La clasifica para las palabras clave que tiene en su contenido
- La introduce en el ranking de esa o esas palabras sin puntuacion.
Aquí entra la cuarta fase, Puntuación:
Realmente aquí es donde todos los SEOs dedicamos el 99% de nuestro tiempo.
Nuestro trabajo es hacer que cada url obtenga mejores puntuaciones de ranking y sea reindexada en mejores posiciones.
¿Reindexada? Sí, aquí hay un concepto sencillo de entender, que habla sobre “la segunda ola de indexación” esta segunda ola, es la que visita nuestra url con la finalidad de ser evaluada.
Y posteriormente reindexarla en la posición relativa al resto de urls que más “se merece”.
Hay que entender que todas las puntuaciones son relativas, ya que nuestra puntuación depende de la de las decenas, cientos, miles o millones de resultados que Google tiene en su índice para una única consulta.
Sobre la puntuación, siempre se ha dicho que Google tiene más de 200 factores diferentes por los que puntúa una url, pero además desde hace un tiempo entran en juego factores de Inteligencia Artificial que valoran nuestra web de una forma mucho más compleja (de todo esto hablaremos más adelante).
Una vez puntuada nuestra url, esta pasa a ser parte del índice y a rankear en función de la evaluación que ha obtenido. Pero hay un tipo de factor que no se puede medir completamente hasta que la url está puntuntuada y reindexada.
Experiencia de usuario:
La experiencia de usuario, esta faceta del seo es cada vez más importante y es que Google desde hace un tiempo entrena sus algoritmos para evaluar qué reacción tienen los usuarios con cada url, y en función de esto se obtiene una mayor o menor puntuación.
Google al ser tener un “Fresh index” (fresh index es el que está continuamente cambiando) se pasa todo su tiempo ejecutando todos estas fases, volviendo a ejecutar el crawleo, buscando cambios en el contenido, volviendo a evaluar si es preciso, reindexar donde corresponde y modificar puntuaciones en función de la respuesta de los usuarios.
Esto es una locura. Imaginarlo con los cientos de miles de billones de urls que deben haber en internet.
Y ahora, ¿qué piensas de Google?
Bueno, muchas gracias por haber llegado hasta el final, segundo video oficial (hay algún video oculto por ahí ?) y estoy muy contento de la acogida, sinceramente me daba un poco de miedo subir videos tan básicos pero de verdad creo que es lo correcto, para que la información quede toda bien ordenada.
Y bueno, la verdad es que no esperaba una acogida tan grande, teniendo es cuenta que el SEO tiene un público muy reducido (comparado con el típico contenido en YouTube).
¡Un saludo y nos vemos pronto!