Buscar
Navegación
Publicidad
¿Cómo funciona un buscador?
Enviado por hal el Vie, 01/11/2008 - 01:57.
Ésta es una pregunta digna de un niño, sin duda.
La profunda complejidad que encierra actualmente un buscador de internet contrasta con la aparente sencillez de sus componentes; el rastreador, el indexador y el motor de búsqueda.
A grandes rasgos, éstas son las tres extremidades de todo buscador:
- El rastreador (araña) se encarga de patearse toda web viviente, o colgada, enlaces externos incluidos.
- El indexador o catálogo recoge toda la información recolectada por la araña y se encarga de ordenarla.
- El motor de búsqueda es el que se encarga de acceder al catálogo y entregar al usuario los resultados de su búsqueda.
A que parece sencillo?
Veamos ahora un caso de éxito, por ejemplo... GOOGLE.
Cuando la araña de Google (Googlebot) entra en el índice de nuestra web recorre la página leyendo todo el el contenido de texto, y almacena los enlaces en una cola de trabajo. La cola de enlaces se procesa para evitar enlaces duplicados en espera de ser procesados, y que la araña tenga que trabajar más de la cuenta. Una vez echo esto, Google empieza a lanzar múltiples peticiones hacia los enlaces que tiene en cola, y se vuelve a repetir el proceso que hemos descrito.
La frecuencia con que el robot de Google visita nuestra página web depende de muchos factores. Uno de los más importantes es la frecuencia de refresco del contenido. Al Googlebot le da pereza leer demasiadas veces lo mismo.
También el dichoso PageRank influye en la frecuencia en que Googlebot visita nuestra página.
¿Que es el PageRank?
Google presenta este método como una manera democrática de posicionar los sitios webs. Básicamente Google interpreta un enlace de una página A hacia B como un voto emitido por el votante A en favor del candidato B. Para definir la trascendencia del voto de A, Google analiza el peso de la página A. Es decir, que Google considera que un enlace de una página, según el, importante, tiene mucho peso a la hora de evaluar el PageRank. Algo así como el derecho de veto.
Sin embargo Google combina el PageRank con otras técnicas para evitar un exceso de democracia, y cargarse la calidad en los resultados a la que nos tiene acostumbrados.
Sigamos con la anatomía de Google...
El indexador de Google almacena los términos de búsqueda de manera alfabética, y vinculados al contexto (url) donde estos se ubican. Google no indexa artículos, conjunciones y palabras muy comunes para optimizar el rendimiento. En cuanto a la acentuación y demás peculiaridades de cada idioma, Google guarda las palabras en minúsculas y sin acentos.
El motor de búsqueda se divide en tres partes; la interfície de usuario, la tecnología utilizada para decidir cuáles son los resultados que se van a entregar y el proceso que da formato a los resultados (decide la parte del texto y los enlaces que se van a mostrar al usuario).
Fuentes:
interesante introducción al
Enviado por tímido el Lun, 01/14/2008 - 18:06.interesante introducción al tema.
Gracias por la info.