Tecnología detrás de Google

Más del 80% de los internautas españoles usa Google como buscador, muy por encima de otros con más recorrido en Internet como Yahoo o AltaVista. En este escenario, aparecer en los primeros puestos de los resultados de búsqueda se convierte en un aspecto crucial dentro de la estrategia de difusión de nuestra web de empresa. Y para lograrlo, el primer paso consiste en comprender cómo funciona

Google ha mantenido desde sus orígenes una política de total transparencia en lo que se refiere al funcionamiento de su servicio de búsquedas. Naturalmente, al buscador le interesa que el público sepa que los criterios en los que se basa para posicionar las búsquedas son fiables y no responden a intereses económicos. Y a nosotros nos interesa porque de ese modo podemos amoldarnos a esos criterios.

En este artículo hemos tomado fragmentos pertenecientes a la explicación oficial que puede encontrarse en las páginas de información corporativa de Google, enriqueciéndolos con gráficos e imágenes de apoyo que ayudan a su mejor comprensión.

Estructura

Google es la única empresa orientada a desarrollar el "motor de búsqueda perfecto", definido por su cofundador Larry Page como algo que "comprende exactamente lo que el usuario quiere decir y le entrega exactamente lo que está buscando" [1]. Con ese fin en mente, Google insiste en continuar innovando y se niega a aceptar las limitaciones de los modelos existentes. Por ello, desarrolló su propia infraestructura de servidores y la avanzada tecnología PageRank, que cambió la manera de llevar a cabo las búsquedas.
PageRank requiere una enorme cantidad de poder computacional para poder ejecutar sus tareas pero cuando Google inició su labor en 1996, sus fundadores Sergey Brin y Larry Page tuvieron que hacer frente a las limitaciones de estos recursos. Para conseguir que PageRank funcionara se vieron obligados a echar mano de los arcaicos ordenadores que tenían disponibles en aquel momento. Este es un aspecto clave para comprender la tecnología de PageRank puesto que desde el principio se tuvo en cuenta que debía ser un sistema lo suficientemente depurado para ejecutarse en ordenadores reales, con componentes al alcance de cualquier persona y no en un laboratorio con superordenadores. Esta fusión entre hardware y software se ha llevado a cabo teniendo en cuenta en cada paso como funciona el hardware disponible a bajo coste en ese momento para aprovechar al máximo los recursos disponibles y poder satisfacer las demandas a bajo coste.
Desde el principio, los programadores de Google detectaron que, para proporcionar los resultados más rápidos y precisos, era necesaria una nueva configuración de servidores. A diferencia de la mayoría de los motores de búsqueda, que emplean un grupo de servidores grandes que suelen ralentizarse cuando procesan picos de carga, Google utiliza una red de equipos conectados para encontrar rápidamente la respuesta a cada consulta. Esa innovación se tradujo en tiempos de respuesta más veloces, mayor escalabilidad y menores costes. Una idea que otros han copiado desde entonces, mientras que Google sigue puliendo su tecnología interna para hacerla cada vez más eficiente.

Este diagrama es una representación de la organización de archivos, servidores y las más de dos docenas de centros de datos que mantiene Google.

La ilustración se basa en el modelo fractal conocido como Triángulo de Sierpinski para demostrar cómo cada componente de la infraestructura de Google se replica en una larga combinación de servidores y centros de datos, permitiendo al buscador expandir su infraestructura sin riesgo para la macro y micro estructura de Google.

Software

El software integrado en la tecnología de búsqueda de Google realiza una serie de cálculos simultáneos en tan sólo una fracción de segundo. Los motores de búsqueda tradicionales se basan, en gran parte, en la frecuencia con que una palabra aparece en una página web. Google, en cambio, emplea la tecnología PageRank para examinar toda la estructura de vínculos de la web y determinar qué páginas son las más importantes. A continuación, realiza un análisis de concordancia de hipertextos para establecer qué páginas son relevantes para la búsqueda específica que se está procesando. Al combinar la importancia general con la relevancia específica respecto de una consulta en particular, Google puede colocar los resultados más relevantes y fiables en primer lugar.

Tecnología PageRank: PageRank realiza una medición objetiva de la importancia que tienen las páginas web. Para ello, resuelve una ecuación que contiene más de 500 millones de variables y 2.000 millones de términos. En lugar de contar los vínculos directos, PageRank interpreta cada vínculo de la Página A a la Página B como un voto que recibe la Página B de parte de la Página A. PageRank evalúa, de esa manera, la importancia que tiene una página determinada al contar la cantidad de votos que recibe.

Un modelo muy simplificado del sistema PageRank nos permite observar que la página azul tiene un PageRank más alto que la página verde a pesar de recibir menos enlaces o votos. Esto se debe a que el único enlace que recibe es mucho más valorado que los enlaces que recibe la página verde pues este único enlace proviene de una página con un valor de PageRank muy alto, la página roja.

PageRank también considera la importancia de cada página que emite un voto, dado que a los votos procedentes de determinadas páginas se les otorga un valor mayor, incrementando así el valor de la página vinculada. Las páginas importantes como cnn.com, rae.es y whitehouse.gov reciben una valoración de PageRank más alta y aparecen en la parte superior de los resultados de búsqueda. La tecnología de Google emplea la inteligencia colectiva de la web para determinar la importancia de una página. Los resultados se obtienen sin ningún tipo de participación humana; por este motivo, los usuarios han llegado a confiar en Google como fuente de información objetiva, libre de la manipulación que se genera cuando los sitios pagan por ocupar determinada posición en los resultados.

Análisis de concordancia de hipertextos: el motor de búsqueda de Google también analiza el contenido de cada página. Sin embargo, en lugar de explorar simplemente el texto de la página (que los editores de sitios pueden manipular mediante metaetiquetas), la tecnología de Google analiza todo el contenido de una página y toma en cuenta también las fuentes, las subdivisiones y la ubicación precisa de cada palabra. Asimismo, Google analiza el contenido de páginas web vecinas para garantizar que los resultados encontrados son los más relevantes para la consulta del usuario.

Las innovaciones de Google no se limitan al escritorio. Para que los usuarios que acceden a la web a través de dispositivos portátiles puedan obtener resultados de búsqueda rápidos y precisos, Google desarrolló también la primera tecnología de búsqueda inalámbrica que traduce al momento el código HTML a formatos optimizados para WAP, i-mode, J-SKY y EZWeb. Actualmente, Google provee su tecnología inalámbrica a diferentes líderes del mercado, por ejemplo, a AT & T Wireless, Sprint PCS, Nextel, Palm, Handspring y Vodafone, entre otros.

La vida de una consulta de Google

Una vez que el usuario envía su consulta a través de Google, la página de resultados apenas tarda medio segundo en aparecer. Sin embargo, en ese lapso de tiempo tan corto se ha desencadenado un complejo proceso.

En primer lugar, la consulta es enviada a un servidor web, que a su vez la redirige a los servidores de indexación. Éstos llevan un registro del contenido de cada página en el que se pueden consultar, como si se tratara de un índice de un libro, todas las páginas que contienen los términos de búsqueda introducidos por el usuario.

La consulta es enviada después hasta los servidores de documentos, de donde se obtiene la información asociada a cada una de esas páginas que los servidores de indexación han indicado: título, fragmento de texto a mostrar en la descripción, etc.

Finalmente, el usuario recibe toda esta información en forma de resultados de búsqueda.

Tecnología detrás de Google

Artículos recientes

Estructura

Software

La vida de una consulta de Google