La historia de Google

Toda esta aventura empezó en el año 1996 cuando Larry Page y Sergey Brin estaban haciendo su Doctorado en Stanford.En ese momento, los dos preparaban el Doctorado e iban revisando documentos de la Universidad. Esos documentos ya estaban indexados pero estaban indexados tal como se escaneaban los documentos en ese momento, o sea en la base de datos de Stanford. Los documentos digitalizados estaban ordenados por título, por palabras clave y por abstract.

En la Universidad se llama abstract a un resumen, lo que ahora diríamos que es la description, la descripción de lo que sería un documento. Pues bien, cuando ellos buscaban documentos para su doctorado tenían que entrar en esa base de datos y seleccionar los documentos según las palabras clave, la descripción o el título que había puesto su autor.

Entonces, fue hacia el año 97-98 cuando Altavista salió al mercado y Larry Page y Sergey Brin conocieron la tecnología de las arañas, que ya la hemos explicado, la de envío un agente robot a navegar por Internet y va leyendo todo el contenido y lo va trayendo a mi base de datos. Entonces, ellos pensaron que podrían hacer una araña parecida a la de Altavista pero que recorriera todos los documentos de la Universidad de Stanford y los indexará no por título, palabras clave y abstract sino por contenido o sea que leyese el contenido y que cuando ellos hicieran una búsqueda, esa búsqueda, se centrase en el contenido del sitio Web. Y así lo hicieron, programaron su primera araña, la lanzaron por la por la biblioteca de la Universidad de Stanford e indexaron todos los artículos y todos los documentos de la Universidad con esta araña. Los contenidos por primera vez, eran accesibles a todos los alumnos que hacían consultas.

Sin embargo a Larry Page no le acaba de gustar como ordenaba los resultados, porque los resultados entonces se ordenaban como los ordenada Altavista por densidad, es decir si buscábamos una palabra en concreto lo que hacía Altavista, y lo que hacía su primer algoritmo de ordenación, era buscar dentro de los documentos, mirar qué documentos tenían esa palabra, luego contar cuántas veces salía la palabra y dividirlo por el total de palabras del documento.

Así que los documentos salían ordenados según la cantidad de veces que salía la palabra, dividido por el total de palabras, por lo que llamamos densidad ​y esto a Larry Page no le gustaba. ¿Y porque no le gustaba? Pues porque en la Universidad los documentos tienen más o menos importancia según si sale o no sale en las bibliografías de otros trabajos. Es decir si tú escribes un paper en la Universidad, un artículo, por ejemplo y nadie te cita en la bibliografía de sus trabajos es que tu trabajo es irrelevante. Por eso Larry Page lo que quería era que los documentos además de estar ordenados por contenido estuvieran ordenados por relevancia, por importancia respecto a todo el ecosistema de artículos creados.

Empezaron así, probaron en la universidad y les gustó mucho el resultado, tuvo muy buena aceptación entre los alumnos y lo publicaron en Internet. Enviaron sus arañas a recorrer todo Internet, a escanear todas las páginas Web. Por lo que el algoritmo originario con el que salió Google es un algoritmo cuya casi mitad del algoritmo tiene en cuenta la densidad de las palabras, o sea es el antiguo algoritmo de Altavista contar palabras de una página, no de un sitio Web, de una página en concreto del sitio dividido por el total de palabras de ese sitio, y la otra mitad, es cuán importante es ese documento en función de en cuántas bibliografías aparece.

El PageRank

Lo anterior, pasado a Internet, las bibliografías, se transformaron en lo que llamamos el PageRank, que se llama PageRank en honor a Larry Page, a Larry Page.

Esto suele ser una pregunta de examen o una pregunta de de entrevista de trabajo le preguntas al candidato describe con tus propias palabras el Page rank. El PageRank se llama PageRank porque Larry se llama de apellido Page.

El PageRank podría decirse que es el algoritmo que asigna un valor numérico a la importancia de un sitio Web en función de cuántos enlaces van a ese sitio Web, con muchos matices, pero los matices ya los veremos en el vídeo dedicado específicamente al PageRank y también dedicaremos otro vídeo a los nuevos cambios que hay relacionados con el Page rank.

Espero que con esta breve explicación tengas un poco más claro cómo funciona el algoritmo porque aunque ahora tiene más de doscientas variables en el fondo sigue siendo: Entender el contenido de un sitio Web y entender si ese sitio Web es importante o no es importante o la relevancia de ese sitio Web respecto al resto de sitios webs de Internet.

El algoritmo de Google
5 (100%) 1 vote