elWebmaster.com
Y pensar que cuando indexaron la web por primera vez, allá por 1998, contaban con 26 millones de sitios en su haber. Ya en el año 2000 la cifra subió a mil millones y ahora, según anuncian en el blog oficial, Google ha superado el billón de URLs indexadas.
En números, un billón (un “trillón” en el sistema inglés) es 1.000.000.000.000. ¿Son muchos ceros a la derecha, no? A mí me suena que la cantidad se estiró hasta igualar al término Goooooooooogle ^_^. ¡Mis felicitaciones para el equipo de Google!
28/Jul./08, 09.52 Juan Manuel Comentar
Udi Manber, vicepresidente de ingeniería de Google, explicó que hasta ahora el punto más fuerte de la empresa (sus algoritmos) estaban guardados celosamente por miedo al abuso por parte de terceros y porque a nadie le gusta que la competencia conozca su “receta del éxito”.
Pero a partir de ahora Google desea ser más “transparente”, por lo que comenzará a abrir sus algoritmos de búsqueda, indexación, etc., para que todos puedan conocer a fondo su sistema. Esto sin duda permitirá un gran avance en materia de SEO. ¡Bien por Google!
24/May./08, 08.06 Juan Manuel 8 comentarios
Slurp 3.0 es la nueva versión del spider-bot de Yahoo!, que indexa las páginas web para poder después mostrarlas en los resultados del buscador. Si bien seguirá con las mismas directivas de user-agent y fichero robots.txt, incluirá dos importantes novedades:
Por un lado residirán en un nuevo conjunto de IPs pero aún así devolverán los datos al dominio crawl.yahoo.net. Además, devolverán un nuevo user-agent. Se recomienda utilizar las directivas Slurp o Yahoo! Slurp, pero no Slurp/2.0 (ahora desactualizada), en el código del sitio, y User-agent: Slurp en el robot.txt.
15/Abr./08, 10.19 Juan Manuel Comentar
Nunca llegaremos al primer puesto en Google si les ponemos trabas a los spider-bots. Pero no creo que nadie lo haga a propósito, por eso deberíamos estar bien seguros de qué cosas pueden “molestar” a Google.
A veces un detalle que parece mínimo hace la diferencia entre aparecer o desaparecer de los resultados del buscador. Un servidor lento, una barra de más en el robots.txt o un mal manejo de la tecnología Flash son algunos ejemplos. Entérate cómo evitarlos. Seguir leyendo
13/Mar./08, 11.50 Juan Manuel 7 comentarios
Todos tenemos más o menos una vaga idea de cómo funciona Google. Pero ¿qué procesos se dan dentro del buscador? ¿Podemos aprovecharlos para optimizar nuestros sitios, o posicionarnos mejor en el ranking de resultados?
La respuesta es afirmativa. Entonces, para entenderlo mejor, podríamos dividir el proceso en tres partes: el Crawling (recorrido que hacen los spider-robots por nuestro sitio), la Indexación y los resultados de búsqueda. Estas partes trabajan solas y en conjunto. Seguir leyendo
25/Feb./08, 12.30 Juan Manuel Comentar
Ya publicamos notas sobre la forma de controlar el comportamiento de los spider-bots de Google con metacomandos, pero esta vez la ayuda viene para los que quieran evitar que se indexen las imágenes de su página web.
Incluyendo estos metacomandos en la cabecera del código de tu página, evitarás que te pase lo mismo que a aquellos que se quejaron de que Google mostraba como resultados en la búsqueda de imágenes sus archivos protegidos por copyright. Seguir leyendo
24/Feb./08, 08.00 Juan Manuel Comentar
Google Image Labeler es un juego online donde debemos asignar tags o palabras clave a una serie de imágenes. Ganamos cuando nuestros tags coinciden con los originales, con los que fue indexada la imagen.
De esta forma nos divertiremos en un rato de ocio y ayudaremos a Google a mejorar la calidad de los resultados en la búsqueda de imágenes, dado que ellos usarán la información obtenida durante el juego con esta finalidad. Seguir leyendo
21/Feb./08, 11.00 Juan Manuel Comentar
En Yahoo! Search Blog se anunció oficialmente que el buscador en breve tendrá actualizado el algoritmo que utiliza para posicionar los sitios web en su ranking, así como también para indexarlos. Nos alerta también que se verán varios cambios estos días, al igual que viene pasando con el PageRank de Google. No digan que no les avisé. Evidentemente estamos en un proceso general de cambio hacia una web estándar, social. Y todos se preocupan por no quedar desactualizados. Nosotros deberíamos seguir el ejemplo.
23/Ene./08, 10.57 Juan Manuel Comentar
Y el gran día llegó por fin. A algunos les parecerá ciencia ficción, pero lo cierto es que Google ya había registrado el método para extraer texto de imágenes y videos a mediados del 2007. El sistema consiste en tomar variantes de color, luminosidad, etc. como formas y de ahí reconocer textos contenidos dentro de los archivos. A medida que se implemente cada vez más el cambio en la web será rotundo, podremos buscar fotos en Flickr por el texto que aparezca en ellas, entre miles de ejemplos.
07/Ene./08, 11.57 Juan Manuel Comentar
John Müller, de Google Zürich explica que algunas directivas antiguas e ignoradas en los archivos robots.txt pueden cambiar la forma en que son indexadas las páginas de un sitio web, en forma repentina y sin aviso. “Por el momento aceparemos la directiva “noindex” pero es algo que puede cambiar de aquí a un tiempo. Quiero recordarles a todos que tengan cuidado al jugar con cosas como esta,” dijo. Seguir leyendo
22/Nov./07, 11.58 Juan Manuel Comentar


Comentarios recientes
- Juan Manuel: ¡Gracias! ^_^...
- Juan Manuel: ¡Hola, Manuel! Muchas gracias por tu comentario. Los talleres que se pu...
- Martin: Un pequeño aporte a la causa, el tag: protejer codigo esta mal escrito....
- ricardo: Amigo Juan Manuel, ante todo mis máximas felicitaciones por tu artícul...
- Juan Manuel: ¡Hola, Uziel!
Tal vez me puedas explicar mejor, no entendí lo del "...
- Juan Manuel: CS3...
Feed de los comentarios