miércoles, 25 de septiembre de 2013

ROBOT´S DE BUSQUEDA



Un robot es un programa que recorre una estructura de hipertexto recuperando un enlace y todos los enlaces que están referenciados para, a partir de ahí, alimentar las grandes bases de datos de los motores de búsqueda de la Web. Por el contrario, los Índices y Directorios suelen formarse de forma manual operados por humanos (o de forma automática, pero una vez que los humanos han introducido los datos en el índice por categorías y subcategorías) y no recuperan automáticamente los enlaces incluidos en las páginas web, sino que sólo se limitan a hallar lo que las personas previamente incluyen en ellos, pudiendo como ventaja, clasificar fácilmente por secciones los temas de las páginas web.


Tipos de Robots de Búsqueda

Arañas (Spiders)

es un programa usado para rastrear la red. Lee la estructura de hipertexto y accede a todos los enlaces referidos en el sitio web. Se utiliza como sinónimo de robot y crawler

Gusanos (Worms)
es lo mismo que un robot, aunque técnicamente un gusano es una réplica de un programa, a diferencia de un robot que es un programa original. Se usan, por ejemplo, para duplicar los directorios de FTP para que puedan acceder más usuarios.

Orugas (Web crawlers)

es un tipo específico de robot que ha dado lugar al nombre de algunos buscadores como Webcrawler y MetaCrawler.

Hormigas (WebAnts)

Se trata de un cooperativa de robots. Trabajan de forma distribuida, explorando simultáneamente diferentes porciones de la Web. Son robots que cooperan en un mismo objetivo, por ejemplo, para llevar a cabo una indización distribuida

Vagabundos (Wanderes)

son una clase de robots que realizan estadísticas sobre la Web, como por ejemplo, número de servidores, servidores conectados, número de webs, etc.

Robots del Conocimiento (Knowbots)

localizan referencias hipertextuales dirigidas hacia un documento o servidor concreto. Permiten evaluar el impacto de las distintas aportaciones que engrosan las distintas áreas de conocimiento de la Web.

Qué es un Agente:

En la acutalidad al hablar de un "agente" se han de tener en cuenta las siguientes acepciones: Agente autónomo: se trata de un programa que "viaja" entre los sitios web (ubicados en servidores especiales), decidiendo de forma independiente qué debe hacer y cuándo debe moverse a otros lugares. Agente inteligente: o softbot,es programa que ayuda a rellenar formularios, elegir productos, etc. Agente de usuario: programa que ejecuta determinadas tareas para un usuario en la red, como por ejemplo un navegador como Internet Explorer, o un agente de correo del tipo Email User-agent, Eudora etc.

Se utilizan para:

Indexar

Validar HTML u otros lenguajes

Validar enlaces

Monitorear archivos nuevos

Generar imágenes, mapas, etc.
Funcionamiento

La mayoría de grandes buscadores internacionales son del tipo "spider". Recorren las páginas recopilando información sobre los contenidos de las páginas. Cuando se busca una información en los motores, ellos consultan su base de datos y presentan resultados clasificados por su relevancia. De las webs, los buscadores pueden almacenar desde la página de entrada, a todas las páginas que residan en el servidor. Si se busca por palabra clave, por ejemplo, “robot”, como resultados ofrecerá páginas que contengan esta palabra en alguna parte de su texto. Si consideran que un sitio web es importante para el usuario, tienden a registrarlas todas. Si no la consideran importante, sólo almacenan una o más páginas. Un aspecto a tener en cuenta es que cada cierto tiempo, los motores revisan los sitios, para actualizar los contenidos de su base de datos, por lo que no es infrecuente que los resultados de la búsqueda estén desactualizados. Por otro lado existen los buscadores jerárquicos cuya principal caracteristica es que tienen una colección de programas simples y potentes con diferentes cometidos. Se suelen dividir en tres partes. Los programas que exploran la red -arañas (spiders)-, los que construyen la base de datos y los que utiliza el usuario, el programa que explota la base de datos. En el caso de los resultados patrocinados, se puede aparecer en las primeras páginas de resultados, aunque los principales buscadores los delimitan e indican al usuario que se trata de resultados esponsorizados.Ejemplos de Arañas: Google, MSN Search, AltaVista, Hotbot, GlowBoom.

Los robots pueden ser usados para varios propósitos:


Indexar

Validar HTML
Validar Links

Monitorear "qué hay de nuevo"

Generar imágenes

Algunos ejemplos de Robots puden ser::


• Gigabot (robot de Gigablast )

• Googlebot (robot de Google )

• Mozilla Compatible Agent (robot de Yahoo )

• Msnbot (robot de MSN )


No hay comentarios.:

Publicar un comentario