Computación y electrónica

Qué es una araña de Internet

Escrito por sue smith Google | Traducido por enrique pereira vivas
Qué es una araña de Internet

Los programas de araña rastrean la web para encontrar información acerca de los sitios.

Hemera Technologies/Photos.com/Getty Images

Las arañas de Internet o de la web, a veces conocidas como "rastreadores web" o "robots web", son programas informáticos que exploran la World Wide Web, recopilando datos sobre los sitios web y las páginas. Los motores de búsqueda suelen utilizar las arañas para proporcionar información sobre el contenido de los sitios web y los vínculos entre ellos. Las arañas de Internet navegan los sitios web siguiendo los enlaces a ellos desde otros sitios y navegan por las páginas de un sitio de la misma manera, utilizando anclas HTML.

Otras personas están leyendo

Estructura web

La capacidad de crear enlaces entre páginas web es un aspecto clave de Internet. Las páginas dentro de un sitio pueden vincularse entre sí, así como a otros sitios, lo que permite a los usuarios acceder a la información mediante clics del mouse. Esto da como resultado la estructura de la web, que es una masa de contenido web enlazada a través de anclajes de HTML. Los rastreadores web siguen estos enlaces para obtener información acerca de los sitios que existen, a menudo utilizando los datos descubiertos durante el rastreo mientras presentan los resultados del motor de búsqueda.

Motores de búsqueda

Los motores de búsqueda envían tráfico de visitantes a los sitios web que aparecen en sus páginas. Cuando un usuario introduce un término de búsqueda y realiza una búsqueda, los resultados que se presentan a menudo contienen la información obtenida a través del rastreo. Los datos recogidos por un programa de araña web incluye algunos de los contenidos del sitio real. Los motores de búsqueda se alimentan de estos datos en los algoritmos que utilizan para clasificar los sitios en orden de importancia en los listados de búsqueda. Los programas de araña de Internet a menudo llegan a un sitio mediante un enlace desde otro sitio. Al analizar los datos de rastreo, uno de los principales objetivos para los motores de búsqueda es determinar qué palabras clave de búsqueda de un sitio o página deberían ser listados.

Acceso al sitio

Los propietarios de sitios web pueden alcanzar un nivel de control sobre la forma en que las arañas web acceden a su contenido. Muchos sitios web almacenan un archivo de texto en el directorio raíz llamado "robots.txt". Cuando el programa rastreador inicia la exploración de un sitio, lo habitual es que primero compruebe que no existen archivos "robots.txt", analizando el contenido. Los propietarios de sitios web pueden estructurar su archivo "robots.txt" de una manera que impida que el programa proceda a explorar las páginas en el sitio, si no quieren que sea indexado. El grado de éxito de esta técnica varía, ya que en algunos casos el programa de araña no comprobará realmente el archivo de texto en absoluto.

Marketing del sitio web

Las personas que se especializan en la comercialización en Internet a menudo concentran algunos de sus esfuerzos en maximizar el contenido y la estructura de un sitio para adaptarse mejor a las arañas de los motores de búsqueda y algoritmos de clasificación. La capacidad de hacer esto con éxito a veces se ve obstaculizada por el hecho de que las organizaciones de los motores de búsqueda les gusta mantener los detalles de sus algoritmos en secreto. SEO (Search Engine Optimization) es la práctica de la adaptación de la estructura y el contenido de un sitio para rendir lo mejor posible en las páginas de resultados de búsqueda.

Más galerías de fotos

comentarios

Filtrar por:
  • Mostrar todos
  • Artículos
  • Galerías de fotos
  • Videos
Ordenar:
  • Más relevante
  • Más popular
  • Más reciente

No se encuentran artículos disponibles

No se encuentran slideshows disponibles

No se encuentran videos disponibles

Copyright © 1999-2014 Demand Media, Inc. Acerca de

El uso de este sitio constituye la aceptación de los términos y política de privacidad de eHow. Ad Choices es-US

Demand Media