Originalmente, los ficheros de registro en servidores web como Apache o Microsoft ISS servían por defecto para detectar y corregir errores en los diferentes procesos. Sin embargo, rápidamente se descubrió que los logs de un servidor web podían proporcionar datos más valiosos como, por ejemplo, información acerca de la popularidad y usabilidad de la página web alojada, incluyendo la siguiente información sobre sus visitantes:
- Momento en que se visita la web
- Número de visitas
- Duración de la sesión
- Dirección IP y nombre de host del usuarioInformación sobre el cliente solicitante (por lo general, del navegador)
- Los buscadores utilizados, incluyendo términos de búsqueda
- Sistema operativo utilizado
Una entrada típica en un archivo de registro del servidor web tiene esta apariencia:
183.121.143.32 - - [18/Mar/2003:08:04:22 +0200] "GET /images/logo.jpg HTTP/1.1" 200 512 "http://www.wikipedia.org/" "Mozilla/5.0 (X11; U; Linux i686; es-ES;rv:1.7.5)"
Aquí se explican los parámetros por separado:
Significado | Valor de ejemplo | Explicación |
Dirección IP | 183.121.143.32 | La dirección IP del solicitante |
Vacío | - | Por defecto, identidad RFC-1413 no identificada |
¿Quién? | - | Muestra al usuario en caso de que haya tenido lugar una autenticación HTTP, de lo contrario este espacio queda libre (como en este ejemplo) |
¿Cuándo? | [18/Mar/2003:08:04:22 +0200] | Sello de tiempo: fecha, hora e indicación de uso horario |
¿Qué? | "GET /images/logo.jpg HTTP/1.1" | El evento que tuvo lugar, en este caso la solicitud de una imagen a través de HTTP |
Ok | 200 | Confirmación de la solicitud (Código de estado HTTP 200 |
¿Cuánto? | 512 | En caso de tenerlo: cantidad de datos transferidos en bytes |
¿Desde dónde? | "http://www.wikipedia.org/" | Dirección web desde la que se solicitan los datos |
¿Con qué? | "Mozilla/5.0 (X11; U; Linux i686; es-ES;rv:1.7.5)" | Especificaciones técnicas del cliente: navegador, sistema operativo, kernel, interfaz de usuario, idioma, versión |
Herramientas como Webalizer permiten evaluar esta marea de información transformando estos datos en estadísticas, tablas y gráficos. Tales datos sirven principalmente para extraer las tendencias en el crecimiento de la página web, la facilidad de uso derivada de las páginas individuales o las palabras clave y temas más relevantes.
Aunque aún se practica el análisis de logs de un servidor web, la aparición de nuevos métodos de análisis web como Cookies o Page Tagging lo han desplazado en gran parte. Las razones para ello son, en primer lugar, la tasa alta de error del análisis de archivos log en la asignación de sesiones y, en segundo lugar, el hecho de que el propietario de una página web muy rara vez puede acceder a los archivos de registro de un servidor web. Por lo general, todos los mensajes de error se registran inmediatamente y la respectiva compañía de hosting se apropia de los datos obtenidos a partir del análisis de los archivos de registro.