La recuperación de información tiene como objeto permitir el acceso al conocimiento y, al contrario de lo que pueda parecer, esto no nace con la era digital. Uno de los primeros teóricos que reflexiona sobre la forma en que la humanidad puede mejorar la accesibilidad al volumen de saber acumulado en su devenir, a la vista de un panorama global cada vez más complejo, es el científico estadounidense Vannevar Bush (1890-1974), quien con su artículo “As we may think” («Como podríamos pensar»), publicado en 1945, presenta sus visiones de futuro sobre la organización y la recuperación de información.
Bush parte de un problema que afecta a la labor científica: mientras que los expertos se especializan cada vez más, aumentando con ello sus necesidades de información, acceder a ella se va volviendo más difícil. Pensemos que esto ocurría en una época en que las bibliotecas aún funcionaban con fichas y grandes catálogos. La búsqueda a partir de un término relevante solo era posible si un aplicado bibliotecario se había molestado antes en indizar el catálogo manualmente. Bush vio en algunas innovaciones técnicas de su tiempo, como el microfilm, una posibilidad de mejorar la accesibilidad a estos datos. Su propia visión recibió el nombre de Memex, una máquina del tamaño de un escritorio que debía funcionar como archivo de datos e instrumento de búsqueda al mismo tiempo. Pese a que nunca se construyó, la tecnología en que se fundamenta, por la cual el usuario salta de un artículo al siguiente, puede ser considerada la precursora del hipertexto.
En los años 50 fue sobre todo el informático alemán Hans Peter Luhn quien se ocupó de desarrollar técnicas de recuperación de información que aún son relevantes a día de hoy, como el procesamiento de texto completo (full-text processing), la indización automática o la diseminación selectiva de la información(SDI). Estos métodos fueron especialmente significativos para el desarrollo de Internet, pues en la riada de información característica de la Web es inevitable aplicar sistemas de information retrieval ya que, de otro modo, jamás se obtendría las respuestas necesarias.