El tercer paso del Natural Language Processing es el que llevan a cabo los desarrolladores en el ámbito de la semántica. Aun cuando tanto el etiquetado como la función sintáctica de una palabra son similares, puede ocurrir que la palabra en cuestión tenga varios significados posibles, como podemos ver en el siguiente ejemplo:
Hay un niño sentado en el banco de la plaza
El banco concede créditos a muchas personas
Una persona que tenga buenos conocimientos lingüísticos sobre la lengua española, puede saber de inmediato que en la primera oración la palabra “banco” hace referencia al asiento en el que nos podemos sentar y en la segunda se habla del lugar en el que se realizan operaciones financieras. Esto, sin embargo, no es fácil de determinar en el caso de los ordenadores, puesto que estos no reconocen la ambigüedad y es muy difícil que la aprendan.
Por lo tanto, en la mayoría de los casos los ordenadores intentan determinar el significado de una palabra con ayuda de las palabras que le preceden o le siguen. De este modo, pueden aprender que si la palabra “banco” va seguida de “plaza”, se trata de un asiento y en el caso de que “banco” vaya seguida de “créditos”, estaremos hablando de la entidad financiera. Estas diferencias pueden aprehenderse mediante el uso de corpus de textos, en los que el significado de cada palabra se reproduce con exactitud.
En términos generales, el Natural Language Processing es una especialidad muy compleja: en ella, los ordenadores tienen que hacer frente a casos concretos y, en el caso de las palabras ambiguas, existe la probabilidad de que el ordenador la interprete erróneamente. En el ámbito de la pragmática, en particular, todavía pueden hacerse muchas mejoras, ya que en el caso del contexto en el que se expresa la frase, se trata generalmente de un contexto mundano o, como mínimo, de un contexto que requiere amplios conocimientos sobre el propio entorno. Si hilamos un poco más fino, la ironía, el sarcasmo y las metáforas humorísticas son conceptos especialmente complicados de entender para los ordenadores, aun cuando ya se hayan hecho los primeros intentos para clasificarlos.