En nuestra última publicación, Extraer y crear datos de las Relaciones Geográficas de Nueva España, mencionamos los problemas a los que nos enfrentamos en la identificación automática de topónimos. Por ello, pensamos que valdría la pena echar un vistazo a los topónimos con los que estamos trabajando e indagar en los porqués de los enfoques computacionales que nos permitirán profundizar en la comprensión de las Relaciones Geográficas.
Uno de nuestros primeros, y actuales, desafíos a los que nos enfrentamos en este proyecto es la identificación de miles de topónimos de Mesoamérica. Los principales recursos con los que contamos para crear nuestro diccionario geográfico, incluyen:
Las Relaciones Geográficas del Siglo XVI de Rene Acuña
Las Relaciones Histórico-geográficas de la Gobernación de Yucatán de Mercedes de la Garza
La Geografía económica de México de Alejandra Moreno Toscano
La Suma de visitas de pueblos de Nueva España de Francisco del Paso y Troncoso
A Guide to the Historical Geography of New Spain y The Southeast Frontier of New Spain de Peter Gerhard
Nuestra primera tarea ha sido limpiar y convertir cada una de estas fuentes a un formato legible por la computadora, lo que nos ha permitido extraer los datos más fácilmente. El OCR ha sido (a veces) un amigo imprescindible en esta parte del proceso, gracias al que hemos podido extraer todos los nombres de lugares que figuran en los índices de estos trabajos -corrigiendo los errores de OCR por el camino-, con un resultado de una lista de casi 14.500 topónimos. Por supuesto, muchos de éstos son duplicados o grafías alternativas del mismo lugar. Actualmente, estamos desambiguando estas listas de topónimos para asegurarnos de que nos estamos refiriendo a la ubicación correcta -describimos este proceso previamente en nuestra publicación SIG Histórico, por si quieres profundizar en el tema-.
El siguiente gráfico ha sido creado a partir de la lista completa de topónimos enumerados en las ediciones de Rene Acuña de las Relaciones Geográficas, excluyendo ortografías alternativas para el mismo lugar. Si hubiésemos incluido la ortografía alternativa, la lista habría sido de más de 6.200 nombres. Tal como estaba, hemos añadido una lista de alrededor de 4.900 topónimos.
Podemos observar como la influencia del idioma español es clara, aunque no sorprendente, con nombres de santos destacados junto a características comunes como “río, valle y laguna”. Sin embargo, los topónimos indígenas siguen siendo prominentes, con menciones frecuentes de lugares específicos como Acámbaro, Tlaxcala e Ixtlahuacan. Es destacable el caso de palabras como Yucu de origen mixteca, que significa “colina”, y aparece 33 veces con una frecuencia similar a la de “valle”. En la documentación que estamos manejando, las referencia a Yucu aparecen exclusivamente en la región de Antequera -actualmente Oaxaca-, debido a que es una región en la que convergen numerosas cadenas montañosas conocidas como el Complejo Oaxaqueño o Complejo de Oaxaca.
La desambiguación de los miles de topónimos que se mencionan en las Relaciones Geográficas nos permitirá interactuar efectivamente con las fuentes documentales utilizando métodos computacionales. El uso de técnicas como el Análisis de Colocación junto con nuestro diccionario geográfico abrirá un amplio abanico de oportunidades para analizar los textos desde nuevas perspectivas, así como profundizar en la identificación de asociaciones entre ubicaciones, entidades, temas, etc. Por ejemplo, será posible buscar Tlacotepec y determinar si este topónimo tiene alguna relación con otro lugar, persona o concepto. Además, de la posibilidad de buscar un Tlacotepec específico y cualquier otro nombre/ortografía alternativa asociada para ese lugar en particular. Como se muestra en el siguiente mapa, los topónimos a menudo se repiten dentro de las mismas regiones ¡Por eso, es tan importante la desambiguación de nuestro corpus!
Actualmente, tenemos un total de 3.650 nombres de lugares completamente desambiguados, lo que significa que hemos asignado coordenadas concretas a esos topónimos. Puedes ver una muestra de algunas de estas ubicaciones en la pestaña El Corpus y los Datos de nuestra web.
También, tenemos unos cuantos topónimos parcialmente localizados -es decir, de los que hemos sido capaces de identificar la región aproximada en la que se encuentran- y miles más esperando la desambiguación. Estamos llegando a la mitad del camino … ¡justo por encima del próximo yucu!