La semana anterior, participamos en un taller de dos días, “Explorando la inteligencia artificial para la investigación en humanidades”, organizado por el Lancaster University Digital Humanities Hub en colaboración con tagtog, y financiado por ESRC IAA Business Boost.

Tagtog es una plataforma de inteligencia artificial en línea que utiliza procesamiento de lenguaje natural y aprendizaje automático para la anotación automática de documentos. La idea de este taller surgió de una colaboración entre el proyecto TAP-ESRC Digging into Early Colonial Mexico‘ (DECM) y tagtog, donde se usa tagtog para ayudar con la anotación y extracción de información de documentos históricos escritos mayormente en lengua española, pero incluyendo lenguas indígenas como el náhuatl, el mixteco o las variantes del maya. El procesamiento del lenguaje natural y el aprendizaje automático son campos en constante evolución, y para la investigación en humanidades, que emplea herramientas de estas disciplinas, presenta desafíos nuevos e interesantes.

El taller reunió a expertos de numerosos campos tanto de humanidades como de ciencias de la computación, con el objetivo de abordar preguntas y problemas que encontramos en el campo de las Humanidades Digitales, explorando las formas de resolver estos problemas a través del trabajo colaborativo.

Photo showing the opening workshop presentation by Dr Patricia Murrieta Flores

Nuestro primer día incluyó una variedad de presentaciones de casos de estudio realizados por investigadores de humanidades de la Universidad de Lancaster:

Patricia Murrieta Flores

Towards the identification, extraction and analysis of information from 16th century colonial sources

En esta presentación, Patricia expuso los procedimientos mediante los que estamos identificando, extrayendo y analizando la información en el proyecto Digging Into Early Colonial Mexico. Este proyecto está creando y desarrollando nuevos enfoques computacionales para la exploración semiautomática de miles de páginas de fuentes coloniales del siglo XVI. Las Relaciones Geográficas de la Nueva España son una serie de informes geográficos que contienen una gran variedad de información sobre áreas locales en Nueva España. Puede leer más sobre cómo este proyecto ha estado usando tagtog para la anotación de corpus aquí.

Descubre más sobre el trabajo de Patricia:

Academia

Lancaster University

Twitter

Clare Egan

Using the Records of Early Modern Libel for Spatial Analysis

Clare nos dio una introducción al mundo de la difamación en época medieval y moderna temprana, centrándose en las calumnias con rima. Estos libelos contienen una gran cantidad de información, incluidas muchas referencias espaciales que, con métodos computacionales, podrían identificarse automáticamente. Los registros de difamación no están digitalizados, sin embargo, se está trabajando para fotografiar y transcribir las fuentes manuscritas. El objetivo de transcribir este material escrito a mano es convertirlo a un formato legible por el ordenador, lo que permitirá el análisis computacional. La extracción de datos de estas fuentes permitirán nuevos análisis y nuevas formas de representar espacialmente la rica información que contienen.

Descubre más sobre el trabajo de Clare:

 Lancaster University

Twitter

Anna Mackenzie

TagTogging Time Lords: using AI and computational methods in developing the first annotated Doctor Who corpus

En su presentación, Anna mostró cómo ha comenzado el proceso de anotación de guiones de los episodios de Doctor Who, con el objetivo de desarrollar el primer corpus anotado de esta serie de TV. Como corpus de ciencia ficción, estos textos presentan referencias a ubicaciones, elementos, especies y conceptos únicos, algunos de los cuales solo existen en el universo de Doctor Who. Como tal, la anotación y el análisis posterior de los mismos presentan desafíos únicos a los métodos de análisis computacional de texto. Con más de 750 episodios de material, el análisis de este corpus en expansión podría ofrecer nuevas perspectivas sobre cómo se han retratado diversos temas/conceptos durante las siete décadas en las que se ha desarrollado la serie.

Descubre más sobre el trabajo de Anna:

Research Gate

Twitter

James Butler

The Intent, Content, and Context Narratives of Literary Namescapes: Mapping spatial inference

James’ La presentación de James proporcionó una introducción al proyecto de investigación de la Universidad de Lancaster, Chronotopic Cartographies, y cómo está investigando los modos de utilizar herramientas digitales para analizar, mapear y visualizar el espacio en los textos literarios. Las referencias a espacios ficticios que no se pueden ubicar geográficamente representan desafíos apasionantes para el análisis computacional de texto. James, con el equipo de Chronotopic Cartographies, está explorando nuevas formas de abordar este problema, a la vez que trabaja examinando el papel de los topónimos a la hora de contextualizar su uso dentro de la ficción, lo que permitirá una comprensión y un análisis más complejos de estos textos.

Descubre más sobre el trabajo de James:

Lancaster University

Twitter

Raquel Liceras Garrido

Archaeological Reports: The case of Numantia

Raquel presentó el potencial para utilizar el análisis computacional de textos para extraer información de informes arqueológicos históricos, usando el caso de Numancia como referencia. Numancia es un sitio de gran importancia arqueológica en la Meseta Norte de España, donde se desarrollaron una serie de excavaciones en el período comprendido entre 1906 y 1923, que produjeron un conjunto de informes cruciales con información espacial, estratigráfica y textual sobre los materiales y estructuras. La extracción automática de la información contenida en estas memorias permitiría un nuevo acercamiento a las distribuciones espaciales, la estratigrafía y los materiales de este sitio.

Descubre más sobre el trabajo de Raquel:

Academia

Lancaster University

Twitter

Deborah Sutton

Mapping the Eighteenth-century Carnatic through Digitised Texts

Deborah nos presentó las cartografías de la Carnatic del siglo XVIII (sur de la India) y algunos textos contemporáneos en inglés producidos en relación con campañas militares, alianzas y conquistas. Estos textos contienen referencias espaciales tanto en términos de topografía como en relación con el valor de las tierras incautadas durante la conquista. El análisis computacional de estos textos permitirá mapear y estudiar los paisajes, así como explorar la relación entre los textos en inglés y las nomenclaturas indias.

Descubre más sobre el trabajo de Deborah:

Academia

Lancaster University

Twitter

James Taylor

Money talks: the language of finance in the nineteenth-century press

James presentó el caso de analizar columnas financieras en la prensa del siglo XIX, haciendo hincapié en la gran variedad de información que podría extraerse de estos textos. Si bien estos periódicos se han digitalizado, el primer desafío para extraer los datos relevantes es aislar automáticamente las secciones específicas del texto que presentan las mencionadas columnas. Una vez extraída, su análisis podría ofrecer la posibilidad de obtener nuevos conocimientos sobre la forma en la que se presentó la información financiera durante siglo XIX, así como la forma mediante la que se referían a noticias y temas más amplios.

Descubre más sobre el trabajo de James:

Academia

Lancaster University

Ian Gregory

Geographical Text Analysis

En esta presentación final, Ian explicó los procesos utilizados para el análisis geográfico de texto de un corpus del Distrito de los Lagos, que se empleó durante un proyecto de cinco años en la Universidad de Lancaster, entre 2012-2016: Spatial Humanities: Texts, GIS & Places. El corpus contiene 80 textos publicados de 1622 a 1900, que suma 1,5 millones de palabras. El texto se anotó utilizando un esquema XML, y los topónimos se extrajeron y asignaron a unas coordenadas específicas, lo que produjo un Sistema de Información Geográfica que se utilizó para visualizar los diferentes aspectos contenidos en el texto. Como, por ejemplo, mostrar la frecuencia de uso de la palabra “hermoso” en los topónimos identificados. Aunque este enfoque permitió extraer y analizar gran cantidad de información, aún hay un largo camino por recorren con estos métodos computacionales.

Descubre más sobre el trabajo de Ian:

Academia

Lancaster University

El segundo día fue organizado por Juan Miguel Cejuela y Jorge Campos de tagtog, con una presentación que abordó el aprendizaje automático y el procesamiento del lenguaje natural. Las diapositivas de esta presentación se pueden ver aquí. Esto fue seguido por una sesión práctica que introdujo a los participantes al uso de la plataforma tagtog para la anotación automática de documentos, centrado en las formas en que este enfoque podría ayudar a la investigación en humanidades.

Si estas interesado en usar tagtog, pero no está seguro por dónde empezar, tienes algunos tutoriales rápidos en su sitio web que ofrecen algunos ejemplos de los modos en los que esta plataforma puede usarse para analizar y extraer datos del texto.

Descubre más sobre tagtog: tagtog.net | Twitter | Medium

Estos dos días fueron una oportunidad fantástica para reunir a investigadores de humanidades y ciencias de la computación, explorando las diferentes formas en que podemos trabajar juntos. Durante ellos, escuchamos algunos proyectos fascinantes de Humanidades Digitales y aprendimos mucho de Juan Miguel y Jorge en tagtog sobre cómo funciona el aprendizaje automático y el procesamiento del lenguaje natural, así como la mejor manera de utilizar su maravillosa plataforma de anotaciones, tagtog.net.

Esperamos tener nuevas oportunidades de organizar talleres como éste, por lo que estate atento a las actualizaciones del Centro de Humanidades Digitales de la Universidad de Lancaster: Twitter | Website