Resumen
Presentamos un corpus anotado que puede utilizarse para el entrenamiento y prueba de algoritmos destinados a la extracción automática de información sobre brotes de enfermedades a partir de artículos periodísticos. La fuente del corpus son artículos en español de ProMED-mail, un sistema de reportes de acceso público sobre enfermedades emergentes y brotes. El corpus ha sido construido con dos tareas principales en mente. La primera es la extracción de entidades relacionadas con brotes de enfermedades, como la enfermedad, la fecha, la ubicación geográfica, el número de casos, el hospedador, el origen —causa reportada de la enfermedad—, la forma de transmisión —por ejemplo, mordedura— y modificadores como términos de negación e incertidumbre. La segunda tarea es la recuperación de relaciones entre dos o tres entidades, por ejemplo, entre una enfermedad y la ubicación geográfica donde ocurre, el número de casos y una enfermedad o una ubicación geográfica, la fecha y la causa de una enfermedad, la enfermedad y el hospedador al que afecta, y los términos de especulación y negación asociados a algunos tipos de entidades.
Información Técnica
Creación del dataset: Para construir el corpus, descargamos artículos de ProMED-mail, un sistema de reportes dedicado a la rápida difusión de información sobre epidemias de enfermedades infecciosas, entre otras. Los artículos publicados en ProMED-mail han sido editados a partir de notas periodísticas de distintos medios por un equipo interdisciplinario. Los artículos de ProMED-mail están compuestos por un título, una fecha, el texto principal y metadatos (como la fuente y el editor del artículo). Dado que los títulos de los artículos son informativos y más fáciles de procesar y anotar que los textos completos, decidimos trabajar con: .solo el título y la fecha del artículo (en adelante, Título), y .el texto principal del artículo, incluyendo el título y la fecha, pero excluyendo los metadatos (en adelante, PMA – ProMED-mail article). Así, nuestro corpus está compuesto por dos subcorpus: uno con solo títulos y otro con los textos completos (incluyendo los títulos). A continuación, se resumen los pasos realizados para obtener el corpus: Descarga de artículos en español publicados entre el 23 de agosto de 2001 y el 18 de agosto de 2020, centrados en reportes de países hispanohablantes de América Latina y lusoparlantes, que mencionaran la aparición de al menos una de las siguientes patologías: dengue, hantavirus, sarampión, síndrome de Guillain-Barré, Zika o Chagas. Limpieza de datos mediante: eliminación de metadatos con expresiones regulares, y normalización de datos (unificación del carácter separador de fecha, el formato de fecha, el separador decimal en números y el nombre de los países, entre otros). Creación y refinamiento de un esquema y una guía de anotación . Se definieron siete entidades nombradas, tres modificadores y varias relaciones binarias y ternarias entre entidades nombradas. Selección y entrenamiento de anotadores. Anotación con la herramienta brat rapid annotation tool y refinamiento de los criterios de anotación siguiendo el ciclo Model-Annotate-Model-Annotate (MAMA) . Un subconjunto de artículos fue anotado por dos anotadores para evaluar el acuerdo interanotador (inter-annotator agreement, IAA), calculado mediante la implementación del coeficiente Kappa de Cohen [8]. Para los artículos anotados por más de un anotador, se eligieron las anotaciones del anotador más experto. El corpus resultante fue analizado para conocer sus características, como el número de entidades y relaciones, y el número promedio de oraciones por artículo. Los resultados pueden consultarse en [1] (para una versión previa del corpus) y en [2] para la versión final. Data statements: El tipo de lenguaje utilizado en los textos es el habitual en los artículos periodísticos. Los artículos de ProMED son una versión abreviada de los artículos originales. Aunque cada país hispanohablante de América Latina usa el idioma de manera diferente (por ejemplo, a menudo se aplican términos distintos para referirse a los mismos conceptos), en los artículos se emplea un español estándar. No hay información disponible sobre la demografía de los editores de ProMED-mail. La anotación fue realizada por ocho hablantes nativos de español provenientes de Perú y Argentina, donde se hablan variantes diferentes del idioma. No obstante, evaluamos que este hecho no dificultó una comprensión precisa de los criterios de anotación ni de los artículos de ProMED-mail. El equipo de anotación estuvo compuesto por cinco estudiantes de maestría en ciencias de la computación, un lingüista y dos doctores en ciencias de la computación, investigadores en procesamiento del lenguaje natural con experiencia en el desarrollo de criterios de anotación y en la anotación de distintos dominios. Los anotadores no recibieron compensación económica. Search Reason Para construir el corpus, descargamos artículos de ProMED-mail [3], un sistema de reportes dedicado a la rápida difusión de información sobre epidemias de enfermedades infecciosas, entre otras. Los artículos publicados en ProMED-mail han sido editados a partir de notas periodísticas de distintos medios por un equipo interdisciplinario. Los artículos de ProMED-mail están compuestos por un título, una fecha, el texto principal y metadatos (como la fuente y el editor del artículo). Dado que los títulos de los artículos son informativos y más fáciles de procesar y anotar que los textos completos, decidimos trabajar con: 1) solo el título y la fecha del artículo (en adelante, **Título**), y 2) el texto principal del artículo, incluyendo el título y la fecha, pero excluyendo los metadatos (en adelante, **PMA** – *ProMED-mail article*). Así, nuestro corpus está compuesto por dos subcorpus: uno con solo títulos y otro con los textos completos (incluyendo los títulos). A continuación, se resumen los pasos realizados para obtener el corpus: - Descarga de artículos en español publicados entre el 23 de agosto de 2001 y el 18 de agosto de 2020, centrados en reportes de países hispanohablantes de América Latina y lusoparlantes, que mencionaran la aparición de al menos una de las siguientes patologías: dengue, hantavirus, sarampión, síndrome de Guillain-Barré, Zika o Chagas. - Limpieza de datos mediante: 1) eliminación de metadatos con expresiones regulares, y 2) normalización de datos (unificación del carácter separador de fecha, el formato de fecha, el separador decimal en números y el nombre de los países, entre otros). - Creación y refinamiento de un esquema y una guía de anotación (ver [1] para más información). Se definieron siete entidades nombradas, tres modificadores y varias relaciones binarias y ternarias entre entidades nombradas. - Selección y entrenamiento de anotadores. - Anotación con la herramienta *brat rapid annotation tool* [4] y refinamiento de los criterios de anotación siguiendo el ciclo *Model-Annotate-Model-Annotate* (MAMA) [7]. Un subconjunto de artículos fue anotado por dos anotadores para evaluar el acuerdo interanotador (*inter-annotator agreement*, IAA), calculado mediante la implementación del coeficiente Kappa de Cohen [8]. Para los artículos anotados por más de un anotador, se eligieron las anotaciones del anotador más experto. El corpus resultante fue analizado para conocer sus características, como el número de entidades y relaciones, y el número promedio de oraciones por artículo. Los resultados pueden consultarse en [1] (para una versión previa del corpus) y en [2] para la versión final. Uso de datos: Proporcionamos los artículos de ProMED-mail (PMA) anotados en dos formatos: Artículos completos (artículos de ProMED-mail sin metadatos). Títulos (también llamado conjunto de datos reducido), que incluye solo los títulos de los PMA y sus fechas de publicación. Para cada artículo completo o título de artículo, se dispone de un archivo .ann y un archivo .txt con el mismo nombre. El archivo .txt contiene el artículo original o el título con la fecha (sin metadatos). Los archivos .ann describen todas las entidades y relaciones anotadas, una por línea. Las entidades incluyen un identificador, el tipo de entidad, la posición dentro del archivo .txt y su valor (por ejemplo, Brasil en una entidad de tipo Ubicación). Las relaciones contienen un identificador, el tipo de relación y los argumentos (los identificadores de las entidades nombradas que están relacionadas). Las anotaciones pueden visualizarse con la herramienta brat rapid annotation tool agregando los archivos de configuración proporcionados o utilizarse de manera independiente. También ofrecemos los artículos anotados en formato IOB2. Ambos conjuntos de datos están divididos en conjuntos de entrenamiento y prueba. Se proporcionan enlaces para descargar: Conjunto de datos anotado reducido (solo títulos y fechas): Conjunto de entrenamiento [brat] [formato BIO] Conjunto de prueba [brat] [formato BIO] Artículos completos: Conjunto de entrenamiento [brat] [formato BIO] Conjunto de prueba [brat] [formato BIO] Archivos de configuración para brat Si utiliza estos datos, cite nuestro trabajo.