Corpus para detección de brotes de enfermedades prevalentes en Latinoamérica

Name: Corpus para detección de brotes de enfermedades prevalentes en Latinoamérica
License: https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Keywords: corpus

Mostrar el registro sencillo del ítem

dc.date.available

2025-02-18T14:16:18Z

dc.identifier.citation

Dellanzo, Antonella; Ochoa Luna, José; Cotik, Viviana Erica; (2025): Corpus para detección de brotes de enfermedades prevalentes en Latinoamérica. Consejo Nacional de Investigaciones Científicas y Técnicas. (dataset). http://hdl.handle.net/11336/254684

dc.identifier.uri

http://hdl.handle.net/11336/254684

dc.description.abstract

Presentamos un corpus anotado que puede utilizarse para el entrenamiento y prueba de algoritmos destinados a la extracción automática de información sobre brotes de enfermedades a partir de artículos periodísticos. La fuente del corpus son artículos en español de ProMED-mail, un sistema de reportes de acceso público sobre enfermedades emergentes y brotes. El corpus ha sido construido con dos tareas principales en mente. La primera es la extracción de entidades relacionadas con brotes de enfermedades, como la enfermedad, la fecha, la ubicación geográfica, el número de casos, el hospedador, el origen —causa reportada de la enfermedad—, la forma de transmisión —por ejemplo, mordedura— y modificadores como términos de negación e incertidumbre. La segunda tarea es la recuperación de relaciones entre dos o tres entidades, por ejemplo, entre una enfermedad y la ubicación geográfica donde ocurre, el número de casos y una enfermedad o una ubicación geográfica, la fecha y la causa de una enfermedad, la enfermedad y el hospedador al que afecta, y los términos de especulación y negación asociados a algunos tipos de entidades.

dc.rights

info:eu-repo/semantics/openAccess

dc.rights.uri

https://creativecommons.org/licenses/by-nc-sa/2.5/ar/ Se ha confirmado la validez de este valor de autoridad por un usuario

dc.title

Corpus para detección de brotes de enfermedades prevalentes en Latinoamérica

dc.type

dataset

dc.date.updated

2025-02-18T13:20:45Z

dc.description.fil

Fil: Dellanzo, Antonella. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Departamento de Computación; Argentina

dc.description.fil

Fil: Ochoa Luna, José. Universidad Católica San Pablo; Brasil

dc.description.fil

Fil: Cotik, Viviana Erica. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigación en Ciencias de la Computación. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigación en Ciencias de la Computación; Argentina. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Departamento de Computación; Argentina

dc.datacite.PublicationYear

2025

dc.datacite.Creator

Dellanzo, Antonella

dc.datacite.Creator

Ochoa Luna, José

dc.datacite.Creator

Cotik, Viviana Erica Se ha confirmado la validez de este valor de autoridad por un usuario

dc.datacite.affiliation

Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Departamento de Computación Se ha confirmado la validez de este valor de autoridad por un usuario

dc.datacite.affiliation

Universidad Católica San Pablo

dc.datacite.affiliation

Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigación en Ciencias de la Computación. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigación en Ciencias de la Computación Se ha confirmado la validez de este valor de autoridad por un usuario

dc.datacite.affiliation

Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Departamento de Computación Se ha confirmado la validez de este valor de autoridad por un usuario

dc.datacite.publisher

Consejo Nacional de Investigaciones Científicas y Técnicas

dc.datacite.subject

Otras Ciencias de la Computación e Información Se ha confirmado la validez de este valor de autoridad por un usuario

dc.datacite.subject

Ciencias de la Computación e Información Se ha confirmado la validez de este valor de autoridad por un usuario

dc.datacite.subject

CIENCIAS NATURALES Y EXACTAS Se ha confirmado la validez de este valor de autoridad por un usuario

dc.datacite.date

01/2020-12/2022

dc.datacite.DateType

Creado

dc.datacite.language

spa

dc.datacite.version

1.0

dc.datacite.description

Creación del dataset: Para construir el corpus, descargamos artículos de ProMED-mail, un sistema de reportes dedicado a la rápida difusión de información sobre epidemias de enfermedades infecciosas, entre otras. Los artículos publicados en ProMED-mail han sido editados a partir de notas periodísticas de distintos medios por un equipo interdisciplinario. Los artículos de ProMED-mail están compuestos por un título, una fecha, el texto principal y metadatos (como la fuente y el editor del artículo). Dado que los títulos de los artículos son informativos y más fáciles de procesar y anotar que los textos completos, decidimos trabajar con: .solo el título y la fecha del artículo (en adelante, Título), y .el texto principal del artículo, incluyendo el título y la fecha, pero excluyendo los metadatos (en adelante, PMA – ProMED-mail article). Así, nuestro corpus está compuesto por dos subcorpus: uno con solo títulos y otro con los textos completos (incluyendo los títulos). A continuación, se resumen los pasos realizados para obtener el corpus: Descarga de artículos en español publicados entre el 23 de agosto de 2001 y el 18 de agosto de 2020, centrados en reportes de países hispanohablantes de América Latina y lusoparlantes, que mencionaran la aparición de al menos una de las siguientes patologías: dengue, hantavirus, sarampión, síndrome de Guillain-Barré, Zika o Chagas. Limpieza de datos mediante: eliminación de metadatos con expresiones regulares, y normalización de datos (unificación del carácter separador de fecha, el formato de fecha, el separador decimal en números y el nombre de los países, entre otros). Creación y refinamiento de un esquema y una guía de anotación . Se definieron siete entidades nombradas, tres modificadores y varias relaciones binarias y ternarias entre entidades nombradas. Selección y entrenamiento de anotadores. Anotación con la herramienta brat rapid annotation tool y refinamiento de los criterios de anotación siguiendo el ciclo Model-Annotate-Model-Annotate (MAMA) . Un subconjunto de artículos fue anotado por dos anotadores para evaluar el acuerdo interanotador (inter-annotator agreement, IAA), calculado mediante la implementación del coeficiente Kappa de Cohen [8]. Para los artículos anotados por más de un anotador, se eligieron las anotaciones del anotador más experto. El corpus resultante fue analizado para conocer sus características, como el número de entidades y relaciones, y el número promedio de oraciones por artículo. Los resultados pueden consultarse en [1] (para una versión previa del corpus) y en [2] para la versión final. Data statements: El tipo de lenguaje utilizado en los textos es el habitual en los artículos periodísticos. Los artículos de ProMED son una versión abreviada de los artículos originales. Aunque cada país hispanohablante de América Latina usa el idioma de manera diferente (por ejemplo, a menudo se aplican términos distintos para referirse a los mismos conceptos), en los artículos se emplea un español estándar. No hay información disponible sobre la demografía de los editores de ProMED-mail. La anotación fue realizada por ocho hablantes nativos de español provenientes de Perú y Argentina, donde se hablan variantes diferentes del idioma. No obstante, evaluamos que este hecho no dificultó una comprensión precisa de los criterios de anotación ni de los artículos de ProMED-mail. El equipo de anotación estuvo compuesto por cinco estudiantes de maestría en ciencias de la computación, un lingüista y dos doctores en ciencias de la computación, investigadores en procesamiento del lenguaje natural con experiencia en el desarrollo de criterios de anotación y en la anotación de distintos dominios. Los anotadores no recibieron compensación económica. Search Reason Para construir el corpus, descargamos artículos de ProMED-mail [3], un sistema de reportes dedicado a la rápida difusión de información sobre epidemias de enfermedades infecciosas, entre otras. Los artículos publicados en ProMED-mail han sido editados a partir de notas periodísticas de distintos medios por un equipo interdisciplinario. Los artículos de ProMED-mail están compuestos por un título, una fecha, el texto principal y metadatos (como la fuente y el editor del artículo). Dado que los títulos de los artículos son informativos y más fáciles de procesar y anotar que los textos completos, decidimos trabajar con: 1) solo el título y la fecha del artículo (en adelante, **Título**), y 2) el texto principal del artículo, incluyendo el título y la fecha, pero excluyendo los metadatos (en adelante, **PMA** – *ProMED-mail article*). Así, nuestro corpus está compuesto por dos subcorpus: uno con solo títulos y otro con los textos completos (incluyendo los títulos). A continuación, se resumen los pasos realizados para obtener el corpus: - Descarga de artículos en español publicados entre el 23 de agosto de 2001 y el 18 de agosto de 2020, centrados en reportes de países hispanohablantes de América Latina y lusoparlantes, que mencionaran la aparición de al menos una de las siguientes patologías: dengue, hantavirus, sarampión, síndrome de Guillain-Barré, Zika o Chagas. - Limpieza de datos mediante: 1) eliminación de metadatos con expresiones regulares, y 2) normalización de datos (unificación del carácter separador de fecha, el formato de fecha, el separador decimal en números y el nombre de los países, entre otros). - Creación y refinamiento de un esquema y una guía de anotación (ver [1] para más información). Se definieron siete entidades nombradas, tres modificadores y varias relaciones binarias y ternarias entre entidades nombradas. - Selección y entrenamiento de anotadores. - Anotación con la herramienta *brat rapid annotation tool* [4] y refinamiento de los criterios de anotación siguiendo el ciclo *Model-Annotate-Model-Annotate* (MAMA) [7]. Un subconjunto de artículos fue anotado por dos anotadores para evaluar el acuerdo interanotador (*inter-annotator agreement*, IAA), calculado mediante la implementación del coeficiente Kappa de Cohen [8]. Para los artículos anotados por más de un anotador, se eligieron las anotaciones del anotador más experto. El corpus resultante fue analizado para conocer sus características, como el número de entidades y relaciones, y el número promedio de oraciones por artículo. Los resultados pueden consultarse en [1] (para una versión previa del corpus) y en [2] para la versión final. Uso de datos: Proporcionamos los artículos de ProMED-mail (PMA) anotados en dos formatos: Artículos completos (artículos de ProMED-mail sin metadatos). Títulos (también llamado conjunto de datos reducido), que incluye solo los títulos de los PMA y sus fechas de publicación. Para cada artículo completo o título de artículo, se dispone de un archivo .ann y un archivo .txt con el mismo nombre. El archivo .txt contiene el artículo original o el título con la fecha (sin metadatos). Los archivos .ann describen todas las entidades y relaciones anotadas, una por línea. Las entidades incluyen un identificador, el tipo de entidad, la posición dentro del archivo .txt y su valor (por ejemplo, Brasil en una entidad de tipo Ubicación). Las relaciones contienen un identificador, el tipo de relación y los argumentos (los identificadores de las entidades nombradas que están relacionadas). Las anotaciones pueden visualizarse con la herramienta brat rapid annotation tool agregando los archivos de configuración proporcionados o utilizarse de manera independiente. También ofrecemos los artículos anotados en formato IOB2. Ambos conjuntos de datos están divididos en conjuntos de entrenamiento y prueba. Se proporcionan enlaces para descargar: Conjunto de datos anotado reducido (solo títulos y fechas): Conjunto de entrenamiento [brat] [formato BIO] Conjunto de prueba [brat] [formato BIO] Artículos completos: Conjunto de entrenamiento [brat] [formato BIO] Conjunto de prueba [brat] [formato BIO] Archivos de configuración para brat Si utiliza estos datos, cite nuestro trabajo.

dc.datacite.DescriptionType

Información Técnica Se ha confirmado la validez de este valor de autoridad por un usuario

dc.relationtype.isSourceOf

11336/217703

dc.relationtype.isSourceOf

https://aclanthology.org/2020.conll-1.44/

dc.subject.keyword

corpus

dc.subject.keyword

detección de brotes

dc.subject.keyword

América Latina

dc.datacite.resourceTypeGeneral

dataset

dc.conicet.datoinvestigacionid

24932

dc.conicet.justificacion

Latinoamerica

dc.datacite.formatedDate

2020-2022

Archivos del conjunto de datos

Archivo

Notas de uso

Tamaño

reduced-NPA-train.zip

Más

272.6Kb

Descarga

configuration-files.zip

Más

2.402Kb

Descarga

reduced-NPA-test.zip

Más

68.06Kb

Descarga

full-NPA-train.zip

Más

840.9Kb

Descarga

full-NPA-test.zip

Más

203.2Kb

Descarga

Descargar todo

Descargar solo metadatos (JSON) Descargar solo metadatos (XML)