Mostrar el registro sencillo del ítem
dc.date.available
2025-02-18T14:16:18Z
dc.identifier.citation
Dellanzo, Antonella; Ochoa Luna, José; Cotik, Viviana Erica; (2025): Corpus para detección de brotes de enfermedades prevalentes en Latinoamérica. Consejo Nacional de Investigaciones Científicas y Técnicas. (dataset). http://hdl.handle.net/11336/254684
dc.identifier.uri
http://hdl.handle.net/11336/254684
dc.description.abstract
Presentamos un corpus anotado que puede utilizarse para el entrenamiento y prueba de algoritmos destinados a la extracción automática de información sobre brotes de enfermedades a partir de artículos periodísticos. La fuente del corpus son artículos en español de ProMED-mail, un sistema de reportes de acceso público sobre enfermedades emergentes y brotes. El corpus ha sido construido con dos tareas principales en mente. La primera es la extracción de entidades relacionadas con brotes de enfermedades, como la enfermedad, la fecha, la ubicación geográfica, el número de casos, el hospedador, el origen —causa reportada de la enfermedad—, la forma de transmisión —por ejemplo, mordedura— y modificadores como términos de negación e incertidumbre. La segunda tarea es la recuperación de relaciones entre dos o tres entidades, por ejemplo, entre una enfermedad y la ubicación geográfica donde ocurre, el número de casos y una enfermedad o una ubicación geográfica, la fecha y la causa de una enfermedad, la enfermedad y el hospedador al que afecta, y los términos de especulación y negación asociados a algunos tipos de entidades.
dc.rights
info:eu-repo/semantics/openAccess
dc.rights.uri
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/

dc.title
Corpus para detección de brotes de enfermedades prevalentes en Latinoamérica
dc.type
dataset
dc.date.updated
2025-02-18T13:20:45Z
dc.description.fil
Fil: Dellanzo, Antonella. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Departamento de Computación; Argentina
dc.description.fil
Fil: Ochoa Luna, José. Universidad Católica San Pablo; Brasil
dc.description.fil
Fil: Cotik, Viviana Erica. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigación en Ciencias de la Computación. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigación en Ciencias de la Computación; Argentina. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Departamento de Computación; Argentina
dc.datacite.PublicationYear
2025
dc.datacite.Creator
Dellanzo, Antonella
dc.datacite.Creator
Ochoa Luna, José
dc.datacite.Creator
Cotik, Viviana Erica

dc.datacite.affiliation
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Departamento de Computación

dc.datacite.affiliation
Universidad Católica San Pablo
dc.datacite.affiliation
Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigación en Ciencias de la Computación. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigación en Ciencias de la Computación

dc.datacite.affiliation
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Departamento de Computación

dc.datacite.publisher
Consejo Nacional de Investigaciones Científicas y Técnicas
dc.datacite.subject
Otras Ciencias de la Computación e Información

dc.datacite.subject
Ciencias de la Computación e Información

dc.datacite.subject
CIENCIAS NATURALES Y EXACTAS

dc.datacite.date
01/2020-12/2022
dc.datacite.DateType
Creado

dc.datacite.language
spa
dc.datacite.version
1.0
dc.datacite.description
Creación del dataset: Para construir el corpus, descargamos artículos de ProMED-mail, un sistema de reportes dedicado a la rápida difusión de información sobre epidemias de enfermedades infecciosas, entre otras. Los artículos publicados en ProMED-mail han sido editados a partir de notas periodísticas de distintos medios por un equipo interdisciplinario. Los artículos de ProMED-mail están compuestos por un título, una fecha, el texto principal y metadatos (como la fuente y el editor del artículo). Dado que los títulos de los artículos son informativos y más fáciles de procesar y anotar que los textos completos, decidimos trabajar con: .solo el título y la fecha del artículo (en adelante, Título), y .el texto principal del artículo, incluyendo el título y la fecha, pero excluyendo los metadatos (en adelante, PMA – ProMED-mail article). Así, nuestro corpus está compuesto por dos subcorpus: uno con solo títulos y otro con los textos completos (incluyendo los títulos). A continuación, se resumen los pasos realizados para obtener el corpus: Descarga de artículos en español publicados entre el 23 de agosto de 2001 y el 18 de agosto de 2020, centrados en reportes de países hispanohablantes de América Latina y lusoparlantes, que mencionaran la aparición de al menos una de las siguientes patologías: dengue, hantavirus, sarampión, síndrome de Guillain-Barré, Zika o Chagas. Limpieza de datos mediante: eliminación de metadatos con expresiones regulares, y normalización de datos (unificación del carácter separador de fecha, el formato de fecha, el separador decimal en números y el nombre de los países, entre otros). Creación y refinamiento de un esquema y una guía de anotación . Se definieron siete entidades nombradas, tres modificadores y varias relaciones binarias y ternarias entre entidades nombradas. Selección y entrenamiento de anotadores. Anotación con la herramienta brat rapid annotation tool y refinamiento de los criterios de anotación siguiendo el ciclo Model-Annotate-Model-Annotate (MAMA) . Un subconjunto de artículos fue anotado por dos anotadores para evaluar el acuerdo interanotador (inter-annotator agreement, IAA), calculado mediante la implementación del coeficiente Kappa de Cohen [8]. Para los artículos anotados por más de un anotador, se eligieron las anotaciones del anotador más experto. El corpus resultante fue analizado para conocer sus características, como el número de entidades y relaciones, y el número promedio de oraciones por artículo. Los resultados pueden consultarse en [1] (para una versión previa del corpus) y en [2] para la versión final. Data statements: El tipo de lenguaje utilizado en los textos es el habitual en los artículos periodísticos. Los artículos de ProMED son una versión abreviada de los artículos originales. Aunque cada país hispanohablante de América Latina usa el idioma de manera diferente (por ejemplo, a menudo se aplican términos distintos para referirse a los mismos conceptos), en los artículos se emplea un español estándar. No hay información disponible sobre la demografía de los editores de ProMED-mail. La anotación fue realizada por ocho hablantes nativos de español provenientes de Perú y Argentina, donde se hablan variantes diferentes del idioma. No obstante, evaluamos que este hecho no dificultó una comprensión precisa de los criterios de anotación ni de los artículos de ProMED-mail. El equipo de anotación estuvo compuesto por cinco estudiantes de maestría en ciencias de la computación, un lingüista y dos doctores en ciencias de la computación, investigadores en procesamiento del lenguaje natural con experiencia en el desarrollo de criterios de anotación y en la anotación de distintos dominios. Los anotadores no recibieron compensación económica. Search Reason Para construir el corpus, descargamos artículos de ProMED-mail [3], un sistema de reportes dedicado a la rápida difusión de información sobre epidemias de enfermedades infecciosas, entre otras. Los artículos publicados en ProMED-mail han sido editados a partir de notas periodísticas de distintos medios por un equipo interdisciplinario. Los artículos de ProMED-mail están compuestos por un título, una fecha, el texto principal y metadatos (como la fuente y el editor del artículo). Dado que los títulos de los artículos son informativos y más fáciles de procesar y anotar que los textos completos, decidimos trabajar con: 1) solo el título y la fecha del artículo (en adelante, **Título**), y 2) el texto principal del artículo, incluyendo el título y la fecha, pero excluyendo los metadatos (en adelante, **PMA** – *ProMED-mail article*). Así, nuestro corpus está compuesto por dos subcorpus: uno con solo títulos y otro con los textos completos (incluyendo los títulos). A continuación, se resumen los pasos realizados para obtener el corpus: - Descarga de artículos en español publicados entre el 23 de agosto de 2001 y el 18 de agosto de 2020, centrados en reportes de países hispanohablantes de América Latina y lusoparlantes, que mencionaran la aparición de al menos una de las siguientes patologías: dengue, hantavirus, sarampión, síndrome de Guillain-Barré, Zika o Chagas. - Limpieza de datos mediante: 1) eliminación de metadatos con expresiones regulares, y 2) normalización de datos (unificación del carácter separador de fecha, el formato de fecha, el separador decimal en números y el nombre de los países, entre otros). - Creación y refinamiento de un esquema y una guía de anotación (ver [1] para más información). Se definieron siete entidades nombradas, tres modificadores y varias relaciones binarias y ternarias entre entidades nombradas. - Selección y entrenamiento de anotadores. - Anotación con la herramienta *brat rapid annotation tool* [4] y refinamiento de los criterios de anotación siguiendo el ciclo *Model-Annotate-Model-Annotate* (MAMA) [7]. Un subconjunto de artículos fue anotado por dos anotadores para evaluar el acuerdo interanotador (*inter-annotator agreement*, IAA), calculado mediante la implementación del coeficiente Kappa de Cohen [8]. Para los artículos anotados por más de un anotador, se eligieron las anotaciones del anotador más experto. El corpus resultante fue analizado para conocer sus características, como el número de entidades y relaciones, y el número promedio de oraciones por artículo. Los resultados pueden consultarse en [1] (para una versión previa del corpus) y en [2] para la versión final. Uso de datos: Proporcionamos los artículos de ProMED-mail (PMA) anotados en dos formatos: Artículos completos (artículos de ProMED-mail sin metadatos). Títulos (también llamado conjunto de datos reducido), que incluye solo los títulos de los PMA y sus fechas de publicación. Para cada artículo completo o título de artículo, se dispone de un archivo .ann y un archivo .txt con el mismo nombre. El archivo .txt contiene el artículo original o el título con la fecha (sin metadatos). Los archivos .ann describen todas las entidades y relaciones anotadas, una por línea. Las entidades incluyen un identificador, el tipo de entidad, la posición dentro del archivo .txt y su valor (por ejemplo, Brasil en una entidad de tipo Ubicación). Las relaciones contienen un identificador, el tipo de relación y los argumentos (los identificadores de las entidades nombradas que están relacionadas). Las anotaciones pueden visualizarse con la herramienta brat rapid annotation tool agregando los archivos de configuración proporcionados o utilizarse de manera independiente. También ofrecemos los artículos anotados en formato IOB2. Ambos conjuntos de datos están divididos en conjuntos de entrenamiento y prueba. Se proporcionan enlaces para descargar: Conjunto de datos anotado reducido (solo títulos y fechas): Conjunto de entrenamiento [brat] [formato BIO] Conjunto de prueba [brat] [formato BIO] Artículos completos: Conjunto de entrenamiento [brat] [formato BIO] Conjunto de prueba [brat] [formato BIO] Archivos de configuración para brat Si utiliza estos datos, cite nuestro trabajo.
dc.datacite.DescriptionType
Información Técnica

dc.relationtype.isSourceOf
11336/217703
dc.relationtype.isSourceOf
https://aclanthology.org/2020.conll-1.44/
dc.subject.keyword
corpus
dc.subject.keyword
detección de brotes
dc.subject.keyword
América Latina
dc.datacite.resourceTypeGeneral
dataset
dc.conicet.datoinvestigacionid
24932
dc.conicet.justificacion
Latinoamerica
dc.datacite.formatedDate
2020-2022
Archivos del conjunto de datos
Archivo
Notas de uso
Tamaño