Mostrar el registro sencillo del ítem

dc.date.available
2023-04-19T13:05:32Z  
dc.identifier.citation
Maisonnave, Mariano; Delbianco, Fernando Andrés; Tohmé, Fernando Abel; Maguitman, Ana Gabriela; (2023): Manually Labeled Data Set for the Ongoing Event Detection Task (2,200 news extracts from the NYT Annotated Corpus with manually labeled ongoing event triggers). Consejo Nacional de Investigaciones Científicas y Técnicas. (dataset). http://hdl.handle.net/11336/194509  
dc.identifier.uri
http://hdl.handle.net/11336/194509  
dc.description.abstract
The present is a manually labeled data set for the task of Event Detection (ED). The task of ED consists of identifying event triggers, the word that most clearly indicates the occurrence of an event. The present data set consists of 2,200 news extracts from The New York Times (NYT) Annotated Corpus, separated into training (2,000) and testing (200) sets. Each news extract contains the plain text with the labels (event mentions), along with two metadata (publication date and an identifier). Labels description: We consider as event any ongoing real-world event or situation reported in the news articles. It is important to distinguish those events and situations that are in progress (or are reported as fresh events) at the moment the news is delivered from past events that are simply brought back, future events, hypothetical events, or events that will not take place. In our data set we only labeled as event the first type of event. Based on this criterion, some words that are typically considered as events are labeled as non-event triggers if they do not refer to ongoing events at the time the analyzed news is released. Take for instance the following news extract: "devaluation is not a realistic option to the current account deficit since it would only contribute to weakening the credibility of economic policies as it did during the last crisis." The only word that is labeled as event trigger in this example is "deficit" because it is the only ongoing event refereed in the news. Note that the words "devaluation", "weakening" and "crisis" could be labeled as event triggers in other news extracts, where the context of use of these words is different, but not in the given example. Further information: For a more detailed description of the data set and the data collection process please visit: https://cs.uns.edu.ar/~mmaisonnave/resources/ED_data. Data format: The dataset is split in two folders: training and testing. The first folder contains 2,000 XML files. The second folder contains 200 XML files. Each XML file has the following format. YYYYMMDDTHHMMSS ... ... ... The first three tags (pubdate, file-id and sent-idx) contain metadata information. The first one is the publication date of the news article that contained that text extract. The next two tags represent a unique identifier for the text extract. The file-id uniquely identifies a news article, that can hold several text extracts. The second one is the index that identifies that text extract inside the full article. The last tag (sentence) defines the beginning and end of the text extract. Inside that text are the tags. Each of these tags surrounds one word that was manually labeled as an event trigger.  
dc.rights
info:eu-repo/semantics/openAccess  
dc.rights.uri
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/  
dc.title
Manually Labeled Data Set for the Ongoing Event Detection Task (2,200 news extracts from the NYT Annotated Corpus with manually labeled ongoing event triggers)  
dc.type
dataset  
dc.date.updated
2023-03-13T14:37:29Z  
dc.description.fil
Fil: Maisonnave, Mariano. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Instituto de Ciencias e Ingeniería de la Computación. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Instituto de Ciencias e Ingeniería de la Computación; Argentina  
dc.description.fil
Fil: Delbianco, Fernando Andrés. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Instituto de Matemática Bahía Blanca. Universidad Nacional del Sur. Departamento de Matemática. Instituto de Matemática Bahía Blanca; Argentina  
dc.description.fil
Fil: Tohmé, Fernando Abel. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Instituto de Matemática Bahía Blanca. Universidad Nacional del Sur. Departamento de Matemática. Instituto de Matemática Bahía Blanca; Argentina  
dc.description.fil
Fil: Maguitman, Ana Gabriela. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Instituto de Ciencias e Ingeniería de la Computación. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Instituto de Ciencias e Ingeniería de la Computación; Argentina  
dc.datacite.PublicationYear
2023  
dc.datacite.Creator
Maisonnave, Mariano  
dc.datacite.Creator
Delbianco, Fernando Andrés  
dc.datacite.Creator
Tohmé, Fernando Abel  
dc.datacite.Creator
Maguitman, Ana Gabriela  
dc.datacite.affiliation
Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Instituto de Ciencias e Ingeniería de la Computación. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Instituto de Ciencias e Ingeniería de la Computación  
dc.datacite.affiliation
Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Instituto de Matemática Bahía Blanca. Universidad Nacional del Sur. Departamento de Matemática. Instituto de Matemática Bahía Blanca  
dc.datacite.affiliation
Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Instituto de Matemática Bahía Blanca. Universidad Nacional del Sur. Departamento de Matemática. Instituto de Matemática Bahía Blanca  
dc.datacite.affiliation
Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Instituto de Ciencias e Ingeniería de la Computación. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Instituto de Ciencias e Ingeniería de la Computación  
dc.datacite.affiliation
Dalhousie University Halifax  
dc.datacite.publisher
Consejo Nacional de Investigaciones Científicas y Técnicas  
dc.datacite.subject
Otras Ciencias de la Computación e Información  
dc.datacite.subject
Ciencias de la Computación e Información  
dc.datacite.subject
CIENCIAS NATURALES Y EXACTAS  
dc.datacite.ContributorType
Other  
dc.datacite.ContributorName
Evangelos, Milios  
dc.datacite.date
01/03/2019-01/07/2019  
dc.datacite.DateType
Creado  
dc.datacite.language
eng  
dc.datacite.AlternateIdentifierType
info:eu-repo/semantics/altIdentifier/doi/10.17632/7d54rvzxkr.1  
dc.datacite.AlternateIdentifierType
info:eu-repo/semantics/altIdentifier/url/https://data.mendeley.com/datasets/7d54rvzxkr  
dc.datacite.version
1.0  
dc.datacite.description
Labeled data.  
dc.datacite.DescriptionType
Otro  
dc.datacite.FunderName
Universidad Nacional del Sur  
dc.datacite.FunderName
Consejo Nacional de Investigaciones Científicas y Técnicas  
dc.datacite.FunderName
Ministerio de Ciencia. Tecnología e Innovación Productiva. Agencia Nacional de Promoción Científica y Tecnológica  
dc.relationtype.isSourceOf
https://doi.org/10.7717/peerj-cs.1066  
dc.relationtype.isSourceOf
https://doi.org/10.1016/j.eswa.2022.118257  
dc.subject.keyword
ONGOING EVENT DETECTION  
dc.subject.keyword
INFORMATION EXTRACTION  
dc.subject.keyword
DIGITAL MEDIA ANALYSIS  
dc.datacite.resourceTypeGeneral
dataset  
dc.conicet.datoinvestigacionid
5855  
dc.conicet.justificacion
Datos recolecados de la web.  
dc.datacite.formatedDate
2019