Mostrar el registro sencillo del ítem

dc.contributor.author
Valentini, Francisco Tomás  
dc.contributor.author
Cotik, Viviana Erica  
dc.contributor.author
Furman, Damián Ariel  
dc.contributor.author
Bercovich, Ivan  
dc.contributor.author
Altszyler Lemcovich, Edgar Jaim  
dc.contributor.author
Pérez, Juan Manuel  
dc.date.available
2025-04-14T10:40:56Z  
dc.date.issued
2024-09  
dc.identifier.citation
Valentini, Francisco Tomás; Cotik, Viviana Erica; Furman, Damián Ariel; Bercovich, Ivan; Altszyler Lemcovich, Edgar Jaim; et al.; MessIRve: A Large-Scale Spanish Information Retrieval Dataset; Cornell University; arXiv; 9-2024; 1-13  
dc.identifier.issn
2331-8422  
dc.identifier.uri
http://hdl.handle.net/11336/258637  
dc.description.abstract
Information retrieval (IR) is the task of finding relevant documents in response to a user query. Although Spanish is the second most spoken native language, current IR benchmarks lack Spanish data, hindering the development of information access tools for Spanish speakers. We introduce MessIRve, a large-scale Spanish IR dataset with around 730 thousand queries from Google’s autocomplete API and relevant documents sourced from Wikipedia. MessIRve’s queries reflect diverse Spanishspeaking regions, unlike other datasets that are translated from English or do not consider dialectal variations. The large size of the dataset allows it to cover a wide variety of topics, unlike smaller datasets. We provide a comprehensive description of the dataset, comparisons with existing datasets, and baseline evaluations of prominent IR models. Our contributions aim to advance Spanish IR research and improve information access for Spanish speakers.  
dc.format
application/pdf  
dc.language.iso
eng  
dc.publisher
Cornell University  
dc.rights
info:eu-repo/semantics/openAccess  
dc.rights.uri
https://creativecommons.org/licenses/by/2.5/ar/  
dc.subject
INFORMATION RETRIEVAL  
dc.subject
RESOURCES AND EVALUATION  
dc.subject
NATURAL LANGUAGE PROCESSING  
dc.subject
NLP DATASETS  
dc.subject.classification
Ciencias de la Computación  
dc.subject.classification
Ciencias de la Computación e Información  
dc.subject.classification
CIENCIAS NATURALES Y EXACTAS  
dc.title
MessIRve: A Large-Scale Spanish Information Retrieval Dataset  
dc.type
info:eu-repo/semantics/article  
dc.type
info:ar-repo/semantics/artículo  
dc.type
info:eu-repo/semantics/publishedVersion  
dc.date.updated
2025-04-14T10:35:19Z  
dc.journal.pagination
1-13  
dc.journal.pais
Estados Unidos  
dc.journal.ciudad
Ithaca  
dc.description.fil
Fil: Valentini, Francisco Tomás. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigación en Ciencias de la Computación. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigación en Ciencias de la Computación; Argentina  
dc.description.fil
Fil: Cotik, Viviana Erica. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigación en Ciencias de la Computación. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigación en Ciencias de la Computación; Argentina. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Departamento de Computación; Argentina  
dc.description.fil
Fil: Furman, Damián Ariel. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigación en Ciencias de la Computación. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigación en Ciencias de la Computación; Argentina  
dc.description.fil
Fil: Bercovich, Ivan. University of California; Estados Unidos  
dc.description.fil
Fil: Altszyler Lemcovich, Edgar Jaim. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigación en Ciencias de la Computación. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigación en Ciencias de la Computación; Argentina. Quantit; Argentina  
dc.description.fil
Fil: Pérez, Juan Manuel. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigación en Ciencias de la Computación. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigación en Ciencias de la Computación; Argentina  
dc.journal.title
arXiv  
dc.relation.alternativeid
info:eu-repo/semantics/altIdentifier/url/https://arxiv.org/abs/2409.05994  
dc.relation.alternativeid
info:eu-repo/semantics/altIdentifier/doi/https://doi.org/10.48550/arXiv.2409.05994