Mostrar el registro sencillo del ítem

dc.contributor.author
Pérez, Juan Manuel  
dc.contributor.author
Aleman, Damián Eliel  
dc.contributor.author
Kalinowski, Santiago  
dc.contributor.author
Gravano, Agustin  
dc.date.available
2023-07-24T12:27:01Z  
dc.date.issued
2022-09  
dc.identifier.citation
Pérez, Juan Manuel; Aleman, Damián Eliel; Kalinowski, Santiago; Gravano, Agustin; Exploiting user-frequency information for mining regionalisms in Argentinian Spanish from Twitter; Sociedad Española para el Procesamiento del Lenguaje Natural; Revista de la Sociedad Española para el Procesamiento del Lenguaje Natural; 69; 9-2022; 51-62  
dc.identifier.issn
1135-5948  
dc.identifier.uri
http://hdl.handle.net/11336/204948  
dc.description.abstract
The task of detecting regionalisms (expressions or words used in certain regions) has traditionally relied on the use of questionnaires and surveys, heavily depending on the expertise and intuition of the surveyor. The emergence of social media and microblogging services has produced an unprecedented wealth of content (mainly informal text generated by users), opening new opportunities for linguists to extend their studies of language variation. Previous work on the automatic detection of regionalisms depended mostly on word frequencies. In this work, we present a novel metric based on Information Theory that incorporates user frequency. We tested this metric on a corpus of Argentinian Spanish tweets in two ways: via manual annotation of the relevance of the retrieved terms, and also as a feature selection method for geolocation of users. In either case, our metric outperformed other techniques based on word frequency, suggesting that measuring the amount of users that use a word is an informative feature. This tool has helped lexicographers discover several unregistered words of Argentinian Spanish, as well as different meanings assigned to registered words.  
dc.description.abstract
La tarea de detección de regionalismos (expresiones o palabras utilizadas en determinadas regiones) se ha basado tradicionalmente en el uso de cuestionarios y encuestas, dependiendo en gran medida de la experiencia e intuición del encuestador. El surgimiento de las redes sociales y los servicios de microblogging ha producido una riqueza de contenido sin precedentes (principalmente texto informal generado por los usuarios), lo que abre nuevas oportunidades para que los lingüistas amplíen sus estudios sobre la variación lingüística. El trabajo previo sobre la detección automática de regionalismos dependía principalmente de las frecuencias de las palabras. En este trabajo presentamos una métrica novedosa basada en la Teoría de la Información que incorpora la frecuencia del usuario. Probamos esta métrica en un corpus de tuits en español argentino de dos maneras: a través de la anotación manual de la relevancia de los términos recuperados y también como un método de selección de características para la geolocalización de los usuarios. En cualquier caso, nuestra métrica superó otras técnicas basadas en la frecuencia de palabras, lo que sugiere que medir la cantidad de usuarios que usan una palabra es una característica informativa. Esta herramienta ha ayudado a los lexicógrafos a descubrir varias palabras no registradas del español argentino, así como diferentes significados asignados a las palabras registradas.  
dc.format
application/pdf  
dc.language.iso
eng  
dc.publisher
Sociedad Española para el Procesamiento del Lenguaje Natural  
dc.rights
info:eu-repo/semantics/openAccess  
dc.rights.uri
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/  
dc.subject
Lexical dialectology  
dc.subject
Social media  
dc.subject
Spanish variants  
dc.subject
Entropy  
dc.subject.classification
Otras Ciencias de la Computación e Información  
dc.subject.classification
Ciencias de la Computación e Información  
dc.subject.classification
CIENCIAS NATURALES Y EXACTAS  
dc.title
Exploiting user-frequency information for mining regionalisms in Argentinian Spanish from Twitter  
dc.title
Explotando información de frecuencia de usuarios para minar regionalismos del español de Argentina en Twitter  
dc.type
info:eu-repo/semantics/article  
dc.type
info:ar-repo/semantics/artículo  
dc.type
info:eu-repo/semantics/publishedVersion  
dc.date.updated
2023-07-07T22:16:54Z  
dc.identifier.eissn
1989-7553  
dc.journal.volume
69  
dc.journal.pagination
51-62  
dc.journal.pais
España  
dc.journal.ciudad
Jaén  
dc.description.fil
Fil: Pérez, Juan Manuel. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Departamento de Computación; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigación en Ciencias de la Computación. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigación en Ciencias de la Computación; Argentina  
dc.description.fil
Fil: Aleman, Damián Eliel. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Departamento de Computación; Argentina  
dc.description.fil
Fil: Kalinowski, Santiago. Academia Argentina de Letras; Argentina  
dc.description.fil
Fil: Gravano, Agustin. Consejo Nacional de Investigaciones Científicas y Técnicas; Argentina. Universidad Torcuato Di Tella; Argentina  
dc.journal.title
Revista de la Sociedad Española para el Procesamiento del Lenguaje Natural  
dc.relation.alternativeid
info:eu-repo/semantics/altIdentifier/url/http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6427  
dc.relation.alternativeid
info:eu-repo/semantics/altIdentifier/doi/http://dx.doi.org/10.26342/2022-69-4