Repositorio Institucional
Repositorio Institucional
CONICET Digital
  • Inicio
  • EXPLORAR
    • AUTORES
    • DISCIPLINAS
    • COMUNIDADES
  • Estadísticas
  • Novedades
    • Noticias
    • Boletines
  • Ayuda
    • General
    • Datos de investigación
  • Acerca de
    • CONICET Digital
    • Equipo
    • Red Federal
  • Contacto
JavaScript is disabled for your browser. Some features of this site may not work without it.
  • INFORMACIÓN GENERAL
  • RESUMEN
  • ESTADISTICAS
 
Artículo

Exploiting user-frequency information for mining regionalisms in Argentinian Spanish from Twitter

Título: Explotando información de frecuencia de usuarios para minar regionalismos del español de Argentina en Twitter
Pérez, Juan ManuelIcon ; Aleman, Damián Eliel; Kalinowski, Santiago; Gravano, AgustinIcon
Fecha de publicación: 09/2022
Editorial: Sociedad Española para el Procesamiento del Lenguaje Natural
Revista: Revista de la Sociedad Española para el Procesamiento del Lenguaje Natural
ISSN: 1135-5948
e-ISSN: 1989-7553
Idioma: Inglés
Tipo de recurso: Artículo publicado
Clasificación temática:
Otras Ciencias de la Computación e Información

Resumen

 
The task of detecting regionalisms (expressions or words used in certain regions) has traditionally relied on the use of questionnaires and surveys, heavily depending on the expertise and intuition of the surveyor. The emergence of social media and microblogging services has produced an unprecedented wealth of content (mainly informal text generated by users), opening new opportunities for linguists to extend their studies of language variation. Previous work on the automatic detection of regionalisms depended mostly on word frequencies. In this work, we present a novel metric based on Information Theory that incorporates user frequency. We tested this metric on a corpus of Argentinian Spanish tweets in two ways: via manual annotation of the relevance of the retrieved terms, and also as a feature selection method for geolocation of users. In either case, our metric outperformed other techniques based on word frequency, suggesting that measuring the amount of users that use a word is an informative feature. This tool has helped lexicographers discover several unregistered words of Argentinian Spanish, as well as different meanings assigned to registered words.
 
La tarea de detección de regionalismos (expresiones o palabras utilizadas en determinadas regiones) se ha basado tradicionalmente en el uso de cuestionarios y encuestas, dependiendo en gran medida de la experiencia e intuición del encuestador. El surgimiento de las redes sociales y los servicios de microblogging ha producido una riqueza de contenido sin precedentes (principalmente texto informal generado por los usuarios), lo que abre nuevas oportunidades para que los lingüistas amplíen sus estudios sobre la variación lingüística. El trabajo previo sobre la detección automática de regionalismos dependía principalmente de las frecuencias de las palabras. En este trabajo presentamos una métrica novedosa basada en la Teoría de la Información que incorpora la frecuencia del usuario. Probamos esta métrica en un corpus de tuits en español argentino de dos maneras: a través de la anotación manual de la relevancia de los términos recuperados y también como un método de selección de características para la geolocalización de los usuarios. En cualquier caso, nuestra métrica superó otras técnicas basadas en la frecuencia de palabras, lo que sugiere que medir la cantidad de usuarios que usan una palabra es una característica informativa. Esta herramienta ha ayudado a los lexicógrafos a descubrir varias palabras no registradas del español argentino, así como diferentes significados asignados a las palabras registradas.
 
Palabras clave: Lexical dialectology , Social media , Spanish variants , Entropy
Ver el registro completo
 
Archivos asociados
Thumbnail
 
Tamaño: 1.329Mb
Formato: PDF
.
Descargar
Licencia
info:eu-repo/semantics/openAccess Excepto donde se diga explícitamente, este item se publica bajo la siguiente descripción: Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Unported (CC BY-NC-SA 2.5)
Identificadores
URI: http://hdl.handle.net/11336/204948
URL: http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6427
DOI: http://dx.doi.org/10.26342/2022-69-4
Colecciones
Articulos(ICC)
Articulos de INSTITUTO DE INVESTIGACION EN CIENCIAS DE LA COMPUTACION
Articulos(SEDE CENTRAL)
Articulos de SEDE CENTRAL
Citación
Pérez, Juan Manuel; Aleman, Damián Eliel; Kalinowski, Santiago; Gravano, Agustin; Exploiting user-frequency information for mining regionalisms in Argentinian Spanish from Twitter; Sociedad Española para el Procesamiento del Lenguaje Natural; Revista de la Sociedad Española para el Procesamiento del Lenguaje Natural; 69; 9-2022; 51-62
Compartir
Altmétricas
 

Enviar por e-mail
Separar cada destinatario (hasta 5) con punto y coma.
  • Facebook
  • X Conicet Digital
  • Instagram
  • YouTube
  • Sound Cloud
  • LinkedIn

Los contenidos del CONICET están licenciados bajo Creative Commons Reconocimiento 2.5 Argentina License

https://www.conicet.gov.ar/ - CONICET

Inicio

Explorar

  • Autores
  • Disciplinas
  • Comunidades

Estadísticas

Novedades

  • Noticias
  • Boletines

Ayuda

Acerca de

  • CONICET Digital
  • Equipo
  • Red Federal

Contacto

Godoy Cruz 2290 (C1425FQB) CABA – República Argentina – Tel: +5411 4899-5400 repositorio@conicet.gov.ar
TÉRMINOS Y CONDICIONES