Mostrar el registro sencillo del ítem
dc.date.available
2023-07-04T20:01:09Z
dc.identifier.citation
Gindin, Irene Lis; Rostagno, José Francisco; Cardoso, Ana Laura; (2023): Aplicación de modelo de aprendizaje automático supervisado sobre un conjunto de tweets producidos durante los alegatos contra Fernández de Kirchner (julio y agosto 2022). Consejo Nacional de Investigaciones Científicas y Técnicas. (dataset). http://hdl.handle.net/11336/202366
dc.identifier.uri
http://hdl.handle.net/11336/202366
dc.description.abstract
La recolección de tweets se realizó entre el 27 de julio al 3 de agosto; del 8 al 10 de agosto; el 16 de agosto; del 18 al 23 de agosto. Los tweets se recogieron a partir de ciertas palabras clave y hashtags preseleccionados por el equipo. Las palabras clave fueron: lawfare, alegatos, Luciani, obra pública, vialidad, fiscalía. Y, en cuanto a los hashtags, se contemplaron: #TodosConCristina, #CristinaPresa, #CristinaCondenada, #TodoslosCHORROSconCristina, #CFKLadronaDeLaNacionArgentina, #ElPoderJudicialApesta, #LucianiNoTienePruebas, #LucianiNoSeToca. A su vez, el corpus se conformó, también, de todos aquellos tweets en los que la cuenta de CFK y la del actual presidente Alberto Fernández fueran mencionadas. Aquí se muestran los resultados de la aplicación de un modelo de aprendizaje automático supervisado que, a partir de 20 variables distintas , permite identificar cuentas que pueden ser consideradas bots. Lo realizamos sobre los tweets que contenían los hashtags #TodosConCristina y #ElPoderJudicialApesta. Mostramos, a este respecto, el antes y el después de la aplicación del modelo.
dc.rights
info:eu-repo/semantics/openAccess
dc.rights.uri
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
dc.title
Aplicación de modelo de aprendizaje automático supervisado sobre un conjunto de tweets producidos durante los alegatos contra Fernández de Kirchner (julio y agosto 2022)
dc.type
dataset
dc.date.updated
2023-07-03T16:57:28Z
dc.description.fil
Fil: Gindin, Irene Lis. Consejo Nacional de Investigaciones Científicas y Técnicas; Argentina
dc.description.fil
Fil: Rostagno, José Francisco. Universidad Tecnológica Nacional. Facultad Regional Rosario; Argentina
dc.description.fil
Fil: Cardoso, Ana Laura. Universidad Tecnológica Nacional. Facultad Regional Rosario; Argentina
dc.datacite.PublicationYear
2023
dc.datacite.Creator
Gindin, Irene Lis
dc.datacite.Creator
Rostagno, José Francisco
dc.datacite.Creator
Cardoso, Ana Laura
dc.datacite.affiliation
Consejo Nacional de Investigaciones Científicas y Técnicas
dc.datacite.affiliation
Universidad Tecnológica Nacional. Facultad Regional Rosario
dc.datacite.affiliation
Universidad Tecnológica Nacional. Facultad Regional Rosario
dc.datacite.publisher
Consejo Nacional de Investigaciones Científicas y Técnicas
dc.datacite.subject
Otras Comunicación y Medios
dc.datacite.subject
Comunicación y Medios
dc.datacite.subject
CIENCIAS SOCIALES
dc.datacite.subject
Ingeniería de Sistemas y Comunicaciones
dc.datacite.subject
Ingeniería Eléctrica, Ingeniería Electrónica e Ingeniería de la Información
dc.datacite.subject
INGENIERÍAS Y TECNOLOGÍAS
dc.datacite.date
2023
dc.datacite.DateType
Creado
dc.datacite.language
spa
dc.datacite.version
1.0
dc.datacite.description
La recolección del material se realizó mediante un pequeño script (programa de computadora) desarrollado por el equipo de trabajo utilizando el lenguaje de programación Python en conjunto con la librería de software libre denominada Tweepy, que permite conectarse a Twitter y escuchar en tiempo real los tweets publicados. Posteriormente, los tweets recolectados fueron almacenados en una base de datos MySQL con el fin de poder conformar el corpus de estudio y procesarlo mediante scripts en lenguaje SQL y R. Al tratarse de un corpus voluminoso –alrededor de un millón de tweets, junto con sus metadatos– se requiere del uso de herramientas especializadas como las mencionadas para poder transformarlos y analizarlos con el fin de obtener información valiosa de los mismos. Ante la gran cantidad de tweets de producción maquínica, decidimos la aplicación de un modelo de aprendizaje automático supervisado que, a partir de 20 variables distintas , permite identificar cuentas que pueden ser consideradas bots. Es menester recalcar que la aplicación del modelo no se realiza sobre el recorte temporal realizado –es decir, los tweets que forman nuestro corpus– sino sobre los usuarios. El modelo aplicado arroja como resultado la probabilidad que tiene un usuario de ser considerado bot, por lo que establecimos un umbral de 50% o más para considerarlo como tal en nuestro análisis.
dc.datacite.DescriptionType
Métodos
dc.relationtype.isSourceOf
https://ri.conicet.gov.ar/handle/11336/210297
dc.subject.keyword
TWITTER
dc.subject.keyword
DISCURSOS
dc.subject.keyword
BOT
dc.datacite.resourceTypeGeneral
dataset
dc.conicet.datoinvestigacionid
9348
dc.datacite.geolocation
Argentina
dc.datacite.formatedDate
2023
Archivos del conjunto de datos
Archivo
Notas de uso
Tamaño