Tesis doctoral
Los sitios de redes sociales como por ejemplo MySpace, Facebook o Twitter atraen a millones de usuarios, quienes comparten información cotidiana sobre sus actividades, intereses y opiniones. Dichos sitios se caracterizan principalmente por proporcionar una forma simple de comunicación con un especial énfasis en su brevedad, la cual permite a los usuarios compartir imágenes, tweets, comentarios y mensajes en la forma de textos cortos. Asimismo, la participación de los usuarios en los medios sociales ya no se encuentra limitada a un único sitio, dado que usualmente utilizan múltiples sitios sociales, los cuales proporcionan fuentes de información heterogéneas y complementarias para la descripción de un usuario en particular, sus intereses y relaciones sociales. Una tarea que puede beneficiarse enormemente de la existencia de estas múltiples y ricas fuentes de información es el aprendizaje de texto a gran escala, el cual tiene implicaciones prácticas importantes en el desarrollo de técnicas de personalización o recomendación. Las tareas tradicionales de aprendizaje de texto se caracterizan por la alta dimensionalidad de los espacios de características o atributos a analizar. La selección de características (en inglés, feature selection) es una de las técnicas más utilizadas para reducir el impacto de la alta dimensionalidad del espacio de características en textos, el cual es reducido mediante la eliminación de aquellas características redundantes e irrelevantes. Las técnicas estándar de selección de características asumen la existencia de un conjunto fijo de instancias y, por lo tanto, de un espacio de características completamente conocido de antemano. Sin embargo, en aplicaciones del mundo real, tales suposiciones podrían no ser válidas. En estas situaciones, es necesario aplicar técnicas de selección de características online (en inglés, online feature selection) en la que las instancias y sus correspondientes características aparecen en un flujo continuo. Las técnicas de selección de características online involucran elegir un sub-conjunto de características y su correspondiente modelo de aprendizaje en diferentes momentos temporales. Sin embargo, la mayoría de los trabajos existentes en la literatura se centran en el desarrollo de soluciones batch, presentando así dificultades para adaptarse a los entornos del mundo real. El desarrollo de técnicas eficientes y escalables de selección de características online se constituye como un requerimiento muy relevante en numerosas aplicaciones sociales a gran escala. Los textos cortos acentúan los desafíos planteados por la alta dimensionalidad del espacio de características debido a su contexto limitado y raleza, la utilización de lenguaje y estilo informal, la propensión a errores ortográficos y gramaticales y la reducción de la significancia de las frecuencias de palabras, lo que aumenta las posibilidades de expresión de un único concepto. La mayoría de las técnicas de FS están diseñadas para datos que contienen entidades uniformes, es decir, características que se suponen típicamente independientes e idénticamente distribuidas. No obstante, los datos de los medios sociales no siguen esa suposición ya que las publicaciones realizadas por los usuarios no solo proporcionan información textual sino también información topológica debido a las relaciones entre dichas publicaciones y los usuarios. A su vez, la naturaleza vinculada de los datos de medios sociales hace que se añadan nuevas dimensiones (como las relaciones de amistad entre usuarios) al espacio de características. Por ejemplo, las publicaciones de un mismo usuario o de dos usuarios que comparten una relación de amistad tienen una mayor probabilidad de referirse a temas similares. La creciente cantidad de datos no solo afecta a la complejidad computacional de los algoritmos, sino que también plantea nuevos desafíos sobre cómo representar y procesar los nuevos datos y cómo efectivamente aprovecharlos para mejorar el rendimiento de las tareas de aprendizaje sobre texto. En este sentido, la disponibilidad de información de las relaciones entre los datos permite realizar investigaciones avanzadas en técnicas de FS. El propósito de esta Tesis es abordar la tarea de selección de características online para textos cortos en problemas de gran dimensionalidad, creados en forma continua. De esta forma, se podrán desarrollar nuevos y más eficientes modelos para la personalización y la recomendación de contenido en medios sociales. En particular, esta Tesis se centra en la clasificación en tiempo real de textos cortos continuamente generados en las redes sociales, a partir de la propuesta de una técnica de selección de características online basada en el análisis de factores sociales y del contenido publicado por los usuarios. A diferencia de los enfoques presentes en la literatura, que en su mayoría ignoran la naturaleza social de los datos, la técnica propuesta aprovecha las estructuras vinculadas en forma de redes compuestas por las publicaciones y los usuarios que las han escrito. La técnica se divide en dos etapas principales: la etapa de Análisis Social y la etapa de Análisis de Contenido. La etapa de Análisis Social pretende descubrir relaciones implícitas entre nuevas puestas y aquellas ya conocidas para superar los problemas derivados de la raleza inherente a los textos cortos y aumentar su contexto disponible. Luego, la etapa de Análisis de Contenido considera grupos de publicaciones socialmente relacionadas y analiza su contenido con el fin de seleccionar un conjunto de características no redundantes y relevantes para describir cada uno de los grupos descubiertos. Por último, las características seleccionadas son utilizadas para entrenamiento de diferentes modelos de aprendizaje para la clasificación de nuevas publicaciones. La evaluación experimental realizada en tres conjuntos de datos de medios sociales del mundo real demostró que la técnica OFS propuesta ayuda a mejorar los resultados de la clasificación en comparación con técnicas de selección de características tradicionales y del estado del arte tanto batch como online. Los resultados obtenidos evidenciaron la necesidad de considerar las relaciones sociales entre los usuarios para la clasificación de textos cortos en las redes sociales y sus ventajas para seleccionar el conjunto de características más relevante. Social networking sites such as MySpace, Facebook or Twitter attract millions of users, who everyday share information regarding their activities, interests and opinions. These sites are mostly characterised for providing a simple form of communication with a special emphasis on its brevity, which enables users to share pictures, tweets, comments and posts in the form of short-texts. Moreover, the social media experience of users is no longer limited to a unique site, as users might use multiple social sites, which provide heterogeneous and complementary information sources for describing a particular user, their interests and social relations. A task that can greatly benefit from the existence of these multiple and rich information sources is large-scale text learning, which have important practical implications for personalisation or recommendation technologies. Traditional text learning tasks are characterised by the high dimensionality of feature spaces. Feature selection is one of the most known and commonly used techniques for reducing the impact of the high dimensional feature space, through the removal of redundant and irrelevant features. The standard feature selection setting assumes the existence of a fixed set of instances, and therefore a feature space fully known in advance. In real-world applications, however, such assumptions might not hold. In these situations, online feature selection in which instances and their corresponding features arrive in a continuous stream, needs to be performed. Online feature selection techniques involve choosing a subset of features and its corresponding learning model at different time frames. Most studies in the literature are focused on developing batch solutions that present difficulties in adapting to real-world environments. Efficient and scalable online feature selection becomes an important requirement in numerous large-scale social applications. Short-texts accentuate the challenges posed by the high feature space dimensionality due to their limited context and sparseness, informal language and style, propensity to the existence of multiple spelling and grammatical errors, and reduction of the significance of words frequencies, which increase the possibilities for expressing a single concept. The majority of FS techniques are designed for data containing uniform entities, i.e. feature-value data, which are typically assumed to be independent and identically distributed. However, social media data does not follow that assumption as data instances does not only provide textual information but also topological information due to the relationships between posts and users. In turn, the linked nature of social media data causes new dimensions (such as friendship relations between users) to be added to the feature space. For example, posts from the same user or two linked users are more likely to have similar topics. The increasing amount of data does not only affect the computational complexity of algorithms, but also poses new challenges regarding how to represent and process the new data, and how to effectively leverage on such data for improving the performance of text learning tasks. In this regard, the availability of link information enables performing advance research in FS techniques. This Thesis aims at addressing the online feature selection task for high-dimensional short-text data arriving in a stream. Consequently, new and more effective models for personalisation and recommendation of content in social environments could be developed. Particularly, this Thesis focuses on the real-time classification of continuously generated short-texts in social networks by proposing an online feature selection approach based on the combination of social and content-based factors. Unlike the studies in the literature that ignore the social nature of data, the technique proposed leverages on the social networks comprising posts and the users who have written them. This technique is divided into two main steps: Social Analysis and Content Analysis. The Social Analysis aims at discovering implicit relations amongst new posts and already known ones in order to overcome the sparseness of short-texts and increasing their available context. Then, the Content Analysis considers groups of socially related posts, and analyses their content aiming at selecting a set of non-redundant and relevant features to describe each group of related posts. Finally, such features are used for training different learning models for classifying newly arriving posts. Experimental evaluation conducted on three real-world social media datasets demonstrated that the proposed OFS technique helps to improve classification results when compared to traditional and state-of-the-art feature selection techniques in both batch and online settings. The obtained results evidenced the necessity of considering social relations amongst users for classifying short-texts in social media, and its advantages for selecting the most relevant set of features.
Una técnica basada en el aprovechamiento de la estructura social para la selección de características online en textos cortos
Título:
A Social-aware Online Short-text Feature Selection Technique for Social Media
Tommasel, Antonela
Director:
Godoy, Daniela Lis
Fecha de publicación:
09/12/2017
Idioma:
Español
Clasificación temática:
Resumen
Palabras clave:
Feature Selection
,
Social Networks
,
Short-Text Classification
Archivos asociados
Licencia
Identificadores
Colecciones
Tesis(ISISTAN)
Tesis de INSTITUTO SUPERIOR DE INGENIERIA DEL SOFTWARE
Tesis de INSTITUTO SUPERIOR DE INGENIERIA DEL SOFTWARE
Citación
Tommasel, Antonela; Godoy, Daniela Lis; Una técnica basada en el aprovechamiento de la estructura social para la selección de características online en textos cortos; 9-12-2017
Compartir