Mostrar el registro sencillo del ítem
dc.contributor.author
Wang, Weibo
dc.contributor.author
Islam, Aminul
dc.contributor.author
Moh'D, Abidalrahman
dc.contributor.author
Soto, Axel Juan
dc.contributor.author
Milios, Evangelos E.
dc.date.available
2020-11-02T21:07:32Z
dc.date.issued
2020-03-06
dc.identifier.citation
Wang, Weibo; Islam, Aminul; Moh'D, Abidalrahman; Soto, Axel Juan; Milios, Evangelos E.; Nonuniform language in technical writing: Detection and correction; Cambridge University Press; Natural Language Engineering; 6-3-2020; 1-22
dc.identifier.issn
1351-3249
dc.identifier.uri
http://hdl.handle.net/11336/117461
dc.description.abstract
La redacción técnica en entornos profesionales, como la creación de manuales de usuario, requiere el uso de un lenguaje uniforme. El lenguaje no uniforme se refiere a oraciones en un documento técnico que pretenden tener el mismo significado dentro de un contexto similar, pero usan palabras o estilos de escritura diferentes. Abordar este problema de falta de uniformidad requiere la realización de dos tareas. La primera tarea, a la que denominamos detección de lenguaje no uniforme (NLD), es detectar tales oraciones. Proponemos un método NLD que utiliza diferentes algoritmos de similitud a nivel léxico, sintáctico, semántico y pragmático. Se extraen e integran diferentes características aplicando un método de clasificación de aprendizaje automático. La segunda tarea, a la que denominamos corrección de lenguaje no uniforme (NLC), es decidir qué oración entre las detectadas es más apropiada para ese contexto. Para abordar este problema, proponemos un método NLC que combina la eliminación de contracciones, la elección de casi sinónimo y la comparación de legibilidad del texto. Probamos nuestros métodos utilizando manuales de usuario de teléfonos inteligentes. Finalmente, comparamos nuestros métodos con los métodos más modernos en la detección de paráfrasis (para NLD) y con anotadores expertos (tanto para NLD como para NLC). Los experimentos demuestran que los métodos propuestos logran un rendimiento que coincide con los anotadores expertos.
dc.description.abstract
Technical writing in professional environments, such as user manual authoring, requires the use of uniform language. Nonuniform language refers to sentences in a technical document that are intended to have the same meaning within a similar context, but use different words or writing style. Addressing this nonuniformity problem requires the performance of two tasks. The first task, which we named nonuniform language detection (NLD), is detecting such sentences. We propose an NLD method that utilizes different similarity algorithms at lexical, syntactic, semantic and pragmatic levels. Different features are extracted and integrated by applying a machine learning classification method. The second task, which we named nonuniform language correction (NLC), is deciding which sentence among the detected ones is more appropriate for that context. To address this problem, we propose an NLC method that combines contraction removal, near-synonym choice, and text readability comparison. We tested our methods using smartphone user manuals. We finally compared our methods against state-of-the-art methods in paraphrase detection (for NLD) and against expert annotators (for both NLD and NLC). The experiments demonstrate that the proposed methods achieve performance that matches expert annotators.
dc.format
application/pdf
dc.language.iso
eng
dc.publisher
Cambridge University Press
dc.rights
info:eu-repo/semantics/restrictedAccess
dc.rights.uri
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
dc.subject
KEYWORDS:
dc.subject
PARAPHRASE DETECTION
dc.subject
SEMANTIC SIMILARITY
dc.subject
SENTENCE SIMILARITY
dc.subject
TECHNICAL LANGUAGE
dc.subject
TEXT ERROR CORRECTION
dc.subject
TEXT ERROR DETECTION
dc.subject
TEXT SIMILARITY
dc.subject
TEXT SIMPLIFICATION
dc.subject.classification
Ciencias de la Computación
dc.subject.classification
Ciencias de la Computación e Información
dc.subject.classification
CIENCIAS NATURALES Y EXACTAS
dc.title
Nonuniform language in technical writing: Detection and correction
dc.type
info:eu-repo/semantics/article
dc.type
info:ar-repo/semantics/artículo
dc.type
info:eu-repo/semantics/publishedVersion
dc.date.updated
2020-09-02T19:12:57Z
dc.identifier.eissn
1469-8110
dc.journal.pagination
1-22
dc.journal.pais
Reino Unido
dc.journal.ciudad
Cambridge
dc.description.fil
Fil: Wang, Weibo. Dalhousie University. Faculty of Computer Science; Canadá. Dash Hudson; Canadá
dc.description.fil
Fil: Islam, Aminul. University of Louisiana at Lafayette. School of Computing and Informatics; Estados Unidos
dc.description.fil
Fil: Moh'D, Abidalrahman. University of Illinois; Estados Unidos
dc.description.fil
Fil: Soto, Axel Juan. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Instituto de Ciencias e Ingeniería de la Computación. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Instituto de Ciencias e Ingeniería de la Computación; Argentina
dc.description.fil
Fil: Milios, Evangelos E.. Dalhousie University. Faculty of Computer Science; Canadá
dc.journal.title
Natural Language Engineering
dc.relation.alternativeid
info:eu-repo/semantics/altIdentifier/url/https://www.cambridge.org/core/product/identifier/S1351324920000133/type/journal_article
dc.relation.alternativeid
info:eu-repo/semantics/altIdentifier/doi/http://dx.doi.org/10.1017/S1351324920000133
Archivos asociados