Artículo
La redacción técnica en entornos profesionales, como la creación de manuales de usuario, requiere el uso de un lenguaje uniforme. El lenguaje no uniforme se refiere a oraciones en un documento técnico que pretenden tener el mismo significado dentro de un contexto similar, pero usan palabras o estilos de escritura diferentes. Abordar este problema de falta de uniformidad requiere la realización de dos tareas. La primera tarea, a la que denominamos detección de lenguaje no uniforme (NLD), es detectar tales oraciones. Proponemos un método NLD que utiliza diferentes algoritmos de similitud a nivel léxico, sintáctico, semántico y pragmático. Se extraen e integran diferentes características aplicando un método de clasificación de aprendizaje automático. La segunda tarea, a la que denominamos corrección de lenguaje no uniforme (NLC), es decidir qué oración entre las detectadas es más apropiada para ese contexto. Para abordar este problema, proponemos un método NLC que combina la eliminación de contracciones, la elección de casi sinónimo y la comparación de legibilidad del texto. Probamos nuestros métodos utilizando manuales de usuario de teléfonos inteligentes. Finalmente, comparamos nuestros métodos con los métodos más modernos en la detección de paráfrasis (para NLD) y con anotadores expertos (tanto para NLD como para NLC). Los experimentos demuestran que los métodos propuestos logran un rendimiento que coincide con los anotadores expertos. Technical writing in professional environments, such as user manual authoring, requires the use of uniform language. Nonuniform language refers to sentences in a technical document that are intended to have the same meaning within a similar context, but use different words or writing style. Addressing this nonuniformity problem requires the performance of two tasks. The first task, which we named nonuniform language detection (NLD), is detecting such sentences. We propose an NLD method that utilizes different similarity algorithms at lexical, syntactic, semantic and pragmatic levels. Different features are extracted and integrated by applying a machine learning classification method. The second task, which we named nonuniform language correction (NLC), is deciding which sentence among the detected ones is more appropriate for that context. To address this problem, we propose an NLC method that combines contraction removal, near-synonym choice, and text readability comparison. We tested our methods using smartphone user manuals. We finally compared our methods against state-of-the-art methods in paraphrase detection (for NLD) and against expert annotators (for both NLD and NLC). The experiments demonstrate that the proposed methods achieve performance that matches expert annotators.
Nonuniform language in technical writing: Detection and correction
Fecha de publicación:
06/03/2020
Editorial:
Cambridge University Press
Revista:
Natural Language Engineering
ISSN:
1351-3249
e-ISSN:
1469-8110
Idioma:
Inglés
Tipo de recurso:
Artículo publicado
Clasificación temática:
Resumen
Archivos asociados
Licencia
Identificadores
Colecciones
Articulos (ICIC)
Articulos de INSTITUTO DE CS. E INGENIERIA DE LA COMPUTACION
Articulos de INSTITUTO DE CS. E INGENIERIA DE LA COMPUTACION
Citación
Wang, Weibo; Islam, Aminul; Moh'D, Abidalrahman; Soto, Axel Juan; Milios, Evangelos E.; Nonuniform language in technical writing: Detection and correction; Cambridge University Press; Natural Language Engineering; 6-3-2020; 1-22
Compartir
Altmétricas