Nonuniform language in technical writing: Detection and correction

Wang, Weibo; Islam, Aminul; Moh'D, Abidalrahman; Soto, Axel Juan; Milios, Evangelos E.

doi:10.1017/S1351324920000133

Mostrar el registro sencillo del ítem

dc.contributor.author

Wang, Weibo

dc.contributor.author

Islam, Aminul

dc.contributor.author

Moh'D, Abidalrahman

dc.contributor.author

Soto, Axel Juan Se ha confirmado la validez de este valor de autoridad por un usuario

dc.contributor.author

Milios, Evangelos E.

dc.date.available

2020-11-02T21:07:32Z

dc.date.issued

2020-03-06

dc.identifier.citation

Wang, Weibo; Islam, Aminul; Moh'D, Abidalrahman; Soto, Axel Juan; Milios, Evangelos E.; Nonuniform language in technical writing: Detection and correction; Cambridge University Press; Natural Language Engineering; 6-3-2020; 1-22

dc.identifier.issn

1351-3249

dc.identifier.uri

http://hdl.handle.net/11336/117461

dc.description.abstract

La redacción técnica en entornos profesionales, como la creación de manuales de usuario, requiere el uso de un lenguaje uniforme. El lenguaje no uniforme se refiere a oraciones en un documento técnico que pretenden tener el mismo significado dentro de un contexto similar, pero usan palabras o estilos de escritura diferentes. Abordar este problema de falta de uniformidad requiere la realización de dos tareas. La primera tarea, a la que denominamos detección de lenguaje no uniforme (NLD), es detectar tales oraciones. Proponemos un método NLD que utiliza diferentes algoritmos de similitud a nivel léxico, sintáctico, semántico y pragmático. Se extraen e integran diferentes características aplicando un método de clasificación de aprendizaje automático. La segunda tarea, a la que denominamos corrección de lenguaje no uniforme (NLC), es decidir qué oración entre las detectadas es más apropiada para ese contexto. Para abordar este problema, proponemos un método NLC que combina la eliminación de contracciones, la elección de casi sinónimo y la comparación de legibilidad del texto. Probamos nuestros métodos utilizando manuales de usuario de teléfonos inteligentes. Finalmente, comparamos nuestros métodos con los métodos más modernos en la detección de paráfrasis (para NLD) y con anotadores expertos (tanto para NLD como para NLC). Los experimentos demuestran que los métodos propuestos logran un rendimiento que coincide con los anotadores expertos.

dc.description.abstract

Technical writing in professional environments, such as user manual authoring, requires the use of uniform language. Nonuniform language refers to sentences in a technical document that are intended to have the same meaning within a similar context, but use different words or writing style. Addressing this nonuniformity problem requires the performance of two tasks. The first task, which we named nonuniform language detection (NLD), is detecting such sentences. We propose an NLD method that utilizes different similarity algorithms at lexical, syntactic, semantic and pragmatic levels. Different features are extracted and integrated by applying a machine learning classification method. The second task, which we named nonuniform language correction (NLC), is deciding which sentence among the detected ones is more appropriate for that context. To address this problem, we propose an NLC method that combines contraction removal, near-synonym choice, and text readability comparison. We tested our methods using smartphone user manuals. We finally compared our methods against state-of-the-art methods in paraphrase detection (for NLD) and against expert annotators (for both NLD and NLC). The experiments demonstrate that the proposed methods achieve performance that matches expert annotators.

dc.format

application/pdf

dc.language.iso

eng

dc.publisher

Cambridge University Press Se ha confirmado la validez de este valor de autoridad por un usuario

dc.rights

info:eu-repo/semantics/restrictedAccess

dc.rights.uri

https://creativecommons.org/licenses/by-nc-sa/2.5/ar/

dc.subject

KEYWORDS:

dc.subject

PARAPHRASE DETECTION

dc.subject

SEMANTIC SIMILARITY

dc.subject

SENTENCE SIMILARITY

dc.subject

TECHNICAL LANGUAGE

dc.subject

TEXT ERROR CORRECTION

dc.subject

TEXT ERROR DETECTION

dc.subject

TEXT SIMILARITY

dc.subject

TEXT SIMPLIFICATION

dc.subject.classification

Ciencias de la Computación Se ha confirmado la validez de este valor de autoridad por un usuario

dc.subject.classification

Ciencias de la Computación e Información Se ha confirmado la validez de este valor de autoridad por un usuario

dc.subject.classification

CIENCIAS NATURALES Y EXACTAS Se ha confirmado la validez de este valor de autoridad por un usuario

dc.title

Nonuniform language in technical writing: Detection and correction

dc.type

info:eu-repo/semantics/article

dc.type

info:ar-repo/semantics/artículo

dc.type

info:eu-repo/semantics/publishedVersion

dc.date.updated

2020-09-02T19:12:57Z

dc.identifier.eissn

1469-8110

dc.journal.pagination

1-22

dc.journal.pais

Reino Unido Se ha confirmado la validez de este valor de autoridad por un usuario

dc.journal.ciudad

Cambridge

dc.description.fil

Fil: Wang, Weibo. Dalhousie University. Faculty of Computer Science; Canadá. Dash Hudson; Canadá

dc.description.fil

Fil: Islam, Aminul. University of Louisiana at Lafayette. School of Computing and Informatics; Estados Unidos

dc.description.fil

Fil: Moh'D, Abidalrahman. University of Illinois; Estados Unidos

dc.description.fil

Fil: Soto, Axel Juan. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Instituto de Ciencias e Ingeniería de la Computación. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Instituto de Ciencias e Ingeniería de la Computación; Argentina

dc.description.fil

Fil: Milios, Evangelos E.. Dalhousie University. Faculty of Computer Science; Canadá

dc.journal.title

Natural Language Engineering

dc.relation.alternativeid

info:eu-repo/semantics/altIdentifier/url/https://www.cambridge.org/core/product/identifier/S1351324920000133/type/journal_article

dc.relation.alternativeid

info:eu-repo/semantics/altIdentifier/doi/http://dx.doi.org/10.1017/S1351324920000133

Archivos asociados

Tamaño: 596.4Kb

Formato: PDF

Solicitar