Repositorio Institucional
Repositorio Institucional
CONICET Digital
  • Inicio
  • EXPLORAR
    • AUTORES
    • DISCIPLINAS
    • COMUNIDADES
  • Estadísticas
  • Novedades
    • Noticias
    • Boletines
  • Ayuda
    • General
    • Datos de investigación
  • Acerca de
    • CONICET Digital
    • Equipo
    • Red Federal
  • Contacto
JavaScript is disabled for your browser. Some features of this site may not work without it.
  • INFORMACIÓN GENERAL
  • RESUMEN
  • ESTADISTICAS
 
Artículo

Nonuniform language in technical writing: Detection and correction

Wang, Weibo; Islam, Aminul; Moh'D, Abidalrahman; Soto, Axel JuanIcon ; Milios, Evangelos E.
Fecha de publicación: 06/03/2020
Editorial: Cambridge University Press
Revista: Natural Language Engineering
ISSN: 1351-3249
e-ISSN: 1469-8110
Idioma: Inglés
Tipo de recurso: Artículo publicado
Clasificación temática:
Ciencias de la Computación

Resumen

 
La redacción técnica en entornos profesionales, como la creación de manuales de usuario, requiere el uso de un lenguaje uniforme. El lenguaje no uniforme se refiere a oraciones en un documento técnico que pretenden tener el mismo significado dentro de un contexto similar, pero usan palabras o estilos de escritura diferentes. Abordar este problema de falta de uniformidad requiere la realización de dos tareas. La primera tarea, a la que denominamos detección de lenguaje no uniforme (NLD), es detectar tales oraciones. Proponemos un método NLD que utiliza diferentes algoritmos de similitud a nivel léxico, sintáctico, semántico y pragmático. Se extraen e integran diferentes características aplicando un método de clasificación de aprendizaje automático. La segunda tarea, a la que denominamos corrección de lenguaje no uniforme (NLC), es decidir qué oración entre las detectadas es más apropiada para ese contexto. Para abordar este problema, proponemos un método NLC que combina la eliminación de contracciones, la elección de casi sinónimo y la comparación de legibilidad del texto. Probamos nuestros métodos utilizando manuales de usuario de teléfonos inteligentes. Finalmente, comparamos nuestros métodos con los métodos más modernos en la detección de paráfrasis (para NLD) y con anotadores expertos (tanto para NLD como para NLC). Los experimentos demuestran que los métodos propuestos logran un rendimiento que coincide con los anotadores expertos.
 
Technical writing in professional environments, such as user manual authoring, requires the use of uniform language. Nonuniform language refers to sentences in a technical document that are intended to have the same meaning within a similar context, but use different words or writing style. Addressing this nonuniformity problem requires the performance of two tasks. The first task, which we named nonuniform language detection (NLD), is detecting such sentences. We propose an NLD method that utilizes different similarity algorithms at lexical, syntactic, semantic and pragmatic levels. Different features are extracted and integrated by applying a machine learning classification method. The second task, which we named nonuniform language correction (NLC), is deciding which sentence among the detected ones is more appropriate for that context. To address this problem, we propose an NLC method that combines contraction removal, near-synonym choice, and text readability comparison. We tested our methods using smartphone user manuals. We finally compared our methods against state-of-the-art methods in paraphrase detection (for NLD) and against expert annotators (for both NLD and NLC). The experiments demonstrate that the proposed methods achieve performance that matches expert annotators.
 
Palabras clave: KEYWORDS: , PARAPHRASE DETECTION , SEMANTIC SIMILARITY , SENTENCE SIMILARITY , TECHNICAL LANGUAGE , TEXT ERROR CORRECTION , TEXT ERROR DETECTION , TEXT SIMILARITY , TEXT SIMPLIFICATION
Ver el registro completo
 
Archivos asociados
Tamaño: 596.4Kb
Formato: PDF
.
Solicitar
Licencia
info:eu-repo/semantics/restrictedAccess Excepto donde se diga explícitamente, este item se publica bajo la siguiente descripción: Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Unported (CC BY-NC-SA 2.5)
Identificadores
URI: http://hdl.handle.net/11336/117461
URL: https://www.cambridge.org/core/product/identifier/S1351324920000133/type/journal
DOI: http://dx.doi.org/10.1017/S1351324920000133
Colecciones
Articulos (ICIC)
Articulos de INSTITUTO DE CS. E INGENIERIA DE LA COMPUTACION
Citación
Wang, Weibo; Islam, Aminul; Moh'D, Abidalrahman; Soto, Axel Juan; Milios, Evangelos E.; Nonuniform language in technical writing: Detection and correction; Cambridge University Press; Natural Language Engineering; 6-3-2020; 1-22
Compartir
Altmétricas
 

Enviar por e-mail
Separar cada destinatario (hasta 5) con punto y coma.
  • Facebook
  • X Conicet Digital
  • Instagram
  • YouTube
  • Sound Cloud
  • LinkedIn

Los contenidos del CONICET están licenciados bajo Creative Commons Reconocimiento 2.5 Argentina License

https://www.conicet.gov.ar/ - CONICET

Inicio

Explorar

  • Autores
  • Disciplinas
  • Comunidades

Estadísticas

Novedades

  • Noticias
  • Boletines

Ayuda

Acerca de

  • CONICET Digital
  • Equipo
  • Red Federal

Contacto

Godoy Cruz 2290 (C1425FQB) CABA – República Argentina – Tel: +5411 4899-5400 repositorio@conicet.gov.ar
TÉRMINOS Y CONDICIONES