Datos de investigación: conocé las cinco razones por las cuales todavía no publicamos un set de datos

Avanzar hacia la #CienciaAbierta a través del autoarchivo de datos de investigación es clave, pero no todos los sets de datos cumplen inicialmente con las políticas del RI CONICET Digital.


Mesa de trabajo 23-

Desde el año 2022 el Repositorio Institucional CONICET Digital cuenta con una plataforma para preservar los datos de investigación colectados o producidos en cualquier actividad científica por la Comunidad CONICET. En la actualidad la colección cuenta con casi mil sets de datos de investigación que invitan a la comunidad científica a facilitar nuevas y futuras investigaciones.

Continuar acortando la brecha al conocimiento y seguir en el camino de la #CienciaAbierta implica adoptar las buenas prácticas en el autoarchivo de sets de datos de investigación en el Banco de datos de SIGEVA, sin embargo no todos los sets cumplen en primera instancia, con lo requerido para ser publicados en el RI CONICET Digital.

Cinco razones por las cuales todavía no publicamos un set de datos

1. Autoarchivo de publicaciones que no son datos

Un set de datos de investigación no puede incluir en sus adjuntos productos finales, es decir documentos elaborados que presentan información ya procesada ya sean artículos, libros, capítulos de libros, eventos o tesis. Por otra parte no pueden incluirse manuscritos o borradores. Cada uno de esos documentos deben ser autoarchivados en la sección/apartado correspondiente del Banco de Datos SIGEVA. De esa manera serán procesados y publicados en el Repositorio.

A su vez no forman parte de un set de datos aquellos gráficos, esquemas, cuadros, figuras surgidas a partir de la interpretación subjetiva de la recolección o producción de datos de investigación, estos insumos son parte del resultado o comprensión de su análisis.

2. Titulo poco descriptivo

Uno de los requerimientos más importantes en un set de datos es que debe contener un título descriptivo, es decir, un título que represente el contenido de manera clara y concisa, así como también su propósito y el alcance del conjunto de datos. Agregar mayor contexto facilita la recuperación del set por parte de los usuarios. De esta manera, el impacto de la investigación se verá reflejado en el aumento de la visibilidad. Un set de datos puede recuperarse no solamente a través del Repositorio Institucional CONICET Digital o Google, sino también mediante otros motores de búsqueda.

Se recomienda:

  • Evitar los títulos genéricos y/o redundantes (por ejemplo no incluir Dataset, Set de datos, Datos recolectados)
  • No utilizar mayúsculas si no es necesario
  • Separar título y subtítulo con dos puntos ‘:’
  • No incluir punto final

3. Formato (extensión de archivo) incorrecto

El formato de los archivos de un set de datos de investigación puede variar según el campo de estudio y los estándares o requisitos establecidos por las organizaciones que promueven la gestión y el intercambio de datos de investigación. NO se admiten .exe por políticas de ciberseguridad.

Algunos de los formatos de archivo más comunes en diferentes áreas de conocimiento podrían ser:

  • Para Ciencias sociales y humanidades: es común el uso de formatos como CSV, Excel, SPSS y STATA. También se puede utilizar el formato XML (Lenguaje de Marcado Extensible) para la codificación de datos estructurados.
  • En Ciencias de la salud: es común el uso de formatos como DICOM , CDA y HL7, que se utilizan para compartir datos médicos y clínicos.
  • Para Biología y ciencias naturales: en estas áreas, es común el uso de formatos como FASTA (Formato de Secuencia de Ácido Nucleico), GenBank (Formato de Archivo de Secuencia de Nucleótidos) y TIFF (Formato de Archivo de Imagen con Información de Etiqueta).

Es importante tener en cuenta que cada disciplina puede tener sus propios estándares y formatos de archivo recomendados. Por lo tanto, es recomendable que se informen sobre los estándares y requisitos de su área de estudio para asegurarse de elegir formatos comunes y sustentables al campo disciplinar al que se está trabajando.

Por otra parte, se recomienda que para la preservación de los datos, los formatos sean:

  • No propietarios (es decir de uso abierto y compartido)
  • Estándares abiertos y documentados
  • Utilizados comúnmente dentro de la comunidad de investigación
  • Transmitidos mediante formas de representación estándar (ASCII, Unicode)
  • No encriptados (es decir que no esté codificado o cifrado para proteger su contenido)
  • Sin compresión

Para los datos de investigación que sigan los principios FAIR (encontrable, accesible, interoperable y reutilizable), se recomiendan los siguientes formatos:

  • Contenedores: TAR, GZIP, ZIP
  • Bases de datos: XML, CSV, JSON
  • Geoespacial: SHP, DBF, GeoTIFF, NetCDF
  • Video: MPEG, AVI, MXF, MKV
  • Sonido: WAVE, AIFF, MP3, MXF FLAC
  • Estadísticas: DTA, POR, SAS, SAV
  • Imágenes: TIFF, JPEG 2000, PDF, DNG, GIF, BMP, SVG
  • Datos tabulares: CSV, TXT
  • Texto: XML, PDF / A, HTML, JSON, TXT, RTF
  • Archivo web: WARC

4. Anonimización incompleta

La publicación de un set de datos en el Repositorio Institucional CONICET Digital requiere de anonimizar toda información sensible y/o personal que pudiera estar visible en los archivos adjuntos (Ley. 25.326). Es responsabilidad de los autores/as proceder con esta intervención como así también seleccionar el tipo de acceso que estos documentos tendrán al momento de su publicación.

5. Falta de respuesta de los autores/as

Desde el RI CONICET Digital nos hemos comunicado con los autores/as a través de emails para informales que sus sets de datos requieren modificaciones en su Banco de Datos para ser procesados y publicados en la colección de datos de investigación. Los emails contenían información detallada sobre los cambios a realizar de tal manera que si los autores/as no llevan a cabo los cambios solicitados, el set de datos queda imposibilitado para continuar su curso hasta la publicación.

Desde el Repositorio Institucional CONICET Digital los invitamos a consultar los recursos que tenemos a disposición para conocer más sobre los sets de datos de investigación:

Consultas a: repodatos@conicet.gov.ar