Ir al contenido principal
Logo Ciencia Abierta

Publicar datos de investigación: Zenodo-Comunidad Universidad Politécnica de Cartagena

Antes de publicar datos de investigación se han de tener en cuenta una serie de aspectos clave, como el nombrado y tipo de ficheros, la organización de éstos, la depuración y la anonimización y seudonimización.

Nombrado de ficheros

Para entender y usar mejor los datos de investigación en el futuro, es importante nombrar y organizar los archivos que los guardan de manera adecuada, por esto se recomienda:

  • Establecer una estructura jerárquica clara, usando carpetas para organizar los datos.
  • Implementar un método de nombramiento unificado y lógico para todos los archivos.
  • Incluir los datos en formato estandarizado( p.e. fecha,   aaaa-mm-dd)​
  • Utilizar abreviaturas significativas​
  • Indicar tipo de fichero​
  • Usar identificadores de personas/grupo​
  • Indicar versión​
  • Clasificar los datos de lo más general a lo más específico, lo que facilita encontrarlos. Por ejemplo: FY2009_Acme-Corp_Q3_TrialBal_20091015_V02.xls
  • Evitar nombres demasiado largos que puedan causar problemas en algunos programas.
  • Evitar el uso de símbolos como ~ ¡ ! @ # $ % ^ & * ( ) ` ; < > ¿ ? , [ ] { } ' " |
  • Usar guiones bajos (_) en lugar de espacios.
  • En archivos con varias versiones, añadir un número de versión al final, como v01, v02, etc. Para la versión definitiva, terminar el nombre del archivo con "FINAL".

Existen herramientas que facitan la tarea de renombrar múltiples ficheros:

Tipos de fichero

La elección del formato y el software para generar y digitalizar los datos de investigación a menudo varía según el tipo de análisis que el investigador necesite realizar, el equipo que use, la disponibilidad de diferentes programas informáticos, o incluso las prácticas habituales en un campo de estudio concreto.

Aunque los investigadores seleccionen el formato de datos y el software que mejor se adapte a sus necesidades analíticas, una vez completado el análisis, deberían convertirse en formatos más universales y perdurables para su almacenamiento.

Para asegurar el acceso y conservación a largo plazo de los datos se recomienda el uso de formatos abiertos y no restringidos en la medida de lo posible. El formato seleccionado debe facilitar la indexación de los contenidos para su futura recuperación. Utilizar un formato de compresión de datos ahorra espacio de almacenamiento. El formato elegido debe ser un estándar (tipos MIME IANA) o un estándar de facto reconocido por la comunidad investigadora.

A continuación, se presentan una serie de formatos de archivo recomendados según el tipo de datos que contienen:

  • Bases de datos: XML, CSV
  • Texto: TXT, ODT, RTF, XML
  • Estadísticas: ASCII, DTA, POR, SAS, SAV
  • Datos tabulados: CSV, TSV
  • Geoespaciales: SHP, DBF, GeoTIFF, NetCDF
  • Vídeo: OGG, MP4
  • Sonido: FLAC, WAV, AIFF, MP3
  • Imágenes: TIFF, BMP
  • Archivos comprimidos: Sólo si es imprescindible.

Información adicional: Guía práctica para la publicación de datos tabulares en archivos csv. 

Herramienta para refinado y conversión de datos datos:  OpenRefine

Anonimización y seudonimización

Los datos publicados no deben contener información mediante la cual puedan obtenerse detalles confidenciales. Prestar especial cuidado a los datos personales, no tomarlos si no son estrictamente necesarios para la investigación y en su caso pedir consentimiento informado e inequívoco.

Algunas de las estrategias empleadas para modificar datos para mantener la confidencialidad y compartirlos son: 

  • Agregación: Esta implica combinar categorías afines, generalmente dentro de una rama compartida de una jerarquía, para ofrecer información a un nivel más amplio que las observaciones detalladas, según la definición de la OCDE. En el contexto de datos geográficos, es frecuente realizar agregaciones a una unidad superior, especialmente cuando la información se considera sensible o reveladora. Por ejemplo, se puede agregar la información a nivel de código postal por sector.
  • Anonimización: En esta técnica, se eliminan de los casos los datos identificadores, como nombres y direcciones.
  • Seudonimización: Esta técnica se utiliza comúnmente para resguardar las identidades en datos cualitativos.
  • Perturbación: Se trata de una estrategia que introduce una distorsión deliberada a nivel de las celdas de datos, típicamente empleada en censos de población.

La Agencia de Protección de datos dispone una guía básica de anonimización y la nota técnica sobre la k-anonimidad.
 

Por su parte, OpenAire facilia la herramienta Amnesia para la anonimización de datos.

  • Sala 1, Campus Alfonso XIII
  • Paseo Alfonso XIII, 48
  • Teléfono 968 32 5505
  • 30203 Cartagena
  • Sala 2, Campus Muralla del Mar
  • Plaza del Hospital, 1
  • Teléfono 968 33 8864
  • 30202 Cartagena
  • craibiblioteca@upct.es
  • Sala 3, Campus CIM
  • Calle Real, 3
  • Teléfono 868 07 1041
  • 30201 Cartagena

© UNIVERSIDAD POLITÉCNICA DE CARTAGENA - Pza. del Cronista Isidoro Valverde, Edif. La Milagrosa, CP. 30202 Cartagena. Tlf: 968 32 54 00.