Biblioguías: Publicar datos de investigación: Zenodo-Comunidad Universidad Politécnica de Cartagena: Antes de publicar

Nombrado de ficheros

Para entender y usar mejor los datos de investigación en el futuro, es importante nombrar y organizar los archivos que los guardan de manera adecuada, por esto se recomienda:

Establecer una estructura jerárquica clara, usando carpetas para organizar los datos.
Implementar un método de nombramiento unificado y lógico para todos los archivos.
Incluir los datos en formato estandarizado( p.e. fecha, aaaa-mm-dd)
Utilizar abreviaturas significativas
Indicar tipo de fichero
Usar identificadores de personas/grupo
Indicar versión
Clasificar los datos de lo más general a lo más específico, lo que facilita encontrarlos. Por ejemplo: FY2009_Acme-Corp_Q3_TrialBal_20091015_V02.xls
Evitar nombres demasiado largos que puedan causar problemas en algunos programas.
Evitar el uso de símbolos como ~ ¡ ! @ # $ % ^ & * ( ) ` ; < > ¿ ? , [ ] { } ' " |
Usar guiones bajos (_) en lugar de espacios.
En archivos con varias versiones, añadir un número de versión al final, como v01, v02, etc. Para la versión definitiva, terminar el nombre del archivo con "FINAL".

Existen herramientas que facitan la tarea de renombrar múltiples ficheros:

Tipos de fichero

La elección del formato y el software para generar y digitalizar los datos de investigación a menudo varía según el tipo de análisis que el investigador necesite realizar, el equipo que use, la disponibilidad de diferentes programas informáticos, o incluso las prácticas habituales en un campo de estudio concreto.

Aunque los investigadores seleccionen el formato de datos y el software que mejor se adapte a sus necesidades analíticas, una vez completado el análisis, deberían convertirse en formatos más universales y perdurables para su almacenamiento.

Para asegurar el acceso y conservación a largo plazo de los datos se recomienda el uso de formatos abiertos y no restringidos en la medida de lo posible. El formato seleccionado debe facilitar la indexación de los contenidos para su futura recuperación. Utilizar un formato de compresión de datos ahorra espacio de almacenamiento. El formato elegido debe ser un estándar (tipos MIME IANA) o un estándar de facto reconocido por la comunidad investigadora.

A continuación, se presentan una serie de formatos de archivo recomendados según el tipo de datos que contienen:

Bases de datos: XML, CSV
Texto: TXT, ODT, RTF, XML
Estadísticas: ASCII, DTA, POR, SAS, SAV
Datos tabulados: CSV, TSV
Geoespaciales: SHP, DBF, GeoTIFF, NetCDF
Vídeo: OGG, MP4
Sonido: FLAC, WAV, AIFF, MP3
Imágenes: TIFF, BMP
Archivos comprimidos: Sólo si es imprescindible.

Información adicional: Guía práctica para la publicación de datos tabulares en archivos csv.

Herramienta para refinado y conversión de datos datos: OpenRefine

Anonimización y seudonimización

Los datos publicados no deben contener información mediante la cual puedan obtenerse detalles confidenciales. Prestar especial cuidado a los datos personales, no tomarlos si no son estrictamente necesarios para la investigación y en su caso pedir consentimiento informado e inequívoco.

Algunas de las estrategias empleadas para modificar datos para mantener la confidencialidad y compartirlos son:

Agregación: Esta implica combinar categorías afines, generalmente dentro de una rama compartida de una jerarquía, para ofrecer información a un nivel más amplio que las observaciones detalladas, según la definición de la OCDE. En el contexto de datos geográficos, es frecuente realizar agregaciones a una unidad superior, especialmente cuando la información se considera sensible o reveladora. Por ejemplo, se puede agregar la información a nivel de código postal por sector.
Anonimización: En esta técnica, se eliminan de los casos los datos identificadores, como nombres y direcciones.
Seudonimización: Esta técnica se utiliza comúnmente para resguardar las identidades en datos cualitativos.
Perturbación: Se trata de una estrategia que introduce una distorsión deliberada a nivel de las celdas de datos, típicamente empleada en censos de población.

La Agencia de Protección de datos dispone una guía básica de anonimización y la nota técnica sobre la k-anonimidad.

Por su parte, OpenAire facilia la herramienta Amnesia para la anonimización de datos.