Today's Data are Part of Tomorrow's Research: Archival Issues in the Sciences
Abstract
Scientific data are essential for training in science and informed decision-making regarding health, the environment, and the economy. Cumulative data sets assist with understanding trends, frequencies and patterns, and can form a baseline upon which we can develop predictions. This paper discusses the preservation of scientific data, providing an overview of the characteristics of scientific data and scientific-data portals from a variety of fields, with a focus on data quality, particularly accuracy, reliability and authenticity, and how these are captured in metadata. These concepts are broadly defined from both scientific and archival perspectives. Based on an extensive literature review of publications from national and international scientific organizations, government and research funding bodies, and empirical evidence from a selection of InterPARES 2 Case Studies and General Study 10, which investigated thirty-two scientificdata portals, the paper includes a brief examination of machine-base “knowledge representation” (KR) and the potential implications for the preservation of scientific data, with a particular focus on formal ontologies. The paper also discusses the concept of record in the context of Web 2.0 environments, the paucity of scientific data archives, and the lack of funding priorities in this area. It is argued that archivists will have to work closely with scientific-data creators to understand their practices, that data portals are mechanisms that archivists can use to extend their preservation practices, and that it is not technology that is impeding progress regarding the preservation of scientific data; it is a lack of funding, policy, prioritizing, and vision allowing our scientific national resources to be lost.
RÉSUMÉ
Les données scientifiques sont essentielles à la formation en sciences et à la prise de décision éclairée au sujet de la santé, de l’environnement et de l’économie. Les ensembles de données cumulatives aident à comprendre les tendances, les fréquences et les courants, et ils peuvent servir de base pour développer des prévisions. Cet article se penche sur la préservation des données scientifiques et des portails de données scientifiques d’un ensemble de domaines, en ciblant la qualité des données – surtout l’exactitude, la fiabilité et l’authenticité – et en examinant comment ces caractéristiques sont saisies par les métadonnées. Les auteurs donnent des définitions générales de ces concepts, dans des perspectives à la fois scientifiques et archivistiques. À partir d’une recension approfondie de la littérature sur le sujet (publications provenant d’organisations scientifiques nationales et internationales, d’organismes gouvernementaux et d’organismes de financement, ainsi que des observations empiriques d’un échantillon d’études de cas d’InterPARES 2 et de « General Study 10 » qui étudiaient 32 portails de données scientifiques), cet article examine sommairement la « représentation des connaissances » électronique (« machine-base “knowledge representation” [KR] ») et les répercussions possibles sur la préservation des données scientifiques, avec un accent particulier sur les ontologies formelles. Il présente aussi le concept de document dans le contexte d’un environnement Web 2.0, la rareté des archives sur les données scientifiques, et le fait que ce domaine ne figure pas souvent dans les priorités de financement. Les auteurs avancent que les archivistes devront travailler de près avec les scientifiques créateurs de données afin de comprendre leurs pratiques; que les portails de données sont des mécanismes dont les archivistes peuvent se servir pour parfaire leurs pratiques de préservation; et que ce n’est pas la technologie qui empêche le progrès en ce qui concerne les données scientifiques. C’est plutôt le manque de ressources, de politiques, de classement par ordre de priorités, et de vision qui occasionne la perte de nos ressources scientifiques nationales.
Authors of manuscripts accepted for publication retain copyright in their work. They are required to sign the Agreement on Authors' Rights and Responsibilities that permits Archivaria to publish and disseminate the work in print and electronically. In the same agreement, authors are required to confirm that "the material submitted for publication in Archivaria, both in its paper and electronic versions, including reproductions of other works (e.g. photographs, maps, etc.) does not infringe upon any existing copyright." Authors of manuscripts accepted for publication retain copyright in their work and are able to publish their articles in institutional repositories or elsewhere as long as the piece is posted after its original appearance on archivaria.ca. Any reproduction within one year following the date of this agreement requires the permission of the General Editor.