上期我们谈到开放科研数据的定义、价值与挑战。想象一下:你的科研数据刚刚产生,却要面对版权、隐私、保存和再利用的多重考验。本期推送,我们将带您走进开放科研数据的“后台”,看看法律、管理和基础设施如何决定它的未来,并塑造科学研究的新秩序。
一、法律挑战与开放许可
开放科研数据在法律层面面临多重挑战。
首先是版权问题。在美国、欧盟以及其他一些司法管辖区,版权法普遍承认数据本身与数据汇编之间的区别:单纯的数据(作为“事实”)通常不受保护,而数据的创造性汇编则可能受到版权保护。1991年,美国最高法院在Feist Publications, Inc.诉Rural Telephone Service Co.一案中进一步阐明了数据库版权的适用范围与局限:汇编必须具有原创性,而其中包含的“原始事实”依旧不受保护。欧盟为数据提供了全球最强有力的知识产权框架之一,采取“双层保护”模式:一方面,原创性数据汇编享有版权(与美国类似);另一方面,数据集还可受到特殊的“数据库权”保护。虽为数据提供更强保护,但也与开放科学发展存在一定冲突。且不同地区的版权规定存在差异,导致了法律不确定性。
所有权问题同样复杂。科学研究是一种协作活动,涉及研究人员、机构、资助方等多方,美国通常由研究人员的雇主决定数据所有权,欧盟则缺乏统一的所有权框架。在医学研究中,受试者和患者对自身组织或DNA数据的所有权主张,进一步加剧了所有权争议。
隐私保护不容忽视,医疗和社会科学研究常涉及个人数据,需在数据共享与隐私保护间找到平衡。2014年,欧洲药品管理局对临床试验数据共享做出调整,防止个人信息以及商业价值的泄露,这可能会影响全球的临床试验数据共享。
开放许可逐渐成为解决法律难题的重要手段。2003年,《关于自然与人文科学知识的开放存取的柏林宣言》呼吁对科研成果普遍放弃重用权利,其中明确涵盖了“原始数据和元数据”。2009年,Creative Commons Zero(CC0)许可协议首次提出,并立即成为将研究数据发布到公共领域的推荐工具。开放知识基金会于同年发布的开放数据库许可(ODbL)也被广泛应用。自2013年起,各类知识共享许可(CC)协议也进行了更新,在CC 4.0版本中明确纳入数据库权利,从而使其在数据集领域得以全面适用。
二、开放科研数据管理
在学术研究环境中,数据管理经常与数据生命周期相关联。数据共享并非额外任务,而是需要在整个研究过程中进行规划。数据的收集、目的和限制必须明确说明,并做好文档记录,避免因文档缺失导致数据无法重用。同时,要核实数据所有权,防范法律风险,尤其是国际合作项目,需应对不同地区的法律差异。
存储与保存是数据管理的关键。非开放科研数据的可用性衰减迅速,1991年的生物数据集到后期仅33%存续下来。2012年发布的开放档案信息系统参考模型强调,科研基础设施需实现长期保存,不仅要存储数据,更要做好数据管理,确保数据可重用。公共数据存储库的应用有效改善了这一状况,带有DOI的数据集检索率高达98%,且具有稳定的长期可用性。
数据管理计划(Data Management Plan,DMP)在数据治理中发挥重要作用。它起源于1966年的航空和工程研究,早期关注数据访问、传输和存储等实际问题。2000年后,在政策推动下,DMP的应用范围扩大,但研究显示,科研人员在制定DMP、数据管理最佳实践培训等方面需要更多支持。对于有商业参与的科研项目,可通过数据模块化(仅共享数据的一部分)、延迟发布等策略,平衡数据开放与商业利益。
开放科学基础设施是数据共享的重要支撑。2021年联合国教科文组织《开放科学建议书》将其定义为“支持开放科学所需、服务于不同科研共同体的共享研究基础设施”,包括数据存储库、数据分析平台、索引服务、数字图书馆、数字化档案等。它不仅分担了数据出版、维护等成本,还推动了开放数据标准的制定与采纳。但早期基础设施面临可持续性问题。2010年后,随着Elsevier收购开放存储库Digital Commons和SSRN等商业基础设施的扩张,学界呼吁保障“由社群控制的基础设施”。2015年《开放学术基础设施原则》提出,获得Crossref、Open Citations、Data Dryad等主要机构支持,为基础设施的发展指明方向。欧洲战略研究基础设施论坛(ESFRI)在2021年路线图中指出:欧洲多数大型科研基础设施已走在开放科学前沿,正通过开放科学范式推动整个科研过程的数字化转型。
开放科学基础设施与开源和开放数据运动关系密切。SPARC的一项调查显示:82%的欧洲科研基础设施部分基于开源软件构建,53%的技术体系完全开源。它们往往优先整合其他开放科学基础设施的标准。在欧洲,最常被提及,也被视为核心支撑的系统包括ORCID、Crossref、DOAJ、BASE、OpenAIRE、Altmetric、DataCite,其中多数为非营利机构。
这些基础设施共同构成了一个正在形成的“真正可互操作的开放科学共同体”,它承诺为研究人员提供以研究者为中心、低成本、创新且互操作的科研工具,有望超越当前以封闭系统为主的科研模式。
开放科研数据的发展,是一场打破科研封闭、释放数据价值的变革。尽管面临技术、法律、文化等多方面挑战,但随着政策支持力度加大、基础设施不断完善以及科研人员观念转变,开放科研数据必将为科研创新注入更强动力,推动人类知识边界不断拓展。未来,我们期待看到更完善的开放数据生态系统,让每一份科研数据都能发挥最大价值,为解决全球性挑战、促进社会进步贡献力量。