你是否想过,为什么科研数据会成为今天开放科学的焦点?
二战后,科学家们就已被海量数据“压得喘不过气”:美国国家气象记录中心的打孔卡片堆满大楼,甚至让管理者担心建筑因过重而坍塌。20世纪60年代起,一系列数据库和知识基础设施相继建立,如MEDLINE、美国教育资源信息中心(ERIC)、空间工程领域的NASA/RECON以及图书馆领域的OCLC WorldCat等,为科研数据的电子化和共享奠定了基础。进入20世纪90年代,万维网的出现进一步打破了封闭系统的限制,使数据真正具备全球流动的可能。
自此,科研数据开放逐步走向制度化:2003年《关于自然与人文科学知识的开放存取的柏林宣言》首次明确提出数据与元数据的开放;2007年经济合作与发展组织(OECD)发布《公共资助科研数据获取原则与指南》;2016年FAIR原则成为全球通行的开放数据标准。今天,开放科研数据不再只是存取问题,而是全球科研生态中不可或缺的核心议题。

20世纪60年代初,美国阿什维尔的国家气象记录中心里堆满了用于存储气象数据的打孔卡片。卡片数量之多,以至于连大楼入口大厅都被用来放置卡片
(图片来源:开放科学小百科)
为推动开放科学理念的广泛传播,法国开放科学委员会编撰发布了《开放科学小百科》。该项目作为法国国家开放科学政策的一部分,聚焦开放科学的十个核心议题,系统整合科研文献、报告、书目资源和数据等多源内容,力求以通俗而严谨的方式,呈现一套结构化、权威性的知识资源。
这套百科自设立之初,即以“数字公地”理念构建:每篇文章均同时发布于百科网站与维基百科。维基版本通过协同编辑不断更新,网站版本则可包含未正式出版的原始内容,并在设计上略有差异,以实现更灵活的内容呈现方式。
本期推文带您走进开放科研数据,理解开放科学如何重塑科研的运行基础。
每个开放科学专题的详细内容见原网站:https://encyclo.ouvrirlascience.fr/
网站的所有内容默认在知识共享-署名(CC-BY)许可下提供。
一、什么是开放科研数据
开放科研数据,指将科学活动中的观测结果与研究成果公开,供任何人分析和再利用的一类开放数据。其核心目的不仅在于验证科学论断、确保研究结果的可重复性,更能整合多源数据,催生新的知识突破。从获取原始研究资源到元分析,开放科研数据已成为各类科研活动的基础支撑,同时还能为非学术专业人士、公共机构及非营利组织所用,创造显著的经济与社会价值。
然而,科研数据长期面临流失与封闭的困境,严重阻碍了科学发展。2014年的一项研究显示,20世纪90年代的生物数据集回收率不足一半,即便成功回收,也需耗费大量时间与精力。与之形成鲜明对比的是,在PLOS平台上带有唯一标识符(例如DOI)发布的数据集,98%仍能为未来研究所用。这一巨大反差,让“开放科研数据”逐渐成为科研界关注的焦点。
数据共享并非一帆风顺。正如学者Paul Edwards所指出“数据摩擦”现象。它指的是数据从一个地方“流动”到另一个地方(例如从一个人传递给另一个人,或从一个机构、系统迁移到另一个机构、系统)时,所遇到的各种阻力、成本和变形。这种摩擦无处不在:数据可能被误解、篡改,甚至在传递中丢失。这种摩擦不仅消耗资源,还常常引发冲突与分歧。开放科学的努力,正是为了尽可能减少这种摩擦,让数据真正流动起来。
同时,开放科研数据并非毫无成本。要让数据不仅可下载,还具备可用性,需在数据文档编制、清洗、授权许可和索引编制等方面投入大量资源。而且,并非所有科研数据都能随意共享,必须通过严格审核,避免包含受版权保护的内容或个人信息。
因此,有效的数据共享必须贯穿整个研究生命周期。2016年首次发布的FAIR原则“可发现、可访问、可交互和可重用”,为科研数据管理提供了清晰框架,也成为推动开放科研数据的重要国际标准。

二、数据的出版与传播
科研数据的发布方式正不断演进。过去,科研数据多作为期刊文章的附属材料发布,读者只能通过数据可访问性声明了解获取途径。如今,科研数据集已被广泛地认可为一种独立的学术出版物。数据论文的出现就是典型例子,为科研人员提供了正式发布数据的渠道,也成为激励生物多样性科学领域数据发布的重要机制。
与此同时,数据的引用与索引也取得了重要突破。早期数字数据库面临数据易变性导致的引用难题,而数字对象标识符(DOI)的引入有效解决了这一问题。带有DOI的数据集比无DOI数据集能多获得25.36%的引用优势。不过,目前主流参考文献管理软件如Zotero,尚未为数据集设置专门条目,数据引用的规范化仍需推进。
在数据再利用与经济影响方面,开放科研数据优势显著。非开放数据往往面临丢失和检索困难,而开放数据不仅便于存储和冗余备份,还能避免巨额经济损失。2018年欧盟委员会的一份报告估算,若不按FAIR原则开放科研数据,每年将造成102亿欧元直接损失和160亿欧元间接损失。

三、实践中的文化与激励困境
科研数据的共享深受学术文化影响。不同领域的科研社区,因共享价值观(个人主义或集体主义)、数据所有权分配方式和外部合作情况不同,对数据共享的接受度和参与度差异较大。开放数据文化的形成,还涉及资助机构、政策制定者、出版商等多方利益相关者合力推动。Christine Borgman提出数据共享的四大理由:可重复性、公共可访问性、成果转化和科研创新,构成了开放数据文化的核心价值理念。
然而,理想与现实之间存在巨大落差。多数研究人员认同数据共享的重要性,2011年调查显示67%的科学家认为数据共享不足是科研进步的主要障碍,但仅36%的受访者表示他人能轻松访问自己的数据。2016年环境科学领域调查也发现,99%的研究人员认为开放数据重要,88%支持机构强制开放数据,但愿意投入时间和资源准备数据的人却不多。
这种落差与科研激励机制密切相关。在集体层面,数据共享有助于提高研究可重复性、效率和质量;在个人层面,则能提升学术引用率和学术信誉。但障碍同样存在,包括必须优先完成论文发表、法律层面的限制以及对学术成果被他人使用却无法获得应有认可的担忧。对于个体研究人员而言,数据集往往是极具价值的学术资产,可以作为争取新的工作机会或科研合作的筹码。如果缺乏明确的回报机制,他们往往难以合理化公开数据的动机。
相比于对开放科学原则的直接否定,对数据共享缺乏熟悉与经验才是更主要的障碍。一些研究人员对数据共享不熟悉,形成“很少请求他人数据——很少被他人请求数据——很少投入数据共享”的恶性循环。一项针对PLOS期刊论文的实证研究表明,单纯依赖“软性激励”和鼓励而非强制性的政策,对于促进数据共享的效果十分有限。
数据共享的理想与现实之间,依然存在巨大的落差。法律的不确定性、开放许可的路径选择,以及数据管理与基础设施的难题,才是开放科研数据真正的“硬骨头”。
参考资料:
开放科学小百科.https://encyclo.ouvrirlascience.fr/