數據管理 FAIR 原則實施注意問題分析

時間:2022-11-07 15:43:46

緒論:在尋找寫作靈感嗎?愛發表網為您精選了1篇數據管理 FAIR 原則實施注意問題分析,愿這些內容能夠啟迪您的思維,激發您的創作熱情,歡迎您的閱讀與分享!

數據管理 FAIR 原則實施注意問題分析

當前,跨學科、跨領域、跨機構的數據密集型科研模式及開放科學環境對科學數據的管理形成了新挑戰。科研需要合作、共享、交流,涉及不同科研人員、團體、機構乃至國家間的關系與利益[1-2]。為使開放環境下被保存的科學數據對研究活動形成有效支持,實現數據本身價值,同時減少不必要的重復投入,對數據的管理就需確立某些普遍遵循的標準準則,以實現跨庫、跨系統、跨平臺間的數據互訪、共享、利用。2014年1月“FAIR原則”被首次提出,2019年歐盟《開放數據與公共部門信息再利用指令》正式將FAIR原則明確為科學數據管理的一項重要原則,成為歐盟制定數據戰略、政策、法規的重要指導原則之一,并在全球許多國家開放科學數據領域被關注、運用[3]。“fair”指為確保科學數據能被有效利用,數據對象應具備可發現(Findable)、可獲取(Accessible)、可互操作(Interoperable)、可重復使用(Re-usable)四個基本原則屬性,每個基本原則下又有若干具體指導原則(表1)[4]。本文對科學數據管理實施FAIR原則的注意事項進行解析,以期對我國相關研究與實踐有所助益。

1“可發現原則”實施注意問題

數據可發現,是獲取、互操作、重用的前提[5]。科學數據不但包括常規出版物、文獻數據庫中的數據,在各類機構知識庫、存儲庫等數據集中也包含大量科學數據[6]。出版物和文獻數據庫可看作是科學數據的常規出版渠道,而這些數據集則可視為非常規出版渠道。對常規出版渠道中的數據,通過元數據和目錄詞表的標引,數據可發現容易實現。對非常規出版渠道,數據發現程序需要抓取、檢索數據對象的全文以及附屬鏈接,才能保證數據被發現。發現程序的檢索策略通常是以檢索輸入與數據集中實際值的命中匹配為基礎的,也就是說對元數據和規范詞表標引的需求非常低。許多科學數據因為技術或利益原因也可能根本不開放,或僅對某些搜索引擎的爬取程序可讀,這更對數據的可發現形成了嚴重障礙[7]。

1.1建立科學數據標識符賦值機制

可發現原則指出了對數據可發現的一個關鍵共識,即給數據對象賦予一個唯一且永久性的標識符(PID)。標識符能夠解決數據的身份問題,同時也意味著標識符的建立規則應是全局層面的統一規劃,避免號碼混亂。關于標識符的研究與實踐很多,許多數據平臺也有自己的標識符賦值規則,其中較有代表性的是DataCite。DataCite可為會員機構的科學數據及科研成果(包括元數據)提供永久唯一的數據對象標識符(DOI),并登記提交的元數據,是一個跨國多學科機構知識庫發現平臺[8]。其DOI的唯一性保證了數據被有效發現,被登記提交的元數據可以被任何人收割,而且DataCite的元數據模式是可擴展的,能夠被其他標識系統服務兼容,在提升數據可發現性的同時也保證了互操作性。其DataCitationIndex服務還提供了部分高質量數據集與學術論文之間的鏈接(通常指向WebofScience),進一步增強了對數據獲取、復制、重用性的保障[9]。除DOI外,目前較為主流的標識符還有檔案資源鍵(ARK),持久統一資源定位符(PURL)等[10-11]。從這些標識系統的經驗看,對科學數據管理首先要建立一套標準的報道數據的有效工作機制,為了避免各數據生產者或管理者單獨工作帶來的不利影響,數據對象標識符最好應由數據生產者和數據用戶之外的第三方機構生成、分配、管理,保障標識符賦值規則的統一和持久。鑒于DataCite的服務已具備相當影響力,建立科學數據標識符賦值機制可將其作為重要參考對象。

1.2建立科學數據元數據生產機制

元數據是可發現原則另一關注點。數據發現或數據檢索,主要取決于較高質量、開放訪問的元數據和目錄。豐富元數據的生產工作伴隨科學數據整個生命周期過程,元數據生產工作量很大。由于元數據生產通常會牽涉科研利益、政策制度、標準規范等各種問題,往往導致元數據的生產責任主體不易明確,同時元數據的有效生成又直接影響數據的可發現屬性,因此在科學數據管理的政策制度、操作規程等指示性文件中就應明確這些內容,規定元數據生產責任,協調好各環節關系。人工生產豐富元數據需要巨大的人力投入,元數據自動生成工具能夠降低人力消耗。W3C通過其“Web數據最好實踐”[12]、“RDF數據畫像”[13]等項目組的研究及schema.org詞表,定義了一套結構化網上數據的標準模式及描述數據集必要的元數據元素的工具。生物醫學領域的項目DataMed,構建了一個支持FAIR原則的生物醫學數據搜索引擎,能夠實現跨機構庫、跨數據源的數據發現,并形成了一套帶有詳細注釋schema.org詞表的元數據規范(DataTagSuite)及一些元數據工具[14]。W3C的項目SimpleKnowledgeOrganizationSystem也生成了一個元數據工具OpenMetadataRegistry,能夠為受控詞表開發者與使用者提供服務[15]。RDA項目MetadataStandardsDirectory,也是關于元數據創建與規范標準方面的項目[16]。目前,已出現的元數據模式、本體、受控詞表等大多是針對特定領域或學科,通用性的成果還較少。元數據工具是科學數據管理的重要助手,通過提高元數據的生產效率和質量會對科學數據的發現、利用形成重大影響。此外,這方面也會牽涉元數據工具的采用標準、效果評價、質量控制及職責分配等問題。

2“可獲取原則”實施注意問題

可獲取原則內容關注到存取數據(或元數據)的標準化通信服務協議及訪問授權問題。數據可用是通過將數據存儲到數字知識庫來實現的[17],數據在某個知識存儲庫保存時,存儲庫的服務約定通常已包括了關于數據的存取通信、訪問授權等協議問題。開放為常態、不開放為例外[18],多數存儲庫的數據是完全開放或有條件開放,差別在于訪問授權形式和程度,大多保證被存入的數據是可獲取的(完全不開放的存儲庫討論其數據FAIR問題意義不大)。而數據的通信通常是依靠超文本傳輸協議HTTP、文件傳輸協議FTP、TCP/IP協議等這些定義明確、開放且使用普遍的協議[19]。因此,數據可獲取實際主要取決于數據存儲入庫前與后的那些核心管理活動,這些核心管理活動以能實現用戶最終獲取和利用數據為目的,包括入庫前的數據選擇、表達描述、長期保存及入庫后的數據訪問安全監管等。這些核心管理任務決定了可獲取原則在數據管理實踐中的落實。

2.1明確數據管理核心任務

當前,單一的數據中心及服務已不足以有效支撐科研活動,各種資源庫與服務、豐富的高質量元數據成為科研基礎設施的重要內容。為了促進科學數據的發現、獲取、利用,需要更加有效的管理這些規模化的聚合數據。有效管理首先需要解決兩個問題:明確管理責任主體;明確核心工作任務內容。在科學數據生命周期的各個階段,由于涉及的數據生產管理主體不同,特別是跨國、跨領域項目還涉及不同法律和管理制度的影響,很難確定管理這些不同類型數據的責任主體,項目各參與方的責任與角色也不好分配。有學者認為,為了確保數據及其溯源信息的成功抓取,應由科研資助方負責建設整套的數據基礎設施,包括云中的計算設施、軟件、存儲庫,以及能夠根據科研進度把工作性數據文件提煉為持久性數據文件的識別標記數據文件的長效機制。在科研活動的各個環節,不同領域的科研人員持續生產大量不同類型數據,選擇、提煉、保存這些數據的工作任務艱巨。保存什么數據,在哪保存,怎樣保存,每環節要處理什么問題,何時處理,項目完成后應該長期保存哪些內容,哪些可開放存取等,這些都是數據管理要解決的問題。根據科研生命周期過程,可以把科學數據管理核心任務內容歸納如下:明確生成什么數據(含元數據),保存什么時間什么格式的什么內容對象,保存的方式、地址,何時考慮數據對象的剔除或長期保存問題,決定以上這些事項各應采用什么標準。圍繞核心任務,以數據可獲取為目標優化處理各個環節,推動數據管理實施FAIR原則的效果。此外,優化各核心工作的同時,應注意平衡具體領域實踐需求與通用服務規則之間的關系。

2.2應對數據安全監管挑戰

隨著黑客攻擊、網絡詐騙等網絡犯罪活動以及各種涉網安全事件不斷出現,互聯網安全工作的重要性被提上新高度。新數據源不斷出現,數據量急劇增長,新技術、新理念催生的各類數據管理基礎設施的復雜性也不斷變化,這都是對數據安全管理工作的巨大挑戰。網絡與科研活動的關系密不可分,科研活動參與者迫切希望降低網絡安全問題帶給科研活動的消極影響。已經進入和將要進入網絡的科學數據的存儲安全、訪問安全成為科研人員必須面對的問題。數據存儲設施是否有足夠的冗余以供未來的發展,對未經授權的數據存取操作、破壞甚至犯罪活動是否有預防措施等問題都將直接影響數據的獲取、利用。采取相對嚴格的數據安全監管、限制措施可以達到安全防范效果,但會對數據的獲取、利用造成不利影響。落實可獲取原則的數據管理作應注意協調好與數據安全監管工作的關系,避免出現可獲取原則陳述中的“通信協議”、“身份驗證”、“授權”允許數據存取,但安全監控機制不允許,最終妨礙數據可獲取的情況。

3“可互操作原則”實施注意問題

數據通常要保存在某個數據倉儲中。由于科學數據絕大多具有唯一性且數據結構、格式差異較大,保存不同源數據的數據倉儲間很難進行合并、融合。實現不同系統間的數據互操作,首先要解決異質數據的表示統一性問題。要形成多學科領域數據結構、格式統一的數據表示形式難度很大,這也牽涉到數據的互操作環境問題。

3.1制定數據表示標準

統一的數據表示標準是數據互操作的前提,包括表示語言、本體、詞表等。許多組織不同程度開展有數據標準的研制工作,并形成了一個普遍共識,即該標準應該開放可用并且是集體制定的。但是應該采用哪些標準,選擇標準的條件是什么,標準的構成是什么等方面還沒有統一。數據表示標準的制定主體間缺少協調溝通會導致工作重復與沖突。在制定標準的適用范圍問題上,一般會有兩種選擇。一種是直接制定寬泛性的標準以適應跨系統、跨領域數據集間的整合管理需求。另一種會考慮到不同學科、領域間數據特點差異較大的現實,對不同領域數據建立特定模式的標準,以求標準制定工作更加務實,更具操作性,在實踐中前進。顯然,如果能夠形成一個協調統一的標準,既滿足各專業群體的需求,又支持不同領域數據的聚集管理將是最好的結果。為了達到一定的協調程度,理論上在技術層面應是可行的。

3.2構建數據互操作環境

互操作意味著合作,跨領域、跨學科的合作勢必涉及各科研利益相關者。各利益相關者的興趣、動機不同,需要搭建有效的管理框架、資助框架進行協調。制定互操作標準的工作,更多是文化、社會、組織機構間的協調問題,然后才是技術問題。也就是說實現數據互操作,首先是有利于實施互操作的文化、社會、機構等環境的構建問題。在歐洲開放科學云(EOSC)一些高級專家組的研究規劃和報告中,對FAIR數據相關研究與工作的部署和討論[20][21]與互操作環境的構建緊密相關。特別是FAIRActionPlan[22]詳細定義了FAIR數據對象和FAIR生態系統等概念,并為實現數據FAIR化規劃了27個推薦步驟。15個為優先步驟,其余12個為優先步驟的補充或細化延伸動作。每個步驟包含一套明確的行動內容,并與其他步驟的行動內容相關聯。這些步驟可作為構建互操作環境的行動指南,并且是面向FAIR生態系統層面。技術差異、獨立的資助管理體系、不同的規章制度導致基礎設施的碎片化,非常不利于互操作全局環境的構建。滿足個別群體需求的特定領域的基礎設施環境,一般較難吸引其他領域的互操作合作。另一方面,由于不同數據源會有相同主題的數據,各數據源采用的不同數據標準及定義不充分的本體,也將阻礙不同源數據的互操作。總之,特定領域需求與普遍基礎服務環境之間的矛盾是搭建互操作環境要面對的問題。

4“可重用原則”實施注意問題

可重用原則的內容關注數據對象的描述問題。強調通過豐富的數據描述,采用某種標準準確描述(元)數據的多重關聯屬性以促進數據可重用[16]。從四條具體指導原則的陳述來看,貫徹可重用原則將涉及數據對象描述或對已保存數據的描述重構的責任分配、數據描述的質量控制及標準等問題。

4.1明確數據描述責任

科研產生的原始科學數據需要根據某種標準對數據對象進行描述,形成標準格式的歸檔數據,才能被其他科研項目、活動重復使用。特別是跨學科、跨主題的數據重用,數據對象描述/重構的重要性更為明顯。數據對象描述,或是對已保存數據進行數據對象格式重構,首要工作是明確責任主體。目前,科學數據管理領域對該問題有一個普遍性共識——由創建數據的科研人員承擔這項工作是不合理的。照此,參與數據再利用過程的處于數據創建者與數據用戶之間的第三方是最后選擇,因為讓數據潛在用戶承擔該工作更不現實。該第三方可能是專門從事科學數據管理的專家、團隊,或者是數據的共享、發布者[17]。我國2018年發布的《科學數據管理辦法》第九條、第十一條、第十七條規定,“科研院所、高等院校和企業等法人單位及科學數據生產者”負責“科學數據采集生產和加工整理便于利用”和“科學數據人才隊伍建設”[18]。《辦法》對數據描述歸檔等責任歸屬進行了明確,這里的“法人單位及科學數據生產者”不等同于“數據創建者”,我們可以把后者理解為前者的部分成員。落實到具體數據管理項目,對數據描述責任還需要進一步約定——具體責任者是指“法人單位或科學數據生產者”中同時承擔數據共享發布責任的人員群體,或是專職的數據描述、數據重構專家團隊。無論如何規定,都應是基于避免出現責任真空影響數據描述質量和利用的前提。貫徹可重用原則應注意該問題。另外,因為數據描述,特別是已保存數據的重構可能會牽涉到“數據資源開發”等多方面的經濟、名譽利益,因此在數據管理政策或數據訪問服務規定中應協調好關系。

4.2加強數據描述與質量控制

數據的價值主要取決于數據本身的質量。數據的質量主要取決于數據及其關聯代碼是否符合被創建或收集時的預期目的,對數據的描述控制是達到預期目的的必然要求。數據采集、管理的目的是為了重用,數據價值是數據重用的充分條件,數據質量是數據重用的必要條件。因此,對數據的描述控制是可重用原則落實的重要內容。有效管理數據的溯源信息是數據描述控制的主要手段。溯源信息極大影響數據的可重用性。溯源信息,指那些記錄了數據在生成、保存、修改、編輯時的時間、地點、方法、原因等要素的綜合性信息[23]。詳細的溯源信息有助于數據用戶更加理解數據、驗證科研過程。采集溯源信息,原則上應貫穿科研過程始終,盡可能讓溯源信息成為科研成果的組成部分。從已有經驗看,在科研過程中采用“研究工作筆記本”的形式有助于收集溯源信息,同時也能促進科研方法、過程及數據的共享。關于數據的質量評價、質量保證則涉及多層次的問題,如評估對象的選擇、評估指標的質量、數據的后續處理控制等。這是項復雜的工作,科研資助方、科研組織部門、期刊、出版商、資源庫及數據中心在其中可能都存在利益關系并扮演一定的角色。但是科學數據的創建者和使用者由于幾乎不參與在呈現給用戶前的最終樣式的科學數據的重構工作,因此往往不清楚已經進行了哪些數據操作,還要做什么,以及由誰做。同時,質量評估專家對不明確的數據審查工作又常常不感興趣,不愿參與,更加劇了數據質量評價工作的難度。因此,有必要形成一套評價專家能夠有效審查數據,出版者能夠通過規范算法進行數據自動驗證的機制。數據描述控制機制也是實施可重用原則支撐設施的重要內容。近年來國際上出現了一些數據描述控制或數據認證的標準、程序,并且也已經被一些機構知識庫采用,如可信賴的資源庫審核和認證(TRAC)標準[24]、CoreTrustSeal認證(原DSA與WDS,DSA重點在人文和社會科學領域的數字存儲庫,ICSU的WDS重點在地球和空間科學)[25-26]、德國數字長期存儲與可訪問專家網(NESTOR)簽章[27]。此外,科研流程許多方面都需要大量人工干預,特別是在元數據生成和其他關于數據的記錄信息方面。這些如果全部依靠人工,非常不利于科學數據的管理。使用自動化工具可以有效降低人工干預的成本,也有助于科學數據管理好實踐、好經驗的推廣。自動化工具在某些方面比人工更具穩定性、精確性、工作持久性,一定程度也能保證數據對象的質量。

4.3重視軟件編程類數據的重用

軟件和編程程序伴隨科學數據生命周期全過程,數據用戶想要有效的重復利用數據或驗證基于這些數據獲得的研究成果,就必須要使用與產生這些數據相關的軟件和編程。作為數據重用的重要保障,雖然科研軟件與科學數據之間的關系可能比數據本身的質量都重要,但FAIR原則好像并不適用于軟件或編程這類數據對象,特別在互操作、重用方面。軟件問題在FAIR原則中似乎完全沒有涉及。一些項目已經注意到該問題,如DataCite提倡在分配DOIs時包含軟件技術信息[8],FORCE11的“軟件引用原則”[28]也響應了該問題。軟件管理計劃是科學數據管理重要內容。制定軟件管理計劃,能夠促進科研人員審視其軟件、編程的組織方式、出版方式,進而提升科研軟件、編程程序的重用效果。數據管理政策或服務規定對科學數據的開放共享有重要的影響,如果將軟件管理計劃納入數據管理政策或數據服務規定使其制度化,有助于提升科研人員對軟件與編程問題的重視。此外,軟件、編程程序在其運用項目結束后,面對數據用戶的重用時可能要被作為一類數據對象進行重構操作,以確保軟件程序和科學數據的可重用。重構方法通常有模擬環境仿真與軟件格式遷移[29]。這兩種重構方法都要求操作者具備相當程度的軟件編程知識,才有能力按照可重用原則要求,對作為數據對象的軟件數據“以多種準確且相關的屬性進行描述”(R1子原則)。顯然,這里又涉及責任歸屬問題。這些編程專家似乎應是專業領域內的科研人員,但是專業科研人員通常對編程工作的重要性認識不夠,且讓他們從事不熟悉的編程工作將無法保障其專業發展。因此,對軟件編程類數據落實可重用原則,要解決軟件編程專家問題。

5結語

FAIR原則已成為科學數據管理的國際性準則,分析該原則在科學數據管理活動中貫徹實施的注意問題,有助于我國科學數據管理工作發展。當前,科學數據的識別發現機制普遍不完善,在個別主題領域僅能通過特定專家才能有效運作。元數據標準不一,質量參差不齊,特別是處于開放網絡空間的科學數據還沒能形成普遍性的有效檢索機制。使用元數據工具可以降低人工成本,提升元數據生成效率,但目前通用性的元數據工具少且不成熟。在數據管理工作流程許多方面都涉及人工干預,開發普遍性的工具,提升工作流程自動化程度,能減少人工操作帶來的不利影響。除個別領域外,目前對科研過程不同階段的科學數據的篩選、存儲、長期保存、訪問等操作形式不一,對存儲對象選擇、存儲地點、存儲時間節點、存儲方式等沒有形成標準。科研人員對科研記錄管理的核心要求普遍認識不夠。安全問題上,安全防范工作的緊迫形勢與科學數據的開放訪問、共享利用理念會形成沖突。技術、資助體系、政策制度等因素的差異,使系統間互操作的協調工作變得復雜。互操作要面對不同數據結構和格式的處理問題,要解決不同標準間的重疊和矛盾問題,要處理系統與接口程序間的互操作性問題。特別是在綜合性數據系統與特定領域數據系統間,問題變得更復雜。數據可重用要求對數據進行標準化描述或重構,并且要明確定義保證數據符合基本質量標準的責任,以便追溯數據的重構歷史。確定數據重構工作的責任主體則需要考慮各方利益。

作者:張紅亮 單位:河南護理職業學院

友情鏈接
九九热国产视频精品,免费国产不卡一级αⅴ片,欧美日韩蜜桃在线播放,精品国内自产拍99在线观看
亚洲成A人片在线V观看 | 亚洲成a人片77777在线播放 | 中文字幕一区二区5566 | 中文字幕精品乱码亚洲一区 | 亚洲中文字幕一区 | 日韩欧美动漫国产另类中文字幕 |