2019年8月1日 星期四

支援STEM數據分享的新模式-Data Communities


"STEM researchers must be convinced to share their data in the first place before they can be taught how to share it well."

化學家、農業科學家、公共衛生學者和土木環境工程師比較偏向個人、一對一或是與認識、信任的人(最常見的就是合作者)分享數據,他們倚重專業領域間的網路做分享,研究者之間非正式的聯絡網路也是很重要的分享管道,資料分享成為一種社交活動(social activity),成功的資料分享常發生於Data Community


“A data community is a fluid and informal network of researchers who share and use a certain type of data.”

另一個重要的分析面向是Creation of data curation profiles,分析數據生命週期的實證數據可以讓我們專注在分享特定類型資料的技術層面上(technical process),而非以學科概括。另外也必須注意正在發生中,在更廣泛、技術支援範圍內的資料分享,有數個數據儲存庫(data repositories)可以被視為成功案例好好觀察:

1.劍橋結構資料庫(Cambridge Crystallographic Data Centre’s Cambridge Structural Database, CSD)-起源於1965年,由劍橋晶體數據中心建立的晶體結構的數據儲存庫

 2. FlyBase-基因和基因組序列的數據庫
1992年由NIH的國家人類基因組研究機構資助建立,該網站不只有資料取用與繳交的功能,還包含許多智慧導向工具(sophisticated navigation tool)、研究者名錄、線上論壇等。

3. DesignSafe-CI
美國國家科學基金會NSF所資助的計畫Natural hazards engineering research infrastructure所建立的數據儲存庫,研究者可以在雲端儲存、取用和分析自然災害的相關數據。該儲存庫可以接受任何形式的數據,但是資料檔案的形式(file format)是標準化的;該數據儲存庫另一個強項是整合了研究流程的各個階段,研究者可以上傳100T以上的raw data後以內建的工具分析資料並讓資料開放取用。

我們可以從以上這三個成功的Data community案例歸納出三個共同特色:

1. 由下而上、由小到大開始Bottom-up Development
這三個歷史久遠的data communities都是開始於研究者之間小規模的合作,長期的資助和組織的支持則是逐漸讓他們在數據產出、數據儲存和分享上納入新科技的使用,當研究者或是其同仁開始注意到資料分享的益處之後,communities也開始漸漸壯大,接著出版社與資助者對於資料分享的規範也有助於發展communities的規範。

2. 減少技術障礙 Absence or Mitigation of Technical Barriers
在三個成功案例中,研究者分享的資料在技術上都可以輕易上傳、轉換(transfer)及再利用,資料文件(data files)檔案不大、未包含敏感或是個人資料、文件具有標準且易懂(intelligible)的形式,data community的出現與可以使獲得重要的元數據(metadata)且使其標準化變得簡單的技術發展有關,例如CSD的成功有部分也歸功於.CIF文件形式的廣泛採用。data community的發展應該減少資料分享上倫理及技術上的障礙,或是發展出可以降低障礙、提升資料文件標準化的技術。

3. Community Norms
Data communities thrive when they cultivate formal or informal norms through which data sharing comes to be expected within the community. 數據分享的動機不能只因為數據會被引用,而應該在community裡建立規範與風氣,例如分享資料時加上穩定持久的識別碼(PID)DOIs有助於數據引用及作者可以得到Credit,另外出版社與資助者對資料分享的要求也可以有效建立community的規範及分享的風氣。

學術圖書館及其館員的角色

學術圖書館的規模/等級可能不足以處理研究者或科學家面對的挑戰,圖書館員若是想要有效地支持科學家,就必須找到有創意的方式,更廣泛、跨機構及跨領域地來貢獻(contribute)他們的專業。

覺知(awareness)是很重要的一件事,了解機構內的科學家/研究者屬於哪一個data community,很多data communities的網路及機構基本設備都建在特定的機構中,例如DesignSafe-CI是由奧斯丁德州大學的研究者所領導,所以DesignSafe-CI的雲端儲存和分析能力都歸功於德州大學進階運算中心,館員可以提供的專業協助可以發會在智財權及著作權的議題。

摘譯自ITHAKA S+R報告
Data Communities: A New Model for Supporting STM Data Sharing



沒有留言:

張貼留言