近日,我校生命科學(xué)學(xué)院計(jì)算與整合生物學(xué)團(tuán)隊(duì)在國(guó)際基因組學(xué)領(lǐng)域權(quán)威學(xué)術(shù)期刊《Genome Biology》(IF=12.3,生物學(xué)一區(qū)Top)上在線發(fā)表了題為“Systematic evaluation with practical guidelines for single-cell and spatially resolved transcriptomics data simulation under multiple scenarios”的研究論文,對(duì)團(tuán)隊(duì)在單細(xì)胞RNA測(cè)序和空間轉(zhuǎn)錄組學(xué)方法學(xué)領(lǐng)域取得的重要進(jìn)展進(jìn)行了介紹。該研究全面評(píng)估了單細(xì)胞/空間轉(zhuǎn)錄組數(shù)據(jù)模擬算法在多個(gè)流行應(yīng)用場(chǎng)景下的表現(xiàn),并為該領(lǐng)域的科研人員提供了詳盡的方法選擇使用指南。

重慶師范大學(xué)為論文第一完成單位和唯一通訊單位,生命科學(xué)學(xué)院2022級(jí)碩士研究生朵泓睿為第一作者,李勃副教授和郝友進(jìn)教授為通訊作者,重慶郵電大學(xué)、陸軍軍醫(yī)大學(xué)、浙江大學(xué)、重慶大學(xué)和重慶醫(yī)科大學(xué)等單位的研究人員共同參與了此項(xiàng)工作。
近年來(lái),隨著單細(xì)胞RNA測(cè)序(scRNA-seq)和空間轉(zhuǎn)錄組學(xué)(SRT)的迅速興起,兩者通過(guò)精確揭示單細(xì)胞水平基因表達(dá)的異質(zhì)性及其在組織中的空間分布特征,顯著加速了現(xiàn)代生命科學(xué)的研究進(jìn)程,推動(dòng)了研究范式的轉(zhuǎn)變和創(chuàng)新。在scRNA-seq和SRT算法設(shè)計(jì)和數(shù)據(jù)分析工具基準(zhǔn)測(cè)試中,模擬數(shù)據(jù)至關(guān)重要。盡管目前已有大量用于模擬scRNA-seq和SRT數(shù)據(jù)的方法,但面對(duì)具體的生物信息學(xué)分析任務(wù)時(shí),如何選擇最適合的方法仍然是一個(gè)棘手的問(wèn)題。
在該項(xiàng)研究中,團(tuán)隊(duì)成員利用152組真實(shí)參考數(shù)據(jù)集對(duì)49種單細(xì)胞/空間轉(zhuǎn)錄組數(shù)據(jù)模擬方法在準(zhǔn)確性、功能性、可拓展性和適用性方面開展了大規(guī)模的系統(tǒng)性評(píng)估。研究結(jié)果表明,建立在最優(yōu)選擇模型(e.g., SRTsim 和 scDesign2)和 GAMLSS(e.g., scDesign3)基礎(chǔ)上的方法具有最佳的準(zhǔn)確性表現(xiàn),但需要以消耗更多時(shí)間和內(nèi)存來(lái)建立基因表達(dá)數(shù)據(jù)模型為代價(jià)。此外,ZINB- WaVE、SPARSim、Splat、SCRIP-paths、muscat 和 SCRIP-GP-trendedBCV 也表現(xiàn)出較強(qiáng)的數(shù)據(jù)模擬能力。專用于scRNA-seq數(shù)據(jù)模擬的方法Splat、SPARSim、SCRIP、SplatPop、dropim 和 ZINB-WaVE 在模擬 SRT 數(shù)據(jù)方面具有強(qiáng)大的兼容性。在功能性方面,Lun在模擬細(xì)胞類群和差異表達(dá)基因的應(yīng)用場(chǎng)景下的效果最佳,而 SPARSim和scDesign3-tree 則分別在細(xì)胞批次和軌跡模擬方面表現(xiàn)優(yōu)于其他方法。由于沒(méi)有一種方法在所有評(píng)價(jià)標(biāo)準(zhǔn)上都表現(xiàn)出色,因此用戶應(yīng)考慮在準(zhǔn)確性和功能性、準(zhǔn)確性和可擴(kuò)展性之間做出權(quán)衡。在適用性方面,半數(shù)以上的方法在運(yùn)行過(guò)程中會(huì)產(chǎn)生錯(cuò)誤,而且錯(cuò)誤比例在不同方法間具有較大差異?!盎虮磉_(dá)值擬合失敗”和 “出現(xiàn)缺失(無(wú)窮)值 ”是運(yùn)行失敗的兩個(gè)主要原因。

根據(jù)評(píng)估結(jié)果,團(tuán)隊(duì)成員還建立了方法選擇的實(shí)用指南、標(biāo)準(zhǔn)數(shù)據(jù)模擬流程Simpipe和交互工具 Simsite(https://www.ciblab.net/software/Simsite/),以供用戶選擇合適的方法并執(zhí)行模擬任務(wù)。這項(xiàng)研究將為單細(xì)胞組學(xué)領(lǐng)域的研究者提供指導(dǎo)和建議,幫助他們選擇合適的數(shù)據(jù)模擬方法。同時(shí),它也將激勵(lì)算法開發(fā)人員提出更具擴(kuò)展性和效率的方法,從而有助于研究者深刻理解和應(yīng)用基因表達(dá)數(shù)據(jù)的特征。
據(jù)悉,《Genome Biology》是國(guó)際基因組生物學(xué)領(lǐng)域頂級(jí)學(xué)術(shù)期刊,主要發(fā)表從基因組和后基因組的角度研究生命科學(xué)的最新研究成果,創(chuàng)刊以來(lái)刊登過(guò)多項(xiàng)重大的生命科學(xué)研究進(jìn)展,年刊載文章數(shù)為200-300篇。該期刊最新影響因子12.3,其5年影響因子為17.4,目前為中科院一區(qū)TOP期刊。
原文鏈接