国产精品―色哟呦,2019国产精品自在线拍国产不卡,99久久久,日韩高清福利,亚洲天堂网2021,亚洲精品免费在线观看视频,最新av免费

產(chǎn)品分類(lèi)導(dǎo)航
CPHI制藥在線 資訊 西湖大學(xué)原發(fā)杰團(tuán)隊(duì)發(fā)布SaprotHub開(kāi)源平臺(tái):讓生物學(xué)家能夠輕松應(yīng)用蛋白質(zhì)語(yǔ)言模型,

西湖大學(xué)原發(fā)杰團(tuán)隊(duì)發(fā)布SaprotHub開(kāi)源平臺(tái):讓生物學(xué)家能夠輕松應(yīng)用蛋白質(zhì)語(yǔ)言模型,

作者:王多魚(yú)  來(lái)源:生物世界
  2025-10-28
2025 年 10 月 24 日,西湖大學(xué)原發(fā)杰團(tuán)隊(duì)在 Nature Biotechnology 期刊發(fā)表了題為:Democratizing Protein Language Model Training, Sharing and Collaboration 的研究論文,該研究首先提出了一種新穎的蛋白質(zhì)表征方法。

如同人類(lèi)擁有語(yǔ)言,生命世界也有一套由氨基酸序列構(gòu)成的“分子語(yǔ)言”——蛋白質(zhì) 。近年來(lái),人工智能(AI)領(lǐng)域的蛋白質(zhì)語(yǔ)言模型(PLM)展現(xiàn)出解碼這套語(yǔ)言的強(qiáng)大能力,能夠精準(zhǔn)預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)與功能 。

然而,這些尖端模型的訓(xùn)練與使用,往往需要深厚的機(jī)器學(xué)習(xí)專(zhuān)業(yè)知識(shí)和編程能力,這在 AI 開(kāi)發(fā)者與廣大生物學(xué)家之間形成了一道鴻溝。

為了打破這一壁壘,2025 年 10 月 24 日,西湖大學(xué)原發(fā)杰團(tuán)隊(duì)在 Nature Biotechnology 期刊發(fā)表了題為:Democratizing Protein Language Model Training, Sharing and Collaboration 的研究論文。

該研究首先提出了一種新穎的蛋白質(zhì)表征方法——將蛋白質(zhì)一維序列與三維結(jié)構(gòu)相結(jié)合形成“結(jié)構(gòu)感知”詞匯表并據(jù)此訓(xùn)練出了蛋白質(zhì)語(yǔ)言大模型——Saprot。在此基礎(chǔ)上,團(tuán)隊(duì)進(jìn)一步推出了 SaprotHub 開(kāi)源平臺(tái) 。

該平臺(tái)旨在將 Saprot 等一系列先進(jìn)蛋白質(zhì)語(yǔ)言模型的能力開(kāi)放給生命科學(xué)領(lǐng)域研究者,它也是開(kāi)放蛋白質(zhì)模型聯(lián)盟(Open Protein Modeling Consortium,OPMC)為推動(dòng)全球科研協(xié)作、共建開(kāi)源社區(qū)而邁出的關(guān)鍵第一步。

1.png

蛋白質(zhì)研究的挑戰(zhàn):從模型“孤島”到協(xié)作“藍(lán)?!?/p>

蛋白質(zhì)是生命活動(dòng)的基石,近年來(lái),以 AlphaFold2 為代表的蛋白質(zhì)語(yǔ)言模型(PLM)在預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)與功能方面取得了革命性突破 。然而,這些強(qiáng)大的 AI 工具如同精密的專(zhuān)業(yè)設(shè)備,其訓(xùn)練和部署通常需要深厚的機(jī)器學(xué)習(xí)知識(shí),這為廣大從事實(shí)驗(yàn)研究的生物學(xué)家設(shè)置了難以逾越的技術(shù)鴻溝 。從復(fù)雜的編程環(huán)境配置,到海量數(shù)據(jù)的預(yù)處理,再到模型訓(xùn)練和評(píng)估,整個(gè)流程充滿了挑戰(zhàn) 。這不僅限制了AI技術(shù)的普及,也減緩了其在醫(yī)藥、生物技術(shù)等領(lǐng)域的創(chuàng)新應(yīng)用進(jìn)程 。

2..png

圖1. Saprot模型架構(gòu)

SaprotHub:三大支柱構(gòu)建的開(kāi)源協(xié)作新范式

為了應(yīng)對(duì)這一挑戰(zhàn),研究團(tuán)隊(duì)構(gòu)建了以 SaprotHub 為核心的一站式解決方案,它不僅是一個(gè)平臺(tái),更是一個(gè)融合了前沿 AI 大模型技術(shù)、開(kāi)源工具和全球社區(qū)的完整生態(tài)系統(tǒng):

核心引擎——Saprot 語(yǔ)言模型:Saprot 是本項(xiàng)工作的基石。它開(kāi)創(chuàng)性地提出了一種“結(jié)構(gòu)感知”(Structure-Aware)詞匯表,將蛋白質(zhì)的一維氨基酸序列與其三維局部結(jié)構(gòu)信息進(jìn)行聯(lián)合編碼,從而構(gòu)建出一種全新的蛋白質(zhì)“語(yǔ)言”。同時(shí),研究團(tuán)隊(duì)基于 AlphaFold2 預(yù)測(cè)的數(shù)千萬(wàn)個(gè)蛋白質(zhì)結(jié)構(gòu),采用了 64 塊 NVIDIA A100 GPU,經(jīng)過(guò)數(shù)月訓(xùn)練完成了 Saprot 模型的訓(xùn)練。其性能在數(shù)十項(xiàng)蛋白質(zhì)功能預(yù)測(cè)任務(wù)中得到了充分驗(yàn)證,并成功超越了如 ESM-2 等業(yè)界頂尖模型。

自發(fā)布以來(lái),Saprot 模型在學(xué)術(shù)界與工業(yè)界獲得了廣泛的關(guān)注和應(yīng)用。相關(guān)論文被引用已超過(guò) 200 次,模型累計(jì)下載量逾 70 萬(wàn)次,并獲得了大量來(lái)自社區(qū)的真實(shí)生物實(shí)驗(yàn)驗(yàn)證,彰顯了其作為基礎(chǔ)模型的影響力。值得一提的是,Saprot 于 2024 年 5 月登頂 ProteinGym 蛋白質(zhì)突變效應(yīng)預(yù)測(cè)排行榜,并在此后近半年的時(shí)間里持續(xù)排名 第一。

開(kāi)源工具—— “一鍵式”蛋白質(zhì)語(yǔ)言模型訓(xùn)練平臺(tái) ColabSaprot:為了將 Saprot 的能力釋放給生命科學(xué)領(lǐng)域的研究者,團(tuán)隊(duì)基于免費(fèi)的 Google Colab 云平臺(tái),通過(guò)數(shù)月開(kāi)發(fā),上萬(wàn)行的代碼編寫(xiě),實(shí)現(xiàn) ColabSaprot “一鍵式”開(kāi)源訓(xùn)練平臺(tái)(鏈接:https://colab.research.google.com/github/westlake-repl/SaprotHub/blob/main/colab/SaprotHub_v2.ipynb)

它將原本需要編寫(xiě)繁瑣代碼才能進(jìn)行的蛋白質(zhì)語(yǔ)言模型微調(diào)、功能預(yù)測(cè)等任務(wù),簡(jiǎn)化為用戶在網(wǎng)頁(yè)上的幾次鼠標(biāo)點(diǎn)擊,讓不具備編程背景的生物學(xué)家也能輕松訓(xùn)練前沿蛋白質(zhì)語(yǔ)言模型,實(shí)現(xiàn)從想法到驗(yàn)證的快速迭代 。為了方便研究者快速上手,團(tuán)隊(duì)錄制了詳細(xì)的教程視頻,涵蓋了從模型訓(xùn)練到使用等各個(gè)方面(國(guó)內(nèi)鏈接:https://www.bilibili.com/video/BV1Y1i9YBEhv;國(guó)外鏈接:https://www.youtube.com/watch?v=nmLtjlCI_7M)。

全球協(xié)作——OPMC 成員共建的開(kāi)放社區(qū):SaprotHub 不僅僅是蛋白質(zhì)語(yǔ)言模型的共享中心,更是開(kāi)放蛋白質(zhì)模型聯(lián)盟(OPMC)理念的先行者。該聯(lián)盟匯聚了來(lái)自西湖大學(xué)、麻省理工學(xué)院、首爾大學(xué)、哈佛大學(xué)、慕尼黑工業(yè)大學(xué)、微軟等全球數(shù)十家頂尖科研機(jī)構(gòu)的研究力量 ,旨在共同推進(jìn)蛋白質(zhì)領(lǐng)域的蓬勃發(fā)展。為了實(shí)現(xiàn)開(kāi)源共建的良性生態(tài),團(tuán)隊(duì)采用低秩適應(yīng)矩陣(LoRA)的方式保存模型權(quán)重,并建立了 SaprotHub 模型與數(shù)據(jù)倉(cāng)庫(kù)(https://huggingface.co/SaProtHub)。通過(guò)將 ColabSaprot 開(kāi)源平臺(tái)與 SaprotHub 進(jìn)行無(wú)縫耦合,OPMC 成員和全球研究者可以便捷地分享、下載和迭代模型。目前,SaprotHub 已經(jīng)存儲(chǔ)了數(shù)十種不同類(lèi)型的蛋白質(zhì)訓(xùn)練數(shù)據(jù)集以及可供研究者直接預(yù)測(cè)的蛋白質(zhì)語(yǔ)言模型。

為了方便研究者快速檢索,團(tuán)隊(duì)針對(duì)性地開(kāi)發(fā)了相應(yīng)的搜索引擎,允許研究者根據(jù)關(guān)鍵詞直接檢索到相關(guān)的數(shù)據(jù)和模型(

https://huggingface.co/spaces/SaProtHub/SaprotHub-search)。

3..png

圖2. SaprotHub利用LoRA技術(shù)存儲(chǔ)模型權(quán)重,實(shí)現(xiàn)模型的便利共享

從虛擬到現(xiàn)實(shí):計(jì)算機(jī)模擬性能驗(yàn)證與多項(xiàng)濕實(shí)驗(yàn)驗(yàn)證

SaprotHub 的價(jià)值不僅在于其便捷性,更在于其預(yù)測(cè)準(zhǔn)確性。在團(tuán)隊(duì)開(kāi)展的用戶研究中,12 位沒(méi)有 AI 背景的生物學(xué)研究者使用該平臺(tái),取得了與 AI 研究者相媲美的成果。

4..png

圖3. 生物研究者利用平臺(tái)能夠訓(xùn)練出和AI研究者相媲美的成果

更進(jìn)一步,平臺(tái)預(yù)測(cè)的有效性在一系列生物濕實(shí)驗(yàn)中得到了驗(yàn)證:

  • 工業(yè)酶改造:一家生物技術(shù)公司利用 ColabSaprot 對(duì)一種工業(yè)用木聚糖酶進(jìn)行改造,成功將酶的活性提升了 2.55 倍 。

  • 基因編輯工具優(yōu)化:研究人員利用該平臺(tái)對(duì) TDG 基因編輯工具進(jìn)行優(yōu)化,預(yù)測(cè)出的多個(gè)新版本在實(shí)驗(yàn)中展現(xiàn)出翻倍的編輯效率 。

  • 熒光蛋白設(shè)計(jì):平臺(tái)還被用于設(shè)計(jì)更亮的綠色熒光蛋白(GFP),其中一個(gè)新設(shè)計(jì)的蛋白,其熒光亮度達(dá)到了原始版本的 8 倍以上 。

這些成功案例證明,SaprotHub 能夠?qū)?AI 的預(yù)測(cè)能力轉(zhuǎn)化為現(xiàn)實(shí)世界中的生物學(xué)功能突破。

總之,SaprotHub 的發(fā)布,不止是提供了一個(gè)工具。它以一個(gè)創(chuàng)新的自研蛋白質(zhì)語(yǔ)言模型(Saprot)為基礎(chǔ),通過(guò)開(kāi)源平臺(tái)(ColabSaprot)來(lái)催化一個(gè)全球性的科研協(xié)作網(wǎng)絡(luò)(OPMC)。這為 AI 輔助的生命科學(xué)研究提供了一種可持續(xù)發(fā)展的“開(kāi)源、共建、共享”模式。目前,該生態(tài)已進(jìn)一步集成了 ESM-2、ProtT5 等更多業(yè)界主流模型 ,開(kāi)啟了蛋白質(zhì)科學(xué)的“大航海時(shí)代”。

核心突破(Highlights):

  • 全新蛋白質(zhì)語(yǔ)言模型:發(fā)布了具備技術(shù)創(chuàng)新(結(jié)構(gòu)感知詞匯表)的 Saprot 蛋白質(zhì)語(yǔ)言大模型。其在 14 項(xiàng)基準(zhǔn)測(cè)試中性能超越了 ESM-2 等現(xiàn)有經(jīng)典模型,已在該領(lǐng)域展現(xiàn)了其作為基礎(chǔ)模型的影響力。

  • 開(kāi)源協(xié)作范式:作為開(kāi)放蛋白質(zhì)模型聯(lián)盟(OPMC)的第一步,匯聚了來(lái)自MIT、哈佛、牛津、首爾大學(xué)等全球頂尖機(jī)構(gòu)的智慧,為蛋白質(zhì)領(lǐng)域建立了集模型訓(xùn)練、分享、合作、迭代于一體的開(kāi)源社區(qū)平臺(tái)。

  • 蛋白質(zhì)語(yǔ)言模型技術(shù)民主化:通過(guò)“一鍵式”的 ColabSaprot 工具,將先進(jìn)蛋白質(zhì)語(yǔ)言模型的復(fù)雜訓(xùn)練和使用流程民主化,賦能全球不具備編程背景的生物學(xué)家,使其從 AI 的“使用者”轉(zhuǎn)變?yōu)椤皠?chuàng)造者”和“貢獻(xiàn)者”。

  • 真實(shí)場(chǎng)景驗(yàn)證:平臺(tái)的有效性在工業(yè)酶改造、基因編輯工具優(yōu)化等多個(gè)真實(shí)的濕實(shí)驗(yàn)場(chǎng)景中得到驗(yàn)證,展示了其通過(guò)計(jì)算機(jī)模擬輔助現(xiàn)實(shí)生物學(xué)突破的能力。

    西湖大學(xué)原發(fā)杰實(shí)驗(yàn)室現(xiàn)有 2026 年博士研究生招生名額,有意向者可將個(gè)人簡(jiǎn)歷(含教育背景、科研經(jīng)歷、成果證明等)及相關(guān)材料投遞至指定郵箱,郵件主題請(qǐng)請(qǐng)注明“2026 博士申請(qǐng) + 姓名。投遞郵箱:yuanfajie@westlake.edu.cn

    論文鏈接:

    https://www.nature.com/articles/s41587-025-02859-7

    相關(guān)文章

    合作咨詢

       肖女士    021-33392297    Kelly.Xiao@imsinoexpo.com

    2006-2025 上海博華國(guó)際展覽有限公司版權(quán)所有(保留一切權(quán)利) 滬ICP備05034851號(hào)-57