人工智慧 AlphaFold可以準確地預測蛋白質的結構,但有一大票蛋白質在自然界是屬於沒有結構的無序蛋白質(Intrinsically disordered proteins),它們是無法被這些模型預測結構的。現在愈來愈多的研究發現無序蛋白在各種生物功能和疾病中都扮演著重要的角色,但在這些無序蛋白中,哪些胺基酸或哪一部份是重要的常常需要有經驗的人來判斷再加上實驗證明。找不到有經驗的人怎麼辦?別擔心,35億年的演化已經告訴我們答案了。就像重要的DNA序列或酵素的活性位點會在時間的長河中保留下來一樣,無序蛋白質序列中由胺基酸所決定的物理化學特徵也會受到天擇青睞。然而,這樣的特徵無法透過傳統的多重序列比對(multiple sequence alignment)方法找出。於是,黃介嶸老師的實驗室採用機器學習(*)的方式,使用異種同源蛋白質(**)的無序區段來訓練模型。透過這種方式訓練出來的AI模型可以在無序蛋白的一級序列中“看出”可能比較重要的胺基酸。這個人工智慧模型可以幫助科學家們快速參考,判斷那些胺基酸在他們想研究的無序蛋白中可能很重要,省去了找黃老師聽他亂講的步驟。
(*) 說得炫一點,他們用的是「無監督、對比式學習」; unsupervised contrastive learning
(**) 即在不同物種間的相同蛋白質; ortholog
◎期刊資訊:
Ho WL (何玟霖同學), Huang HC (黃宣誠老師), and Huang JR*(黃介嶸老師). “IFF: Identifying key residues in intrinsically disordered regions of proteins using machine learning.” (2023) Protein Science (指導教授: 生化暨分子生物研究所黃介嶸老師)
【全文連結】