Nat. Biotechnol. | 从进化和测定标记数据中学习蛋白质适应度模型

  • A+
分享一篇发表在NBT上的系统研究蛋白质fitness建模的文章Learning protein fitness models from evolutionary and assay-labeled data,通讯作者是来自UC伯克利电子工程与计算机科学系的Jennifer Listgarten教授以及她的博士生Chloe Hsu。作者系统研究了市面上几个常用的蛋白质序列模型,并提出一种简单的增强机器学习方案,进一步提升了这些模型在实验数据上进行监督学习的性能。

1
基于机器学习的蛋白质fitness模型通常从无标记的进化相关序列或带有实验测量标签的突变序列中进行学习。传统的方法有HMM模型,近期较为成功的模型有potts模型,mLSTM模型以及变分自编码器(VAE)模型。对于无标签MSA数据,作者认为虽然没有标签,但这类数据依然可以称为弱的正样本学习。而对于依赖实验数据的有监督学习往往需要上万的数据来训练可靠的模型。
2
对于只有有限的实验数据可用的情况,近期的工作提出了将两种信息来源结合起来的方法。为了实现这一目标,本文提出了一种简单的组合方法,该方法可以与更复杂的方法媲美,并且平均性能优于更复杂的方法。该方法在将蛋白质序列进行简单的one-hot编码,在特定位点氨基酸特征上使用岭回归,并结合来自进化数据建模的一个概率密度特征。作者发现,新的方法可以用于任何进化密度模型,其中基于变分自动编码器的概率密度模型显示了最佳的总体性能。
3
6

另外,作者的分析强调了系统评估和充分基线的重要性。

总之,作者提出了新的增强机器学习方案以提升模型在实验数据上进行监督学习的性能。


延伸阅读:专题 | 机器学习辅助酶工程

本文作者:LY

责任编辑:JGG

原文链接:https://www.nature.com/articles/s41587-021-01146-5

文章引用:10.1038/s41587-021-01146-5


weinxin
我的微信
关注我了解更多内容

发表评论

目前评论: