蛋白质是执行生物体内各种重要生物活动的大分子,认识其功能对推动生命科学、农业、医疗等领域的发展意义重大。1961年,Anfinsen等提出蛋白质一级序列决定其三维结构、蛋白质三维结构决定其功能的论断。相对于蛋白质三维结构,一级序列更容易通过生物实验测得,故早期的蛋白质功能预测方法大都基于序列相似性原理,利用BLAST( Basic Local Alignment Search Tool)和 PSI-BLAST(Position-Specific Iterated BLAST)等工具计算功能未知的蛋白质与功能已知的蛋白质之间的序列相似度,若相似度较高则认为其具有相同的功能。然而,近年来的研究表明,序列相似的蛋白质能够形成不同的三维结构,故其功能不一定相同,而且序列差异较大的蛋白质也可能具有相同的功能;因此,基于序列相似性的蛋白质功能预测方法是不可靠的。
针对现有的基于蛋白质相互作用( PPI)网络的蛋白质功能预测方法预测精度不高、易受数据噪声影响的问题,提出一种基于机器学习(层次聚类、主成分分析和多层感知器)的蛋白质功能预测方法HPMM。该方法综合考虑蛋白质宏观和微观层面的信息,将蛋白质家族、结构域和重要位点信息作为顶点属性整合到PPI网络中以减轻网络中数据噪声的影响。首先,基于层次聚类和主成分分析进行特征提取,得到功能模块和属性主成分特征,然后训练多层感知器模型,建立多特征与多功能之间的映射关系以用于功能预测。在三个分别被分子功能( MF)、生物过程(BP)和细胞组件( CC)注释的人类PPI网络上进行测试,对HPMM、余弦迭代算法(CIA)和有向PPI网络基因本体术语传播( GoDIN)算法的功能预测效果进行比较分析。实验结果表明,相比CIA和GoDIN这两种完全基于PPI网络的方法,HPMM的精确度与F值更高。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !