蛋白质一级序列的亚细胞定位在基因组注释、蛋白质功能预测、药物发现等领域起着重要作用。超级学习机是近年来新兴的机器学习方法。本文探讨了超级学习机在蛋白质亚细胞定位预测中的潜力。为此,我们首先给出了一种新的特征提取策略,将每个蛋白质一级序列表示成25维的数值向量。在此基础上,我们将852组分枝杆菌蛋白质数据分别用基于新特征的支持向量机方法、基于新特征的超级学习机方法和已有的基于伪氨基酸组成特征的支持向量机方法做数值试验。这852组数据从Swiss-Prot 48数据库中选取,分属于四个不同种类。通过在这些数据上做五折交叉数值比较发现,基于新特征提取策略的超级学习机方法的准确率最高,达到了97.2%,超过基于新特征的支持向量机方法的96.4%的准确率以及基于伪氨基酸组成特征的支持向量机方法的95.2%的准确率。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !