Integración de rasgos y aprendizaje semi-supervisado para la clasificación funcional de enzimas utilizando K-medias de Spark

Yadelis González Valle,Deborah Galpert Cañizares, Reinaldo Molina Ruiz,Guillermı́n Agüero-Chapin

Revista Cubana de Ciencias Informáticas(2020)

引用 0|浏览0
暂无评分
摘要
La clasificacion funcional de las enzimas constituye un campo de gran interes para la bioinformatica desde hace varios anos. Dicha clasificacion debe tener en cuenta la escasa informacion de algunas clases, el desbalance entre ellas y el numero creciente de enzimas a clasificar. En este articulo investigamos el uso de algoritmos de agrupamiento semi-supervisados y no supervisados para agrupar secuencias similares de enzimas, a partir de la integracion de descriptores de proteinas libres de alineamiento basados en el metodo de k - mers con diferentes valores de k . Se implementaron en Spark cuatro algoritmos que agrupan las enzimas de acuerdo a su funcion enzimatica. Estos estas basados en transformaciones a metodos existentes como el Combinatorio Logico Global, el K-medias y el Ensamblado de Agrupamientos. La calidad del agrupamiento se midio usando como medida interna el indice de silueta y como medida externa la medida-F. En la experimentacion, se tomaron como referencia 58 secuencias funcionalmente caracterizadas de 501 enzimas de la familia Glicosil Hidrolasa-70 (GH-70) (con un alto valor para la biotecnologia y que a su vez pueden ocasionar perdidas millonarias en la produccion de azucar) de la base de datos CAZy, con el objetivo de comparar los resultados de los metodos de agrupamiento implementados. Se obtuvieron valores moderados del indice de silueta como medida interna pero mejor que los obtenidos con el metodo K-medias. Se alcanzao el mejor valor de 0.9 de la medida-F del metodo del Ensamblado de Agrupamientos combinado con el aprendizaje semi-supervisado.
更多
查看译文
关键词
semi-supervisado,k-medias
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要