Clustering Multi-vue sur les données de cellules uniques avec détection de la communauté

Clustering Multi-vue sur les données de cellules uniques avec détection de la communauté

Dayu Hu, Zhibin Dong, Ke Liang, Jun Wang, Siwei Wang, et Xinwang Liu de l’Université nationale de technologie de défense de Chine, ont rapporté leur contribution à l’identification de clusters sur des données de cellules uniques.

Les données de cellules uniques, telles que l’ARN de cellule unique (scARN) et l’Analyse de la Chromatine Accessible par la Transposase de la Cellule Unique (scATAC), contiennent des informations précieuses sur les cellules individuelles, mais les analyser à travers différentes vues pose des difficultés. Un défi était la disparité dans la richesse des données entre différentes vues, ce qui pouvait entraîner une diminution des performances globales lors de l’utilisation de méthodes de regroupement traditionnelles. Un autre défi était l’exigence de spécification manuelle du nombre de clusters, ce qui était une tâche redoutable pour les biologistes travaillant avec des données de cellules uniques.

Pour relever ces défis, l’étude a proposé une nouvelle approche appelée scUNC. L’objectif principal de scUNC était de regrouper avec précision les données de cellules uniques à partir de différentes vues sans nécessiter un nombre prédéfini de clusters. Il a intégré un réseau de fusion inter-vues pour intégrer efficacement les informations provenant de différentes vues et a automatiquement attribué des poids en fonction de la richesse de l’information de chaque vue. De plus, il a utilisé la détection de la communauté et un test de dip pour générer des clusters initiaux et les a fusionnés de manière itérative jusqu’à la convergence, éliminant ainsi le besoin de spécification manuelle des clusters.

L’étude a évalué scUNC en utilisant trois ensembles de données de cellules uniques, démontrant sa performance supérieure par rapport aux méthodes de référence. Ces ensembles de données comprenaient BMNC, SMAGE-10K et SMAGE-3K, qui contenaient des tailles d’échantillon et des nombres de clusters variables. Les métriques d’évaluation utilisées comprenaient l’Indice Rand Ajusté (ARI), l’Information Mutuelle Normalisée (NMI), la Pureté (PUR) et l’Exactitude (ACC).

Comment ont-ils construit leur algorithme?

Les auteurs ont décrit leur cadre scUNC proposé pour l’intégration des données de séquençage de l’ARN de cellule unique (scARN) et de séquençage de l’ATAC de cellule unique (scATAC). Le cadre visait à attribuer des poids optimaux à chaque vue et à fusionner efficacement les informations des deux vues. Un avantage clé du cadre était qu’il éliminait le besoin de spécification manuelle du nombre de clusters, ce qui était bénéfique pour les biologistes effectuant une analyse de clusters de cellules.

Le cadre a commencé par exclure les cellules aberrantes, puis a utilisé plusieurs autoencodeurs pour transformer les matrices de caractéristiques initiales en représentations de faible dimension. Ces représentations ont ensuite été concaténées pour former un plongement partagé. Pour résoudre la disparité dans la richesse de l’information entre les vues scARN et scATAC, les auteurs ont proposé un réseau de fusion inter-vues (CVFN) qui attribuait des poids à chaque vue en fonction de leur richesse en information. Ce déséquilibre a été rectifié en attribuant des poids différents à chaque vue dans le processus de fusion.

Au lieu d’utiliser l’algorithme traditionnel k-means, les auteurs ont utilisé la détection de la communauté pour former des clusters initiaux. La détection de la communauté était une technique utilisée pour attribuer des nœuds à des communautés en fonction de leurs relations de voisinage, ce qui était approprié pour analyser des données de cellules uniques. Les auteurs ont ensuite proposé un processus de fusion itérative inspiré de l’outil statistique de test de dip pour fusionner des clusters en fonction de leur similarité structurelle.

Le réseau CVFN et le processus de détection de la communauté ont été combinés dans un module d’optimisation global, qui comprenait une perte de reconstruction mesurant la différence entre les données reconstruites et les données d’entrée. Le cadre visait à générer des représentations et des clusters de haute qualité à partir des données scARN et scATAC intégrées.

Se fier uniquement à la perte de reconstruction n’était pas suffisant pour imposer suffisamment de contraintes sur les représentations cellulaires. Par conséquent, les auteurs ont introduit une perte de regroupement pour faciliter l’optimisation conjointe. En essence, leur modèle a affiné les plongements en minimisant la disparité de représentation cellulaire par rapport aux centres de clusters assignés. Par conséquent, tout au long de la procédure d’optimisation, les clusters présentant des scores de dip élevés ont progressivement convergé. Ce résultat concordait avec les principes de conception de leur flux de travail, fusionnant itérativement des clusters similaires. De plus, ils ont intégré l’écart-type Dc pour garantir que l’échelle tire simultanément des clusters uniques vers une position éloignée.

La fonction de perte finale était une combinaison de la perte de regroupement et de la perte de reconstruction, avec des hyperparamètres λ1 et λ2 utilisés pour équilibrer les deux pertes. La procédure de regroupement complète impliquait la collaboration du module d’optimisation et du module de fusion automatique. Après avoir obtenu la représentation cellulaire fusionnée, des clusters initiaux ont été générés à l’aide d’un algorithme de détection de la communauté. Ces clusters ont ensuite été évalués en fonction du test de dip. Les clusters fortement corrélés ont été fusionnés. Le processus d’optimisation et le processus de fusion ont fonctionné alternativement et se sont mutuellement renforcés jusqu’à ce qu’aucune fusion supplémentaire ne puisse être effectuée. Cet algorithme de regroupement automatisé a éliminé le besoin de configuration manuelle des paramètres et a produit des clusters de haute qualité en rapprochant des clusters similaires et en les fusionnant.

Quelle est la performance ?

Les auteurs ont présenté la comparaison des performances entre la méthode scUNC proposée et d’autres méthodes de référence. Les résultats ont montré que scUNC surpassait constamment les autres méthodes dans diverses métriques d’évaluation, obtenant la première place dans 8 des 12 évaluations et se classant parmi les deux premiers dans 11 d’entre elles. La légère diminution de la métrique PUR sur l’ensemble de données SMAGE-3K était attribuée à des problèmes potentiels de déséquilibre de classe. Leur article comprenait également des visualisations des plongements générés par scUNC et des modèles avec des modules supprimés, mettant en évidence la dispersion et la séparation de clusters supérieures obtenues par scUNC.

Pour valider l’efficacité des modules proposés, l’article a mené des expériences d’ablation sur deux ensembles de variantes de modèles. Les résultats ont montré que les trois modules (réseau CVFN, perte de regroupement et perte de reconstruction) contribuaient de manière significative à la performance globale de scUNC. Le retrait de l’un de ces modules a entraîné une diminution des performances, indiquant leur importance dans l’optimisation du modèle. De plus, un autre ensemble d’expériences d’ablation a vérifié l’amélioration des performances apportée par le module de fusion automatique. Les résultats ont démontré que le module de fusion améliorait considérablement les performances de regroupement, soulignant son rôle critique dans le modèle scUNC.

De plus, l’article a évalué les capacités de généralisation de scUNC sur un ensemble de données multi-vues non cellulaires et l’a comparé à d’autres méthodes concurrentes conçues pour les données de cellules uniques. Les résultats ont montré que scUNC avait obtenu d’excellentes performances sur l’ensemble de données non cellulaire, démontrant ses solides capacités de généralisation et son potentiel d’extension à divers scénarios.

En conclusion, le modèle scUNC présenté dans l’article était un cadre MVC sans K conçu pour les données de cellules uniques. Il a efficacement résolu la disparité dans la richesse de l’information entre les différentes vues cellulaires et a incorporé des modules de regroupement et de fusion automatiques. Des résultats expérimentaux approfondis ont validé la supériorité et les capacités de généralisation de scUNC dans les données de cellules uniques et non cellulaires. L’article a également analysé les hyperparamètres, la convergence et la stabilité du modèle scUNC, fournissant d’autres informations sur sa performance et son efficacité.