最新技術の進歩です - FmRead

Multi-view Clustering on Single-cell Data with Community Detection

単一細胞データのマルチビュークラスタリングにおけるコミュニティ検出

中国国防科技大学のDayu Hu、Zhibin Dong、Ke Liang、Jun Wang、Siwei Wang、およびXinwang Liuは、シングルセルデータのクラスターを特定する貢献を報告しました。

シングルセルデータ(シングルセルRNA(scRNA)およびシングルセルアサイオブトランスポーゼアクセシブルクロマチン(scATAC)など)は、個々の細胞について貴重な情報を含んでいますが、異なるビューでそれらを解析することは困難を伴います。そのうちの1つの課題は、異なるビュー間でのデータの豊かさの不一致であり、これは従来のクラスタリング方法を使用すると全体の性能の低下をもたらす可能性があります。もう1つの課題は、シングルセルデータを扱う生物学者にとって、クラスターの数を手動で指定する必要があるという点でした。

これらの課題に対処するため、研究ではscUNCという新しいアプローチを提案しました。scUNCの主な目的は、事前に定義されたクラスターの数を必要とせず、異なるビューからシングルセルデータを正確にクラスタ化することでした。これは、異なるビューからの情報を効果的に統合し、各ビューの情報の豊かさに基づいて自動的に重みを割り当てるクロスビューフュージョンネットワークを統合しました。さらに、初期のクラスタを生成するためにコミュニティ検出とdip-testを使用し、手動でクラスタを指定する必要をなくしました。

研究では、BMNC、SMAGE-10K、およびSMAGE-3Kなどの3つのシングルセルデータセットを使用してscUNCを評価し、その基本的な方法と比較して優れた性能を示しました。評価メトリックには、調整ランド指数(ARI)、正規化相互情報量(NMI)、純度(PUR)、および精度(ACC)が含まれます。

彼らはどのようにしてアルゴリズムを構築しましたか

著者は、提案されたscUNCフレームワークをシングルセルRNAシーケンシング(scRNA)およびシングルセルATACシーケンシング(scATAC)データを統合するために記述しました。このフレームワークは、各ビューに最適な重みを割り当て、両方のビューからの情報を効果的に統合することを目指していました。フレームワークの主な利点の1つは、細胞クラスタの分析を行う生物学者にとって有益である、手動でクラスタの数を指定する必要がないことでした。

フレームワークは、はじめに外れ値細胞を除外し、複数の自己エンコーダを使用して元の特徴行列を低次元表現に変換しました。これらの表現は、共有埋め込みを形成するために連結されました。scRNAとscATACのビュー間の情報の豊かさの不一致に対処するために、著者は、各ビューに情報の豊かさに基づいて重みを割り当てるクロスビューフュージョンネットワーク(CVFN)を提案しました。この不均衡は、融合プロセスで各ビューに異なる重みを割り当てることによって補正されました。

著者は、伝統的なk-meansアルゴリズムの代わりに、初期クラスタを形成するためにコミュニティ検出を使用しました。コミュニティ検出は、単一細胞データの分析に適した、隣接関係に基づいてノードをコミュニティに割り当てる手法でした。次に、クラスタ間の構造的類似性に基づいてクラスタを反復的に統合するために、dip-test統計ツールに触発された反復的な統合プロセスを提案しました。

CVFNネットワークとコミュニティ検出プロセスは、再構成データと入力データとの違いを測定する再構成損失を含む、総合最適化モジュールに統合されました。フレームワークは、統合されたscRNAとscATACデータから高品質の表現とクラスタを生成することを目指していました。

再構成損失だけに頼ることは、細胞表現に十分な制約を課すことができませんでした。そのため、著者は、共同最適化を促進するためにクラスタリング損失を導入しました。基本的には、彼らのモデルは、代入されたクラスタ中心からの細胞表現の不一致を最小限に抑えることによって埋め込みを洗練しました。その結果、最適化手順全体を通じて、上昇したディップスコアを示すクラスタが段階的に収束しました。この結果は、類似するクラスタを反復的に統合する彼らのワークフローの設計原則と一致しました。さらに、彼らは、単一のクラスタを遠くの位置に引き離すことを約束するDcベースの標準偏差を統合しました。

最終的な損失関数は、クラスタリング損失と再構成損失の組み合わせであり、ハイパーパラメータλ1とλ2を使用して、両方の損失を調整しました。完全なクラスタリング手順には、最適化モジュールと自動マージングモジュールの協力が含まれていました。統合された細胞表現を取得した後、コミュニティ検出アルゴリズムを使用して初期のクラスタを生成しました。これらのクラスタは、dip-testに基づいて評価されました。強く相関するクラスタは一緒に統合されました。最適化プロセスとマージングプロセスは交互に動作し、相互に補強し、さらなる統合が行えなくなるまで続けました。この自動クラスタリングアルゴリズムは、手動でパラメータ構成する必要をなくし、似たクラスタを近づけて統合することで高品質のクラスタを生成しました。

パフォーマンスはどうですか?

著者は、提案されたscUNCメソッドと他のベースラインメソッドとのパフォーマンス比較を示しました。その結果、scUNCがさまざまな評価メトリックで一貫して他のメソッドを上回り、12の評価のうち8つで1位を達成し、11つで上位2位以内にランクインしました。SMAGE-3KデータセットでのPURメトリックのわずかな減少は、潜在的なクラスの不均衡の問題に起因するとされています。また、この論文には、scUNCによって生成された埋め込みの視覚化やモジュールを除去したモデルの視覚化も含まれており、scUNCによって達成された優れた分散とクラスタの分離が際立っています。

提案されたモジュールの有効性を検証するために、論文はモデルの変種を2つのセットでの除去実験を行いました。その結果、CVFNネットワーク、クラスタリング損失、および再構成損失の3つのモジュールが、scUNCの全体的なパフォーマンスに大きく貢献していることが示されました。これらのモジュールのいずれかを削除すると、パフォーマンスが低下するため、それらはモデルの最適化において重要であることを示しています。さらに、別の一連の除去実験は、自動マージングモジュールによって提供されるパフォーマンス向上を検証しました。その結果、マージングモジュールがクラスタリングパフォーマンスを大幅に向上させ、scUNCモデルでのその重要な役割を強調しています。

さらに、この論文は、非細胞マルチビューデータセットでのscUNCの汎化能力を評価し、シングルセルデータ用に設計された他の競合方法と比較しました。その結果、scUNCが非細胞データセットで優れたパフォーマンスを達成し、その強力な汎化能力とさまざまなシナリオへの拡張可能性を示しました。

まとめると、この論文で提示されたscUNCモデルは、シングルセルデータに適したNo-K MVCフレームワークでした。それは、異なる細胞ビュー間の情報の豊かさの不均衡を効果的に対処し、自動クラスタリングおよびマージングモジュールを組み込みました。広範な実験結果は、scUNCの優越性と汎化能力をシングルセルおよび非細胞データの両方で確認しました。この論文は、scUNCモデルのハイパーパラメータ、収束、安定性について分析し、そのパフォーマンスと効果をさらに明らかにしました。

Update: 2023-12-02