【文献分享】CellWhisperer多模态学习使得基于对话的方式能够对单细胞数据进行探索

【文献分享】CellWhisperer多模态学习使得基于对话的方式能够对单细胞数据进行探索
在这里插入图片描述

文章目录

介绍

单细胞测序能够以前所未有的规模和细节对生物样本进行特征描述,但数据解读仍颇具挑战性。在此,我们推出了“CellWhisperer”,这是一种基于对话的基因表达查询的人工智能(AI)模型和软件工具。我们通过对比学习对 100 万个 RNA 测序数据集与由 AI 管理的描述建立了转录组及其文本注释的多模态嵌入。这个嵌入为一个大型语言模型提供了信息,该模型能够通过自然语言对话回答关于细胞和基因的问题。我们对 CellWhisperer 在零样本预测细胞类型和其他生物学注释方面的性能进行了基准测试,并展示了其在人类胚胎发育的元分析中的生物发现应用。我们将 CellWhisperer 对话框与 CELLxGENE 浏览器集成在一起,使用户能够通过结合图形和对话界面来交互式地探索基因表达。总之,CellWhisperer 利用大规模社区规模的数据库来连接转录组和文本,从而能够通过自然语言对话实现对单细胞 RNA 测序数据的交互式探索。

在这里插入图片描述


CellWhisperer 训练数据集生成的概念性框架(左)、模型训练与推理(中)以及在单细胞 RNA 测序数据分析中的应用(右)。b,来自 GEO 数据库的人类转录组的 CellWhisperer 嵌入的 UMAP 可视化。使用 Leiden 算法计算聚类,并由 CellWhisperer 生成聚类标签。CellWhisperer 标注的数据集可在项目网站(https://cellwhisperer.bocklab.org/geo)上进行交互式分析。c,针对自由文本查询词“感染”的 CellWhisperer 评分投影在 b 中转录组嵌入的 UMAP 上。d,根据 CellWhisperer 生成的聚类标签选择的转录组的样本元数据检索(此处为:GEO 提交日期)。

基因表达分析在细胞和组织的特性鉴定中得到了广泛应用1,2。大规模的 RNA 测序(RNA-seq)通过一种简便且经济高效的检测方法,能够对细胞状态和生物学功能进行详细评估3。此外,通过单细胞 RNA 测序(scRNA-seq),研究人员能够解析组织、器官和疾病中的细胞组成及其生物学异质性4。大规模的单细胞 RNA 测序也是人类细胞图谱项目的核心部分,该项目旨在创建人体内所有细胞类型的参考图谱5。
一个典型的单细胞 RNA 测序(scRNA-seq)数据集可以用一个包含约 20,000 个基因以及数千或数百万个单细胞的计数矩阵来表示。分析和解读这类数据集是一项复杂的任务,需要兼具生物信息学技能和特定应用领域的生物学知识。为了便于进行 scRNA-seq 数据分析,已经开发出了一系列软件工具,用于涵盖各种任务,包括数据可视化、细胞聚类、细胞类型注释、差异表达和基因集分析等6。此外,基于深度学习的“单细胞基础模型”(scFMs)已在大规模的 scRNA-seq 数据集上进行训练,有望超越专门工具,并支持那些它们未明确针对的广泛分析任务7,8。
在这里,我们展示了如何通过自然语言对单细胞 RNA 测序数据进行探索,使用户能够用英语来查询细胞信息,无需遵循任何特定的格式或语法规则。我们的 CellWhisperer 框架支持自由文本搜索(例如“给我展示肠道中的组织驻留 T 细胞”),并能回答关于细胞的一系列广泛问题(例如,“这些选定的细胞是什么?”、“这些细胞中哪些基因的表达水平很高?”、“KLRD1 在自然杀伤(NK)细胞中的作用是什么?”)。该模型的回答是基于所选的单细胞 RNA 测序数据以及大型语言模型(LLM)的生物学知识相结合的结果,例如“选定的细胞似乎是 CD16+ NK 细胞,这是 NK 细胞的一个子集,在先天免疫反应中起着至关重要的作用 […]”,“这些细胞中表达最高的基因包括 NKG7、KLRD1、GNLY、GZMA、PRF1 […]”,“KLRD1(CD94)是一种在 NK 细胞激活和细胞毒性中起作用的受体。它能够识别靶细胞上的 MHC I 分子并触发 NK 细胞介导的细胞毒性”。
CellWhisperer 通过两个相互交织的人工智能(AI)模型实现了这一功能。首先,CellWhisperer 嵌入模型通过多模态对比学习9 将 RNA 谱图及其由元数据衍生的文本注释整合在一起,从而创建了转录组和文本的联合多模态嵌入。CellWhisperer 的训练数据包括超过一百万个转录组及其自然语言描述,这些数据是由人工智能辅助的整理从两个大型数据库(基因表达综合数据库10,11 和 CELLxGENE 计划12)中获得的。其次,CellWhisperer 聊天模型采用开放权重的语言模型13,14 来回答关于细胞状态的自由文本问题,同时将用户提供的转录组谱图作为多模态输入加以考虑。将这两个模型结合起来,CellWhisperer 使基于交互式聊天的 scRNA-seq 数据探索成为可能,我们将其整合到了广泛使用的 CELLxGENE Explorer15 中。CellWhisperer 软件、模型、训练数据和源代码可在网上获取(https://cellwhisperer.bocklab.org),使用示例见图 5 和补充注释 1。
总之,我们开发了 CellWhisperer 作为自然语言作为一种直观的渠道来与 scRNA-seq 数据集进行交互的证明概念(补充视频 1)。这得益于一个结合了转录组和文本的多模态人工智能模型,以及一个整合了生物知识的聊天模型。我们设想通过自然语言对数据进行查询将成为未来基于人工智能的生物信息学研究助手的关键要素。

代码

https://cellwhisperer.bocklab.org/

在这里插入图片描述

参考

  • Multimodal learning enables chat-based exploration of single-cell data
  • https://cellwhisperer.bocklab.org/

Read more

Flutter 三方库 workiva_analysis_options 的鸿蒙化适配指南 - 实现工业级的代码质量审计与 Linter 规约对齐、支持端侧工程架构健康度自动检测实战

Flutter 三方库 workiva_analysis_options 的鸿蒙化适配指南 - 实现工业级的代码质量审计与 Linter 规约对齐、支持端侧工程架构健康度自动检测实战

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.ZEEKLOG.net Flutter 三方库 workiva_analysis_options 的鸿蒙化适配指南 - 实现工业级的代码质量审计与 Linter 规约对齐、支持端侧工程架构健康度自动检测实战 前言 在进行 Flutter for OpenHarmony 的企业级大型分布式项目开发时,如何统一上百名开发者的代码风格?简单的 analysis_options.yaml 默认配置往往无法满足金融、工业等严苛领域对代码健壮性、可维护性的极致要求。workiva_analysis_options 合集了来自顶级工程实践的代码静态分析规约。本文将探讨如何在鸿蒙端构建一道坚不可摧的代码质量防线。 一、原直观解析 / 概念介绍 1.1 基础原理 该库本质上是一套高度严谨的 Linter 指令集。它通过对 Dart 核心分析引擎建议集的精妙筛选,强制开启了涉及内存安全(Avoid Unnecessary

By Ne0inhk
手搓简易 Linux 进程池:从 0 到 1 实现基于管道的任务分发系统

手搓简易 Linux 进程池:从 0 到 1 实现基于管道的任务分发系统

🔥草莓熊Lotso:个人主页 ❄️个人专栏: 《C++知识分享》《Linux 入门到实践:零基础也能懂》 ✨生活是默默的坚持,毅力是永久的享受! 🎬 博主简介: 文章目录 * 前言: * 一. 核心设计思路 * 二. 代码模块拆解 * 2.1 任务定义与随机任务生成 * 2.2 子进程任务处理逻辑 * 2.3 通道(Channel)类:封装父子进程通信 * 2.4 进程池(ProcesspPool)类:核心管理逻辑 * 2.5 主函数:进程池使用示例 * 三. 关键知识点解析 * 3.1 管道通信原理 * 3.2 轮询负载均衡 * 3.3 进程回收的坑

By Ne0inhk

鸿蒙6运行自创APK的方法

在鸿蒙6(HarmonyOS 6)上运行自行开发的APK应用,需注意鸿蒙系统对Android应用的兼容性。以下是具体操作步骤: 确认鸿蒙系统版本 确保设备运行的是鸿蒙6或更高版本,该系统支持通过"方舟编译器"兼容大部分Android应用。可在"设置 > 关于手机"中查看系统版本。 启用未知来源安装 进入"设置 > 安全与隐私 > 更多安全设置",开启"允许安装来自未知来源的应用"。若提示具体应用权限,需进一步授权文件管理器应用的安装权限。 使用鸿蒙IDE签名 通过DevEco Studio对APK进行签名: 1. 打开项目后选择"Build > Generate Signed Bundle/APK" 2. 选择APK格式并创建新密钥库(

By Ne0inhk
Flutter 组件 ignorium 的适配 鸿蒙Harmony 实战 - 驾驭代码生成忽略审计、实现鸿蒙端构建产物精准管理与资源泄露防护方案

Flutter 组件 ignorium 的适配 鸿蒙Harmony 实战 - 驾驭代码生成忽略审计、实现鸿蒙端构建产物精准管理与资源泄露防护方案

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.ZEEKLOG.net Flutter 组件 ignorium 的适配 鸿蒙Harmony 实战 - 驾驭代码生成忽略审计、实现鸿蒙端构建产物精准管理与资源泄露防护方案 前言 在鸿蒙(OpenHarmony)生态的超大规模工程开发中,代码生成(Code Generation)技术(如 build_runner)是提效的利器,但同时也带来了一个令人头疼的并发症:构建产物的急剧膨胀。面对动辄数千个生成的 .g.dart、.fb.dart 以及各种缓存占位文件。如果缺乏一套严密的忽略审计机制,不仅会导致 IDE 索引变慢、IDE 搜索结果被垃圾信息淹没,更严重的是,某些带有敏感信息的生成代码可能会被误提交到仓库中。 我们需要一种“逻辑可控”的构建过滤器。 ignorium 是一套专为代码生成与静态分析设计的忽略路径审计引擎。它允许你通过定义严密的模式规则。精确控制哪些生成文件应该被存留,哪些应该在构建后立即从宿主机环境抹除。

By Ne0inhk