使用 Biopython 快速解析 FASTA 与 GenBank 基因数据

使用 Biopython 快速解析 FASTA 与 GenBank 基因数据 | 极客日志

# 示例：使用 Biopython 读取 GenBank 文件并提取基因名称
from Bio import SeqIO

# 遍历 GenBank 记录中的每一条序列
for record in SeqIO.parse("sequence.gbk", "genbank"):
    for feature in record.features:
        if feature.type == "gene":
            gene_name = feature.qualifiers.get("gene", ["Unknown"])[0]
            print(f"Found gene: {gene_name}")

工具	格式支持	社区活跃度	扩展能力
Biopython	丰富（FASTA, GenBank, EMBL 等）	高	强（支持自定义模块）
原生 Python 脚本	有限	低	弱

>NM_001354678 Homo sapiens BRCA1 gene, complete cds
ATGGATGATCTTACACTCCTGAGGAGAAATAAAATAGAAACCAACCATTAG
GGCCAGGCGGTGGCTCACGCCTGTAATCCCAGCACTTTGGGAGGCCGAGG

from Bio import SeqIO

# 读取多序列 FASTA 文件
for record in SeqIO.parse("sequences.fasta", "fasta"):
    print(f"ID: {record.id}")
    print(f"Sequence length: {len(record.seq)}")

import re

def filter_by_description(sequences, pattern):
    matched = []
    regex = re.compile(pattern, re.IGNORECASE)
    for seq_id, desc, seq in sequences:
        if regex.search(desc):
            matched.append((seq_id, desc, seq))
    return matched

fastqc sample.fastq -o ./output/

import json
import csv

with open('data.json') as f, open('output.csv', 'w') as o:
    data = json.load(f)
    writer = csv.DictWriter(o, fieldnames=data[0].keys())
    writer.writeheader()
    writer.writerows(data)

格式	读取速度 (MB/s)	存储空间
JSON	85	高
CSV	150	低
Parquet	220	极低

LOCUS mRNA_XM_001234 987 bp mRNA linear BCT 21-JUN-2023
DEFINITION hypothetical protein [Escherichia coli]
ORGANISM Escherichia coli Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacterales
FEATURES Location/Qualifiers
CDS 59..900 /gene="hp" /codon_start=1 /translation="MKK..."

bedtools getfasta -fi genome.fasta -bed cds_features.bed -fo cds_sequences.fasta

特征类型	功能说明	常用识别工具
CDS	编码蛋白质的开放阅读框	Prodigal, Glimmer
tRNA	参与氨基酸转运的非编码 RNA	tRNAscan-SE

from Bio import SeqIO

record = SeqIO.read("example.gb", "genbank")
print(record.annotations["organism"])
for feature in record.features:
    if feature.type == "CDS":
        print(feature.qualifiers.get("product", ["Unknown"])[0])

java -jar trimmomatic.jar PE -phred33 \
 input_1.fq input_2.fq \
 output_1.paired.fq output_1.unpaired.fq \
 output_2.paired.fq output_2.unpaired.fq \
 ILLUMINACLIP:adapters.fa:2:30:10 \
 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36

指标	原始数据	预处理后
平均 Phred 质量值	28	35
总读段数（百万）	120	102

# 提取 TSS 上游 2000 bp，下游 500 bp 的区域
bedtools flank -i genes.gtf -g genome.fa.fai -l 2000 -r 500 -s > promoters.bed

from typing import List
import time

class TimeSeries:
    def __init__(self, id: str, timestamp: float, value: float):
        self.id = id
        self.timestamp = timestamp
        self.value = value

def merge_and_deduplicate(series_list: List[List[TimeSeries]], window: float) -> List[TimeSeries]:
    merged = []
    for series in series_list:
        merged.extend(series)
    merged.sort(key=lambda x: x.timestamp)
    result = []
    last_ts = -float('inf')
    for item in merged:
        if item.timestamp - last_ts > window:
            result.append(item)
            last_ts = item.timestamp
    return result

def parse_genomic_file(filepath, format_type):
    """通用解析入口
    :param filepath: 基因文件路径
    :param format_type: 文件格式（fasta/fastq/gff）
    :return: 解析后的记录生成器
    """
    parser = get_parser(format_type)
    with open(filepath, 'r') as f:
        for record in parser(f):
            yield record

方法	内存占用	解析速度
一次性加载	高	快
生成器流式处理	低	稳定

process alignReads {
    input: path fastq
    output: path 'aligned.bam'
    script: """
        bwa mem -R '@RG\\tID:sample\\tSM:sample' \
        reference.fa $fastq | \
        samtools view -bS - | samtools sort -o aligned.bam
    """
}

数据类型	分析工具	输出目标
WGS	GATK	体细胞突变谱
RNA-Seq	STAR + DESeq2	差异表达基因
ChIP-Seq	MACS2	转录因子结合位点

使用 Biopython 快速解析 FASTA 与 GenBank 基因数据

基因数据处理挑战与 Biopython 优势

主要难点

核心优势

FASTA 文件解析核心技术

FASTA 格式结构与生物学意义解析

基本结构组成

生物学应用场景

使用 SeqIO 读取多序列 FASTA 文件实战

批量读取 FASTA 序列

序列统计信息

提取特定 ID 或描述的序列筛选技巧

基于正则表达式的描述匹配

高效 ID 索引查找

序列质量评估与基本统计信息生成

FastQC 工具的使用

核心质量指标概览

批量转换与导出为其他格式的应用场景

典型应用场景

代码示例：批量 JSON 转 CSV

性能对比表

GenBank 文件深度解析方法

GenBank 记录结构与注释字段详解

核心字段结构

典型记录片段示例

解析 CDS、tRNA 等特征并提取编码序列

典型特征识别流程

编码序列提取示例

特征类型与功能对应表

利用 Biopython 获取物种来源与功能注释信息

从 GenBank 记录中提取生物信息

关键注释字段说明

序列分析与自动化处理实践

序列比对前的数据预处理流程构建

质量控制与过滤

数据质量对比

自动化提取启动子区域与调控序列

常用工具与流程

调控序列的进一步识别

多序列合并、去重与标准化存储策略

合并策略设计

标准化存储结构

构建可复用的基因文件解析脚本框架

核心设计原则

代码结构示例

性能对比表

从数据解析到生物信息学工作流的演进

高通量测序数据的自动化处理

典型工作流工具链实现

多组学整合分析流程

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具