avatar
文章
22
标签
13
分类
7
主页
搜索
分类
关于
LogoJinhengHao的博客
主页
搜索
分类
关于

JinhengHao的博客

二代测序数据基础分析(一)
发表于2025-09-26|生物信息学习|基因测序| 条评论
技术介绍 第二代测序技术,1990s - 2010s 第二代测序技术从原理上分为三种方法: Roche 454测序法 IIIumina Solexa/Hiseq测序法 ABI Solid测序法 三种二代测序技术的对比: 总结 二代测序技术总体而言都有着同一种特性: 需荧光或化学发光物质 需聚合酶或连接酶 需购买昂贵的试剂耗材和光学系统 需强大的图形分析计算能力 WES分析流程WES分析流程分为5个步骤: WES分析流程 数据质量控制 序列比对分析 变异检测 变异注释 一. WES分析流程原始测序数据——数据质量控制——序列比对——变异检测——变异注释——完成 二. 数据质量控制数据质控标准: 去掉reads中的接头 去除低质量(BP<20)碱基的reads 去除序列头尾的N碱基 去除头尾N碱基后若剩余reads长度小于40bp(双端),则丢弃该对序列 原始数据下载——sratoolkit软件 123456# 安装conda install sra-tools# 找到sra数据,下载srr listprefetch SRR1139956# sra...
python导入模块时遇到ModuleNotFoundError: No module named ’xxx‘
发表于2025-09-24|学习|python| 条评论
前言记录以前学习python的时候遇到模块导入问题的解决方法 问题出现过程在python导入模块时候遇到 ModuleNotFoundError: No module named “pandas” 出现错误的代码块如下: 12import pandas as pdimport numpy as np 出现: 123Traceback (most recent call last): File "<stdin>", line 1, in <module>ModuleNotFoundError: No module named 'pandas' 解决方法在terminal下运行指令: 12345678# 使用condaconda install pandas# 使用pippip install pandas# 在该环境下使用pip安装python -m pip install pandas# 基于清华源使用pip安装(推荐)pip install -i https://mirrors.tuna.tsinghua.e...
秀丽隐杆线虫油红O响应值测定方法
发表于2025-09-21|湿实验相关|秀丽隐杆线虫| 条评论
前言在做秀丽隐杆线虫实验的时候,我们往往需要对线虫测定脂肪分布,这时候可能需要使用油红O染色法测定线虫脂肪滴的分布,在这里就简易地说一下测定的方法。 实验准备需要有ImageJ软件、油红O线虫染色的照片如图所示: 测定过程打开ImageJ 其软件界面如图所示: 首先点击Analyze——Set Measurement.. 按图选择所需要的指标: 点击OK 打开线虫染色的图片 点击File——Open——选择照片 图片RGB转灰度处理 点击Image——Type——8-Bits 此时图片变成灰度图: 将图片反转选择 点击Edit——Invert 此时图片变成如下图所示: 设定阈值 点击Image——Adjust——Threshold 按照所需要的数值进行调整,尽量将线虫染色的区域囊括进去 随后点击 对线虫本体进行框选 测定响应值 框选完毕后测定响应值,点击Analyze——Measure 得出测定油红O的响应值,一般文献会选择线虫的平均光密度 也就是平均光密度=IntDen / Area 在这里的数值为:152.035, 和Mean值基本相同,...
基于David数据库与微生信平台进行Go-KEGG分析
发表于2025-09-16|生物信息|富集分析| 条评论
进入DAVID数据库 选择Functional Annotation 点击Functional Annotation Tool 选择GO与PathWays GO这里选择BP、CC、MF 点击Chart可看到: 点击下载文件,将数据复制粘贴到EXCEL中备用。 其余的CC、MF也是同样的操作 PATHWAY这里我们只选择KEGG进行下载,也是点击Chart,下载文件并整理到excel中备用。 整理从DAVID数据库下载的文件一般下载下来的表格如图所示: 在这里分了4个Sheet,每个Sheet对应着从不同地方搜集下来的数据,分为BP、CC、MF、KEGG 三合一图作法三合一的图需要以下格式: 只取Term和PValue的值,其中Term需要去除前面GO:xxxx的数值,留下后面的信号通路名字 同样的道理,分别搜集BP、CC、MF并累积到一个Sheet中,如图所示: subgroup与Enrichment Score需要自己手动创建,其中subgroup对应的就是你搜集下来的数据是属于BP还是CC亦或者是MF。需要作一个提前标识。而Enrichment Score列...
RNA-seq基本介绍及实战——差异分析
发表于2025-09-03|生物信息学习|R•python•转录组学| 条评论
实战环节上一期对所拥有的数据做了个表达定量并生成了表达矩阵,现在进入差异分析的环节 差异分析本次做差异分析所使用的工具是基于python的omicverse库 该模块的其安装方法也很简单,但需注意的是omicverse库必须在linux环境或windows系统的WSL环境下使用。 12345678910111213141516# 使用condaconda create -n omicverse python=3.10conda activate omicverse# 安装pytorch-gpu版 (二选一)conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia# 安装putorch-cpu版 (二选一)conda install pytorch torchvision torchaudio cpuonly -c pytorch# 安装pygconda install pyg -c pyg# 安装omicverseconda install omicverse -c co...
RNA-seq基本介绍及实战——表达定量
发表于2025-08-31|生物信息学习|R•python•转录组学| 条评论
实战环节上一期对所拥有的数据做了个序列比对,现在进入表达定量的环节 表达定量在进行表达定量的处理之前,需要对原始的比对文件进行处理,这里就有以下步骤: 使用picard / samtools 将sam格式转换为bam格式 对bam文件进行排序 去除比对得分较低的序列 如果需要可以去除重复reads 在这里将会以三种方法进行表达定量的操作,分别是STAR+RSEM进行表达定量,另外一个就是使用Kallisto进行表达定量操作。最后一个就是使用featureCounts软件进行操作。 STAR+RSEM这个方法分为两个步骤 准定定量分析所需文件 利用STAR结果进行定量分析 在进行这个方法之前,需要对RSEM这个软件进行安装 RSEM这个软件的安装方法同样也很简单: 123456## 下载 RSEMwget -c https://github.com/deweylab/RSEM/archive/v1.3.1.tar.gzcd RSEM-1.3.1## 安装 RSEMmakemake install 接下来构建准备文件,在主目录下创建arab_RSEM文件夹,随后输...
RNA-seq基本介绍及实战——序列比对
发表于2025-08-30|生物信息学习|R•python•转录组学| 条评论
实战环节上一期对所拥有的数据做了个初步数据的质量控制与过滤,现在开始进入序列比对环节 有参分析与无参分析 序列比对的流程如图所示 我们拿到测序的结果是一个个的片段,如果我们要获得这些片段的定量表达,就要知道这些片段,在参考基因组的哪个位置上。如果参考的物种有基因组的话,那我们就可以将这些片段比对到基因组上。这就是如图所示在左边的有参分析。 反之如果没有参考基因组的话,那就要进行转录组的拼接。直接利用测序读长之间的重叠关系,从头拼接、组装出完整的序列(Contigs/Scaffolds)。这就是如图所示右边的无参分析。 特征 有参分析 无参分析 核心需求 已有参考基因组 无参考基因组 基本原理 将短序列映射到参考序列上 利用序列重叠关系从头拼接 计算效率 高,速度快,资源消耗少 低,速度慢,资源消耗巨大 技术难度 相对较低,流程标准化 高,需要大量调试和优化 结果形式 SAM/BAM(比对位置信息) FASTA(组装出的序列) 主要优势 高效、准确、易于下游分析 能发现全新遗传信息,不依赖参考序列 主要局限 依赖参考基因组质量...
RNA-seq基本介绍及实战——质量控制
发表于2025-08-28|生物信息学习|R•python•转录组学| 条评论
实战环节上一期对转录组学做了一个基本介绍,现在开始进入实战环节 数据预处理数据预处理在做之前,需要作准备工作,而准备工作一般是准备以下工作 准备工作 构建项目目录 参考序列下载 原始数据上传 构建项目目录进行转录组分析所使用的平台一般是linux系统,一个常见的工作目录结构如下: 参考序列下载参考序列一般来说我们需要两个文件 参考基因组(fasta格式) 注释信息 (gtf/gff格式) 参考序列可以在ensemble数据库获得 里面包含了人类,小鼠等基因组的数据; 另外可访问JGI数据库 本次实例所用的数据库为TAIR数据库、对拟南芥基因库进行下载。 进入00ref目录,用wget命令进行下载 123wget https://plantgarden.jp/en/download/Arabidopsis_thaliana/t3702.G001/Araport11_GFF3_genes_transposons.201606.gtf.gzwget https://plantgarden.jp/en/download/Arabidopsis_thaliana/...
在浏览器中运行Python--基于Vercel中部署JupyterLite过程
发表于2025-08-23|博客搭建学习|python| 条评论
介绍JupyterLite 是一个完全在浏览器中运行的 JupyterLab 发行版,它基于 JupyterLab 组件和扩展从头构建而成。 JupyterLite 可以在不需要安装任何软件的情况下直接在浏览器中运行。 本文记录了如何基于Vercel去部署JupyterLite站点 官网:https://jupyterlite.readthedocs.io/en/stable/index.html 部署过程在github中拉取jupyterlite Demo首先在GitHub中将该项目fork下来,地址:https://github.com/jupyterlite/demo 而后创建部署脚本,取名为deploy.sh 内容如下: 12345678910111213141516#!/bin/bashecho y | yum install wgetwget -qO- https://micromamba.snakepit.net/api/micromamba/linux-64/latest | tar -xvj bin/micromamba# activate the envir...
RNA-seq基本介绍及实战——基本介绍
发表于2025-08-21|生物信息学习|R•python•转录组学| 条评论
RNA-seq的基本原理一、概念RNA-seq 是利用高通量测序技术对细胞或组织中 转录组(全部 RNA 分子集合) 进行测定的方法。它能揭示基因表达水平、转录本结构、可变剪接情况、新转录本等信息。相比于传统的 微阵列(microarray),RNA-seq 不依赖预先设计的探针,分辨率更高、动态范围更宽。 二、基本流程与原理 RNA 提取 从细胞或组织样本中提取总 RNA。 常常会去除 rRNA(占比高达 80-90%),保留 mRNA 或其他关注的 RNA 类型(如 miRNA、lncRNA)。 RNA → cDNA 由于测序平台主要针对 DNA,需要先把 RNA 逆转录为 cDNA。 通过 逆转录酶 合成一链或双链 cDNA。 文库构建 将 cDNA 打断成合适长度的片段(通常 200–500 bp)。 在片段两端连接 接头序列(adaptor),用于后续扩增和测序。 高通量测序 常见平台:Illumina(短读长,覆盖率高)、PacBio、Nanopore(长读长,适合全长转录本)。 测序得到大量的 reads(序列读段)。 数据分析 基因表达分析 (1...
123
avatar
Jinheng Hao
生信/实验/技术交流
文章
22
标签
13
分类
7
Follow Me
公告
如果你对内容有什么疑问,请积极评论
最新文章
二代测序数据基础分析(一)2025-09-26
python导入模块时遇到ModuleNotFoundError: No module named ’xxx‘2025-09-24
秀丽隐杆线虫油红O响应值测定方法2025-09-21
基于David数据库与微生信平台进行Go-KEGG分析2025-09-16
RNA-seq基本介绍及实战——差异分析2025-09-03
最新评论
加载中...
分类
  • 博客搭建3
    • 学习1
  • 学习1
  • 深度学习1
  • 湿实验相关4
  • 生物信息12
    • 学习7
标签
分子动力学模拟 富集分析 转录组学 基因测序 hexo gromacs pytorch 深度学习 秀丽隐杆线虫 分子对接 AutoDock-Vina R python
归档
  • 九月 2025 5
  • 八月 2025 17
网站信息
文章数目 :
22
本站访客数 :
本站总浏览量 :
最后更新时间 :