鹍远基因代表待遇chr4代表什么

转录组入门(4):了解参考基因组及基因注释 - 简书
转录组入门(4):了解参考基因组及基因注释
转录组入门(4):了解参考基因组及基因注释
在UCSC下载hg19参考基因组,我博客有详细说明,从gencode数据库下载基因注释文件,并且用IGV去查看你感兴趣的基因的结构,比如TP53,KRAS,EGFR等等。
作业,截图几个基因的IGV可视化结构!还可以下载ENSEMBL,NCBI的gtf,也导入IGV看看,截图基因结构。了解IGV常识
参考基因组
测序得到的是几百bp的短read, 相当于把拼图打散了给你。如果没有参考基因组,从头(de novo)组装等于是重走人类基因组计划的老路,也就是打散了拼图,却不告诉你原来是什么样子,那么任务将会及其艰巨。
还好人类基因组已经组装好了,我们只需要把我们测得序列回贴(mapping)回去,毕竟人与人之间的差距只有不到1%差异, 允许mismatch就行。
因此第一步就是要去UCSC()下载hg19参考基因组(文献要求)
数据存放站点
基因组文件
不同文件的所包含的数据在该页面有介绍,其中
chromFa.tar.gz - The assembly sequence in one file per chromosome.Repeats from RepeatMasker and Tandem Repeats Finder (with period of 12 or less) are non-repeating sequence is shown in upper case.
我将数据存放在Windows的F盘的Data文件夹下,用于后续操作
cd /mnt/f/Data
mkdir reference && cd reference
mkdir -p genome/hg19 && cd genome/hg19
nohup wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &
tar -zvf chromFa.tar.gz
cat *.fa & hg19.fa
下面的内容是Jimmy在关于参考基因组的介绍
这个对新手来说,是一个很大的坑,hg19、GRCH37、 ensembl 75这3种基因组版本应该是大家见得比较多的了,国际通用的人类参考基因组,其实他们储存的是同样的fasta序列,只是分别对应着三种国际生物信息学数据库资源收集存储单位,即NCBI,UCSC及ENSEMBL各自发布的基因组信息而已。有一些参考基因组比较小众,存储的序列也不一样,比如BGI做的炎黄基因组,还有DNA双螺旋结构提出者沃森(Watson)的基因组,还有2016年发表在nature上面的号称最完善的韩国人做的基因组。前期我们先不考虑这些小众基因组,主要就下载hg19和hg38,都是UCSC提供的,虽然hg38相比hg19来说,做了很多改进,优点也不少,但因为目前为止很多注释信息都是针对于hg19的坐标系统来的,我们就都下载了,正好自己探究一下。也顺便下载一个小鼠的最新版参考基因组吧,反正比对也就是睡个觉的功夫,顺便分析一下结果,看看比对率是不是很低。
吐槽: Jimmy大神的博客排版真的是非常考验我们对知识的渴望,每当看到他的排版的时候,我必须得忍住不去点击浏览器右上角。为了求知,我忍了。
然而参考基因组是一部无字天书,要想解读书中的内容,需要额外的注释信息协助。
因此第二步,就是去gencode数据库()下载基因组注释文件。
看了下面这个图,我才明白Jimmy为什么会吐槽了。
又到了GTF还是GFF3的抉择时刻,简单介绍了一下他们的格式
GTF(General Transfer Format)其实就是GFF2,以Tab分割,分为如下几列
seqname - name of the ch chromosome names can be given with or without the 'chr' prefix. Important note: the seqname must be one used within Ensembl, i.e. a standard chromosome name or an Ensembl identifier such as a scaffold ID, without any additional content such as species or assembly. See the example GFF output below.
source - name of the program that generated this feature, or the data source (database or project name)
feature - feature type name, e.g. Gene, Variation, Similarity
start - Start position of the feature, with sequence numbering starting at 1.
end - End position of the feature, with sequence numbering starting at 1.
score - A floating point value.
strand - defined as + (forward) or - (reverse).
frame - One of '0', '1' or '2'. '0' indicates that the first base of the feature is the first base of a codon, '1' that the second base is the first base of a codon, and so on..
attribute - A semicolon-separated list of tag-value pairs, providing additional information about each feature.
而GFF3(General Feature Format)的格式如下
seqid - name of the ch chromosome names can be given with or without the 'chr' prefix. Important note: the seq ID must be one used within Ensembl, i.e. a standard chromosome name or an Ensembl identifier such as a scaffold ID, without any additional content such as species or assembly. See the example GFF output below.
source - name of the program that generated this feature, or the data source (database or project name)
type - type of feature. Must be a term or accession from the SOFA sequence ontology
start - Start position of the feature, with sequence numbering starting at 1.
end - End position of the feature, with sequence numbering starting at 1.
score - A floating point value.
strand - defined as + (forward) or - (reverse).
phase - One of '0', '1' or '2'. '0' indicates that the first base of the feature is the first base of a codon, '1' that the second base is the first base of a codon, and so on..
attributes - A semicolon-separated list of tag-value pairs, providing additional information about each feature. Some of these tags are predefined, e.g. ID, Name, Alias, Parent - see the
for more details.
看不出来有啥区别,不想纠结就全下载好了。
nohup wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/GRCh37_mapping/gencode.v26lift37.annotation.gtf.gz &
nohuop wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/GRCh37_mapping/gencode.v26lift37.annotation.gff3.gz &
我们对文字的理解能力远远小于图片,所以下一步需要下载基因组浏览器
IGV, Integrative Genomics Viewer
下载地址为:
Windows下载如下版本, 会自带一个java运行环境
双击igv.bat, 就会出现运行界面。
通过genome -& Load Genome From Files加载之前得到基因组文件。
loading data
进一步,还需要加载gff基因注释文件,File -& Load From Files
显示未排序出错,可以使用Tool -& Run igvtools,进行排序。
之后就可以重新加载排序后的gtf文件进行操作。生信宝典写过一篇文章介绍测序数据可视化() 我也在看文档摸索中,先放上基因截图
下面这张图是来自于几个月前Jimmy对高通量测序的理解,提供数据的截图
高通量测序的异同
中国科学院博士在读研究生
知识星球:做到
生信必修课之软件安装 讲师
生信媛 主力选手
生信技能树核心成员
中国首个生信技能入门论坛--生信技能树管理员
作业要求转录组入门(4):了解参考基因组及基因注释在UCSC下载hg19参考基因组,我博客有详细说明,从gencode数据库下载基因注释文件,并且用IGV去查看你感兴趣的基因的结构,比如TP53,KRAS,EGFR等等。作业,截图几个基因的IGV可视化结构!还可以下载ENS...
作业要求 在UCSC下载hg19参考基因组,群主博客有详细说明,从gencode数据库下载基因注释文件,并且用IGV去查看你感兴趣的基因的结构,例如TP53,EGFR等等。截图几个基因的IGV可视化结构!还可以下载ENSEMBL,NCBI的GTF,也导入IGV看看,截图基因...
cs.AI - 人工智能cs.CL - 计算与语言cs.CR - 加密与安全cs.CV - 机器视觉与模式识别cs.CY - 计算与社会cs.DC - 分布式、并行与集群计算cs.DS - 数据结构与算法cs.HC - 人机接口cs.IR - 信息检索cs.IT - 信息论...
Why Stock Markets CrashThis page intentionally left blankWhy Stock Markets CrashCritical Events in ComplexFinancial SystemsD i d i e r S ...
astro-ph.CO - 宇宙学和天体物理学astro-ph.IM - 仪器仪表和天体物理学方法cs.AI - 人工智能cs.CL - 计算与语言cs.CR - 加密与安全cs.CV - 机器视觉与模式识别cs.DB - 数据库cs.DC - 分布式、并行与集群计算cs....
如何生成测试数据是一个难题,我考虑还是从生产库根据UserId往测试库拷贝一些数据。现在存在问题:1. 自增id的覆盖问题2. 外键依赖的问题 TODO: 完全理解现有程序的结构和函数实现的功能 对核心代码进行分析和优化 重构代码,解耦+模块化 考虑如何处理外键依赖以及自增...
总以为难以入睡是大人的事,但现在家里刚刚5岁多的可可就开始难以入睡。 可可5岁了,一直是和我和可爸一起睡。没有让他一个人单独睡,也是因为再没有多余的房间。 于是每次总要一个人陪着他睡,白天是外婆或外公,在学校当然有那么多同学。晚上要么是我或可爸,如果两个人都出差,则外婆陪他...
单例传值的思维相对简单, 就是利用一个静态变量, 在页面切换时讲当前页的数据赋给静态变量, 然后在下一页将要出现时把静态变量的值赋给该页. 例如这个场景: 你在公司的电脑里写了个代码工程, 下班后用u盘带回家里, 用家里的电脑继续为工程添加代码, 然后又放入u盘, 上班后从...关注今日:2 | 主题:324103
微信扫一扫
chr21:37019这是什么意思
页码直达:
怎么在NCBI上查找它的序列
不知道邀请谁?试试他们
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
Try to retrieve nucleotides in NCBI gene bank data base using this chromosome 21 sequence indexchr21:37019
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
mpark Try to retrieve nucleotides in NCBI gene bank data base using this chromosome 21 sequence indexchr21:37019只想找这差不多几十bp的怎么找呢?
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
Try to localize the specific region on that chrosome locus.
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
关于丁香园关注今日:1 | 主题:59623
微信扫一扫
SMAD4 (chr18:48, 591,918C & G, R361G),这是SMAD4基因的突变位点,请教一下如何找到对应的外显子呢
页码直达:
问题已解决悬赏丁当:20
SMAD4 (chr18:48, 591,918C & G, R361G),这是SMAD4基因的突变位点,请教一下如何找到对应的外显子呢,这是SMAD4基因,一共12个外显子
不知道邀请谁?试试他们
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
丁香园准中级站友
我查了一下 这个序列位置在hg19里根本不在指定基因上先去搞清楚基因组版本再说吧
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
学医难救中国人 我查了一下 这个序列位置在hg19里根本不在指定基因上先去搞清楚基因组版本再说吧大神,怎么看是哪个版本啊
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
丁香园准中级站友
yaoyaomedical 学医难救中国人 我查了一下 这个序列位置在hg19里根本不在指定基因上先去搞清楚基因组版本再说吧大神,怎么看是哪个版本啊当然是哪找的突变信息去哪找版本啊。。。
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
关于丁香园}

我要回帖

更多关于 肿瘤相关基因蛋白9点代表什么 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信