学院主站  ENGLISH
口腔罕见病与遗传病咨询网专家热线 :029-84776169 84776173
站内搜索:
网站简介
口腔罕见病与遗传病网是针对一些罕见口腔疾病、未确诊的疑难和复杂性口腔疾病、以及遗传性口腔疾病提供医疗咨询或科普宣传的公益性网站。遗传性的口腔颌面部疾病种类繁多,可单发于牙、口腔、颌面和颅面等,或作为全身疾病的局部表型而存在。目前国内外关于罕见口腔疾病和遗传性口腔疾病的信息量相对较少,本网站聘请了一些国内外知名专家,免 [详细>>]
  □ 联系我们
第四军医大学口腔医院口腔遗传病门诊
地址:西安市长乐西路145号
电话:029-84776169
门诊时间:每周二上午 8:30~12:00
  首 页 >> 正文
口腔遗传性疾病系列讲座(六)
(2016/8/26) 浏览人数: 751
                                                                          口腔遗传性疾病相关的生物信息资源
                                                          Bioinformatic resources of oral hereditary diseases
                                                                                                   段小红
       在口腔遗传性疾病的临床和基础研究工作中,需要掌握一些网络资源,实时查询疾病相关知识以及遗传病相关致病基因的信息、模式生物资源等。如何查阅遗传性疾病的相关文献、临床信息、基因和分子背景将是本讲的主要内容,现介绍与口腔遗传疾病相关联的数据库。
一、文献资源
       常见的中文全文文献数据库包括中国学术期刊全文数据库(China National Knowledge Internet,CNKI)(http://www.cnki.net/)、维普期刊资源整合服务平台(http://cqvip.jsinfo.gov.cn/)等。CNKI又称中国知网,内容覆盖自然科学、工程技术、农业、哲学、医学、人文社会科学等各个领域,收录了1915年至今的国内学术期刊8 053种,全文文献总量43 018 647篇,部分期刊可回溯至创刊。学位论文全文可检索中国博士学位论文全文数据库(China Doctor Dissertation Full-text Database,CDFD)和中国硕士学位论文全文数据库(China Master’s Theses Full-text Database,CMFD)。维普期刊全文数据库收录期刊总数达12 000余种科技期刊、文献总量3 000万余篇,数据库可进行内容分析和引文分析(http://oldweb.cqvip.com/)[1-3]。
      最常用的英文文献数据库为PubMed(http://www.ncbi.nlm.nih.gov/pubmed/),其核心主题为医学,也包括其他与医学相关的领域,如护理学、生物化学与细胞生物学、生物物理等。PubMed由美国国家医学图书馆(National Library of Medicine,NLM)所属的美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)于2000年4月开发,是NCBI Entrez整个数据库查询系统中的一个。通过该数据库,可获取免费题录、文摘以及原文的网址链接,部分文献附全文[3-5]。
二、遗传疾病资源
       在线《人类孟德尔遗传》(Online Mendelian Inheritance in Man, OMIM)(http://omim.org/)是介绍人类遗传性疾病的数据库,该数据库建立的基础是美国Johns Hopkins大学医学院Victor A McKusick教授主编的《人类孟德尔遗传》。该数据库囊括所有已知的遗传病、遗传决定的性状及其候选基因。在具体疾病的条目下,列出该病的临床特征、诊断、鉴别诊断、治疗与预防,以及已知有关致病基因的连锁关系、染色体定位、组成结构和功能、动物模型等资料,并附相关参考文献。每个特定疾病及基因都有其对应的OMIM编号。OMIM编号有以下特征:一般为6位数,第1个数字代表遗传方式,即1:常染色体显性遗传;2:常染色体隐性遗传;1和2的条目建立于1994年5月15日以前;3:与X连锁;4:Y连锁位点或表型;5:线粒体位点或表型;6:常染色体位点或表型(条目建立于1994年5月15日以后)[6]。OMIM号后面有时跟一个四位小数点,后者代表不同的突变体。OMIM编号前面会加上一些符号,如“*”代表一个具体的基因,“#” 通常代表一类表型而不是一个具体的基因,“+”代表已知序列的基因或表型,“%”代表孟德尔遗传方式明确但相关基因未知,没有任何符号代表表型的孟德尔遗传方式不明确,“^”代表该条目已不存在(http://omim.org/help/faq)。
三、核酸数据库
       目前国际上重要的核酸(含蛋白质)一级数据库有3个:美国的GenBank、欧洲的Ensembl和日本的DNA数据库(DNA Data Base of Japan,DDBJ)。3个数据库信息共享,资料一样,但格式不同,每天各数据库都交换新的研究结果,并更新其数据,随着科学研究的进步,这些DNA数据库的规模正在以指数方式增长。
1.GenBank(http://www.ncbi.nlm.nih.gov/genbank/):GenBank是NCBI建立的DNA序列数据库,数据来源于科研人员直接提供的研究资料或已公布的大规模基因组测序计划。GenBank平台提供了很多大型数据库,如高通量基因组序列(High Throughput Genomic Sequences,HTG)、表达序列标记(Expressed Sequence Tags,EST)、序列标记位点(Sequence Tagged Sites,STS)和基因组概览序列(Genome Survey Sequences,GSS)等[5,7-9]。
       UniGene是GenBank的一个子数据库(http://www.ncbi.nlm.nih.gov/unigene/)。人类基因组计划揭示了30亿对碱基,但整个基因组中只有大约3%可以编码蛋白质,其余部分的生物学功能还不清楚。UniGene通过GeneBank将这些可编码蛋白的基因信息集中组成一个转录图谱,可提供基因在什么生物组织中表达、图谱中的位置等信息。除了研究已经很清楚的基因序列外,大量新发现的EST也包括在内。
       表达序列标签数据库(Expressed Sequence Tag Database, dbEST)是GenBank的另一个代表性的子数据库(http://www.ncbi.nlm.nih.gov/dbEST/),包含来源于不同物种的其他信息。人类表达序列标签EST已被用于人类新基因的发现、人类基因组图谱绘制和基因组序列编码区识别。
2. Ensembl(http://www.ensembl.org/index.html) :Ensembl是欧洲分子生物学研究中心数据库(European Molecular Biology Laboratory,EMBL)、欧洲生物信息学研究所(European Bioinformatics Institute, EBI)和Sanger中心联合创建的核酸序列数据库。EMBL的数据来源主要有两部分,一部分由科研人员或某些基因组测序机构通过计算机网络直接提交,另一部分来自科技文献或专利。EMBL提供了DNA序列数据库和蛋白质序列、功能位点、结构、基因图谱以及文献摘要Medline等各种数据库联系在一起。Ensembl具有搜索、比较等多种功能。
3.DDBJ(http://www.ddbj.nig.ac.jp):始建于1986年,由日本国立遗传学研究院负责数据库的建设、维护及数据的传播,并与EMBL和GenBank合作;从世界各地通过网络将序列直接提交该数据库。DDBJ网页上也提供了包括FastA和基本逻辑排列搜索工具(basic logic alignment search tool, BLAST)在内的数据库查询工具。   
四、专用数据库资源
1. 特定物种资源数据库:如模式生物相关的酵母(saccharomyces cerevisiae)、线虫(caenorhabditis elegans)、果蝇(drosophila melanogaster)、拟南芥(arabidopsis thaliana)、斑马鱼、爪蟾、小鼠等。小鼠基因组数据库(Mouse Genome Database,MGD)(http://www.informatics.jax.org/);斑马鱼信息网基因组数据库(The Zebrafish Information Network,ZFIN)(http://zfin.org/);果蝇基因组数据库(Drosophila Genome Database,FlyBase)(http://flybase.org/);酵母基因组数据库(Saccharomyces Genome Database,SGD)( http://www.yeastgenome.org/ )等。
2. 特定功能资源数据库:人类基因转录起始位点和全长cDNA数据库(Database of human transcriptional start sites and full-length cDNAs,DBTSS)(http://dbtss.hgc.jp/);真核启动子数据库(The Eukaryotic Promoter Database, EPD)(http://www.epd.isb-sib.ch/);人类基因和基因组图谱GenAtlas(http://www.dsi.univ-paris5.fr/genatlas/);酶命名数据库(Enzyme nomenclature database,ENZYME)(http://www.expasy.ch/enzyme/);人类基因突变数据库(Database of human gene mutation data,HGMD)(http://www.hgmd.cf.ac.uk/ac/index.php);单核苷酸多态性数据库(Single nucleotide polymorphism database,dbSNP)(http://www.ncbi.nlm.nih.gov/SNP/);蛋白质结构数据库(Protein Data Bank,PDB)(http://www.wwpdb.org/);转录因子数据库(Transcription factor database,TRANSFAC)(http://www.gene-regulation.com/pub/databases.html);基因卡GeneCards(http://www.genecards.org/)等。
五、口腔医学研究相关数据库  
1.牙基因表达数据库(Gene Expression in Tooth)(http://Bite-it.Helsinki.fi):该数据库由芬兰赫尔辛基大学生物技术研究所发育生物学项目的牙齿与颅颌面发育组设计并负责日常维护。目前该数据库收录了与牙发育紧密相关的多个分子,并从六个类别将这些分子逐一介绍。第一种依据于分子的特性,如生长因子、受体、信号分子、转录因子、细胞内分子、细胞外分子、膜蛋白分子等;第二种依据于发现这些分子的检测手段或方法,如原位杂交、全胚胎原位杂交、免疫化学、其他方法等;第三种依据于分子在牙胚中的分布位置,如上皮、口腔上皮、牙上皮、内釉上皮、釉结、外釉上皮、星网状层、中间层、成釉细胞和釉质、间充质、牙乳头、牙囊、成牙本质细胞和牙本质、牙骨质和牙周膜、基底膜;第四种依据于牙胚的不同发育阶段,如起始阶段、蕾状期、帽状期、钟状期、分化期、分泌期、牙根发育期等;第五种依据于不同种属,如小鼠、大鼠、人、其他种属等;最后一类依据于牙的类型,如磨牙、切牙、其他类型的牙齿等;近年该数据库还添加了和牙发育有关的mRNA内容。
        例如在第一个分子目录下,有某个分子在牙胚发育不同阶段的定位示意图、变化过程、检测方法、重要的参考文献等。该数据库还收录了一些伴随口腔特征遗传性疾病、遗传性状或一些转基因动物模型信息,合计四十余种;在具体的每一条目下,有对疾病临床表现的描述和重要参考文献;或者有对某些动物模型特征的详细描述等。在研究牙体硬组织遗传性疾病时,可利用该数据库对候选基因的一般特性、在牙胚不同发育阶段的组织表达有初步认识,还可了解与其比邻的分子,了解其相互作用。
2. 口腔癌基因数据库(The Oral Cancer Gene Database,OCGD)(http://www.tumor-gene.org/Oral/oral.html):该数据库提供了多种肿瘤相关基因,涉及3 000多个基因和2 600多个研究结果,同时还介绍了每个基因相关联的蛋白、参与的生物化学活动、染色体定位等,其中有针对口腔癌的搜索目录。
        以抑癌基因p53为例,该数据库介绍了p53相关的动物模型、所发挥的细胞或分子生物学作用,如细胞周期调控等,以及p53的染色体定位、细胞和组织定位;p53的基因稳定性;罗列了和p53有关的临床信息;在健康对照和不同肿瘤患者的基因特征与分布比例等;并且对一些重要文献进行了概括性介绍等。
       口腔癌多基因遗传分析时,可利用该数据库在短时间内对候选基因进行较全面的认识,从而帮助判断候选基因致病的权重。
3.口腔罕见病与遗传病咨询网(Oral Rare Diseases and Genetic Diseases,ORDGD)(http://kqycb.fmmu.edu.cn/index.asp):该网由第四军医大学口腔医学院于2012年建立,涉及口腔罕见病和遗传病的多种信息,其受众面较广,涉及读者、患者和对口腔遗传疾病感兴趣的口腔或遗传专业人士。与以上介绍的专业数据库不同,该咨询网侧重于宣传口腔罕见病与遗传病的基本知识、免费为罕见口腔疾病和遗传性口腔疾病患者提供医疗咨询,旨在普及医学遗传学和口腔疾病的相关知识。在部分栏目下,提供了口腔遗传病学的专业知识,也适于研究生或专业人士使用。
六、序列比对软件和在线资源
       口腔遗传性疾病研究的重要内容之一是进行基因序列进行对比分析,目前有很多软件可用于序列比对,这些软件其设计目的各有不同,使用过程也存在一些差异。随着高通量测序技术的发展,很多软件也开始具有分析大数据的功能。
       最常见的在线序列比对工具是NCBI的BLAST。BLAST可分为几种类型,blastp用于比对蛋白质序列;blastn用于比对核酸序列,帮助在核酸序列数据库中查找同源序列;blastx可把所提交的核酸序列所对应的蛋白质同源序列查找出来;tblastn根据蛋白质序列查找对应的同源核酸序列等。
       软件使用较多的包括Sequencer、DNAstar、DNAMAN、Vector NTI Viewer、CLC Sequence Viewer等数十种。选择何软件进行序列比对要根据实验目的而定,一些简单的序列比对可以通过免费在线检索工具即可完成。很多软件是付费软件,初学者应根据个人的实际情况决定,一些软件可提供演示版本,帮助初学者了解该软件的特征,选择其更适合的软件。
七、注意事项
       无论使用何种在线数据库或者软件,首先要以NCBI官方公布的基因名称查找。一般情况下,人的基因名称用斜体的大写英文缩写表示,而其他种属的基因会有不同的变化。如牙本质涎磷蛋白编码基因的全称为dentin sialophosphoprotein,其基因的表述形式为DSPP(人、猪、牛等),或Dspp(小鼠、大鼠等)。釉原蛋白的编码基因全称为Amelogenin,可以同时存在于X染色体和Y染色体,因此分别用AMELX和AMELY表述位于人X染色体和Y染色体上的Amelogenin。此外,一些蛋白的表述与基因或分子的一般表述形式也不尽相同,如电压门控氯通道5(voltage gated chloride channel 5)的一般英文表述为ClC-5,其蛋白表述形式为CLC-5(所有种属),基因表述形式为CLCN5(人)或Clcn5(小鼠、大鼠)。
       其次,应了解基因名称的变化,或者曾用表述形式。如DSPP基因可以同时编码牙本质磷蛋白(dentin phosphoproteins,DPP)和牙本质涎蛋白(dentin sialoprotein,DSP)两种蛋白,所以在信息查询时注意区分。釉质中一个重要的蛋白酶为丝蛋白酶4,其对应的英文为kallikrein-related peptidase 4,目前官方发布的基因表述形式为KLK4,但由于该基因或蛋白的研究初始存在很多的版本(ARM1、EMSP、PSTS、AI2A1、EMSP1、KLK-L1、PRSS17、kallikrein),因此在查找此基因的信息时,应该全面考虑,不要遗漏曾用名为主题词的重要文献。
       有些基因存在多个转录版本,这些转录版本有不同的长短,表现在缺失或者增加一个或数个外显子,因此在序列比对时,应注意选择合适的cDNA或mRNA序列,明确基因突变的具体位置,在发表研究结果时,也应该标注清楚基因比对所参考的基因序列以及对应的氨基酸位置信息,同时应以基因的起始密码子ATG的A为1。
       目前我国口腔医学研究的人才梯队中,掌握并能灵活运用各种生物信息学知识、数据库和软件的人才十分匮乏,在未来的研究生教育中补充这方面的知识非常必要,不仅推动口腔遗传病学学科发展,更重要的是,目前临床研究和基础研究在很多领域已经处于一个大数据的时代,掌握并能有效利用这些信息,可促使我国整个口腔医学的基础和临床研究上升至一个新的台阶。
友情链接: 第四军医大学  中国人民解放军口腔医学研究所实验仪器中心  中华口腔医院网  兰州大学口腔医院  口腔图书馆  西京医院  第四军医大学口腔医学院  第四军医大学口腔医院医疗咨询网 
版权所有:第四军医大学口腔医学院
地址:西安市长乐西路145号  电话:029-84776169 029-84776173