中文XML论坛--基因库(GenBank)的电子邮件检索

基因库(GenBank)的电子邮件检索

发信人: pkuyx (未名湖的鱼钩), 信区: Bioinformatics
标题: 基因库(GenBank)的电子邮件检索
发信站: 北大未名站 (2002年04月12日08:53:52 星期五), 转信

基因库(GenBank)的电子邮件检索

胡德华,　方　平

摘　要:　基因库(GenBank)是由美国国立卫生研究院、美国国立医学图书馆以及美国国
家生物技术信息中心建立发行的，所有已知核酸和蛋白质序列及其文献和生物学注释的
公共数据库。可以通过WWW、FTP、E-mail获取其中的数据，本文主要介绍了查询服务器
的检索方法。
关键词:　基因库;电子邮件;检索;数据库
中图分类号:　Q342　　文献标识码:　A　　文章编号:　0253-9772(1999)06-0043-46

The Retrieval of GenBank by E-mail

HU De-hua,　FANG Ping
(The MedicalInformationFacultyofHunanMedical University,Changsha410078,China)

Abstract:　GenBank is a public database of all known nucleotide and protein
sequences with supporting bibliographic and biological annotation, built
and distributed by the National Center for Biotechnology Information(NCBI),
the National Library of Medicine(NLM) and the US National Institute of
Health(NIH). GenBank data is available by WWW, FTP and E-mail. The
retrieval of GenBank by the QUERY server is mainly introduced in this paper.
Key wards:　GenBank;E-mail;Retrieval;Database

　　1982年, 美国国立卫生研究院(NIH)、美国国立医学图书馆(NLM)和美国国家生物技
术信息中心(National Center of Biotechology Information, NCBI)等机构开始建立DN
A序列数据库(GenBank)。这些数据每18 个月增加一倍，由于大量的表达序列标识(Expre
ssed Sequence Tags，EST)收入基因库，现在基因库中的数据每15个月就增加一倍，并
且有加速的趋势。
　　基因库中的基因数据出自30 000多种不同的物种，现在每月有600多种新的物种加入
到基因库中。57％的序列出自人类(其中49％是人类ESTs)，其次是鼠和线虫，分别占10
％和9％。
　　GenBank自创建以来就与EMBL核酸序列数据库进行了国际合作。1987年, 日本国立遗
传学研究所建立了日本DNA数据库(DNA Data Bank of Japan, DDBJ)，并加入GenBank和E
MBL的国际合作〔1〕。现在，这三个数据库分别收集所在区域的核酸序列信息，形成了
国际核酸序列数据库协作体(International Nucleotide Sequence Database
Collaboration), 并实行数据共享，每天交换各自数据库建立的新的序列记录。现在许
多期刊都要求作者在论文发表前须将其核酸序列发送给GenBank, 返回的序列存取号可随
论文发表〔2〕。
　　GenBank在加强与其他核酸序列数据库之间合作的同时，也加强了与其他分子生物学
数据库之间的合作。GenBank中的序列数据有来自于EMBL、DDBJ、基因组序列数据库(Gen
ome Sequence Database, GSDB)、美国专利局等核酸数据库的DNA序列，也有来自于PIR
、SWISS-PROT、PRF(Protein Research Foundation)、PDB(Protein Data Bank)等蛋白
质数据库的蛋白质和氨基酸序娏小S隡EDLINE中书目文献数据库建立了交叉参考信息，可
以通过Entrez和PUBMED获取其中与序列有关的文献信息。在基因和染色体图像数据方面
，与分子模型数据库(MMDB) 和蛋白质数据库建立了链接，可以获取基因的三维结构；在
基因遗传疾病描述方面，加强了与孟德尔人类遗传学联机数据库(Online Mendelian
Inheritance in Man, OMIM)的联系。使基因库成为综合性的序列数据库〔3, 4〕。
　　GenBank在80年代主要是以磁盘或磁带介质存贮和发行的，1989年后EMBL、GenBank
、PIR 和 PDB等相继推出了光盘版数据库，但并未从根本上解决数据库的存贮、传递和
使用问题。1992年, 仅用1张光盘就存贮了GenBank所有的序列数据，到1997年12月，需
要12张光盘才能容纳GenBank 所有的序列数据，1998年4月15日起, 基因库已不再发行光
盘版数据库，但累积和非累积的更新文档的所有注释可通过FTP获取。1984年, 美国NIH
和Intelligenetics公司建立了分子生物学计算专用的BIONET网, 到1990年, 该网由GenB
ank-on-line servies(GOS)和NCBI NETWORK所取代, 除美国外，还连接欧洲和日本的实
验室。现在，上述网络均与INTERNET互联，加速了数据库的存贮、传递和数据资源的共
享，极大地方便了世界各地的用户对数据库的使用。
　　为了加快基因库的开发和应用，NCBI开发了三种电子邮件服务器, 即查询服务器、
检索服务器和BLAST服务器。用户可以通过电子邮件来获得GenBank及其它序列数据库的
资源。这些服务都是免费的，只要能够发送和接受Internet的电子邮件，便可享受其中
的服务。
　　下面主要介绍查询服务器的检索方法：
　　查询服务器的电子邮件地址为：query＠nbci.nlm.nih.gov。该服务器使用Entrez
查询软件获取来自不同数据库域名服务器上的数据。Entrez查询软件是NCBI开发最早软
件工具之一，现已有单机版、网络版和WWW版, 主要用于基因库及与之链接的其他序列数
据库的查询与检索。所以, 查询服务器的基本检索模式是利用网络Entrez和WebEntrez查
询信息。它能够从目标域多服务器上获取所需的信息, 从相似域多服务器上获取相关的
信息, 从其他域名服务器上获取有关的信息。不同的域名服务器支持的数据库有所不同,
现在域名服务器支持的数据库有核酸序列数据库、蛋白质序列数据库、Medline数据库
和三维结构数据库等。每一个域名服务器代表一个数据库, 用一个字母表示如下:
　　“m” 表示Medline数据库;“P”表示蛋白质数序列数据库;“n” 表示核酸序列数
据库;“t”表示三维结构数据库；“s” 表示同时可以检索蛋白质序列和核酸序列数据
库。
　　为了让用户快速、准确查询和检索所需的信息，NCBI开发了一套检索方法〔5〕，其
检索指令及实现的功能列于表1：
表1　检索指令及其功能一览表

指　令功能说明
DB 该指令后紧跟用一字母表示的数据库域名服务器(如DB n)，必须在首行，每一次只能
检索一个数据库
UID 定义UID检索方式
TERM 定义TERM检索方式
DOPT 定义浏览格式
DISPMAX 定义每次检索后返回的文献数量，默认值为200条记录
HTML 用超文本格式下载检出的文献以便在www浏览器上浏览输出

查询的基本格式如下：
　　DB n
　　TERM ras[word]
　　DISPMAX 15
　　DOPT f
　　HTML
　　电子邮件查询服务器提供了两种检索方式：UID和TERM检索方式。
　　UID检索方式要求用户在UID指令后面输入一个或多个Medline的UID号、序列的ID号
、基因库的存取号以及核酸序列或蛋白质序列的FASTA格式。如：

例1: DB m 例2: DB n 例3: DB p
UID 88055872 UID u30150,u30153 UID sp｜p1598｜
DOPT r DOPT f DOPT m

　　在检索式中用户可以使用布尔算符“＆”、“”“－”（分别相当于AND、OR、NOT
）进行布尔检索。值得注意的是，使用“－”时，它的前后必须用一个或多个空格以区
别单词中的短横线。
　　在检索式中使用圆括号，则优先处理圆括号内的内容。
　　检索词可以使用通配符，其规则如下：
　　* 表示零或多个字母;... 表示零或多个字母

如例4： DB m 例5： DB p
TERM pneum*[mesh] TERM Laryng...[word]
DISPMAX 50 DOPT d

用户可以对数据库中的数值字段如存取号、日期、序列长度，使用“:”号进行范围检索
，如：

例6:  DB n 例7： DB n
TERM u12345:u12350[accn]  TERM 050000:100000[slen]
DOPT f  dopt d

　　例8: DB n
　　TERM caenorhabditis elegans [orgn] ＆ (1996/01/01:1996/01/31 [datm] )
　　DISPMAX 350
　　用户也可以限定字段检索，如例4～例8均使用了限定字段检索。每个限定字段用4个
字母表示，不同的数据库允许检索的字段各有不同，下面是各数据库允许检索的字段：
　　对于MEDLINE：AUTH、ECNO、JOUR、MESH、DATE、KYWD和WORD；
　　对于蛋白质数据库：ACCN、AUTH、ECNO、GENE、JOUR、KYWD、DATM、DATE、ORGN 、
PROP、PROT、SLEN、SUBS或WORD；
　　对于核酸序列数据库：ACCN、AUTH、ECNO、FKEY、GENE、JOUR、KYWD、DATE、DATM
、ORGN、PROP、PROT、SLEN、SUBS或WORD；
　　这里字段标识符的全称如下：
　　WORD=text word, MESH=mesh term, AUTH=author name, JOUR=journal name,
ECNO=EC/RN Number, GENE=gene name, DATE=publication year, DATM=last
modification date, KYWD=substance (for Medline) or keyword (for others),
ORGN=organism, ACCN=accession number, PROT=protein name, SUBS=substance,
PROP=property, FKEY=feature key 和 SLEN=sequence length
　　用户还可以对检索词使用“S”来限定该检索词只能出现在题录或定义行内的文献。
如：
　　例9:DB m
　　TERM ras[word, s]
　　DISPMAX 10
　　DOPT pg

　　[说明]：表示检索到Medline数据库中在题录中包含ras的记录。
　　用户可以用DOPT定义浏览格式，电子邮件查询服务器提供了多种浏览格式，不同的
记录允许浏览选项有所不同，每一种浏览选项用一个字母表示，下面是各种数据库记录
允许浏览选项一览表:

对于Medline记录，其浏览选项有：对于核酸记录，其浏览选项有：
report types: report types:
“r” report格式(引文、题录、文摘、索引词) “g” 基因库格式
“b” 文摘格式 (仅包括引文、题录、文摘) “r” report 格式
“l” medlars 格式 “f” FASTA 格式
“a” ASN.1 格式 “a” ASN.1 格式
“d” Entrez document summary format “d” Entrez document summaryformat
Neighbors／Links: Neighbors／Links:
“m” medline neighbors “m” medline neighbors
“p” portein links “p” portein links
“n” nucleotide links “n” nucleotide links
“t” structure links “t” structure links
对于蛋白质记录，其浏览选项有: 对于序列结构记录，其浏览选项有:
report types: report types:
“g” genpept 格式 “s” 结构摘要格式
“r” report 格式 “d” Entrez 文献摘要格式
“f” FASTA 格式 Neighbors／Links:
“a” ASN.1 格式 “m” medline neighbors
“d” Entrez 文献摘要格式 “p” portein links
Neighbors／Links: “n” nucleotide links
“p” portein links
“n” nucleotide links
“t” structure links

　　如果用户不用DOPT定义浏览格式，电子邮件服务器则用自定义的默认值：
　　r:用于UID检索的Medline记录;　　　d:用于UID检索的核酸记录；
　　g:用于UID检索的蛋白质记录;　　　 d:用于TERM检索的记录。
　

作者简介：胡德华（1972），男，汉族，湖南衡东人，硕士研究生，专业方向：生物信
息学
作者单位：湖南医科大学医药信息系,湖南长沙410078

参　考　文　献:

　〔 1 〕王槐春. 蛋白质与核酸序列分析基础[M]. 北京: 人民军医出版社, 1994,
212.
　〔 2 〕胡德华, 等. 如何向基因库(GenBank)发送核酸序列数据[J]. 遗传, 1998,
20(6): 34～35.
　〔 3 〕http://www.ncbi.nlm.nih.gov/.[DB].
　〔 4 〕http://www.ncbi.nlm.nih.gov/web/genbank/index.html.[DB].
　〔 5 〕http://www.ncbi.nlm.nih.gov/web/search/query.txt.[DB].

--
钓鱼是一种乐趣

※ 来源:·北大未名站 bbs.pku.edu.cn·[FROM: 162.105.53.86]


	W 3 C h i n a ( since 2003 ) 旗下站点苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》	46.875ms