Как создать плоский файл генбанка

Мне трудно создать плоский файл генбанка с помощью Biopython SeqIO (во что-то вроде http://www.ncbi.nlm.nih.gov/nuccore/CP003206) Я смог создать генбанк, выполнив

simple_seq = Seq(row[15],IUPAC.unambiguous_dna)
simple_seq_r = SeqRecord(simple_seq)
simple_seq_r.id=row[0]
simple_seq_r.description= 'hello' 
SeqIO.write([seqrecord],'out.gbk', "gb")

Но мне не удалось выполнить запись в следующие поля, поскольку в seqrecord для них нет полей: ИСТОЧНИК КЛЮЧЕВЫХ СЛОВ
ОРГАНИЗМ DBLINK
ОСОБЕННОСТИ
Местоположение/Определители

Вы бы знали, как это сделать? Спасибо


person user1776194    schedule 12.11.2013    source источник
comment
вам следует обратиться к сайту biostars biostars.org   -  person Pierre    schedule 12.11.2013


Ответы (1)


Класс SeqRecord должен иметь эти поля в следующих атрибутах:

  • dbxrefs содержит строку с перекрестными ссылками на базу данных (DBLINK): «BioProject:PRJNA42399».
  • annotations – это еще один словарь, который содержит множество значений, включая ключевые слова (annotations['keywords']), такие как: комментарий, таксономия, организм, присоединение.
  • features содержит функции в виде списка экземпляров класса SeqFeature.

Для получения дополнительной информации вы можете прочитать вики о классе SeqRecord: http://biopython.org/wiki/SeqRecord, и справочную страницу SeqFeature: http://biopython.org/DIST/docs/api/Bio.SeqFeature.SeqFeature-class.html

Еще одна вещь, которую вы можете сделать, это сохранить этот файл genbank, который вы предоставили, и прочитать его с помощью SeqIO, а затем использовать dir(), чтобы увидеть, какие фактические атрибуты вы можете использовать, и в случае атрибутов, которые хранятся в виде словарей, полезно смотрите ключи. Что-то вроде этого (где my_file.gbk содержит подпоследовательность предоставленного вами файла):

my_record = SeqIO.read('my_file.gbk', 'gb')
print "DBXREFS: ", my_record.dbxrefs
print "ANNOTATIONS: ", my_record.annotations.keys()
print "FEATURES: ", my_record.features

даст вам дополнительную информацию о файле, который вы предоставили:

DBXREFS:  ['BioProject:PRJNA42399 BioSample:SAMN02603066']
ANNOTATIONS:  ['comment', 'sequence_version', 'source', 'taxonomy', 'keywords', 'references', 'accessions', 'data_file_division', 'date', 'organism', 'gi']
FEATURES:  [SeqFeature(FeatureLocation(ExactPosition(0), ExactPosition(1001), strand=1), type='source'), SeqFeature(FeatureLocation(BeforePosition(0), ExactPosition(471), strand=1), type='gene'), SeqFeature(FeatureLocation(BeforePosition(0), ExactPosition(471), strand=1), type='CDS')]
person cnluzon    schedule 22.03.2014
comment
Если бы это ответило на ваш вопрос, могли бы вы принять это? :) Если нет, то может быть в ней что-то непонятно? Спасибо! - person cnluzon; 02.04.2014
comment
о, нет проблем :) Я рад помочь! - person cnluzon; 08.04.2014