Поиск последовательности в строке. ДНК

Мне нужно сделать программу, которая отделяет 3 от размера строки и сравнивает с другими последовательностями 3 в той же строке. Я собираюсь объяснить это.

Пользователь вводит эту строку ДНК = "ACTGCGACGGTACGCTTCGACGTAG", например. Начнем с n = 3, то есть берем первые три признака для сравнения в ДНК.

Первые символы: «ACT», и нам нужно сравнить его с другими последовательностями из трех, например, [CTG, TGC, GCA... до конца].

Если мы находим другую последовательность, равную «ACT», мы сохраняем позицию. Вот еще один пример:

ДНК: «ACTGCGACGGTACGCTTCGACGTAG», и мы находим эти последовательности в его позициях:

  1. ACG: 7 - 12 - 20
  2. СГА: 5 - 18
  3. ПКК: 6 - 19
  4. ГТА: 10 - 22
  5. КГАК: 5 - 18
  6. ГАЧГ: 6 - 19
  7. CGACG: 5 - 18 Число — это позиция начала последовательности:

ACTGCGACGGTACGCTTCGACGTAG

Вы можете видеть, что n = 3 увеличивается на 1, когда мы заканчиваем поиск на n = 3, переменная переходит к n = 4, пока n = DNA.size().

Моя проблема в том, что у меня есть одна функция для разделения строки на небольшие последовательности ДНК, и я делаю push_back() для сохранения в векторе, а затем я вижу, есть ли еще последовательности или нет, но я не не знаю, как я могу получить позицию.

Я могу использовать алгоритм библиотеки, и наверняка в этой библиотеке есть функция, которая это делает, но я не так много знаю об этой библиотеке.

Вот мой код:

#include <iostream>
#include <string>
#include <vector>
#include <algorithm>

using namespace std;

const string DNA = "ACTGCGACGGTACGCTTCGACGTAG";
const size_t taille = DNA.size();

size_t m = 3;
vector<string> v;

/*
struct DNA{
    const string dna;  // chaine saisie pour l'utilisateur
    size_t taille;  // Taille de la chaine
    string chaine;  // Chaine à chercher
};
*/

// what kind of structs can i create? for me it's stupid to make any struct in this program.

bool checkDNA(string &s);
string takeStrings(const string &s,size_t i, size_t m);
void FindSequenceDNA(vector<string>&s,string sq);
size_t incrementValue(size_t &m);



int main(){

    string DNAuser;
    cout << "Introduce the DNA: ";
    cin >> DNAuser;

    bool request;
    cout << boolalpha;
    request = DNAuser.find_first_not_of("AGCT");
    cout << request << endl;

    vector<string> vectorSq;
    size_t auxiliar = 0;
    string r;
    size_t ocurrencies = DNA.size()-2;
    cout << "DNA: " << DNA << endl;
    while(auxiliar<ocurrencies){        // This gonna be works with the ocurriences, from 1 to end.
        r = takeStrings(DNA,auxiliar,auxiliar+m);
        auxiliar++;
        if(r.size()==m){
            vectorSq.push_back(r);
        }
    }

    // string res = takeStrings(DNA,0,3);
    // cout << "res: " << res << endl;
    // cout << "Printing vector: " << endl;

    // I just need to find the other, the practice is almost done.

    for(size_t i = 0; i< vectorSq.size(); i++){
        cout << vectorSq[i] << endl;
    }

    return 0;

}


string takeStrings(const string &s,size_t i, size_t m){
    string result;
    size_t aux=i;
    if(s.size()==0){
        cout << "String is empty." << endl;
    }
    else{
        for(;i<s.size()&&i!=m;i++){
            result+=s[i];
            aux++;
        }

    }
    return result;
}

void FindSequenceDNA(vector<string>&s,string sq){
    if(s.size()==0){
        cout << "DNA invalid." << endl;
    }
    else{
        for(size_t i=0;i<s.size();i++){
            if(sq==s[i]){
                cout << "function: " << endl;
                cout << s[i] << endl; // I need to calculate the real position in the string, not in the vector
            }
        }
    }

}

bool checkDNA(string &s){
    bool res;
    if(s.size()==0 || s.size()<3){
        cout << "DNA invalid" << endl;
    }
    else{
        for(size_t i=0;i<s.size();i++){
            if(s[i]=='A' || s[i]=='C' || s[i]=='G' || s[i]=='T')
            {
                res = true;
            }
            else{
                res= false;
            }
        }
    }
    return res;
}

size_t incrementValue(size_t &m){
    if(m<DNA.size()){
        m++;
    }
    return m;
}

person xhustango    schedule 25.03.2015    source источник
comment
Просто для ясности: вы хотите выполнить один проход для поиска 3-буквенных шаблонов, затем один проход для поиска 4-буквенных шаблонов и т. д., пока вы не выполните один проход для шаблонов из N букв, где N = sizeof(input) - 1 ? Оо   -  person Félix Cantournet    schedule 25.03.2015
comment
о боже, это очень трудно читать, не могли бы вы перефразировать весь свой вопрос, пожалуйста?   -  person specializt    schedule 25.03.2015
comment
Один из способов — использовать std::string::find_first_of после вы найдете подпоследовательности. Однако в этом случае использование KMP/BM, вероятно, будет лучшим с точки зрения эффективности времени. Предварительная обработка текста — хорошая идея, поскольку впоследствии вы выполняете несколько поисков по нему.   -  person Anirudh Ramanathan    schedule 25.03.2015
comment
@FélixCantournet, да, извините за объяснение, но мне трудно объяснить это по-английски...   -  person xhustango    schedule 25.03.2015
comment
@AndresDuque Ну, здесь есть 2 варианта: один - сделать N-проходов. Это будет медленно. Вы можете использовать целое число для перебора строки и сохранения индекса, а затем сохранить его: посмотрите на ответ Мохита Джейна. ИЛИ вы можете использовать библиотеку сопоставления с образцом, которая будет иметь гораздо более оптимизированный алгоритм.   -  person Félix Cantournet    schedule 25.03.2015
comment
@AnirudhRamanathan, что такое KMP/BM? а можно подробнее? Я нахожу подпоследовательности, да, я могу использовать find, но в конце я не могу получить позиции, потому что в векторе позиция другая.   -  person xhustango    schedule 25.03.2015
comment
@AndresDuque Можете ли вы использовать заголовок <regex>?   -  person Félix Cantournet    schedule 25.03.2015
comment
@AndresDuque Boyer-Moore и KMP. Другой хороший вариант — Рабин Карп.   -  person Anirudh Ramanathan    schedule 25.03.2015
comment
@AndresDuque Я предлагаю вам взглянуть на этот документ для вашего алгоритма: cs.utexas.edu/users/moore/publications/sustik-moore.pdf Он был разработан для поиска паттернов в последовательностях ДНК.   -  person Félix Cantournet    schedule 25.03.2015
comment
Спасибо, это полезно @FélixCantournet   -  person xhustango    schedule 25.03.2015
comment
@ Рерито, да! если не то же самое, так похоже!   -  person xhustango    schedule 25.03.2015


Ответы (2)


На основе ответа Мохита, но повторно использует указатели, чтобы, возможно, повысить производительность (по сравнению с string.substr)

#include <iostream>
#include <cstring>
#include <vector>
#include <string>

using namespace std;

static const char* DNAdata = "ACTGCGACGGTACGCTTCGACGTAG";
static const size_t len = strlen(DNAdata);

vector< vector< string > > uniqueKeys(len);
vector< vector< vector<size_t> > > locations(len);


void saveInfo(const char* str, size_t n, size_t loc) {
   vector<string>& keys = uniqueKeys[n-1];
   vector<vector<size_t> >& locs = locations[n-1];

   bool found = false;
   for (size_t i=0; i<keys.size(); ++i) {
      if (keys[i] == str) {
     locs[i].push_back(loc);
     found = true;
     break;
      }
   }
   if (!found) {
      vector<size_t> newcont;
      newcont.push_back(loc);
      keys.push_back(str);
      locs.push_back(newcont);
   }
}

void printInfo(const char* str) {
   cout << str << endl;
   size_t len = strlen(str);
   vector<string>& keys = uniqueKeys[len-1];
   vector<vector<size_t> >& locs = locations[len-1];
   for (size_t i=0; i<keys.size(); ++i) {
      if (keys[i] == str) {
     vector<size_t>& l = locs[i];
     vector<size_t>::iterator iter = l.begin();
     for (; iter != l.end(); ++iter) {
        cout << *iter << endl;
     }

     break;
      }
   }
}

int main() {
   char* DNA = new char[len+1];
   strcpy(DNA, DNAdata);
   char* end = DNA+len;
   char* start = DNA;
   for (size_t n =3; n<=len; ++n) {
      size_t loc = 0;
      char* p = start;   
      char* e = p+n;
      while (e <= end) {     
     char save = *e;
     *e = 0;
     saveInfo(p++, n, loc++);
     *e = save;
     ++e;
      }
   }
   delete[] DNA;

   printInfo("GTA");
   printInfo("ACTGCGACGGTACGCTTCGACGTA");

   return 0;
}

Чтобы распечатать все:

void printAll() {
   for (size_t n=3; n<=len; ++n) {
      cout << "--> " << n << " <--" << endl;
      vector<string>& keys = uniqueKeys[n-1];
      vector<vector<size_t> >& locs = locations[n-1];
      for (size_t i=0; i<keys.size(); ++i) {
     cout << keys[i] << endl;
     vector<size_t>& l = locs[i];
     vector<size_t>::iterator iter = l.begin();
     for (; iter != l.end(); ++iter) {
        cout << *iter << endl;
     }
      }
   }
}
person Mustafa Ozturk    schedule 25.03.2015
comment
@AndresDuque обновил код, чтобы предоставить полное решение - person Mustafa Ozturk; 25.03.2015
comment
Этот код почти идеален, информация GTA верна, и мне просто нужно распечатать информацию обо всех последовательностях и увеличить длину последовательностей! но это очень полезно!! большое спасибо! @MustafaOzturk - person xhustango; 25.03.2015
comment
@AndresDuque, что вы имеете в виду, увеличивая длину последовательностей? Приведенный выше код проходит через все длины ›=3. - person Mustafa Ozturk; 25.03.2015
comment
Вы начинаете с n = 3 и получаете подпоследовательности размера 3, а затем ищете их в ДНК, и когда вы закончите это, вы увеличиваете n, n = 4, и делаете то же самое, я просто повторяю значение для получения подпоследовательности и сравнить, как в строке, и получить позиции @MustafaOzturk - person xhustango; 25.03.2015
comment
Небольшая ошибка @AndresDuque в коде, должна быть while (e <= end) - person Mustafa Ozturk; 25.03.2015
comment
это потрясающе!! @MustafaOzturk, большое спасибо!! Я забыл сказать, что мне нужно сохранить в векторе или что-то еще, для чего подпоследовательности не повторяют один и тот же поиск, а просто печатают подпоследовательности, которые повторяются более одного: вывод должен быть таким: ACG: 7 - 12 - 20 CGA: 5–18 GAC: 6–19 GTA: 10–22 CGAC: 5–18 GACG: 6–19 CGACG: 5–18. - person xhustango; 25.03.2015
comment
Давайте продолжим обсуждение в чате. - person xhustango; 25.03.2015
comment
как я могу печатать только те подпоследовательности, в которых найдено более одной позиции. - person xhustango; 25.03.2015

Как насчет:

std::map< std::string, std::vectpr<int> > msvi;
std::size_t len = dna.size();
for(size_t from = 0; from < len; ++from) {
  for(size_t sz = 3; sz < len; ++sz) {
    msvi[ dna.substr(from, sz ].push_back(from);
  }
}

Это создает все строки размера 3 и сохраняет их положение на карте.

Ссылка на демонстрацию

Печать только элементов с 2 или более экземплярами


Поскольку вы не хотите использовать std::map, вы можете создать древовидную структуру, как показано на этой странице, написанной на C. Измените узел дерева на:

struct tree_node {
  vector<int> starts;
  struct tree_node *children[26];  /* A to Z */
};
person Mohit Jain    schedule 25.03.2015
comment
Спасибо за ответ, но я не умею пользоваться картами. И это дерьмо. - person xhustango; 25.03.2015
comment
@AndresDuque Почему ты не можешь использовать карты? О_о - person Anirudh Ramanathan; 25.03.2015
comment
@AndresDuque Вы не можете использовать карты для хранения карт? oO Вам действительно нужно что-то хранить? или просто распечатать? - person Félix Cantournet; 25.03.2015
comment
Можете ли вы использовать unordered_map? :) - person Mustafa Ozturk; 25.03.2015
comment
да, это для университета, ахаха @AnirudhRamanathan. У нас есть ограничения, поэтому я просто могу использовать библиотеку векторов, строк и алгоритмов, я думаю, что это полезно [cplusplus.com/reference/algorithm/search/] - person xhustango; 25.03.2015
comment
Я не умею пользоваться картами, я знаю, как они работают, но на практике не могу... @FélixCantournet - person xhustango; 25.03.2015
comment
Только строки, векторы и библиотека алгоритмов @MustafaOzturk - person xhustango; 25.03.2015
comment
Этот код глючит. dna.substr принимает два параметра: начало и длину. Второй параметр должен оставаться постоянным и равняться 3. - person Mustafa Ozturk; 25.03.2015
comment
Затем используйте дерево R-B, хеш-дерево или trie. - person Mohit Jain; 25.03.2015
comment
@MustafaOzturk OP говорит от 3 до размера строки, поэтому я думаю, что это 3 до размера строки. Более того, это просто идея для начала. Может содержать некоторую ошибку. - person Mohit Jain; 25.03.2015
comment
@MustafaOzturk да, это от n = 3 до n = DNA.size (), поэтому n увеличивается на единицу для поиска большего количества последовательностей в ДНК. - person xhustango; 25.03.2015