Task 12-13 (Gene recognition)

Створіть у директорії Term3 піддиректорію Practice12 та всю роботу проводите в ній. Заведіть файл звіту login .doc (назва файлу відповідно до Вашого login'у), не забудьте написати заголовок звіту.

У директорії P:\y05\Term3\GeneRecognition знайдіть два файли: Ecoli_.txt - фрагмент послідовності ДНК Escherichia coli у форматі EMBL (з анотацією); human_.txt - Фрагмент послідовності ДНК людини у форматі plain. Скопіюйте ці файли у свою робочу директорію.

Частина 1. Пошук прокаріотичних генів

Оформіть у вигляді таблиці всі CDS, вказані в інструкції до запропонованої Вам послідовності ДНК

CDS з анотації ecoli_Watson

початоккінецьдовжинарамка35515691215+1

Довжина CDS повинна ділитися на 3. Рамку зчитування для CDS на прямому ланцюгу можна визначити, взявши координату початку CDS за модулем 3: якщо вийде 0, то рамка +3, якщо 1, +1, якщо 2, то +2. Для CDS на зворотному ланцюгу рамку можна визначити, взявши різницю довжини послідовності та координати кінця CDS по модулю 3: якщо вийде 0, то рамка –1, якщо 1, –2, якщо 2, то –3. Довжина послідовності вказана у файлі як координата останнього нуклеотиду. Наприклад, якщо довжина послідовності 765 і дана CDS на зворотному ланцюзі complement(100..345), маємо (765–345) mod 3 = 1, рамка –2. Знак або > біля межі CDS означає, що CDS триває поза анотованої послідовності. На неповних CDS рамку не потрібно визначати.

За допомогою програми ORF Finder ідентифікуйте відкриті рамки зчитування у послідовності ДНК

Початок, кінець і рамку для найдовшихперетинаються по ДНК пророцтв занесіть у таку ж таблицю, як у п. 1. Виділіть зеленим кольором рядки таблиці, що відповідають передбаченим ORF, точно збігаються з анотованими генами (мають збігатися і початок, і кінець, і рамка). Опишіть результати роботи blastp: чи знайшли білки; якщо так - чи був знайдений білок, точно збігається з трансльованої ORF (увага, бувають хіти зі стовідсотковим подібністю тільки з фрагментом вихідної послідовності!); докладіть до звіту вирівнювання, що відповідає кращому хіту blastp.

За допомогою програми GeneMark розпізнайте гени у послідовності ДНК

Занесіть результати роботи програми GeneMark 2.4 до такої ж таблиці, як у п. 1. Знак або > біля кордону передбаченого гена означає, що програма передбачає продовження гена поза даної їй послідовності. Виділіть зеленим кольором рядки таблиці, що відповідають передбаченням, що точно збігаються з анотацією. Жовтим кольором виділіть рядки, що відповідають передбаченням, що перетинаються з анотованими генами, але не збігаються з ними (якщо передбачений та анотований ген читаються в одній рамці). У таблиці п. 1 виділіть червоним кольором гени, повністю пропущені програмою.

Подивіться, як розподілений кодуючий потенціал по ДНК, натисніть гіперпосилання View PDF Graphical Output на сторінці з прогнозами GeneMark . На PDF-малюнку, що відкрився, ви побачите графіки розподілу кодуючого потенціалу для кожної рамки зчитування на обох ланцюгах ДНК. Докладіть графіки до звіту. Виділіть на них зображення кодуючого потенціалу для CDS, вказаних в інструкції.

Частина 2. Пошук еукаріотичних генів

За допомогою програми GENSCAN виділіть екзони в послідовності ДНК та визначте їхтип

Екзони, передбачені GenScan для human_Crick

початоккінецьтип315490початковий10091300внутрішній

Виділіть екзони в послідовності ДНК за допомогою програми BlastX і порівняйте прогнози програм GENSCAN та BlastX

У меню "Choose database" залиште запропонований за замовчуванням банк nr. Нижче в опціях знайдіть меню, яке дозволяє обмежити пошук лише якоюсь однією таксономічною групою, і виберіть у ньому хребетних (Vertebrata). nr (на NCBI), UniRef90 (на EBI), UniProt (на Pasteur). --> Вимкніть фільтр малої складності (low complexity)!

Програма BlastX передбачить ізоформи виданого вам гена. Знайдіть ізоформи, що різняться за кількістю екзонів. Виберіть дві ізоформи з різним числом екзонів. Одна з них має бути породжена білком, що не належить людині, це може бути білок будь-якого іншого хребетного.

BlastX визначає межі екзонів не точно:

  • "Екзони" Blast можуть перекриватися як ДНК, так і білком. Вам потрібно подивитися на вирівнювання таких "екзонів" та уточнити їх межі на ДНК. Для цього подивіться, який "екзон" краще вирівнюється в області перекриття. Вважайте, що перекриття належить "екзону" із найкращим вирівнюванням.
  • Вставка у послідовності ДНК (геп у білку), швидше за все, є інтроном. Якщо вставка ДНК містить стоп-кодон (відзначається знаком * на вирівнюванні), це пряма вказівка ​​на інтрон. Такий "екзон" потрібно розбити на два "екзони".
  • Blast виводить "екзони" у випадковому порядку. Для успішного виконання завдання вам потрібно розмістити "екзони" у порядку зростання координат по білку. Білкова координата кінця попереднього екзонумає бути на одиницю менше білкової координати початку наступного екзону (або перекриватися на одну-три амінокислоти).
У звіті для кожної ізоформи наведіть вирівнювання та окрему таблицю координат "екзонів" на білку та ДНК:

Назва білка та організм

координати за білкомкоординати по ДНКпочаток екзону 1початок екзону 1кінець екзону 1кінець екзону 1початок екзону 2початок екзону 2кінець екзону 2кінець екзону 2

>gi9621790gbAAF89534.1 serine protease [Mus musculus]
координати за білкомкоординати по ДНК
1603
1691109
1691211
2371417
gi9621790gbAAF89534.1 serine protease [Mus musculus]№ екзонукоординати за білкомкоординати по ДНКпочатоккінецьпочатоккінець111696031109216923712111417-->

Пофарбуйте у цих таблицях червоним кольором відмінності ізоформ – альтернативні екзони. Альтернативними називаються екзони, які або відсутні в іншій ізоформі, або покривають собою інтрон, ідентифікований в іншій ізоформі, або мають альтернативний 5'- або 3'-кінець. Увага: через описану вище неточність програми BlastX відмінності кінців "екзонів" на 1-10 нуклеотидів не можуть вважатися справжньою альтернативою.

Вкажіть відмінність кожної ізоформи від передбачення GENSCAN. Для цьогопродублюйте таблиці BlastX-екзонів. У цих таблицях пофарбуйте жовтим кольором рядки, що відповідають "втраченим" BlastX-екзонам (що не перетинається з жодним GENSCAN-екзоном). У таблицю з прогнозом GENSCAN додайте колонку QQ. Перекриття QQ - міра близькості двох систем відрізків, обчислюється як відношення довжини перетину до довжини об'єднання відрізків із цих систем. Пофарбуйте зеленим кольором GENSCAN-екзони, що добре збігаються з будь-яким BlastX-екзоном (QQ>0,9), вкажіть QQ для цих екзонів. Пофарбуйте червоним кольором рядки, що відповідають "зайвим" GENSCAN-екзонам (не перетинаються з жодним із BlastX-екзонів в обох ізоформах).

Знайдіть ваш ген у геномі людини, використовуючи програму BLAT в Human Genome Browser. Виділіть кодуючі та некодуючі екзони

Помістіть послідовність ДНК у текстове поле форми та натисніть кнопку Submit. Ви отримаєте список знайдених фрагментів геному. Якщо в цьому списку більше одного рядка, виберіть той рядок, який має максимальну подібність до вашої послідовності за SCORE і максимальну довжину вирівнювання. Визначте, на якому ланцюгу геномної ДНК (прямої чи зворотної) знаходиться Ваша послідовність (дивіться знак у колонці STRAND), також визначте геномні координати Вашої послідовності та номер хромосоми, на якій вона була знайдена. Усі ці параметри слід зазначити у звіті. Для перерахунку координат від геномних до координат послідовності визначте число OFFSET: якщо Ваша послідовність знаходиться на прямому ланцюзі, OFFSET=START(за хромосомою, після стовпця STRAND)–1; якщо вона знаходиться на зворотному ланцюзі, OFFSET=END(по хромосомі, перед стовпцем SPAN)+1 . Це число буде використано трохи згодом.

Якщо натиснути на зображення мРНК або EST, з'являється її докладний опис. На ційсторінці в розділі mRNA/Genomic Alignments перейдіть за посиланням з вирівнюванням, а потім знайдіть розфарбовану послідовність, заголовок якої починається з "Genomic". На ній синім виділені діючі ділянки, червоним — некодуючі, чорним — інтрони та ділянки геному за кордоном вирівнювання. Екзони можуть бути повністю кодуючими, повністю некодуючими, а також змішаними - частково кодуючими і частково некодуючими (це екзони, що містять старт-і стоп-кодони).

Пред'явіть будь-які нетрансльовані екзони із зазначенням ідентифікатора мРНК, що породжує, в координатах вашої послідовності . Якщо ваша послідовність знаходиться на прямому ланцюзі ДНК із геномних координат необхідно відняти OFFSET ( = –OFFSET), якщо послідовність на зворотному ланцюзі, то з OFFSET необхідно віднімати геномні координати ( =OFFSET– ). Не лякайтеся, якщо отримаєте негативні значення координат чи координати з 3'-кінця будуть поза послідовності! До звіту прикладіть файл із вирівнюванням, що підтверджує знайдені вами некодуючі екзони.

Пред'явіть будь-які внутрішні, не передбачені BlastX, що кодують екзони в координатах послідовності із зазначенням мРНК, що породжує, або EST (якщо, звичайно, такі екзони є). До звіту додайте файл з вирівнюванням, що підтверджує знайдені вами екзони.

ОБОВ'ЯЗКОВО у звіті наведіть збережену Вами картинку з HGB, виділіть на ній знайдені екзони!

Знайдені в Human Genome Browser екзони оформіть у вигляді таблиці: