Labtutorials.org

DNS szekvencia motívumok azonosítása II.

In bioinfo, bioinformatics, bioinformatika, DNA, molecular biology on January 14, 2019 at 1:15 pm

Szerző: Bojcsuk Dóra

Ahogyan az előző bejegyzést is indítottam, a két leggyakrabban feltett kérdés, amikor motívumanalízisről beszélünk, a következő:

  1. Milyen szekvencia motívumok „dúsulnak fel” a transzkripciós faktor kötőhelyek egy előre definiált csoportjában?
  2. Jelen van-e egy adott transzkripciós faktor motívuma a transzkripciós faktor kötőhelyek egy előre definiált csoportjában?

Arról, hogy mik is azok a motívumok, mit jelent maga a motívumfeldúsulás és milyen program segítségével lehet ezeket a feldúsulásokat azonosítani, a DNS szekvencia motívumok azonosítása I. bejegyzésben olvashattok, a következő néhány bekezdésben pedig arról lesz szó, hogy egy vizsgálni kívánt motívumról hogyan tudjuk eldönteni, hogy jelen van-e az általunk vizsgált régiókon belül.

Feltételezzük, hogy van egy 2000 transzkripciós faktor kötőhely pozícióit tartalmazó fájlunk (bed/txt kiterjesztésű) és szeretnénk csak azokat a kötőhelyeket, illetve a kötőhelyeken belül is csak azt a néhány bázispárnyi régiót visszanyerni, ahol megtalálható például az AP-1 fehérje motívuma. Ez a következő parancs begépelésével lehetséges:

annotatePeaks.pl peaks.bed hg19 -mbed output.bed -m AP1.motif -noann -nogene

Mi mit jelöl?

Az annotatePeaks.pl maga a program, amely a HOMER egyik nagyon hasznos eszköze. A peaks.bed a vizsgálni kívánt genomi régiókat tartalmazó bed fájl. A hg19 fogja a genomot megadni – amit a HOMER automatikusan felismer –, de ez a paraméter lehet mm10 (vagy mm9) is, amennyiben nem humán, hanem egér mintákkal dolgozunk. Minden egyéb modell organizmus használatakor meg kell adni a teljes elérési utat a vizsgálni kívánt genom FASTA fájljához. Eddig szinte minden ugyanúgy történik, ahogy a de novo motívumfeldúsulások keresésénél. Az -mbed paraméter után nevesítenünk kell egy bed fájlt, amely tartalmazni fogja a motívumtalálatok pozícióit (a fenti példában ennek az output.bed felel meg), az -m kapcsoló után pedig meg kell, hogy adjuk annak a motívumnak a mátrixát, amelynek jelenlétét vizsgálni szeretnénk az általunk megadott genomi pozíciókban. Végezetül egy kicsit gyorsíthatunk a motívumok keresésén a -noann és -nogene paraméterek megadásával; ezek használatával a vizsgált genomi pozíciók génekhez, ill. azok TSS-eihez történő annotálását a parancs nem fogja elvégezni.

Ezen felül az annotatePeaks-nél is működik és hasznos lehet a -size paraméter, mellyel a vizsgálni kívánt genomi régiók középpontjához viszonyítva megadhatjuk, milyen széles régión történjen a motívumkeresés.

Honnan szedjünk *.motif fájlt és mit érdemes a mátrixban változtatni?

Az előző bejegyzésben bemutattam, hogyan néz ki egy motívum mátrix és hogyan kell a benne található információkat értelmezni. Ezeket a mátrixokat a HOMER könyvtárunk homerResults vagy knownResults mappáiban találhatjuk, de akár készíthetünk újat, vagy paraméterezhetünk egy már meglévő mátrixot mi magunk is. Ezen felül létezik a HOMER-nek egy több, mint 400 ismert motívumot tartalmazó adatbázisa, melyet ide kattintva érhettek el: HomerMotifDB. A mátrixban a motívum score az, amit módosítani érdemes, annak függvényében, hogy mennyire szeretnénk szigorítani vagy lazítani a keresésen – bővebben erről is az előző bejegyzésben olvashattok.

No, de hogyan értelmezzük az eredményt?

Az output.bed kimeneti fájlunk 6 oszlopot fog tartalmazni. Az 1-3. oszlopok már nem az eredeti genomi pozíciókat fogják megadni, hanem pontosan azt a néhány bp-nyi régiót, ahol a keresett motívum megtalálható volt. A 4. oszlop a használt mátrix azonosítóját tartalmazza, amely a további munkálatok során nem releváns, az 5. oszlopban található score viszont annál inkább. A legalacsonyabb score legalább akkora lesz, mint a visszatérképezett mátrixban szereplő score-nál; annak lazításával a találatok száma növelhető.

A 6. oszlopban „+” vagy „–” jelöli, hogy a DNS-en pozitív vagy negatív irányban sikerült a motívumot azonosítani. Olyan fehérjék esetében, mint az AP-1, amely a TGAnTCA szekvenciához képes kötni, vagy a magreceptor szupercsalád bizonyos tagjai (például az ösztrogén recepor dimerek), melyek az AGGTCAnnnTGACCT szekvenciát preferálják, ha a reverz komplementerét vesszük a konszenzus szekvenciáiknak, mind a pozitív (+), mind a negatív (–) szálon olvasva ugyanazt a bázissorrendet láthatjuk. Ennek eredményeként előfordulhat, hogy a kimeneti fájl a 6. oszlopban eltérő irányultságot mutatva, de lényegében kétszer is tartalmazza ugyanazt a motívumot. A duplikátumok kiküszöbölése érdekében a kimeneti fájlunkat érdemes parancssorban merge-elni:

cat output.bed | sortBed | mergebed > output_v2.bed

 

Motívum score minden vizsgálandó genomi régióra? Lehetséges!

Az annotatePeaks-nek van még egy nagyon hasznos paramétere, mégpedig az -mscore. Ennek használatával a HOMER megkeresi a megadott mátrix által definiált motívumhoz legjobban hasonító szekvenciát minden egyes régióban, és kalkulál rájuk egy-egy motívum score-t. Ez az információ további szűréseket követően nagyon hasznos lehet abban az esetben, ha azt szeretnénk megvizsgálni, hogy egy adott motívum „erőssége” eltér-e különböző genomi régiók csoportjai között. Példaként, az alábbi ábra a TEAD, TCF, SIX, ERE, Fox és AP2 fehérjék motívumainak erősségét demonstrálják a „piros”, „lila” és a „kék” csoportok kötőhelyei alatt (Bojcsuk et al. bioRxiv, 2018):

boxes

Mivel az „erősebb”, tökéletesebb, vagy mondhatni kanonikus motívumok fehérje iránti affinitása sokkal nagyobb, az eltérések egyúttal utalhatnak a fehérjék kötésének meglétére vagy hiányára is.

 

A következő parancsot szükséges begépelnünk, hogy megkapjuk a motívum score-okat minden egyes kötőhelyre:

annotatePeaks.pl input.bed hg19 -m AP1.motif -mscore -noann -nogene -size 100 > output.txt

A kimeneti fájlban a következő oszlopok fognak szerepelni: PeakID, Chr, Start, End, Strand, Peak Score, Focus Ratio/Region Size, CpG%, GC%, Best Motif log-odds Score, melyből az utolsó oszlop lesz a meghatározott motívum score érték. Fontos, hogy az -m kapcsoló után nem csupán egy, hanem számos motívum mátrixát feltüntethetjük; például: -m AP1.motif AP2.motif ERE.motif TEAD.motif; ebben az esetben a kimeneti fájl utolsó oszlopai a mátrixok megadásának sorrendjében fogják a score-okat tartalmazni.

Az utóbbi parancs esetében mondhatni minden régióra „ráerőszakolunk” egy score-t, ezért előfordul az is, hogy negatív előjelű score-ral tér vissza az eredmény – emiatt is szükséges a további szűrés. Ha érdekel, én milyen feltételek alapján szűrtem a fenti ábra elkészítéséhez, olvassátok el a kéziratot! 🙂

EEM (1)

Az Emberi Erőforrások Minisztériuma ÚNKP-18-3-III-DE-253 kódszámú Új Nemzeti Kiválóság Programjának támogatásával készült.

Advertisements
%d bloggers like this: