Labtutorials.org

DNS szekvencia motívumok azonosítása I.

In bioinfo, bioinformatics, bioinformatika, molecular biology on December 14, 2018 at 1:01 pm

Szerző: Bojcsuk Dóra

A két leggyakrabban feltett kérdés, amikor motívumanalízisről beszélünk:

  1. Milyen szekvencia motívumok „dúsulnak fel” a transzkripciós faktor kötőhelyek egy előre definiált csoportjában?
  2. Jelen van-e egy adott transzkripciós faktor motívuma a transzkripciós faktor kötőhelyek egy előre definiált csoportjában?

Ebben a bejegyzésben az első kérdés megválaszolására alkalmas bioinformatikai módszerről fogok írni – de előtte néhány gondolat arról, mik is azok a motívumok.

A motívumokról

A szekvencia motívumok viszonylag rövid, általában 6-20 bázispár hosszú, visszatérő mintázatok a DNS szekvenciájában, melyeket bizonyos DNS-kötő fehérjék, transzkripciós faktorok képesek felismerni. Ezekhez a motívumokhoz a transzkripciós faktorok sokkal nagyobb affinitással képesek kötődni, mint egy nem specifikus szakaszához a DNS-nek; ebből adódóan azonosításuk fontos a génszabályozás pontos megismerésének szempontjából.

A motívumok azonosítása régen és most

Elsőként 1975-ben David Pribnow azonosította azt a 6 nukleotid hosszúságú TATAAT motívumot (TATA-box), melyről kiderült, hogy mind eukariótákban, mind prokariótákban az egyik alapvető transzkripciós iniciációs helyet jelöli a gének promóter régiójában (10 bázispárra a kezdőponttól). Baktériumokban a TATA-boxon túl (35 bázispárra) megtalálható TTGACA motívum is fontos szereppel bír az RNS polimeráz enzim kiindulópontjainak kijelölésében.

A szabályozó szekvenciák azonosítása korábban az ún. footprint analízis (DNase footprinting) segítségével történt. Ennek során a tesztelni kívánt szekvenciát hordozó DNS darabokat radioaktív végjelöléssel látták el. Kontrollként egy olyan oldatot használtak, amely nem tartalmazta a vizsgálni kívánt fehérjét, csak a DNS-t, így minden, egy kiválasztott DNS-hasító enzim által létrehozott, jelölt fragmentum mérete láthatóvá vált gélen való futtatás és a gélkép előhívása után. A vizsgálni kívánt fehérjét tartalmazó oldatban viszont ott, ahol a DNS-fehérje interakció létrejött, az enzim nem volt képes hasítani, emiatt az érintett fragmentmérethez tartozó sáv nem volt látható a gélképen. A fehérje által kötött/megvédett szekvenciát nevezték footprint-nek (lábnyomnak). Végül az enzim által el nem hasított régiót a kontroll sávból visszanyerve DNS szekvenálással a fehérje által elfoglalt DNS szekvencia azonosíthatóvá vált.

Ma újgenerációs szekvenálási adatokból kiindulva és számítógépes programok segítségével sokkal egyszerűbb módon azonosíthatunk ismétlődő mintázatokat a DNS szekvenciájában – akár olyanokat is, amelyekről jelenleg nem is tudjuk, mely transzkripciós faktor(ok) kötheti(k).

A motívumok meghatározásához legtöbbször ChIP-seq, ATAC-seq vagy DNáz-seq adatokból indulunk ki, mert az ezekkel a kísérletekkel kapott csúcsok középső (~100-200 bázispárnyi) régiójáról feltételezhető, hogy a fehérjekötés középpontját, egyben a válaszadó elem helyét jelzik.

Feldúsult motívumok azonosítása

Az alábbiakban bemutatom, mely HOMER parancsok lehetnek segítségünkre a motívumok azonosításában és milyen paraméterekre érdemes figyelni.

Ahhoz, hogy megválaszoljuk, milyen szekvencia motívumok „dúsulnak fel” a transzkripciós faktor kötőhelyek egy előre definiált csoportjában, a HOMER findMotifsGenome.pl parancsát kell, hogy segítségül hívjuk. Ez alkalmas mind ismert, mind újonnan feldúsult, ún. de novo motívumok azonosítására is.

A használatához szükséges minimum paraméterek a következőek:

findMotifsGenome.pl peaks.bed hg19 output_dir -size 200 -len 8

Az általam használt egyéb paraméterekkel kibővítve:

findMotifsGenome.pl peaks.bed hg19 output_dir -len 8,10,12,14 -size 200 -dumpFasta -bits -preparse -homer2

Mi mit jelöl?

A findMotifsGenome.pl egy program a HOMER csomagból, amit meghívunk. A peaks.bed a vizsgálni kívánt genomi régiókat tartalmazó bed fájl. A hg19 fogja a genomot megadni – amit a HOMER automatikusan felismer –, de ez a paraméter lehet mm10 is, amennyiben nem humán, hanem egér mintákkal dolgozunk. Minden egyéb modell organizmus használatakor a vizsgálni kívánt genom FASTA fájljához meg kell adni a teljes elérési utat.

Az output_dir az eredmények helyét definiálja – ezt a könyvtárat előre létre kell, hogy hozzuk. A kimeneti mappában a homerResults könyvtár fogja tartalmazni a de novo találatokat, a knownResults könyvtár pedig azokat a feldúsult motívumokat, amelyek a HOMER adatbázisában (is) megtalálhatóak voltak.

A -len 8,10,12,14 kapcsoló segítségével mondhatjuk meg, milyen hosszúságú motívumokat keresünk. Bár a minimum motívum hossz a fenti példában 8 bázispár hosszúságú volt, ezzel a beállítással például a 6+1 bázispár hosszúságú AP-1 motívumot (TGAnTCA) is visszakaphatjuk (amennyiben fel van dúsulva).

A -size 200 paraméter segítségével definiálhatjuk, hogy a peaks.bed fájlban található genomi régiók középpontjához viszonyítva milyen széles régión szeretnénk a motívumokat azonosítani. A -size 200 paraméter esetében (amely egyébként az alapértelmezett beállításnak felel meg) a középponttól -100/+100 bázispáron belül eső régiót vesszük csak figyelembe, de a HOMER lehetőséget ad arra is, hogy a –/+ irányban eltérő hosszúságú régión keressünk. Például a -size 100,50 a középponttól -100/+50 bázispáron belül eső régiót veszi figyelembe, de kereshetünk akár a bed fájlban lévő teljes régiókon is a -size given paraméter megadásával.

A -dumpFasta kapcsoló használatával a HOMER kigyűjti két külön fájlba azon régiók szekvenciáit, melyeket a peaks.bed-ben megadtunk (target.fa), illetve az általa háttérszekvenciaként meghatározott régiókét is (background.fa). Ez abban az esetben hasznos, ha szeretnénk más programokat is bevonni a motívumanalízisbe; így ugyanazokhoz a háttérszekvenciákhoz hasonlíthatjuk a vizsgálni kívánt régióinkat.

Míg alapesetben méretarányos, ún. proporcionális motívum logókat rajzoltathatunk, ahol az A, T, C és G nukleotidok mérete annak megfelelően fog kirajzolódni minden pozícióban, hogy a motívumon belül mennyire volt gyakori az egyes nukleotidok előfordulása, a -bits kapcsoló használatával a nukleotidok ún. információtartalmával arányosan lesz súlyozott a karakterek magassága.

Proporcionális:

222

„Bits-es”:

          bits

 

Visszautalva a -size paraméterre, jól látható, hogy a fenti motívum 10 bázispár hosszúságú, de az AP-1 fehérje motívuma (TGAnTCA) ezzel a hosszal is szépen kirajzolódott, a többi pozícióban lévő nukleotidok pedig csak kisebb, kiegyenlítettebb valószínűséggel fordultak elő.

A -preparse használatával a HOMER minden keresés során új random szekvenciákat generál, a -homer2 pedig egyszerűen az új HOMER programot hívja meg a régi verzió helyett.

Hogyan értelmezzük az eredményt, mit jelent az, hogy motívumfeldúsulás?

A motívumkeresés eredményeit a kimeneti könyvtárban található homerResults.html fájl segítségével webböngészőben könnyen megjeleníthetjük, a talált motívumok logóit pedig a homerResults mappában kell keresni. Azt követően, hogy a homerResults mappát a html fájllal együtt letöltöttük a számítógépünkre, az eredményt ilyen formában láthatjuk:

2222

A táblázatból kiderül, hogy összesen 16188 genomi régióban kerestük a feldúsult motívumokat (Total target sequences = 16188), a HOMER pedig 33193 random genomi régió szekvenciáját használta kontrollként (Total background sequences = 33193). Ez azt jelenti, hogy a vizsgálni kívánt 16188 régióban feldúsult motívumokat a háttérként használt 33193 régióban is megkereste, mi pedig ebből már csak egy-egy százalékértéket látunk (% of Targets és % of Background), melyek azt jelölik, hogy a vizsgálni kívánt és a háttérként használt régiók hány százalékában fordult elő az adott motívum. Azonban könnyen félrevezethetjük magunkat, ha csupán azt vesszük figyelembe, hogy a vizsgálni kívánt régiók jelentős százalékában (pl. 32,45%) dúsult fel egy motívum, de a kontroll régiókra kapott %-ot (amely mutathat szintén jelentős, pl. 29,6%-os feldúsulást) figyelmen kívül hagyjuk. A HOMER minden találatra generál egy P-értéket (P-value) is, és ennek megfelelően rangsorolja a találatokat.

Szintén könnyen félrevezethetjük magunkat, ha elhisszük a HOMER-nek, hogy egy motívum valóban az, aminek ő nevezi. A fenti ábrán az 1. találat a BORIS transzkripciós faktor motívuma, azonban ha a More information hivatkozásra kattintunk, további lehetséges találatokról is tájékozódhatunk. Esetünkben az 1. motívumot valószínűleg csak az általánosan kifejeződő CTCF transzkripciós faktor tudja kötni, nem a paralógja – ennek megítélésére azonban valamilyen szinten ismernünk kell a modellrendszerünket; tudnunk kell, hogy mely fehérjék játszanak szerepet a vizsgált sejtben, ill. hogy adott fehérjecsaládból melyik fehérjék fejeződnek ki egyáltalán.

A további motívumtalálatokat is hasonló fenntartással kell, hogy kezeljük. A 2. találatot elegendő, ha C/EBP-nek nevezzük; az, hogy a fehérjecsalád mely tagja van jelen, szintén a vizsgált sejttípustól függ. A 3. találatot nevezhetjük AP-1-nek, mert az AP-1 fehérjecsoport tagjai képesek kötni, de nevezhetjük akár TRE-nek (TPA Reponse element) is, a TPA ligand válaszkészsége alapján. A 4. motívumot a promóter régiókra jellemző Sp1 fehérje képes kötni, de a motívum neve GC-box, amely pedig a szekvencia alapján kapta ezt a nevet, akárcsak a TATA-box, amit a bejegyzés elején említettem.

Bár az ábrán nem látszik, a piros csillaggal jelölt találatokat (*-possible false positive) az alacsony P-érték ellenére a HOMER lehetséges fals pozitívnak tekinti. Ha nagyon kevés régiót adunk meg, a HOMER szintén nem képes releváns feldúsulásokat eredményezni. Ebben az esetben azért a knownResults mappában található html fájlra is érdemes egy pillantást vetni, mert a HOMER visszatérképezi az adatbázisában található több mint 400 motívumot és a legnagyobb számban előforduló motívumokat kigyűjti (még darabszámot is megad), még ha a kevés kiindulási régió miatt azok nem is mutattak szignifikáns feldúsulást.

A fentiek helyes megítélése néha igényel egy kis kutakodást az interneten, de idővel könnyen rá lehet érezni. Fontos megjegyezni azt is, hogy az összes transzkripciós faktor felismerésére szolgáló motívum szekvenciája eltérhet egy-egy nukleotidban; ez a fehérje iránti affinitást nem feltétlenül, vagy csak kis mértékben befolyásolja.

Motívum mátrixok értelmezése

Minden motívum logóhoz tartozik egy motívum mátrix (ún. position weigth matrix) is, amiből készült, ill. amelyet a motif file (matrix) hivatkozásra kattintva nyithatunk meg, és az alábbi információkat tartalmazza:

>DRTTGCGHAA      3-DRTTGCGHAA,BestGuess:CEBPE/MA0837.1/Jaspar(0.925)  6.901336         -829.796349   0               T:1901.0(11.75%),B:1348.2(4.06%),P:1e-360

0.246      0.147      0.284      0.323
0.445      0.158      0.342      0.055
0.001      0.001      0.001      0.997
0.001      0.001      0.014      0.984
0.309      0.001      0.476      0.215
0.112      0.505      0.136      0.247
0.261      0.146      0.496      0.097
0.309      0.393      0.002      0.295
0.994      0.004      0.001      0.001
0.997      0.001      0.001      0.001

Rögtön az első sor a motívum nukleotidjait adja meg, melynek értelmezéséhez egy kis segítséget itt találhattok: https://www.bioinformatics.org/sms/iupac.html.

Szintén az első sor tartalmazza ugyanazokat az információkat, amelyek a táblázatos formában is szerepeltek. A motívum neve mellett sok esetben szerepel az is, hogy milyen korábbi ChIP-seq kísérletből származó motívumhoz hasonlít a legjobban. Szerepel még egy motívum score (érték) is (6.901336), amelyre még visszatérek, illetve itt is megjelennek a Target- és Background %-ok (T:1901.0(11.75%),B:1348.2(4.06%), illetve a P-érték (P:1e-360).

A bemutatott mátrix a fenti táblázatban szereplő C/EBP motívumot reprezentálja:

22

 

A mátrix minden sora a motívum egy bázisát írja le, balról jobbra haladva, az oszlopok pedig egy-egy nukleotidot jelölnek. Megfigyelhető, hogy az egy sorban szereplő számok összege 1-et tesz ki és azt írja le, hogy az adott pozícióban melyik nukleotid milyen valószínűséggel fordult elő. Ha megfigyeljük a vastagon kiemelt számokat a mátrixban, jól látható, hogy a 3. és a 4. pozícióban szereplő timinnek (T) a 4. oszlop felel meg, az utolsó két pozícióban szereplő adenint (A) pedig az 1. oszlop írja le. Végül pedig a 3. oszlop a guaninnak (G), a 2. oszlop pedig a citozinnak (C) felel meg:

   A             C             G            T
0.246      0.147      0.284      0.323
0.445      0.158      0.342      0.055
0.001      0.001      0.001      0.997
0.001      0.001      0.014      0.984
0.309      0.001      0.476      0.215
0.112      0.505      0.136      0.247
0.261      0.146      0.496      0.097
0.309      0.393      0.002      0.295
0.994      0.004      0.001      0.001
0.997      0.001      0.001      0.001

A mátrixban szereplő motívum score egyedi; függ a motívum hosszától és a mátrixban nagy gyakorisággal megjelenő bázisok számától is. Ezt az értéket akkor szoktuk módosítani, amikor adott genomi régiókon szeretnénk egy-egy motívum meglétét vizsgálni, de a keresés túl sok és nem specifikus találatot eredményezett. Ebben az esetben a score értéket megemeljük, így a mátrixban szereplő értékek bár ugyanazok maradnak, a keresés sokkal szigorúbb módon zajlik. Annak vizsgálatáról viszont, hogy jelen van-e egy adott transzkripciós faktor motívuma a transzkripciós faktor kötőhelyek egy előre definiált csoportja alatt, a következő bejegyzésben lesz szó bővebben.

EEM (1)

Az Emberi Erőforrások Minisztériuma ÚNKP-18-3-III-DE-253 kódszámú Új Nemzeti Kiválóság Programjának támogatásával készült.

%d bloggers like this: