Labtutorials.org

Archive for 2019|Yearly archive page

A szekvencia motívumok szerepe a transzkripció szabályozásában

In bioinfo, bioinformatics, bioinformatika, DNA, molecular biology on June 8, 2019 at 8:18 pm

A magreceptorok motívumai

Szerző: Dr. Nagy Gergely

A magreceptorok csoportosítása

A magreceptorok beszédes névvel rendelkeznek, amely kifejezi, hogy tipikusan olyan fehérjékről van szó, amelyek jelmolekulákat ismernek fel és a sejtmagban fejtik ki hatásaikat. E fehérjék többsége sok más receptorhoz hasonlóan dimer formájában működik, viszont más receptorokkal ellentétben a magreceptorok nem membránkötöttek, hanem oldott formában a citoszólban, illetve a sejtmagban találhatóak. Ligandjaik a membránokon áthatolni képes lipid molekulák, beleértve a zsíroldékony hormonokat, vitamin-, szteroid- és zsírsavszármazékokat. A magreceptorok neve arra is utal, hogy nemcsak fehérje-fehérje kölcsönhatásokon keresztül képesek jelet továbbítani, hanem a sejtmagban, közvetlenül a DNS-hez kapcsolódva, mint transzkripciós faktorok szabályozzák a géneket. Azáltal, hogy ilyen rövid úton eljut a jel a célgénekhez, lényegesen lecsökken a sejtek adott körülményre adott válaszideje, nem úgy, mint a membránreceptoroktól induló, soklépéses jelátviteli útvonalak esetében.

A magreceptor szupercsalád emlősökben előforduló 19 családját 4 osztályba sorolják: a szteroid hormon receptorokra (I. osztály, 2 család), a retinoid X receptorral (RXR-rel) heterodimert alkotó ligandkötő receptorokra (II. osztály, 5 család), a dimerizáló árva receptorokra (III. osztály, 6 család) és a monomer árva receptorokra (IV. osztály, 6 család) (Mangelsdorf et al., Cell, 1995; Nuclear Receptor Nomenclature Committee, Cell, 1999; Evans and Mangeldorf, Cell, 2014). Az I. osztály tagjai homodimert alkotnak, és kizárólag szteroid hormonokat ismernek fel. A II. osztály tagjai a ligandok széles spektrumát képesek felismerni, mint például a tiroid hormont, az A- és D-vitamin, a zsírsavak, valamint a koleszterol származékait (Dawson and Xia, Biochim Biophys Acta., 2012). Az árva receptorok onnan kapták a nevüket, hogy eleinte nem sikerült a ligandjaikat azonosítani, később mégis kiderült, hogy a III. osztály fele képes valamilyen lipid természetű molekulát kötni. A valódi árva receptorok nem rendelkeznek működőképes ligandkötő doménnel, hanem mint más transzkripciós faktorok, fehérje-fehérje kölcsönhatások által vagy például foszforilációval szabályozódnak.

Magreceptor motívumok

A magreceptorok általában az AGGTCA motívumokat ismerik fel. Dimerek esetében ez a szekvencia kétszer szerepel egymás mellett, ezért magreceptor félhelynek is nevezik. Helytálló ez az elnevezés azért is, mert egy hatbázisos motívum, főleg, ha beleszámoljuk a lehetséges szekvencia variációkat, túl gyakran található meg a genomban (<46 vagy <45 = ~1000 bázisonként) és túl könnyen alakulhat ki véletlenszerű mutációk során ahhoz, hogy rendelkezzen a szükséges szelekciós erővel a génkifejeződés megfelelő szabályozásához. Hogy a magreceptor dimerek megtalálhassák az adott körülmények között szükséges szabályozó elemeiket, elsősorban a félhelyek egymáshoz viszonyított iránya és távolsága a felelős. Az I. osztály receptorai esetében például a félhellyel a tükörképe (például TGACCT) áll szemben, három bázissal elválasztva. Ezt a palindrom szekvenciát úgynevezett fordított ismétlődésnek vagy inverted repeat (IR)-nek nevezik, amit, mivel három, nagyjából véletlenszerű bázis van a közepén, IR3-ként emlegetnek. Ebben az osztályban az ösztrogén receptorok kivételesek az AGGTCA félhelyükkel, mivel az összes többi szteroid hormon receptor az AGAACA (illetve TGTTCT) szekvenciát preferálja.

A II-III. osztály dimerei ezzel szemben kivétel nélkül két, egymást azonos irányban követő magreceptor félhelyet, úgynevezett direct repeat (DR) elemet ismernek fel, ahol az elválasztó bázisok száma a leginkább meghatározó; és DR0-tól DR5-ig minden lehetőségre találunk specifikus dimereket (Umesono et al., Cell, 1991; Evans and Mangeldorf, Cell, 2014); de írtak már le működőképes DR8-at is. A DR0-t például GCNF homodimer, a DR1-et PPAR/RXR heterodimerek, valamint TR2/4 és HNF4 (homo)dimerek, a DR2-t RAR/RXR heterodimerek és REV-ERB (homo)dimerek, a DR3-at VDR/RXR heterodimerek, a DR4-et THR/RXR és LXR/RXR heterodimerek, a DR5-öt pedig RAR/RXR heterodimerek ismerik fel. Ezekben az osztályokban is vannak IR felismerő magreceptorok, illetve léteznek olyan dimerek is, amelyek, például a ligand minőségétől függően, különböző távolságra lévő félhelyeket kötnek. Az RAR/RXR heterodimerek az előbb említett DR5 és DR2 kötés mellett a DR1 elemeket is használhatják, a PXR/RXR heterodimerek esetében pedig leírták, hogy a pregnánszármazékok és másodlagos epesavak rugalmas kötése a konformációváltozás hatására különösen rugalmassá teszi a DR elemek felismerését is (Wu et al., Drug Discov Today, 2013; Frank et al., J Mol Biol., 2005).

Mivel a magreceptorok félhelye túlságosan gyakran fordul elő a genomban ahhoz, hogy specifikusan működhessen, a IV. osztály magreceptorai esetében a hat bázison felül általában további bázisok is hozzájárulnak az erős DNS-fehérje kölcsönhatáshoz. Ezek a bázisok minden érintett család esetén a félhelyek 5’ kiterjesztését jelentik. Az NR0B család kivételt képez ez alól, mert nem rendelkezik DNS-kötő doménnel (Ensembl). Az NR4A (NUR/NOR) fehérjék az AA-AGGTCA (Wilson, Milbrandt, Science, 1992), az NR3B (ESRR) és NR5A (SF-1, LRH1) családok tagjai a (T)CA-AGGTCA (Johnston, Mertz, Mol. Endocrinol., 1997; Lala, Parker, Mol. Endocrin., 1992; Laudet, Curr. Biol., 1995), az NR1F (ROR) fehérjék pedig az (A/T)AA(C/G)T-AGGTCA szekvenciákat ismerik fel (Giguere, Otulakowski, Genes Dev., 1994; IJpenberg, JBC, 1997). Ez utóbbi kiterjesztett félhely, az úgynevezett ROR válaszadó elem (RORE) azonban részét képezheti DR elemeknek is. Mind a PPAR/RXR, mind pedig a REV-ERB dimerek nagy affinitással kötik a kiterjesztett DR – DR1, illetve DR2 – elemeket, és ezeknek az elemeknek – a magreceptorok expressziós szintjének és az adott motívumokhoz való affinitásának függvényében – fontos szerepe van a sejtek napi ciklusának szabályozásában (Harding, Lazar, MCB, 1995; Duez, Stael, FEBS Letters, 2008; Zhang, Lazar, Science, 2015). Ez a kiterjesztés teheti specifikussá a DR1 elemek PPAR/RXR általi kötését a TR és HNF4 (homo)dimerekkel szemben, valamint a DR2 elemek REV-ERB általi kötését az RAR/RXR heterodimerekkel szemben.

Kiterjesztett magreceptor motívumok keresése

Az elmúlt három évtizedben lényegében négy olyan tényezőt azonosítottak, amely meghatározza a magreceptorok specifikus DNS kötését: a félhelyek szekvenciáját (AGGTCA vagy AGAACA), egymáshoz viszonyított irányát (IR vagy DR), egymástól való távolságát és 5’ kiterjesztését. Az alapszabályokkal ugyan tisztában vagyunk, de nem ismerjük minden magreceptor pontos szekvenciaigényeit. Ehhez az NGS módszerek, például a ChIP-seq vagy akár ATAC-seq és ezek elemző módszerei nagy segítséget nyújtanak (Heinz, Mol. Cell, 2010), mégsem mindig szembetűnő a különbség a különböző magreceptorok motívumai között. Egyszerre többféle DR vagy IR elem kiterjedt használata esetén, például az RXR cisztróm vizsgálatakor, megtörténhet a különböző motívumok teljes összekeveredése, összeolvadása („kiátlagolódása”), tehát akár egyetlen félhelyre redukálódása is (Dániel and Nagy, Genes. Dev, 2014). Mivel kisebb a kiterjesztett motívumok száma, mint azoké, amelyek nem rendelkeznek valamilyen 5’ kiterjesztéssel, a de novo motívumkeresések eredményeiben ezek általában nem hangsúlyosak vagy teljesen hiányoznak. Léteznek „trükkök” a motívumok szétválasztására a de novo motívumkeresés eszköztárában, ám ezek is szenvednek a módszernek attól az általános korlátjától, hogy csupán a bázisok gyakoriságát veszik figyelembe, ezekhez nem rendelik hozzá a fehérjekötés erősségét.

A de novo motívumokat kiegészítendő, kifejlesztettem egy motívum optimalizáló módszert, amely a motívumok bázisainak a fehérjekötéshez való hozzájárulását méri. Ennek segítségével lényegében egyetlen ChIP-seq minta alapján nagyon pontosan meghatározható volt a PPARg félhelyének a kiterjesztése. Ez a motívumkeresésen és -térképezésen alapuló módszer valójában bármely transzkripciós faktorra specifikus ChIP-seq adaton jól működhet, feltárva e fehérjéknek a gyakori motívumokon felüli szekvenciaigényeit. Bázisok kettőseit felhasználva több dimenzióban is tesztelhető a kettősök fehérjekötéshez való hozzájárulása, ezáltal akár különböző és átfedő motívumkiterjesztések, illetve távolabbi, úgynevezett szatellit elemek is azonosíthatóak. A PPARg mellett nagyszámú magreceptorra specifikus ChIP-seq adat érhető el nyilvánosan, például az NCBI SRA adatbázisában. Mivel elképzelhető, hogy a TR2/4 és HNF4 (homo)dimerek, valamint a THR/RXR és LXR/RXR heterodimerek DR1, illetve DR4 motívumaiban is található valamilyen eltérés, amely a specificitásukat adja, érdemes lehet e magreceptorok esetében is elvégezni a motívumok fehérjekötéssel kapcsolt optimalizálását; valamint feltételezhető, hogy az RAR, PNR és COUP-TF magreceptorok rugalmasabb DNS kötése mögött is van egy általános szabályszerűség. Kérdéses továbbá az is, hogy vajon minden, DNS-kötő doménnel rendelkező monomer árva receptor, beleértve az NR2E családot (TLX, PNR) is, vagy akár további dimerizáló receptorok is rendelkeznek-e kiterjesztett motívummal, illetve, hogy ezek a kiterjesztések mutatnak-e további specificitást.

Ha választ kapunk ezekre a kérdésekre, az közelebb visz a magreceptorok és motívumaik koevolúciós történéseinek a megismeréséhez is, amely egy sokkal teljesebb képet adhat a transzkripciós faktorok általi génszabályozásról és annak evolúciójáról.

Az Emberi Erőforrások Minisztériuma ÚNKP-18-4-DE-318 kódszámú
Új Nemzeti Kiválóság Programjának támogatásával készült.

Advertisements

GRO-seq

In bioinfo, bioinformatics, bioinformatika, molecular biology, RNA on May 24, 2019 at 7:57 pm

Szerző: Dr. Nagy Gergely

A módszer, amely elől nem bújhat el egyetlen RNS molekula sem

A teljes genom szintű (Global) Run-On (GRO) szekvenálás a naszcens transzkriptóm meghatározására alkalmas újgeneráriós szekvenálási (NGS) módszer. A transzkriptóm általánosságban a sejtek teljes RNS állományát jelenti, a GRO-seq lényege azonban éppen az, hogy csak az egy adott pillanatban átíródó RNS molekulákat, sőt azoknak is csak az éppen átíródó részét, tehát gyakorlatilag az átírást végző RNS polimeráz komplexek helyét mutatja meg a genomban. Ez úgy érhető el, hogy egy szarkozil nevű detergenssel (tisztítószerrel) meggátolják, hogy szabad polimerázok csatlakozzanak a DNS-hez, ellenben a már elkötelezett komplexek tovább tudnak működni. A run-on gyakorlatilag a polimerázok korlátozott „újraindítását” jelenti izolált sejtmagokban, jelölt nukleotid-trifoszfát szubsztrátok felhasználásával. Néhány tíz nukleotid felépítése elegendő ahhoz, hogy az RNS molekulák darabolása után a jelölés segítségével kifogják az új szakaszokat, és meghatározzák a bázissorrendjüket.

A GRO-seq eljárás során arra is ügyelnek, hogy az RNS molekulák bázissorrendjének az iránya is megismerhető legyen. Ehhez előbb a molekulák 5’, majd 3’ végéhez kapcsolnak végspecifikus adaptort. Az RNS molekulák töredékeinek az 5’ végén azonban nincs feltétlenül szabad foszfát csoport. A későbbi lépésekhez az mRNS-ek 5’ „sapkáját” el kell távolítani (TAP), valamint end-repair-rel mind az 5’, mind pedig a 3’ vég javítható (például foszforilálható, illetve defoszforilálható; PNK). A különböző adaptorokkal közrefogott RNS molekulákból reverz transzkripcióval DNS-t hoznak létre, majd ezt sokszorozzák (PCR) a szekvenáláshoz.

A rövid szekvencia-leolvasások tehát megmutatják a polimerázok általi RNS szintézis helyét és irányát, amely kiválóan használható bizonyos nyomon követéses kísérletek esetében. Ha kíváncsiak vagyunk, milyen gének kapcsolnak be vagy ki egy stimulus hatására, érdemes néhány vagy néhány tíz perces felbontásban mintát venni. Ilyen módon láthatóvá válik, hogy a polimeráz percenként 2,5-3 kilobázis távolságot halad a szabályozott géneken. Azonban vannak olyan hosszú gének is, amelyek átírásához órák kellenek, és ez idő alatt az mRNS teljes érése és fehérjére „fordítása” sem történhet meg. A rövidebb gének viszont hamar nagy mennyiségű fehérjeterméket eredményezhetnek, és amennyiben ezek képesek a transzkripciót szabályozni, például mint transzkripciós faktorok, megfigyelhetjük az általuk be-, illetve kikapcsolt gének egy újabb hullámát, amely szó szerint a gének lefedettségén is látható. Ha egy hosszú gén előbb indukálódik, majd nem sokkal később gátlódik, egy „csúcs” jelenik meg rajta, amely idővel (későbbi időpontokban) a gén vége felé „vándorol”. Kellően nagyszámú időpont vagy jól időzített időpontok használatával teljes transzkripciós kaszkádok térképezhetőek fel a módszer segítségével.

A GRO-seq-kel nyert génexpressziós adatokat azonban más okokból kifolyólag sem könnyű értelmezni. Például sokszor nincs egyszerű összefüggés a különböző RNS molekulák szintézisének gyakorisága és az érett RNS szintje között. Az érés sem feltétlenül egyszerű folyamat, de összességében talán az érett RNS molekulák stabilitása (féléletideje) a leginkább meghatározó tényező a génexpressziót tekintve. Csupán GRO-seq adatokból tehát nem sokat tudhatunk meg a génexpressziós szintekről, annál többet a génexpresszió kezdeti szabályozásáról. A polimerázok ugyanis nemcsak a géneken találhatóak meg, hanem transzkripciót mutatnak minden aktív szabályozóhelyen is, még ha nem is következik utána lánchosszabbítás (elongáció).

Polimerázok mindenütt

Bőven a GRO-seq előtt ismert volt, hogy nagyszámú polimeráz gyülekezik a promótereken, de ezeknek tipikusan csak töredéke tudja megkezdeni a génen való továbbhaladást, a többi csak vesztegel (pausing). Ez a GRO-seq adatok alapján úgy néz ki, hogy a gén kezdeti szakaszán van egy csúcs – rövid, úgynevezett abortált átiratokból –, ami többnyire jelentősen magasabb, mint a gén további szakaszának a – transzkriptumok elongációjából fakadó – lefedettsége. Előfordul az is, hogy a promóter jelentős aktivitást mutat, a génen pedig alig vagy egyáltalán nem detektálható transzkripció, valószínűleg valamilyen további aktiváló jel hiánya miatt. Magasan kifejeződő gének esetében viszont nem feltétlenül látható pausing, mivel közel minden megkezdett RNS molekula meghosszabbításra kerül. Ebben az esetben időegység alatt tovább is jutnak a polimerázok, mert gyorsabban tudnak haladni a tartósabban szétválasztott DNS-en.

Az átíródó szabályozó régiók alatt nemcsak a promótereket értjük, hanem az aktív enhanszereket (silencer-eket) is, melyek átírását ugyanúgy érintik a pozitív/negatív stimulusok, mint a fehérjekódoló génekét. Ezt kihasználva a promóterektől akár többszáz kilobázis távolságra elhelyezkedő, az adott stimulus hatására azonos expressziós mintázatot mutató szabályozó régiókat is a génekhez rendelhetjük, amely segíthet azt is megmondani, mely transzkripciós faktorok vesznek részt a szabályozásban. A promóterektől távol eső szabályozó helyeken általában nagy a pausing mértéke – tehát az abortált transzkriptumok aránya –, de ezeken a helyeken is történhet elongáció, melynek hosszú nem-kódoló RNS-ek lesznek a termékei. Elongáció hiányában egyszerűen enhanszer transzkripcióról beszélünk, amely tipikusan mindkét irányban megtörténik (divergens) a szabályozó régióhoz képest – valószínűleg azért, mert itt nincsenek olyan, a polimeráz aktivitás irányát meghatározó szabályozó, úgynevezett válaszadó elemek, mint a promóterek klasszikus elemei, például a TATA-box. Jóllehet, a legtöbb promóteren is jellemző divergens transzkripció, akár elongáció mindkét irányba; sőt többezer olyan fehérjekódoló génpár létezik, amely látszólag egyetlen promóteren osztozik.

Nem-kódoló RNS-ek

Ellentétben a génekkel, a hosszú nem-kódoló RNS termékek hossza a GRO-seq adatok alapján vélhetően nem azonos – minél távolabb jut a polimeráz, annál valószínűbb, hogy nem folytatja tovább az átírást. De mindig vannak kivételek: bizonyos hosszú nem-kódoló RNS-ek egy bizonyos pontig azonos lefedettséget, sőt akár a génekhez hasonló intronkivágódást is mutatnak. Például a „csak” mikroRNS-t kódoló „gének” is így viselkednek. Az a bizonyos pont, ameddig a gének és gén jelleget mutató hosszú nem-kódoló transzkriptumok nagyjából azonos polimeráz sűrűséggel bírnak, a transzkripció terminációs helye. (Csak első ránézésre) érdekes módon a terminációs helyet követően felerősödik a polimerázok jelenléte, majd a hosszú nem-kódoló termékekhez hasonlóan egyre kevesebb tovább hosszabbított terméket látunk. Ez a jelenség valószínűleg az RNS polimerázok lelassulásának tudható be, nem újabb komplexek csatlakozásának. A terminációs helyet követően a polimerázok nem válnak le rögtön a DNS-ről, de a sebességük lecsökken, így gyakrabban lehet detektálni a termékeiket; ez magyarázhatja a – magas expresszió esetén akár többtíz kilobázisos – továbbírást.

A polimerázok lassulása és gyorsulása valamennyire a géneken is érvényesül, attól függően például, hogy milyen a G/C bázisok aránya, milyen a kromatin szerkezete, vagy például van-e aktív szabályozó hely a génen. Főleg a promóterek közelében, de valójában bármelyik intronban lehet enhanszer transzkripciót látni, de az intronokon belül akár más gének promóterei is lehetnek aktívak, és bármelyik irányban keletkezhet róluk, akár elongált RNS termék. Nem könnyítik meg a transzkriptumok azonosítását az alternatív promóterekkel rendelkező gének sem. Referencia annotáció nélkül – illetve hiányos referencia annotáció esetén –, csak a lefedettség adatok alapján, sokszor nem lehet megállapítani, hogy egy hosszabb, alacsonyabb expressziójú transzkriptum variánst látunk-e, vagy egy eddig ismeretlen gént, amely ugyanazon a szálon található, és az ismert gén promótere előtt végződik. Az is előfordulhat, hogy az ismert promótertől downstream helyezkedik el egy eddig ismeretlen, intronikusnak látszó alternatív promóter, amelyet, ha alacsony expressziót mutat, könnyen enhanszernek nézhetünk. Az alternatív terminációs helyek nem gyakoriak, de még nehezebb kezelni őket.

A GRO-seq adatokban nemcsak ismert gének ismeretlen variánsait és sohasem látott enhanszer transzkriptumokat, hanem eddig teljesen ismeretlen, gén jelleget mutató transzkripciós eseményeket is lehet találni. Ilyen esetben meg lehet próbálni a nyitott olvasási keretek és exon-intron határok keresését, ami akár új gének felfedezését is eredményezheti. Az eddig említett transzkriptumok mellett természetesen megfigyelhető a kis sejtmagi és „magvacskai”, valamint a transzfer és riboszómális RNS molekulák expressziója is, bár ezek általában nem mutatnak jelentős időbeli változásokat.


GRO-seq adatok elemzése

A korábban bemutatott ChIP-seq elemző pipeline alkalmas GRO-seq adatok alapelemzésére is, a további elemzésekhez viszont az adatok összetettsége miatt komoly fantáziára is szükség lehet. 🙂

Az Emberi Erőforrások Minisztériuma ÚNKP-18-4-DE-318 kódszámú
Új Nemzeti Kiválóság Programjának támogatásával készült.

DNS szekvencia motívumok azonosítása II.

In bioinfo, bioinformatics, bioinformatika, DNA, molecular biology on January 14, 2019 at 1:15 pm

Szerző: Bojcsuk Dóra

Ahogyan az előző bejegyzést is indítottam, a két leggyakrabban feltett kérdés, amikor motívumanalízisről beszélünk, a következő:

  1. Milyen szekvencia motívumok „dúsulnak fel” a transzkripciós faktor kötőhelyek egy előre definiált csoportjában?
  2. Jelen van-e egy adott transzkripciós faktor motívuma a transzkripciós faktor kötőhelyek egy előre definiált csoportjában?

Arról, hogy mik is azok a motívumok, mit jelent maga a motívumfeldúsulás és milyen program segítségével lehet ezeket a feldúsulásokat azonosítani, a DNS szekvencia motívumok azonosítása I. bejegyzésben olvashattok, a következő néhány bekezdésben pedig arról lesz szó, hogy egy vizsgálni kívánt motívumról hogyan tudjuk eldönteni, hogy jelen van-e az általunk vizsgált régiókon belül.

Feltételezzük, hogy van egy 2000 transzkripciós faktor kötőhely pozícióit tartalmazó fájlunk (bed/txt kiterjesztésű) és szeretnénk csak azokat a kötőhelyeket, illetve a kötőhelyeken belül is csak azt a néhány bázispárnyi régiót visszanyerni, ahol megtalálható például az AP-1 fehérje motívuma. Ez a következő parancs begépelésével lehetséges:

annotatePeaks.pl peaks.bed hg19 -mbed output.bed -m AP1.motif -noann -nogene

Mi mit jelöl?

Az annotatePeaks.pl maga a program, amely a HOMER egyik nagyon hasznos eszköze. A peaks.bed a vizsgálni kívánt genomi régiókat tartalmazó bed fájl. A hg19 fogja a genomot megadni – amit a HOMER automatikusan felismer –, de ez a paraméter lehet mm10 (vagy mm9) is, amennyiben nem humán, hanem egér mintákkal dolgozunk. Minden egyéb modell organizmus használatakor meg kell adni a teljes elérési utat a vizsgálni kívánt genom FASTA fájljához. Eddig szinte minden ugyanúgy történik, ahogy a de novo motívumfeldúsulások keresésénél. Az -mbed paraméter után nevesítenünk kell egy bed fájlt, amely tartalmazni fogja a motívumtalálatok pozícióit (a fenti példában ennek az output.bed felel meg), az -m kapcsoló után pedig meg kell, hogy adjuk annak a motívumnak a mátrixát, amelynek jelenlétét vizsgálni szeretnénk az általunk megadott genomi pozíciókban. Végezetül egy kicsit gyorsíthatunk a motívumok keresésén a -noann és -nogene paraméterek megadásával; ezek használatával a vizsgált genomi pozíciók génekhez, ill. azok TSS-eihez történő annotálását a parancs nem fogja elvégezni.

Ezen felül az annotatePeaks-nél is működik és hasznos lehet a -size paraméter, mellyel a vizsgálni kívánt genomi régiók középpontjához viszonyítva megadhatjuk, milyen széles régión történjen a motívumkeresés.

Honnan szedjünk *.motif fájlt és mit érdemes a mátrixban változtatni?

Az előző bejegyzésben bemutattam, hogyan néz ki egy motívum mátrix és hogyan kell a benne található információkat értelmezni. Ezeket a mátrixokat a HOMER könyvtárunk homerResults vagy knownResults mappáiban találhatjuk, de akár készíthetünk újat, vagy paraméterezhetünk egy már meglévő mátrixot mi magunk is. Ezen felül létezik a HOMER-nek egy több, mint 400 ismert motívumot tartalmazó adatbázisa, melyet ide kattintva érhettek el: HomerMotifDB. A mátrixban a motívum score az, amit módosítani érdemes, annak függvényében, hogy mennyire szeretnénk szigorítani vagy lazítani a keresésen – bővebben erről is az előző bejegyzésben olvashattok.

No, de hogyan értelmezzük az eredményt?

Az output.bed kimeneti fájlunk 6 oszlopot fog tartalmazni. Az 1-3. oszlopok már nem az eredeti genomi pozíciókat fogják megadni, hanem pontosan azt a néhány bp-nyi régiót, ahol a keresett motívum megtalálható volt. A 4. oszlop a használt mátrix azonosítóját tartalmazza, amely a további munkálatok során nem releváns, az 5. oszlopban található score viszont annál inkább. A legalacsonyabb score legalább akkora lesz, mint a visszatérképezett mátrixban szereplő score-nál; annak lazításával a találatok száma növelhető.

A 6. oszlopban „+” vagy „–” jelöli, hogy a DNS-en pozitív vagy negatív irányban sikerült a motívumot azonosítani. Olyan fehérjék esetében, mint az AP-1, amely a TGAnTCA szekvenciához képes kötni, vagy a magreceptor szupercsalád bizonyos tagjai (például az ösztrogén recepor dimerek), melyek az AGGTCAnnnTGACCT szekvenciát preferálják, ha a reverz komplementerét vesszük a konszenzus szekvenciáiknak, mind a pozitív (+), mind a negatív (–) szálon olvasva ugyanazt a bázissorrendet láthatjuk. Ennek eredményeként előfordulhat, hogy a kimeneti fájl a 6. oszlopban eltérő irányultságot mutatva, de lényegében kétszer is tartalmazza ugyanazt a motívumot. A duplikátumok kiküszöbölése érdekében a kimeneti fájlunkat érdemes parancssorban merge-elni:

cat output.bed | sortBed | mergebed > output_v2.bed

 

Motívum score minden vizsgálandó genomi régióra? Lehetséges!

Az annotatePeaks-nek van még egy nagyon hasznos paramétere, mégpedig az -mscore. Ennek használatával a HOMER megkeresi a megadott mátrix által definiált motívumhoz legjobban hasonító szekvenciát minden egyes régióban, és kalkulál rájuk egy-egy motívum score-t. Ez az információ további szűréseket követően nagyon hasznos lehet abban az esetben, ha azt szeretnénk megvizsgálni, hogy egy adott motívum „erőssége” eltér-e különböző genomi régiók csoportjai között. Példaként, az alábbi ábra a TEAD, TCF, SIX, ERE, Fox és AP2 fehérjék motívumainak erősségét demonstrálják a „piros”, „lila” és a „kék” csoportok kötőhelyei alatt (Bojcsuk et al. bioRxiv, 2018):

boxes

Mivel az „erősebb”, tökéletesebb, vagy mondhatni kanonikus motívumok fehérje iránti affinitása sokkal nagyobb, az eltérések egyúttal utalhatnak a fehérjék kötésének meglétére vagy hiányára is.

 

A következő parancsot szükséges begépelnünk, hogy megkapjuk a motívum score-okat minden egyes kötőhelyre:

annotatePeaks.pl input.bed hg19 -m AP1.motif -mscore -noann -nogene -size 100 > output.txt

A kimeneti fájlban a következő oszlopok fognak szerepelni: PeakID, Chr, Start, End, Strand, Peak Score, Focus Ratio/Region Size, CpG%, GC%, Best Motif log-odds Score, melyből az utolsó oszlop lesz a meghatározott motívum score érték. Fontos, hogy az -m kapcsoló után nem csupán egy, hanem számos motívum mátrixát feltüntethetjük; például: -m AP1.motif AP2.motif ERE.motif TEAD.motif; ebben az esetben a kimeneti fájl utolsó oszlopai a mátrixok megadásának sorrendjében fogják a score-okat tartalmazni.

Az utóbbi parancs esetében mondhatni minden régióra „ráerőszakolunk” egy score-t, ezért előfordul az is, hogy negatív előjelű score-ral tér vissza az eredmény – emiatt is szükséges a további szűrés. Ha érdekel, én milyen feltételek alapján szűrtem a fenti ábra elkészítéséhez, olvassátok el a kéziratot! 🙂

EEM (1)

Az Emberi Erőforrások Minisztériuma ÚNKP-18-3-III-DE-253 kódszámú Új Nemzeti Kiválóság Programjának támogatásával készült.

%d bloggers like this: