Labtutorials.org

GRO-seq

In bioinfo, bioinformatics, bioinformatika, molecular biology, RNA on May 24, 2019 at 7:57 pm

Szerző: Dr. Nagy Gergely

A módszer, amely elől nem bújhat el egyetlen RNS molekula sem

A teljes genom szintű (Global) Run-On (GRO) szekvenálás a naszcens transzkriptóm meghatározására alkalmas újgeneráriós szekvenálási (NGS) módszer. A transzkriptóm általánosságban a sejtek teljes RNS állományát jelenti, a GRO-seq lényege azonban éppen az, hogy csak az egy adott pillanatban átíródó RNS molekulákat, sőt azoknak is csak az éppen átíródó részét, tehát gyakorlatilag az átírást végző RNS polimeráz komplexek helyét mutatja meg a genomban. Ez úgy érhető el, hogy egy szarkozil nevű detergenssel (tisztítószerrel) meggátolják, hogy szabad polimerázok csatlakozzanak a DNS-hez, ellenben a már elkötelezett komplexek tovább tudnak működni. A run-on gyakorlatilag a polimerázok korlátozott „újraindítását” jelenti izolált sejtmagokban, jelölt nukleotid-trifoszfát szubsztrátok felhasználásával. Néhány tíz nukleotid felépítése elegendő ahhoz, hogy az RNS molekulák darabolása után a jelölés segítségével kifogják az új szakaszokat, és meghatározzák a bázissorrendjüket.

A GRO-seq eljárás során arra is ügyelnek, hogy az RNS molekulák bázissorrendjének az iránya is megismerhető legyen. Ehhez előbb a molekulák 5’, majd 3’ végéhez kapcsolnak végspecifikus adaptort. Az RNS molekulák töredékeinek az 5’ végén azonban nincs feltétlenül szabad foszfát csoport. A későbbi lépésekhez az mRNS-ek 5’ „sapkáját” el kell távolítani (TAP), valamint end-repair-rel mind az 5’, mind pedig a 3’ vég javítható (például foszforilálható, illetve defoszforilálható; PNK). A különböző adaptorokkal közrefogott RNS molekulákból reverz transzkripcióval DNS-t hoznak létre, majd ezt sokszorozzák (PCR) a szekvenáláshoz.

A rövid szekvencia-leolvasások tehát megmutatják a polimerázok általi RNS szintézis helyét és irányát, amely kiválóan használható bizonyos nyomon követéses kísérletek esetében. Ha kíváncsiak vagyunk, milyen gének kapcsolnak be vagy ki egy stimulus hatására, érdemes néhány vagy néhány tíz perces felbontásban mintát venni. Ilyen módon láthatóvá válik, hogy a polimeráz percenként 2,5-3 kilobázis távolságot halad a szabályozott géneken. Azonban vannak olyan hosszú gének is, amelyek átírásához órák kellenek, és ez idő alatt az mRNS teljes érése és fehérjére „fordítása” sem történhet meg. A rövidebb gének viszont hamar nagy mennyiségű fehérjeterméket eredményezhetnek, és amennyiben ezek képesek a transzkripciót szabályozni, például mint transzkripciós faktorok, megfigyelhetjük az általuk be-, illetve kikapcsolt gének egy újabb hullámát, amely szó szerint a gének lefedettségén is látható. Ha egy hosszú gén előbb indukálódik, majd nem sokkal később gátlódik, egy „csúcs” jelenik meg rajta, amely idővel (későbbi időpontokban) a gén vége felé „vándorol”. Kellően nagyszámú időpont vagy jól időzített időpontok használatával teljes transzkripciós kaszkádok térképezhetőek fel a módszer segítségével.

A GRO-seq-kel nyert génexpressziós adatokat azonban más okokból kifolyólag sem könnyű értelmezni. Például sokszor nincs egyszerű összefüggés a különböző RNS molekulák szintézisének gyakorisága és az érett RNS szintje között. Az érés sem feltétlenül egyszerű folyamat, de összességében talán az érett RNS molekulák stabilitása (féléletideje) a leginkább meghatározó tényező a génexpressziót tekintve. Csupán GRO-seq adatokból tehát nem sokat tudhatunk meg a génexpressziós szintekről, annál többet a génexpresszió kezdeti szabályozásáról. A polimerázok ugyanis nemcsak a géneken találhatóak meg, hanem transzkripciót mutatnak minden aktív szabályozóhelyen is, még ha nem is következik utána lánchosszabbítás (elongáció).

Polimerázok mindenütt

Bőven a GRO-seq előtt ismert volt, hogy nagyszámú polimeráz gyülekezik a promótereken, de ezeknek tipikusan csak töredéke tudja megkezdeni a génen való továbbhaladást, a többi csak vesztegel (pausing). Ez a GRO-seq adatok alapján úgy néz ki, hogy a gén kezdeti szakaszán van egy csúcs – rövid, úgynevezett abortált átiratokból –, ami többnyire jelentősen magasabb, mint a gén további szakaszának a – transzkriptumok elongációjából fakadó – lefedettsége. Előfordul az is, hogy a promóter jelentős aktivitást mutat, a génen pedig alig vagy egyáltalán nem detektálható transzkripció, valószínűleg valamilyen további aktiváló jel hiánya miatt. Magasan kifejeződő gének esetében viszont nem feltétlenül látható pausing, mivel közel minden megkezdett RNS molekula meghosszabbításra kerül. Ebben az esetben időegység alatt tovább is jutnak a polimerázok, mert gyorsabban tudnak haladni a tartósabban szétválasztott DNS-en.

Az átíródó szabályozó régiók alatt nemcsak a promótereket értjük, hanem az aktív enhanszereket (silencer-eket) is, melyek átírását ugyanúgy érintik a pozitív/negatív stimulusok, mint a fehérjekódoló génekét. Ezt kihasználva a promóterektől akár többszáz kilobázis távolságra elhelyezkedő, az adott stimulus hatására azonos expressziós mintázatot mutató szabályozó régiókat is a génekhez rendelhetjük, amely segíthet azt is megmondani, mely transzkripciós faktorok vesznek részt a szabályozásban. A promóterektől távol eső szabályozó helyeken általában nagy a pausing mértéke – tehát az abortált transzkriptumok aránya –, de ezeken a helyeken is történhet elongáció, melynek hosszú nem-kódoló RNS-ek lesznek a termékei. Elongáció hiányában egyszerűen enhanszer transzkripcióról beszélünk, amely tipikusan mindkét irányban megtörténik (divergens) a szabályozó régióhoz képest – valószínűleg azért, mert itt nincsenek olyan, a polimeráz aktivitás irányát meghatározó szabályozó, úgynevezett válaszadó elemek, mint a promóterek klasszikus elemei, például a TATA-box. Jóllehet, a legtöbb promóteren is jellemző divergens transzkripció, akár elongáció mindkét irányba; sőt többezer olyan fehérjekódoló génpár létezik, amely látszólag egyetlen promóteren osztozik.

Nem-kódoló RNS-ek

Ellentétben a génekkel, a hosszú nem-kódoló RNS termékek hossza a GRO-seq adatok alapján vélhetően nem azonos – minél távolabb jut a polimeráz, annál valószínűbb, hogy nem folytatja tovább az átírást. De mindig vannak kivételek: bizonyos hosszú nem-kódoló RNS-ek egy bizonyos pontig azonos lefedettséget, sőt akár a génekhez hasonló intronkivágódást is mutatnak. Például a „csak” mikroRNS-t kódoló „gének” is így viselkednek. Az a bizonyos pont, ameddig a gének és gén jelleget mutató hosszú nem-kódoló transzkriptumok nagyjából azonos polimeráz sűrűséggel bírnak, a transzkripció terminációs helye. (Csak első ránézésre) érdekes módon a terminációs helyet követően felerősödik a polimerázok jelenléte, majd a hosszú nem-kódoló termékekhez hasonlóan egyre kevesebb tovább hosszabbított terméket látunk. Ez a jelenség valószínűleg az RNS polimerázok lelassulásának tudható be, nem újabb komplexek csatlakozásának. A terminációs helyet követően a polimerázok nem válnak le rögtön a DNS-ről, de a sebességük lecsökken, így gyakrabban lehet detektálni a termékeiket; ez magyarázhatja a – magas expresszió esetén akár többtíz kilobázisos – továbbírást.

A polimerázok lassulása és gyorsulása valamennyire a géneken is érvényesül, attól függően például, hogy milyen a G/C bázisok aránya, milyen a kromatin szerkezete, vagy például van-e aktív szabályozó hely a génen. Főleg a promóterek közelében, de valójában bármelyik intronban lehet enhanszer transzkripciót látni, de az intronokon belül akár más gének promóterei is lehetnek aktívak, és bármelyik irányban keletkezhet róluk, akár elongált RNS termék. Nem könnyítik meg a transzkriptumok azonosítását az alternatív promóterekkel rendelkező gének sem. Referencia annotáció nélkül – illetve hiányos referencia annotáció esetén –, csak a lefedettség adatok alapján, sokszor nem lehet megállapítani, hogy egy hosszabb, alacsonyabb expressziójú transzkriptum variánst látunk-e, vagy egy eddig ismeretlen gént, amely ugyanazon a szálon található, és az ismert gén promótere előtt végződik. Az is előfordulhat, hogy az ismert promótertől downstream helyezkedik el egy eddig ismeretlen, intronikusnak látszó alternatív promóter, amelyet, ha alacsony expressziót mutat, könnyen enhanszernek nézhetünk. Az alternatív terminációs helyek nem gyakoriak, de még nehezebb kezelni őket.

A GRO-seq adatokban nemcsak ismert gének ismeretlen variánsait és sohasem látott enhanszer transzkriptumokat, hanem eddig teljesen ismeretlen, gén jelleget mutató transzkripciós eseményeket is lehet találni. Ilyen esetben meg lehet próbálni a nyitott olvasási keretek és exon-intron határok keresését, ami akár új gének felfedezését is eredményezheti. Az eddig említett transzkriptumok mellett természetesen megfigyelhető a kis sejtmagi és „magvacskai”, valamint a transzfer és riboszómális RNS molekulák expressziója is, bár ezek általában nem mutatnak jelentős időbeli változásokat.


GRO-seq adatok elemzése

A korábban bemutatott ChIP-seq elemző pipeline alkalmas GRO-seq adatok alapelemzésére is, a további elemzésekhez viszont az adatok összetettsége miatt komoly fantáziára is szükség lehet. 🙂

Az Emberi Erőforrások Minisztériuma ÚNKP-18-4-DE-318 kódszámú
Új Nemzeti Kiválóság Programjának támogatásával készült.