Labtutorials.org

Archive for the ‘molecular biology’ Category

Kompozit elemek

In DNA, molecular biology on August 31, 2021 at 8:00 am

Szerző: Dr. Nagy Gergely

Bevezetés

A transzkripciós faktorok (TF-ok) olyan fehérjék, amelyek képesek a DNS-hez szekvencia-specifikusan kötődni. Ez azt jelenti, hogy bizonyos oldalláncaik alkalmasak arra, hogy ideiglenesen nagyszámú másodlagos kémiai kötést alakítsanak ki bizonyos egymást követő bázispárokkal a DNS nagy és/vagy kis árkában, valamint a cukor-foszfát vázzal, döntően annak is a negatívan töltött foszfát részével. Az egymást követő bázispárok sorrendje (szekvenciája) így meghatározza, hogy melyek azok a DNS szakaszok, ahol egy TF több időt tölthet el (több, erősebb kölcsönhatást alakíthat ki), mint a genetikai anyag összességének (a genom) egyéb részein. A DNS ezen specifikus szakaszai (kötőhelyei) koevolúciót mutatnak a TF-ok DNS-kötő doménjeivel (DBD-ivel), és évmilliók alatt ez az együttműködés lett az alapja a gének bármilyen körülmények közötti megfelelő szabályozásának. A kötőhelyek egy része csoportokba rendeződik, így növelve nemcsak a DNS-fehérje, hanem a fehérje-fehérje kölcsönhatások számát is. Azonban nemcsak a TF-ok képesek a DNS felszínén együttműködni; kölcsönhatásaik és ebből fakadó szerkezetváltozásaik lehetővé teszik a további magi szabályozó fehérjékkel és egyéb, pl. RNS molekulákkal való együttműködést, amely végső soron képes hatékonyan (gyakran és eredményesen) elindítani a transzkripciós gépezetet. Ez leggyakrabban a promótereken történik meg, de vannak egyéb (az aktív promóterektől – csak lineárisan! – távoli) génszabályozó kötőhelyek is, amelyek nemcsak hozzájárulnak a génkifejeződés szabályozásához, de maguk is mutatnak transzkripciót, akár úgy is, ha csak egyetlen TF köti őket közvetlenül. Ezt a DNS háromdimenziós „gombolyag” természetével magyarázhatjuk, melyben a DNS-kötő és DNS-t nem kötő fehérjék csoportosulásai elősegítik bizonyos DNS hurkok stabilizálását, mely által a promóterek közel kerülhetnek a „távoli” szabályozó régiókhoz, ahol a transzkripciós gépezet ugyancsak mutathat aktivitást.

Kompozit elemek

A TF-ok többsége dimerként működik, tehát két TF komplexe foglal el egy dimer kötőhelyet. Ha két azonos TF alkot komplexet, homodimerről beszélhetünk, gyakoribb azonban, hogy két közel rokon TF alkot heterodimert, valamint előfordul az is, hogy egy heterodimer tagjai nem mutatnak semmilyen hasonlóságot. Az előbbi esetekben, ha azonos vagy közel rokon fehérjék alkotnak dimert, a dimer kötőhely is két hasonló – ritkábban azonos –, ún. félhelyből áll. A „félhely” kifejezés arra utal, hogy a monomer kötőhely önmagában nem feltétlenül működőképes, tehát mindkét félhely szükséges ahhoz, hogy a dimer hatékonyan kösse a DNS-t. Ha az asszociálódó TF-ok nincsenek rokonságban, tehát kötőhelyük eltérő, de együttműködésük konzervált, ún. összetett, másnéven kompozit elemeket is köthetnek. Ezek nem feltétlenül állnak kizárólag monomer kötőhelyekből, lehetnek egy dimer és egy monomer kötőhely vagy akár két dimer kötőhely összetételei is.

Az utóbbi években nagyszámú kompozit elemet fedeztek fel, bár ezek jelentősége és gyakorisága a genomban még kérdéses. Jolma és munkatársai sokezer „DBD pár” DNS-kötését vizsgálva többszáz lehetséges kompozit elemet találtak (Jolma et al. Nature. 2015). Egyik részletesebben vizsgált fehérjéjük a MEIS1 (myeloid ecotropic viral integration site 1) amellett, hogy homodimerként is képes volt közvetlenül DNS-t kötni, számos homeodomén fehérjével közösen is rendelkezett különböző kompozit elemekkel. Érdekes módon mind a DBD homodimer, mind pedig a vizsgált DBD heterodimer laza partnerséget mutatott, bár a teljes fehérjeszerkezetek ismeretének hiányában nem lehet megismerni a fehérjék viszonyát. Mindenesetre ez az adat azt sugallja, hogy a MEIS1 és lehetséges partnerei önállóan is képesek a DNS-kötésre, ehhez nincs feltétlenül szükség a dimer kialakulására. Más fehérjék esetében viszont feltételezhető a szorosabb kapcsolat a dimer tagjai között – elég, ha csak a leucin cipzár (bZIP, basic leucine zipper) szerkezetre és ennek viszonylag rövid célszekvenciáira gondolunk.

Jól ismert példa a kompozit elemekre az őssejtekre jellemző, ill. azokat meghatározó OCT4 (octamer-binding transcription factor 4; homeodomén) és SOX2 (sex determining region Y-box 2; high mobility group, HMG) fehérjék közös eleme, de a kis MAF-ok (musculoaponeurotic fibrosarcoma) CNC (Cap’n’collar) fehérjékkel alkotott heterodimereinek a kötőhelyeit is tekinthetjük kompozit elemeknek, mert félhelyeik eltérnek, még ha mindkét család a bZIP fehérjékhez tartozik is. Van a bZIP szupercsaládban egy másik példa is: a C/EBP (CCAAT/enhancer-binding protein) és ATF4 (activating transcription factor 4) fehérjék egy szokatlan elemet (CARE) kötnek, amelyben az ATF-ek jellemző félhelyétől eltérő (TGAC helyett TGAT) szekvencia található. Úgy tűnik, ez az eltérés jellemző a heterodimerre, de az ATF4 egyéb dimerei döntően az általános félhelyet kötik.

Az ETS szupercsalád és az immunsejtek kompozit elemei

Az ETS (erythroblast transformation-specific) szupercsalád legalább két tagjáról ismert, hogy heterodimert alkotnak más típusú TF-okkal. Az ELK1 (ETS-like 1) és GCM1 (glial cells missing transcription factor 1) fehérjék heterodimerei többféle kompozit elemet is képesek kötni, és érdekes módon mindegyik szuboptimálisnak tűnik a monomer kötőhelyek magját környező bázispárok tekintetében (Jolma et al. Nature. 2015). Ez azt jelenti, hogy ezek a kompozit elemek kisebb affinitással köthetőek a monomerek által, ill. elősegítik a specifikus heterodimerek általi DNS kötést.

A másik, régóta ismert heterodimert képző ETS fehérje a PU.1 (purine-rich nucleic acid binding protein 1), amely fehérvérsejtekben – pl. makrofágokban, dendritikus sejtekben és limfocitákban is – az IRF4-gyel vagy IRF8-cal (interferon regulatory factor 4/8) képez heterodimert. Ezek a dimerek több tízezer kötőhelyet foglalnak el a genomban, mely által kijelölik a sejtekre jellemző szabályozási keret jelentős részét, ezért mester TF-nak is nevezik őket. A korábbi eredmények alapján ez a két fehérje kétféle dimert is alkothat egymással, és ennek függvényében kétféle kompozit elemük létezik. Az ETS:IRF kompozit elemben (EICE) két bázispár választja el a monomer kötőhelyek magjait, míg az ún. ETS:IRF válaszadó elemben (EIRE) három – bár ez utóbbi egyáltalán nem szokott feldúsulást mutatni a motívumkeresések során, tehát nem lehet túl gyakori. Leírtak IRF:ETS kompozit szekvenciákat (IECS) is – ez a kötőhely tartozik a másik lehetséges konformációhoz, és szokott is feldúsulást mutatni –, de nehéz eldönteni, hogy az IRF valóban közvetlenül köti-e az adeninben gazdag régiót, vagy ez csak a PU.1 számára szükséges szekvenciakiterjesztés.

Az IRF4 és 8 nemcsak a PU.1-gyel, hanem AP-1 jellegű fehérjékkel is képes szorosan együttműködni immunsejtekben. Glasmacher és kollégái AP-1:IRF kompozit elemnek (AICE) nevezték el azokat a szekvenciákat, melyeket a JUNB/BATF (ju-nana [=17] b / basic leucine zipper ATF-like transcription factor) és IRF4 vagy 8 fehérjék együttesen elfoglalnak (Glasmacher et al. Science. 2012). Az interferon-béta promóter-közeli enhanszere pedig ennél még inkább összetett: összesen 8 fehérje – 2 bZIP, 4 IRF és 2 NFKB (nuclear factor kappa-light-chain-enhancer of activated B cells) – képes egyidejűleg kötni, mintegy gyöngysorként, amelyet enhanszeoszómának neveztek el (Panne et al. Cell. 2007). E komplex szerkezete (beleértve a DNS-t kötő TF-okon felüli egyéb szabályozó molekulákat is) egyedi, de minden bizonnyal nagyon sok hasonló komplex működik még sejtjeinkben, melyek felfedezése talán már nem várat sokat magára.

Fontosabb rövidítések: TF – transzkripciós faktor, DBD – DNS-kötő domén, bZIP – leucin cipzár (domén és szupercsalád)

Az Emberi Erőforrások Minisztériuma ÚNKP-20-5-DE-276 kódszámú
Új Nemzeti Kiválóság Programjának támogatásával készült.

AWK trükkök használata bioinformatikai problémák megoldására

In bioinformatics, molecular biology on August 1, 2021 at 8:00 am

Szerző: Dr. Nagy Gergely

Az AWK

A közel 50 éves AWK programnyelv eléggé hasznosnak bizonyult ahhoz, hogy ne kopjon ki a közhasználatból. Ehhez hozzájárult a bioinformatika is, amely a különböző táblázat jellegű adattömbök feldolgozása/átalakítása során a mai napig használja a programnyelv nyújtotta lehetőségek széles tárházát. Az AWK nevét a kidolgozói – Alfred Aho, Peter Weinberger és Brian Kernighan – vezetékneveinek kezdőbetűiről kapta, és nem véletlenül hívják programnyelvnek, nemcsak programnak. Az AWK „program jellegét” az adja, hogy az egyszerűbb, csupán kapcsolókkal, paraméterekkel rendelkező UNIX parancsokhoz hasonlóan egyszerűen UNIX parancssorokba, szkriptekbe ágyazható. Emellett viszont saját szintaktikával, változókkal, ciklusokkal és a különböző tömbök („array” és „hash”) használatának lehetőségével is fel van fegyverezve.

Ebben a bejegyzésben viszonylag összetett feladatok nagyon egyszerű megoldását szeretném bemutatni AWK hash-ek felhasználásával. A hash-ek olyan tömbök, amelyek esetében egy azonosítóhoz több érték is tartozhat. Előfordulhat például, hogy génexpressziós adatok kezelése során egy génhez több expressziós érték is tartozik, mi viszont minden egyes génhez egyetlen értéket szeretnénk rendelni. Microarray esetében maga a technika jellege, az egyes gének több próbaszettel való reprezentálása eredményezi azt, hogy egy génhez több expressziós érték is tartozik, RNA-seq esetén viszont minden, a génekről mérhető mennyiségben átíródó alternatív transzkriptum expressziós értéke kiszámolható. Hogy az egy génhez tartozó expressziós értékek közül melyiket használjuk, pl. a legalacsonyabbat, legmagasabbat, vagy éppen az összes átlagát, az génfüggő, ill. szubjektív, de az AWK lehetőséget biztosít mindezek meghatározására/kiszámolására.

Táblázat létrehozása a későbbi számításokhoz

Az alábbi példákban egy egyszerű táblázaton szeretném bemutatni az AWK használatát, de a parancssorok bármekkora táblázaton működnek (a UNIX rendszerekben ugyanis nincs memóriakorlát), akár többmillió soros is lehet a bemeneti fájl. Az oszlopszám inkább jelent korlátot, de soron belüli ciklust, sőt transzponálást is lehet csinálni AWK-ban. Most csak egy kétoszlopos táblázatot készítünk, de ha ennél több oszlopunk van, csak az oszlopok sorszámát kell majd átírni a megfelelőre, és működik is a parancs.

A táblázat létrehozásához az „echo” parancsot használjuk, amely kilistázza, amit beadunk neki. Ez önmagában nem tűnik nagy dolognak, de ha manuálisan készítünk táblázatot tabulátor és sorvég karakterekkel, elkerülhetetlen. Az „-e” kapcsoló a „\” jellel jelölt, ún. reguláris kifejezések megjelenítését szolgálja, jelen esetben az „új sor” jel („\n”) kiíratását, és a macskakörmökre is ezért van szükség.

echo -e “cat 3\ncat 4\ndog 7\ncat 2\ndog 12\ndog 2”

A kimenet pedig ez az azonosítókat és számokat tartalmazó táblázat:

cat 3
cat 4
dog 7
cat 2
dog 12
dog 2

Ha méginkább táblázatszerű kimenetet szeretnénk, az üres karakterek (space-ek) lecserélhetőek „\t”-re is, amely a tabulátort jelképezi, de parancssorban sokszor így is megteszi, és kevesebbet gépeltünk, ami előnyt jelent hosszútávon. (Részben ezért is szerepel a kutya és macska szó angolul a táblázatban.)

Tegyük fel, hogy a számok a szomszédságunkban elő kutyák és macskák kerekített súlyát jelképezik kg-ban (természetesen nem jelentenek problémát a törtek sem az AWK számára), és kíváncsiak vagyunk, hogy átlagosan mennyivel nagyobbak a kutyák, mint a macskák.

Az AWK szintaktikája – azonosítónkénti átlagszámítás

Ahogy a legtöbb UNIX parancs, az AWK is utoljára kéri a bemeneti fájl nevét, de erre most nincs szükség: táblázatunk a memóriából érkezik olvasásra a „csővezeték” / „|” karakteren keresztül (lásd lent a parancssor 1. sorának végét). Az AWK-ot kisbetűkkel hívjuk meg parancssorban, és a hozzá tartozó parancsok egyenes aposztróf jelek (léteznek jobbra és balra dőltek is) közé kerülnek, a tagolást kapcsos zárójelek határozzák meg (egyszerűbb esetben egy pár elég), a parancsok felsorolása esetén pedig pontosvesszőt használunk (2. sor). Az AWK paraméterei, amelyek maga a program (awk) és az első aposztróf jel közé kerülnek kötőjellel ellátva, most hiányoznak; ilyenek lehetnek a mezőelválasztót és a külső változókat meghatározó „-F”, ill. „-v” paraméterek, de esetünkben az üres karakter felismerhető (a tabulátor sem jelentene problémát), és nincs szükség „külső” változó megadására.

Fontos megjegyezni, hogy sok fájlformátum megköveteli a fejléc meglétét, amelyet az AWK ugyancsak képes kezelni. A megkezdett kapcsos zárójelek előtt (és kizárólag a külső aposztróf jelek között) az „NR” változó beállításával meghatározható, hogy melyik sorokra vonatkozzanak a kapcsos zárójelben lévő parancsok. (A kapcsos zárójeleken belül ugyanez „if” feltétellel oldható meg.) Jelen esetben ettől is eltekinthetünk, mert nincs fejléc.

Végül elérkeztünk az első pár kapcsos zárójelhez, amely meghatározza, mi legyen a hash-ben (2. sor eleje). Az „n” hagyományosan darabszámot, ill. sorszámot jelent; ebben az esetben valójában mindkettőt. Ha szögletes zárójelben az azonosító oszlopszáma (amire mindig dollárjellel hivatkozunk) követi („n[$1]”), akkor az adott azonosítóhoz tartozó értékek számát reprezentálja. A „++” karakterek a ciklus definiálásának részei. A pontosvessző után azt határozzuk meg, hogy az „x” változó az egyes azonosítókhoz ($1) tartozó értékek ($2) összegét tartalmazza („+=”). A ciklusok során ezáltal egy folyamatosan növekvő, változó, de egyszerű tömbhöz jutunk. Az „END” (2. sor közepe) éppen ezért azt szolgálja, hogy a továbbiakban csak a végösszegekkel foglalkozzunk, ne írassunk ki minden köztes állapotot. A parancsok második fele egy olyan ciklust definiál, amely nem soronként, hanem azonosítónként (az azonosító sorszáma, „n” alapján) halad – az „i” változó felveszi minden azonosító értékét, a „print” paranccsal pedig kiíratjuk az „i” azonosítók mellett az „x[i]” összegek és „n[i]” elemszámok hányadosát, tehát az állatok átlagos tömegét (2. sor vége).

1.sor$         echo -e “cat 3\ncat 4\ndog 7\ncat 2\ndog 12\ndog 2” |
2.sor$         awk ‘{n[$1]++; x[$1] += $2} END {for (i in n) print i,x[i]/n[i]}’

Az eredmények tehát így alakulnak:

cat 3
dog 7

Fejléc jelenlétében vagy bonyolultabb, többoszlopos táblázat esetében természetesen ki kell egészíteni a parancsot, ill. át kell írni az oszlopszámokat az azonosítók és értékek alapján, de a kód így sem lesz olyan hosszú, hogy tördelést igényeljen, ill. szkriptbe kelljen írni.

Az azonosítónkénti maximális értékek kinyerése

A következő kérdés az volt, hogy hogyan alakul az állatok minimális vagy maximális súlya. Ehhez egy újabb UNIX parancs segítségül hívása is szükséges, ha a korábbihoz hasonló AWK formulát szeretnénk használni. Ez a parancs a „sort”, amely arra alkalmas, hogy valamelyik oszlop vagy oszlopok alapján rendezze a sorokat (lásd az alábbi parancssor 2. sorát). Jelen esetben a 2. oszlop alapján szükséges a sorba rendezés, mivel a használt AWK formula mindig csak a legutolsó sort tartja meg egy adott azonosítóhoz. Ha a kis értékek felől haladunk a nagyok felé, a legnagyobb tömegek lesznek az eredmények között, és fordítva. A „-k2,2n” kifejezés azt jelenti, hogy kizárólag a 2. oszlop alapján történjen a sorba rendezés és numerikusan („n”), számértékek, nem abc-rend alapján, növekvő sorrendben. Ellentétes sorrendet az „r” (reverz) paraméterrel érhetünk el, amit folytatólagosan kell a „-k2,2n” után írni.

Az AWK parancsok annyiban változnak, hogy az „x[$1]” változó minden egyes ciklusban felveszi az azonosítóhoz tartozó teljes sor értékét a „$0” speciális változó segítségével, így végül az „x[i]” már magában foglalja mind az azonosítót, mind pedig a maximális értéket (3. sor).

1.sor$         echo -e “cat 3\ncat 4\ndog 7\ncat 2\ndog 12\ndog 2” |
2.sor$         sort -k2,2n |
3.sor$         awk ‘{n[$1]++; x[$1] = $0} END {for (i in n) print x[i]}’

Az eredmény pedig azt mutatja, hogy a legnagyobb kutya háromszor olyan nehéz, mint a legnagyobb macska a szomszédságban:

cat 4
dog 12

Azonosítónként minden érték kiíratása

Ahhoz, hogy teljes képet kapjunk a súlyeloszlásokról, jó ránézni egyszerre minden értékre; még jobb, ha azok sorba is vannak rendezve – ez már a „sort” segítségével meg is történt (lásd az alábbi parancssor 2. sorát). Egy kisebb technikai (inkább esztétikai) probléma miatt emellett szükség van egy újabb parancsra, a „sed”-re (4. sor). Ez megintcsak több egy átlagos parancsnál, mivel egy UNIX parancssoros szövegszerkesztőről beszélünk, amely a nevét is innen kapta (stream editor), és lényegében ugyancsak beágyazható bármely parancssorba. A „sed” esetében az egyenes aposztróf helyett macskakörmök is határolhatják a parancsokat; utóbbiak megengedik a reguláris kifejezések felismerését (bár itt ilyenek most nincsenek). Jelen esetben egy fölösleges, üres karakter utáni vesszőt kell majd eltüntetni minden sorból, ami a program nyelvén annyit tesz, hogy egy üres karaktert és egy vesszőt kicserélünk egyetlen üres karakterre. A csere (szubsztitúció) „s” jelét három „/” karakter követi, melyek magunkban foglalják előbb a keresett mintázatot (az első két „/” között), majd a célmintázatot (az utolsó két „/” között). A „/” jelek igény szerint bármilyen egyéb karakterre cserélhetőek, pl. ha „/” jelet is érint a csere.

Az AWK formula annyiban változik, hogy nem átlagolunk, hanem konkatenálunk, ami most azt jelenti, hogy vesszővel elválasztva minden érték bekerül előbb az „ x[$1]”, majd az „x[i]” változókba (3. sor). Ebben az esetben ismét szükség van az „i” kiíratására, mert csak a második oszlop értékei lettek egymás után fűzve (+ egy vessző az értékek sora előtt, amit végül „sed”-del tüntetünk el).

1.sor$         echo -e “cat 3\ncat 4\ndog 7\ncat 2\ndog 12\ndog 2” |
2.sor$         sort -k2,2n |
3.sor$         awk ‘{n[$1]++; x[$1] = x[$1]”,”$2} END {for (i in n) print i,x[i]}’ |
4.sor$         sed “s/ ,/ /”

Az eredmény megmutatja, hogy a szomszéd kutyák jelentős méretkülönbségeket mutatnak, az egyikük pl. kisebb egy átlagos macskánál is, pedig már kifejlett egyed.

cat 2,3,4
dog 2,7,12

A parancssorok pedig azt mutatják meg, hogy minimális befektetéssel, szűk egy sor begépelésével komplex feladatok oldhatók meg, pl. a „hash-típusú” – és nem feltétlenül génexpressziós – adatok gyors szűrése és feldolgozása; és a feltételekről és bonyolultabb számításokról még nem is beszéltünk.

Az Emberi Erőforrások Minisztériuma ÚNKP-20-5-DE-276 kódszámú
Új Nemzeti Kiválóság Programjának támogatásával készült.

A szekvencia motívumok szerepe a transzkripció szabályozásában

In bioinfo, bioinformatics, bioinformatika, DNA, molecular biology on June 8, 2019 at 8:18 pm

A magreceptorok motívumai

Szerző: Dr. Nagy Gergely

A magreceptorok csoportosítása

A magreceptorok beszédes névvel rendelkeznek, amely kifejezi, hogy tipikusan olyan fehérjékről van szó, amelyek jelmolekulákat ismernek fel és a sejtmagban fejtik ki hatásaikat. E fehérjék többsége sok más receptorhoz hasonlóan dimer formájában működik, viszont más receptorokkal ellentétben a magreceptorok nem membránkötöttek, hanem oldott formában a citoszólban, illetve a sejtmagban találhatóak. Ligandjaik a membránokon áthatolni képes lipid molekulák, beleértve a zsíroldékony hormonokat, vitamin-, szteroid- és zsírsavszármazékokat. A magreceptorok neve arra is utal, hogy nemcsak fehérje-fehérje kölcsönhatásokon keresztül képesek jelet továbbítani, hanem a sejtmagban, közvetlenül a DNS-hez kapcsolódva, mint transzkripciós faktorok szabályozzák a géneket. Azáltal, hogy ilyen rövid úton eljut a jel a célgénekhez, lényegesen lecsökken a sejtek adott körülményre adott válaszideje, nem úgy, mint a membránreceptoroktól induló, soklépéses jelátviteli útvonalak esetében.

A magreceptor szupercsalád emlősökben előforduló 19 családját 4 osztályba sorolják: a szteroid hormon receptorokra (I. osztály, 2 család), a retinoid X receptorral (RXR-rel) heterodimert alkotó ligandkötő receptorokra (II. osztály, 5 család), a dimerizáló árva receptorokra (III. osztály, 6 család) és a monomer árva receptorokra (IV. osztály, 6 család) (Mangelsdorf et al., Cell, 1995; Nuclear Receptor Nomenclature Committee, Cell, 1999; Evans and Mangeldorf, Cell, 2014). Az I. osztály tagjai homodimert alkotnak, és kizárólag szteroid hormonokat ismernek fel. A II. osztály tagjai a ligandok széles spektrumát képesek felismerni, mint például a tiroid hormont, az A- és D-vitamin, a zsírsavak, valamint a koleszterol származékait (Dawson and Xia, Biochim Biophys Acta., 2012). Az árva receptorok onnan kapták a nevüket, hogy eleinte nem sikerült a ligandjaikat azonosítani, később mégis kiderült, hogy a III. osztály fele képes valamilyen lipid természetű molekulát kötni. A valódi árva receptorok nem rendelkeznek működőképes ligandkötő doménnel, hanem mint más transzkripciós faktorok, fehérje-fehérje kölcsönhatások által vagy például foszforilációval szabályozódnak.

Magreceptor motívumok

A magreceptorok általában az AGGTCA motívumokat ismerik fel. Dimerek esetében ez a szekvencia kétszer szerepel egymás mellett, ezért magreceptor félhelynek is nevezik. Helytálló ez az elnevezés azért is, mert egy hatbázisos motívum, főleg, ha beleszámoljuk a lehetséges szekvencia variációkat, túl gyakran található meg a genomban (<46 vagy <45 = ~1000 bázisonként) és túl könnyen alakulhat ki véletlenszerű mutációk során ahhoz, hogy rendelkezzen a szükséges szelekciós erővel a génkifejeződés megfelelő szabályozásához. Hogy a magreceptor dimerek megtalálhassák az adott körülmények között szükséges szabályozó elemeiket, elsősorban a félhelyek egymáshoz viszonyított iránya és távolsága a felelős. Az I. osztály receptorai esetében például a félhellyel a tükörképe (például TGACCT) áll szemben, három bázissal elválasztva. Ezt a palindrom szekvenciát úgynevezett fordított ismétlődésnek vagy inverted repeat (IR)-nek nevezik, amit, mivel három, nagyjából véletlenszerű bázis van a közepén, IR3-ként emlegetnek. Ebben az osztályban az ösztrogén receptorok kivételesek az AGGTCA félhelyükkel, mivel az összes többi szteroid hormon receptor az AGAACA (illetve TGTTCT) szekvenciát preferálja.

A II-III. osztály dimerei ezzel szemben kivétel nélkül két, egymást azonos irányban követő magreceptor félhelyet, úgynevezett direct repeat (DR) elemet ismernek fel, ahol az elválasztó bázisok száma a leginkább meghatározó; és DR0-tól DR5-ig minden lehetőségre találunk specifikus dimereket (Umesono et al., Cell, 1991; Evans and Mangeldorf, Cell, 2014); de írtak már le működőképes DR8-at is. A DR0-t például GCNF homodimer, a DR1-et PPAR/RXR heterodimerek, valamint TR2/4 és HNF4 (homo)dimerek, a DR2-t RAR/RXR heterodimerek és REV-ERB (homo)dimerek, a DR3-at VDR/RXR heterodimerek, a DR4-et THR/RXR és LXR/RXR heterodimerek, a DR5-öt pedig RAR/RXR heterodimerek ismerik fel. Ezekben az osztályokban is vannak IR felismerő magreceptorok, illetve léteznek olyan dimerek is, amelyek, például a ligand minőségétől függően, különböző távolságra lévő félhelyeket kötnek. Az RAR/RXR heterodimerek az előbb említett DR5 és DR2 kötés mellett a DR1 elemeket is használhatják, a PXR/RXR heterodimerek esetében pedig leírták, hogy a pregnánszármazékok és másodlagos epesavak rugalmas kötése a konformációváltozás hatására különösen rugalmassá teszi a DR elemek felismerését is (Wu et al., Drug Discov Today, 2013; Frank et al., J Mol Biol., 2005).

Mivel a magreceptorok félhelye túlságosan gyakran fordul elő a genomban ahhoz, hogy specifikusan működhessen, a IV. osztály magreceptorai esetében a hat bázison felül általában további bázisok is hozzájárulnak az erős DNS-fehérje kölcsönhatáshoz. Ezek a bázisok minden érintett család esetén a félhelyek 5’ kiterjesztését jelentik. Az NR0B család kivételt képez ez alól, mert nem rendelkezik DNS-kötő doménnel (Ensembl). Az NR4A (NUR/NOR) fehérjék az AA-AGGTCA (Wilson, Milbrandt, Science, 1992), az NR3B (ESRR) és NR5A (SF-1, LRH1) családok tagjai a (T)CA-AGGTCA (Johnston, Mertz, Mol. Endocrinol., 1997; Lala, Parker, Mol. Endocrin., 1992; Laudet, Curr. Biol., 1995), az NR1F (ROR) fehérjék pedig az (A/T)AA(C/G)T-AGGTCA szekvenciákat ismerik fel (Giguere, Otulakowski, Genes Dev., 1994; IJpenberg, JBC, 1997). Ez utóbbi kiterjesztett félhely, az úgynevezett ROR válaszadó elem (RORE) azonban részét képezheti DR elemeknek is. Mind a PPAR/RXR, mind pedig a REV-ERB dimerek nagy affinitással kötik a kiterjesztett DR – DR1, illetve DR2 – elemeket, és ezeknek az elemeknek – a magreceptorok expressziós szintjének és az adott motívumokhoz való affinitásának függvényében – fontos szerepe van a sejtek napi ciklusának szabályozásában (Harding, Lazar, MCB, 1995; Duez, Stael, FEBS Letters, 2008; Zhang, Lazar, Science, 2015). Ez a kiterjesztés teheti specifikussá a DR1 elemek PPAR/RXR általi kötését a TR és HNF4 (homo)dimerekkel szemben, valamint a DR2 elemek REV-ERB általi kötését az RAR/RXR heterodimerekkel szemben.

Kiterjesztett magreceptor motívumok keresése

Az elmúlt három évtizedben lényegében négy olyan tényezőt azonosítottak, amely meghatározza a magreceptorok specifikus DNS kötését: a félhelyek szekvenciáját (AGGTCA vagy AGAACA), egymáshoz viszonyított irányát (IR vagy DR), egymástól való távolságát és 5’ kiterjesztését. Az alapszabályokkal ugyan tisztában vagyunk, de nem ismerjük minden magreceptor pontos szekvenciaigényeit. Ehhez az NGS módszerek, például a ChIP-seq vagy akár ATAC-seq és ezek elemző módszerei nagy segítséget nyújtanak (Heinz, Mol. Cell, 2010), mégsem mindig szembetűnő a különbség a különböző magreceptorok motívumai között. Egyszerre többféle DR vagy IR elem kiterjedt használata esetén, például az RXR cisztróm vizsgálatakor, megtörténhet a különböző motívumok teljes összekeveredése, összeolvadása („kiátlagolódása”), tehát akár egyetlen félhelyre redukálódása is (Dániel and Nagy, Genes. Dev, 2014). Mivel kisebb a kiterjesztett motívumok száma, mint azoké, amelyek nem rendelkeznek valamilyen 5’ kiterjesztéssel, a de novo motívumkeresések eredményeiben ezek általában nem hangsúlyosak vagy teljesen hiányoznak. Léteznek „trükkök” a motívumok szétválasztására a de novo motívumkeresés eszköztárában, ám ezek is szenvednek a módszernek attól az általános korlátjától, hogy csupán a bázisok gyakoriságát veszik figyelembe, ezekhez nem rendelik hozzá a fehérjekötés erősségét.

A de novo motívumokat kiegészítendő, kifejlesztettem egy motívum optimalizáló módszert, amely a motívumok bázisainak a fehérjekötéshez való hozzájárulását méri. Ennek segítségével lényegében egyetlen ChIP-seq minta alapján nagyon pontosan meghatározható volt a PPARg félhelyének a kiterjesztése. Ez a motívumkeresésen és -térképezésen alapuló módszer valójában bármely transzkripciós faktorra specifikus ChIP-seq adaton jól működhet, feltárva e fehérjéknek a gyakori motívumokon felüli szekvenciaigényeit. Bázisok kettőseit felhasználva több dimenzióban is tesztelhető a kettősök fehérjekötéshez való hozzájárulása, ezáltal akár különböző és átfedő motívumkiterjesztések, illetve távolabbi, úgynevezett szatellit elemek is azonosíthatóak. A PPARg mellett nagyszámú magreceptorra specifikus ChIP-seq adat érhető el nyilvánosan, például az NCBI SRA adatbázisában. Mivel elképzelhető, hogy a TR2/4 és HNF4 (homo)dimerek, valamint a THR/RXR és LXR/RXR heterodimerek DR1, illetve DR4 motívumaiban is található valamilyen eltérés, amely a specificitásukat adja, érdemes lehet e magreceptorok esetében is elvégezni a motívumok fehérjekötéssel kapcsolt optimalizálását; valamint feltételezhető, hogy az RAR, PNR és COUP-TF magreceptorok rugalmasabb DNS kötése mögött is van egy általános szabályszerűség. Kérdéses továbbá az is, hogy vajon minden, DNS-kötő doménnel rendelkező monomer árva receptor, beleértve az NR2E családot (TLX, PNR) is, vagy akár további dimerizáló receptorok is rendelkeznek-e kiterjesztett motívummal, illetve, hogy ezek a kiterjesztések mutatnak-e további specificitást.

Ha választ kapunk ezekre a kérdésekre, az közelebb visz a magreceptorok és motívumaik koevolúciós történéseinek a megismeréséhez is, amely egy sokkal teljesebb képet adhat a transzkripciós faktorok általi génszabályozásról és annak evolúciójáról.

Az Emberi Erőforrások Minisztériuma ÚNKP-18-4-DE-318 kódszámú
Új Nemzeti Kiválóság Programjának támogatásával készült.

GRO-seq

In bioinfo, bioinformatics, bioinformatika, molecular biology, RNA on May 24, 2019 at 7:57 pm

Szerző: Dr. Nagy Gergely

A módszer, amely elől nem bújhat el egyetlen RNS molekula sem

A teljes genom szintű (Global) Run-On (GRO) szekvenálás a naszcens transzkriptóm meghatározására alkalmas újgeneráriós szekvenálási (NGS) módszer. A transzkriptóm általánosságban a sejtek teljes RNS állományát jelenti, a GRO-seq lényege azonban éppen az, hogy csak az egy adott pillanatban átíródó RNS molekulákat, sőt azoknak is csak az éppen átíródó részét, tehát gyakorlatilag az átírást végző RNS polimeráz komplexek helyét mutatja meg a genomban. Ez úgy érhető el, hogy egy szarkozil nevű detergenssel (tisztítószerrel) meggátolják, hogy szabad polimerázok csatlakozzanak a DNS-hez, ellenben a már elkötelezett komplexek tovább tudnak működni. A run-on gyakorlatilag a polimerázok korlátozott „újraindítását” jelenti izolált sejtmagokban, jelölt nukleotid-trifoszfát szubsztrátok felhasználásával. Néhány tíz nukleotid felépítése elegendő ahhoz, hogy az RNS molekulák darabolása után a jelölés segítségével kifogják az új szakaszokat, és meghatározzák a bázissorrendjüket.

A GRO-seq eljárás során arra is ügyelnek, hogy az RNS molekulák bázissorrendjének az iránya is megismerhető legyen. Ehhez előbb a molekulák 5’, majd 3’ végéhez kapcsolnak végspecifikus adaptort. Az RNS molekulák töredékeinek az 5’ végén azonban nincs feltétlenül szabad foszfát csoport. A későbbi lépésekhez az mRNS-ek 5’ „sapkáját” el kell távolítani (TAP), valamint end-repair-rel mind az 5’, mind pedig a 3’ vég javítható (például foszforilálható, illetve defoszforilálható; PNK). A különböző adaptorokkal közrefogott RNS molekulákból reverz transzkripcióval DNS-t hoznak létre, majd ezt sokszorozzák (PCR) a szekvenáláshoz.

A rövid szekvencia-leolvasások tehát megmutatják a polimerázok általi RNS szintézis helyét és irányát, amely kiválóan használható bizonyos nyomon követéses kísérletek esetében. Ha kíváncsiak vagyunk, milyen gének kapcsolnak be vagy ki egy stimulus hatására, érdemes néhány vagy néhány tíz perces felbontásban mintát venni. Ilyen módon láthatóvá válik, hogy a polimeráz percenként 2,5-3 kilobázis távolságot halad a szabályozott géneken. Azonban vannak olyan hosszú gének is, amelyek átírásához órák kellenek, és ez idő alatt az mRNS teljes érése és fehérjére „fordítása” sem történhet meg. A rövidebb gének viszont hamar nagy mennyiségű fehérjeterméket eredményezhetnek, és amennyiben ezek képesek a transzkripciót szabályozni, például mint transzkripciós faktorok, megfigyelhetjük az általuk be-, illetve kikapcsolt gének egy újabb hullámát, amely szó szerint a gének lefedettségén is látható. Ha egy hosszú gén előbb indukálódik, majd nem sokkal később gátlódik, egy „csúcs” jelenik meg rajta, amely idővel (későbbi időpontokban) a gén vége felé „vándorol”. Kellően nagyszámú időpont vagy jól időzített időpontok használatával teljes transzkripciós kaszkádok térképezhetőek fel a módszer segítségével.

A GRO-seq-kel nyert génexpressziós adatokat azonban más okokból kifolyólag sem könnyű értelmezni. Például sokszor nincs egyszerű összefüggés a különböző RNS molekulák szintézisének gyakorisága és az érett RNS szintje között. Az érés sem feltétlenül egyszerű folyamat, de összességében talán az érett RNS molekulák stabilitása (féléletideje) a leginkább meghatározó tényező a génexpressziót tekintve. Csupán GRO-seq adatokból tehát nem sokat tudhatunk meg a génexpressziós szintekről, annál többet a génexpresszió kezdeti szabályozásáról. A polimerázok ugyanis nemcsak a géneken találhatóak meg, hanem transzkripciót mutatnak minden aktív szabályozóhelyen is, még ha nem is következik utána lánchosszabbítás (elongáció).

Polimerázok mindenütt

Bőven a GRO-seq előtt ismert volt, hogy nagyszámú polimeráz gyülekezik a promótereken, de ezeknek tipikusan csak töredéke tudja megkezdeni a génen való továbbhaladást, a többi csak vesztegel (pausing). Ez a GRO-seq adatok alapján úgy néz ki, hogy a gén kezdeti szakaszán van egy csúcs – rövid, úgynevezett abortált átiratokból –, ami többnyire jelentősen magasabb, mint a gén további szakaszának a – transzkriptumok elongációjából fakadó – lefedettsége. Előfordul az is, hogy a promóter jelentős aktivitást mutat, a génen pedig alig vagy egyáltalán nem detektálható transzkripció, valószínűleg valamilyen további aktiváló jel hiánya miatt. Magasan kifejeződő gének esetében viszont nem feltétlenül látható pausing, mivel közel minden megkezdett RNS molekula meghosszabbításra kerül. Ebben az esetben időegység alatt tovább is jutnak a polimerázok, mert gyorsabban tudnak haladni a tartósabban szétválasztott DNS-en.

Az átíródó szabályozó régiók alatt nemcsak a promótereket értjük, hanem az aktív enhanszereket (silencer-eket) is, melyek átírását ugyanúgy érintik a pozitív/negatív stimulusok, mint a fehérjekódoló génekét. Ezt kihasználva a promóterektől akár többszáz kilobázis távolságra elhelyezkedő, az adott stimulus hatására azonos expressziós mintázatot mutató szabályozó régiókat is a génekhez rendelhetjük, amely segíthet azt is megmondani, mely transzkripciós faktorok vesznek részt a szabályozásban. A promóterektől távol eső szabályozó helyeken általában nagy a pausing mértéke – tehát az abortált transzkriptumok aránya –, de ezeken a helyeken is történhet elongáció, melynek hosszú nem-kódoló RNS-ek lesznek a termékei. Elongáció hiányában egyszerűen enhanszer transzkripcióról beszélünk, amely tipikusan mindkét irányban megtörténik (divergens) a szabályozó régióhoz képest – valószínűleg azért, mert itt nincsenek olyan, a polimeráz aktivitás irányát meghatározó szabályozó, úgynevezett válaszadó elemek, mint a promóterek klasszikus elemei, például a TATA-box. Jóllehet, a legtöbb promóteren is jellemző divergens transzkripció, akár elongáció mindkét irányba; sőt többezer olyan fehérjekódoló génpár létezik, amely látszólag egyetlen promóteren osztozik.

Nem-kódoló RNS-ek

Ellentétben a génekkel, a hosszú nem-kódoló RNS termékek hossza a GRO-seq adatok alapján vélhetően nem azonos – minél távolabb jut a polimeráz, annál valószínűbb, hogy nem folytatja tovább az átírást. De mindig vannak kivételek: bizonyos hosszú nem-kódoló RNS-ek egy bizonyos pontig azonos lefedettséget, sőt akár a génekhez hasonló intronkivágódást is mutatnak. Például a „csak” mikroRNS-t kódoló „gének” is így viselkednek. Az a bizonyos pont, ameddig a gének és gén jelleget mutató hosszú nem-kódoló transzkriptumok nagyjából azonos polimeráz sűrűséggel bírnak, a transzkripció terminációs helye. (Csak első ránézésre) érdekes módon a terminációs helyet követően felerősödik a polimerázok jelenléte, majd a hosszú nem-kódoló termékekhez hasonlóan egyre kevesebb tovább hosszabbított terméket látunk. Ez a jelenség valószínűleg az RNS polimerázok lelassulásának tudható be, nem újabb komplexek csatlakozásának. A terminációs helyet követően a polimerázok nem válnak le rögtön a DNS-ről, de a sebességük lecsökken, így gyakrabban lehet detektálni a termékeiket; ez magyarázhatja a – magas expresszió esetén akár többtíz kilobázisos – továbbírást.

A polimerázok lassulása és gyorsulása valamennyire a géneken is érvényesül, attól függően például, hogy milyen a G/C bázisok aránya, milyen a kromatin szerkezete, vagy például van-e aktív szabályozó hely a génen. Főleg a promóterek közelében, de valójában bármelyik intronban lehet enhanszer transzkripciót látni, de az intronokon belül akár más gének promóterei is lehetnek aktívak, és bármelyik irányban keletkezhet róluk, akár elongált RNS termék. Nem könnyítik meg a transzkriptumok azonosítását az alternatív promóterekkel rendelkező gének sem. Referencia annotáció nélkül – illetve hiányos referencia annotáció esetén –, csak a lefedettség adatok alapján, sokszor nem lehet megállapítani, hogy egy hosszabb, alacsonyabb expressziójú transzkriptum variánst látunk-e, vagy egy eddig ismeretlen gént, amely ugyanazon a szálon található, és az ismert gén promótere előtt végződik. Az is előfordulhat, hogy az ismert promótertől downstream helyezkedik el egy eddig ismeretlen, intronikusnak látszó alternatív promóter, amelyet, ha alacsony expressziót mutat, könnyen enhanszernek nézhetünk. Az alternatív terminációs helyek nem gyakoriak, de még nehezebb kezelni őket.

A GRO-seq adatokban nemcsak ismert gének ismeretlen variánsait és sohasem látott enhanszer transzkriptumokat, hanem eddig teljesen ismeretlen, gén jelleget mutató transzkripciós eseményeket is lehet találni. Ilyen esetben meg lehet próbálni a nyitott olvasási keretek és exon-intron határok keresését, ami akár új gének felfedezését is eredményezheti. Az eddig említett transzkriptumok mellett természetesen megfigyelhető a kis sejtmagi és „magvacskai”, valamint a transzfer és riboszómális RNS molekulák expressziója is, bár ezek általában nem mutatnak jelentős időbeli változásokat.


GRO-seq adatok elemzése

A korábban bemutatott ChIP-seq elemző pipeline alkalmas GRO-seq adatok alapelemzésére is, a további elemzésekhez viszont az adatok összetettsége miatt komoly fantáziára is szükség lehet. 🙂

Az Emberi Erőforrások Minisztériuma ÚNKP-18-4-DE-318 kódszámú
Új Nemzeti Kiválóság Programjának támogatásával készült.

DNS szekvencia motívumok azonosítása II.

In bioinfo, bioinformatics, bioinformatika, DNA, molecular biology on January 14, 2019 at 1:15 pm

Szerző: Bojcsuk Dóra

Ahogyan az előző bejegyzést is indítottam, a két leggyakrabban feltett kérdés, amikor motívumanalízisről beszélünk, a következő:

  1. Milyen szekvencia motívumok „dúsulnak fel” a transzkripciós faktor kötőhelyek egy előre definiált csoportjában?
  2. Jelen van-e egy adott transzkripciós faktor motívuma a transzkripciós faktor kötőhelyek egy előre definiált csoportjában?

Arról, hogy mik is azok a motívumok, mit jelent maga a motívumfeldúsulás és milyen program segítségével lehet ezeket a feldúsulásokat azonosítani, a DNS szekvencia motívumok azonosítása I. bejegyzésben olvashattok, a következő néhány bekezdésben pedig arról lesz szó, hogy egy vizsgálni kívánt motívumról hogyan tudjuk eldönteni, hogy jelen van-e az általunk vizsgált régiókon belül.

Feltételezzük, hogy van egy 2000 transzkripciós faktor kötőhely pozícióit tartalmazó fájlunk (bed/txt kiterjesztésű) és szeretnénk csak azokat a kötőhelyeket, illetve a kötőhelyeken belül is csak azt a néhány bázispárnyi régiót visszanyerni, ahol megtalálható például az AP-1 fehérje motívuma. Ez a következő parancs begépelésével lehetséges:

annotatePeaks.pl peaks.bed hg19 -mbed output.bed -m AP1.motif -noann -nogene

Mi mit jelöl?

Az annotatePeaks.pl maga a program, amely a HOMER egyik nagyon hasznos eszköze. A peaks.bed a vizsgálni kívánt genomi régiókat tartalmazó bed fájl. A hg19 fogja a genomot megadni – amit a HOMER automatikusan felismer –, de ez a paraméter lehet mm10 (vagy mm9) is, amennyiben nem humán, hanem egér mintákkal dolgozunk. Minden egyéb modell organizmus használatakor meg kell adni a teljes elérési utat a vizsgálni kívánt genom FASTA fájljához. Eddig szinte minden ugyanúgy történik, ahogy a de novo motívumfeldúsulások keresésénél. Az -mbed paraméter után nevesítenünk kell egy bed fájlt, amely tartalmazni fogja a motívumtalálatok pozícióit (a fenti példában ennek az output.bed felel meg), az -m kapcsoló után pedig meg kell, hogy adjuk annak a motívumnak a mátrixát, amelynek jelenlétét vizsgálni szeretnénk az általunk megadott genomi pozíciókban. Végezetül egy kicsit gyorsíthatunk a motívumok keresésén a -noann és -nogene paraméterek megadásával; ezek használatával a vizsgált genomi pozíciók génekhez, ill. azok TSS-eihez történő annotálását a parancs nem fogja elvégezni.

Ezen felül az annotatePeaks-nél is működik és hasznos lehet a -size paraméter, mellyel a vizsgálni kívánt genomi régiók középpontjához viszonyítva megadhatjuk, milyen széles régión történjen a motívumkeresés.

Honnan szedjünk *.motif fájlt és mit érdemes a mátrixban változtatni?

Az előző bejegyzésben bemutattam, hogyan néz ki egy motívum mátrix és hogyan kell a benne található információkat értelmezni. Ezeket a mátrixokat a HOMER könyvtárunk homerResults vagy knownResults mappáiban találhatjuk, de akár készíthetünk újat, vagy paraméterezhetünk egy már meglévő mátrixot mi magunk is. Ezen felül létezik a HOMER-nek egy több, mint 400 ismert motívumot tartalmazó adatbázisa, melyet ide kattintva érhettek el: HomerMotifDB. A mátrixban a motívum score az, amit módosítani érdemes, annak függvényében, hogy mennyire szeretnénk szigorítani vagy lazítani a keresésen – bővebben erről is az előző bejegyzésben olvashattok.

No, de hogyan értelmezzük az eredményt?

Az output.bed kimeneti fájlunk 6 oszlopot fog tartalmazni. Az 1-3. oszlopok már nem az eredeti genomi pozíciókat fogják megadni, hanem pontosan azt a néhány bp-nyi régiót, ahol a keresett motívum megtalálható volt. A 4. oszlop a használt mátrix azonosítóját tartalmazza, amely a további munkálatok során nem releváns, az 5. oszlopban található score viszont annál inkább. A legalacsonyabb score legalább akkora lesz, mint a visszatérképezett mátrixban szereplő score-nál; annak lazításával a találatok száma növelhető.

A 6. oszlopban „+” vagy „–” jelöli, hogy a DNS-en pozitív vagy negatív irányban sikerült a motívumot azonosítani. Olyan fehérjék esetében, mint az AP-1, amely a TGAnTCA szekvenciához képes kötni, vagy a magreceptor szupercsalád bizonyos tagjai (például az ösztrogén recepor dimerek), melyek az AGGTCAnnnTGACCT szekvenciát preferálják, ha a reverz komplementerét vesszük a konszenzus szekvenciáiknak, mind a pozitív (+), mind a negatív (–) szálon olvasva ugyanazt a bázissorrendet láthatjuk. Ennek eredményeként előfordulhat, hogy a kimeneti fájl a 6. oszlopban eltérő irányultságot mutatva, de lényegében kétszer is tartalmazza ugyanazt a motívumot. A duplikátumok kiküszöbölése érdekében a kimeneti fájlunkat érdemes parancssorban merge-elni:

cat output.bed | sortBed | mergebed > output_v2.bed

 

Motívum score minden vizsgálandó genomi régióra? Lehetséges!

Az annotatePeaks-nek van még egy nagyon hasznos paramétere, mégpedig az -mscore. Ennek használatával a HOMER megkeresi a megadott mátrix által definiált motívumhoz legjobban hasonító szekvenciát minden egyes régióban, és kalkulál rájuk egy-egy motívum score-t. Ez az információ további szűréseket követően nagyon hasznos lehet abban az esetben, ha azt szeretnénk megvizsgálni, hogy egy adott motívum „erőssége” eltér-e különböző genomi régiók csoportjai között. Példaként, az alábbi ábra a TEAD, TCF, SIX, ERE, Fox és AP2 fehérjék motívumainak erősségét demonstrálják a „piros”, „lila” és a „kék” csoportok kötőhelyei alatt (Bojcsuk et al. bioRxiv, 2018):

boxes

Mivel az „erősebb”, tökéletesebb, vagy mondhatni kanonikus motívumok fehérje iránti affinitása sokkal nagyobb, az eltérések egyúttal utalhatnak a fehérjék kötésének meglétére vagy hiányára is.

 

A következő parancsot szükséges begépelnünk, hogy megkapjuk a motívum score-okat minden egyes kötőhelyre:

annotatePeaks.pl input.bed hg19 -m AP1.motif -mscore -noann -nogene -size 100 > output.txt

A kimeneti fájlban a következő oszlopok fognak szerepelni: PeakID, Chr, Start, End, Strand, Peak Score, Focus Ratio/Region Size, CpG%, GC%, Best Motif log-odds Score, melyből az utolsó oszlop lesz a meghatározott motívum score érték. Fontos, hogy az -m kapcsoló után nem csupán egy, hanem számos motívum mátrixát feltüntethetjük; például: -m AP1.motif AP2.motif ERE.motif TEAD.motif; ebben az esetben a kimeneti fájl utolsó oszlopai a mátrixok megadásának sorrendjében fogják a score-okat tartalmazni.

Az utóbbi parancs esetében mondhatni minden régióra „ráerőszakolunk” egy score-t, ezért előfordul az is, hogy negatív előjelű score-ral tér vissza az eredmény – emiatt is szükséges a további szűrés. Ha érdekel, én milyen feltételek alapján szűrtem a fenti ábra elkészítéséhez, olvassátok el a kéziratot! 🙂

EEM (1)

Az Emberi Erőforrások Minisztériuma ÚNKP-18-3-III-DE-253 kódszámú Új Nemzeti Kiválóság Programjának támogatásával készült.

DNS szekvencia motívumok azonosítása I.

In bioinfo, bioinformatics, bioinformatika, molecular biology on December 14, 2018 at 1:01 pm

Szerző: Bojcsuk Dóra

A két leggyakrabban feltett kérdés, amikor motívumanalízisről beszélünk:

  1. Milyen szekvencia motívumok „dúsulnak fel” a transzkripciós faktor kötőhelyek egy előre definiált csoportjában?
  2. Jelen van-e egy adott transzkripciós faktor motívuma a transzkripciós faktor kötőhelyek egy előre definiált csoportjában?

Ebben a bejegyzésben az első kérdés megválaszolására alkalmas bioinformatikai módszerről fogok írni – de előtte néhány gondolat arról, mik is azok a motívumok.

A motívumokról

A szekvencia motívumok viszonylag rövid, általában 6-20 bázispár hosszú, visszatérő mintázatok a DNS szekvenciájában, melyeket bizonyos DNS-kötő fehérjék, transzkripciós faktorok képesek felismerni. Ezekhez a motívumokhoz a transzkripciós faktorok sokkal nagyobb affinitással képesek kötődni, mint egy nem specifikus szakaszához a DNS-nek; ebből adódóan azonosításuk fontos a génszabályozás pontos megismerésének szempontjából.

A motívumok azonosítása régen és most

Elsőként 1975-ben David Pribnow azonosította azt a 6 nukleotid hosszúságú TATAAT motívumot (TATA-box), melyről kiderült, hogy mind eukariótákban, mind prokariótákban az egyik alapvető transzkripciós iniciációs helyet jelöli a gének promóter régiójában (10 bázispárra a kezdőponttól). Baktériumokban a TATA-boxon túl (35 bázispárra) megtalálható TTGACA motívum is fontos szereppel bír az RNS polimeráz enzim kiindulópontjainak kijelölésében.

A szabályozó szekvenciák azonosítása korábban az ún. footprint analízis (DNase footprinting) segítségével történt. Ennek során a tesztelni kívánt szekvenciát hordozó DNS darabokat radioaktív végjelöléssel látták el. Kontrollként egy olyan oldatot használtak, amely nem tartalmazta a vizsgálni kívánt fehérjét, csak a DNS-t, így minden, egy kiválasztott DNS-hasító enzim által létrehozott, jelölt fragmentum mérete láthatóvá vált gélen való futtatás és a gélkép előhívása után. A vizsgálni kívánt fehérjét tartalmazó oldatban viszont ott, ahol a DNS-fehérje interakció létrejött, az enzim nem volt képes hasítani, emiatt az érintett fragmentmérethez tartozó sáv nem volt látható a gélképen. A fehérje által kötött/megvédett szekvenciát nevezték footprint-nek (lábnyomnak). Végül az enzim által el nem hasított régiót a kontroll sávból visszanyerve DNS szekvenálással a fehérje által elfoglalt DNS szekvencia azonosíthatóvá vált.

Ma újgenerációs szekvenálási adatokból kiindulva és számítógépes programok segítségével sokkal egyszerűbb módon azonosíthatunk ismétlődő mintázatokat a DNS szekvenciájában – akár olyanokat is, amelyekről jelenleg nem is tudjuk, mely transzkripciós faktor(ok) kötheti(k).

A motívumok meghatározásához legtöbbször ChIP-seq, ATAC-seq vagy DNáz-seq adatokból indulunk ki, mert az ezekkel a kísérletekkel kapott csúcsok középső (~100-200 bázispárnyi) régiójáról feltételezhető, hogy a fehérjekötés középpontját, egyben a válaszadó elem helyét jelzik.

Feldúsult motívumok azonosítása

Az alábbiakban bemutatom, mely HOMER parancsok lehetnek segítségünkre a motívumok azonosításában és milyen paraméterekre érdemes figyelni.

Ahhoz, hogy megválaszoljuk, milyen szekvencia motívumok „dúsulnak fel” a transzkripciós faktor kötőhelyek egy előre definiált csoportjában, a HOMER findMotifsGenome.pl parancsát kell, hogy segítségül hívjuk. Ez alkalmas mind ismert, mind újonnan feldúsult, ún. de novo motívumok azonosítására is.

A használatához szükséges minimum paraméterek a következőek:

findMotifsGenome.pl peaks.bed hg19 output_dir -size 200 -len 8

Az általam használt egyéb paraméterekkel kibővítve:

findMotifsGenome.pl peaks.bed hg19 output_dir -len 8,10,12,14 -size 200 -dumpFasta -bits -preparse -homer2

Mi mit jelöl?

A findMotifsGenome.pl egy program a HOMER csomagból, amit meghívunk. A peaks.bed a vizsgálni kívánt genomi régiókat tartalmazó bed fájl. A hg19 fogja a genomot megadni – amit a HOMER automatikusan felismer –, de ez a paraméter lehet mm10 is, amennyiben nem humán, hanem egér mintákkal dolgozunk. Minden egyéb modell organizmus használatakor a vizsgálni kívánt genom FASTA fájljához meg kell adni a teljes elérési utat.

Az output_dir az eredmények helyét definiálja – ezt a könyvtárat előre létre kell, hogy hozzuk. A kimeneti mappában a homerResults könyvtár fogja tartalmazni a de novo találatokat, a knownResults könyvtár pedig azokat a feldúsult motívumokat, amelyek a HOMER adatbázisában (is) megtalálhatóak voltak.

A -len 8,10,12,14 kapcsoló segítségével mondhatjuk meg, milyen hosszúságú motívumokat keresünk. Bár a minimum motívum hossz a fenti példában 8 bázispár hosszúságú volt, ezzel a beállítással például a 6+1 bázispár hosszúságú AP-1 motívumot (TGAnTCA) is visszakaphatjuk (amennyiben fel van dúsulva).

A -size 200 paraméter segítségével definiálhatjuk, hogy a peaks.bed fájlban található genomi régiók középpontjához viszonyítva milyen széles régión szeretnénk a motívumokat azonosítani. A -size 200 paraméter esetében (amely egyébként az alapértelmezett beállításnak felel meg) a középponttól -100/+100 bázispáron belül eső régiót vesszük csak figyelembe, de a HOMER lehetőséget ad arra is, hogy a –/+ irányban eltérő hosszúságú régión keressünk. Például a -size 100,50 a középponttól -100/+50 bázispáron belül eső régiót veszi figyelembe, de kereshetünk akár a bed fájlban lévő teljes régiókon is a -size given paraméter megadásával.

A -dumpFasta kapcsoló használatával a HOMER kigyűjti két külön fájlba azon régiók szekvenciáit, melyeket a peaks.bed-ben megadtunk (target.fa), illetve az általa háttérszekvenciaként meghatározott régiókét is (background.fa). Ez abban az esetben hasznos, ha szeretnénk más programokat is bevonni a motívumanalízisbe; így ugyanazokhoz a háttérszekvenciákhoz hasonlíthatjuk a vizsgálni kívánt régióinkat.

Míg alapesetben méretarányos, ún. proporcionális motívum logókat rajzoltathatunk, ahol az A, T, C és G nukleotidok mérete annak megfelelően fog kirajzolódni minden pozícióban, hogy a motívumon belül mennyire volt gyakori az egyes nukleotidok előfordulása, a -bits kapcsoló használatával a nukleotidok ún. információtartalmával arányosan lesz súlyozott a karakterek magassága.

Proporcionális:

222

„Bits-es”:

          bits

 

Visszautalva a -size paraméterre, jól látható, hogy a fenti motívum 10 bázispár hosszúságú, de az AP-1 fehérje motívuma (TGAnTCA) ezzel a hosszal is szépen kirajzolódott, a többi pozícióban lévő nukleotidok pedig csak kisebb, kiegyenlítettebb valószínűséggel fordultak elő.

A -preparse használatával a HOMER minden keresés során új random szekvenciákat generál, a -homer2 pedig egyszerűen az új HOMER programot hívja meg a régi verzió helyett.

Hogyan értelmezzük az eredményt, mit jelent az, hogy motívumfeldúsulás?

A motívumkeresés eredményeit a kimeneti könyvtárban található homerResults.html fájl segítségével webböngészőben könnyen megjeleníthetjük, a talált motívumok logóit pedig a homerResults mappában kell keresni. Azt követően, hogy a homerResults mappát a html fájllal együtt letöltöttük a számítógépünkre, az eredményt ilyen formában láthatjuk:

2222

A táblázatból kiderül, hogy összesen 16188 genomi régióban kerestük a feldúsult motívumokat (Total target sequences = 16188), a HOMER pedig 33193 random genomi régió szekvenciáját használta kontrollként (Total background sequences = 33193). Ez azt jelenti, hogy a vizsgálni kívánt 16188 régióban feldúsult motívumokat a háttérként használt 33193 régióban is megkereste, mi pedig ebből már csak egy-egy százalékértéket látunk (% of Targets és % of Background), melyek azt jelölik, hogy a vizsgálni kívánt és a háttérként használt régiók hány százalékában fordult elő az adott motívum. Azonban könnyen félrevezethetjük magunkat, ha csupán azt vesszük figyelembe, hogy a vizsgálni kívánt régiók jelentős százalékában (pl. 32,45%) dúsult fel egy motívum, de a kontroll régiókra kapott %-ot (amely mutathat szintén jelentős, pl. 29,6%-os feldúsulást) figyelmen kívül hagyjuk. A HOMER minden találatra generál egy P-értéket (P-value) is, és ennek megfelelően rangsorolja a találatokat.

Szintén könnyen félrevezethetjük magunkat, ha elhisszük a HOMER-nek, hogy egy motívum valóban az, aminek ő nevezi. A fenti ábrán az 1. találat a BORIS transzkripciós faktor motívuma, azonban ha a More information hivatkozásra kattintunk, további lehetséges találatokról is tájékozódhatunk. Esetünkben az 1. motívumot valószínűleg csak az általánosan kifejeződő CTCF transzkripciós faktor tudja kötni, nem a paralógja – ennek megítélésére azonban valamilyen szinten ismernünk kell a modellrendszerünket; tudnunk kell, hogy mely fehérjék játszanak szerepet a vizsgált sejtben, ill. hogy adott fehérjecsaládból melyik fehérjék fejeződnek ki egyáltalán.

A további motívumtalálatokat is hasonló fenntartással kell, hogy kezeljük. A 2. találatot elegendő, ha C/EBP-nek nevezzük; az, hogy a fehérjecsalád mely tagja van jelen, szintén a vizsgált sejttípustól függ. A 3. találatot nevezhetjük AP-1-nek, mert az AP-1 fehérjecsoport tagjai képesek kötni, de nevezhetjük akár TRE-nek (TPA Reponse element) is, a TPA ligand válaszkészsége alapján. A 4. motívumot a promóter régiókra jellemző Sp1 fehérje képes kötni, de a motívum neve GC-box, amely pedig a szekvencia alapján kapta ezt a nevet, akárcsak a TATA-box, amit a bejegyzés elején említettem.

Bár az ábrán nem látszik, a piros csillaggal jelölt találatokat (*-possible false positive) az alacsony P-érték ellenére a HOMER lehetséges fals pozitívnak tekinti. Ha nagyon kevés régiót adunk meg, a HOMER szintén nem képes releváns feldúsulásokat eredményezni. Ebben az esetben azért a knownResults mappában található html fájlra is érdemes egy pillantást vetni, mert a HOMER visszatérképezi az adatbázisában található több mint 400 motívumot és a legnagyobb számban előforduló motívumokat kigyűjti (még darabszámot is megad), még ha a kevés kiindulási régió miatt azok nem is mutattak szignifikáns feldúsulást.

A fentiek helyes megítélése néha igényel egy kis kutakodást az interneten, de idővel könnyen rá lehet érezni. Fontos megjegyezni azt is, hogy az összes transzkripciós faktor felismerésére szolgáló motívum szekvenciája eltérhet egy-egy nukleotidban; ez a fehérje iránti affinitást nem feltétlenül, vagy csak kis mértékben befolyásolja.

Motívum mátrixok értelmezése

Minden motívum logóhoz tartozik egy motívum mátrix (ún. position weigth matrix) is, amiből készült, ill. amelyet a motif file (matrix) hivatkozásra kattintva nyithatunk meg, és az alábbi információkat tartalmazza:

>DRTTGCGHAA      3-DRTTGCGHAA,BestGuess:CEBPE/MA0837.1/Jaspar(0.925)  6.901336         -829.796349   0               T:1901.0(11.75%),B:1348.2(4.06%),P:1e-360

0.246      0.147      0.284      0.323
0.445      0.158      0.342      0.055
0.001      0.001      0.001      0.997
0.001      0.001      0.014      0.984
0.309      0.001      0.476      0.215
0.112      0.505      0.136      0.247
0.261      0.146      0.496      0.097
0.309      0.393      0.002      0.295
0.994      0.004      0.001      0.001
0.997      0.001      0.001      0.001

Rögtön az első sor a motívum nukleotidjait adja meg, melynek értelmezéséhez egy kis segítséget itt találhattok: https://www.bioinformatics.org/sms/iupac.html.

Szintén az első sor tartalmazza ugyanazokat az információkat, amelyek a táblázatos formában is szerepeltek. A motívum neve mellett sok esetben szerepel az is, hogy milyen korábbi ChIP-seq kísérletből származó motívumhoz hasonlít a legjobban. Szerepel még egy motívum score (érték) is (6.901336), amelyre még visszatérek, illetve itt is megjelennek a Target- és Background %-ok (T:1901.0(11.75%),B:1348.2(4.06%), illetve a P-érték (P:1e-360).

A bemutatott mátrix a fenti táblázatban szereplő C/EBP motívumot reprezentálja:

22

 

A mátrix minden sora a motívum egy bázisát írja le, balról jobbra haladva, az oszlopok pedig egy-egy nukleotidot jelölnek. Megfigyelhető, hogy az egy sorban szereplő számok összege 1-et tesz ki és azt írja le, hogy az adott pozícióban melyik nukleotid milyen valószínűséggel fordult elő. Ha megfigyeljük a vastagon kiemelt számokat a mátrixban, jól látható, hogy a 3. és a 4. pozícióban szereplő timinnek (T) a 4. oszlop felel meg, az utolsó két pozícióban szereplő adenint (A) pedig az 1. oszlop írja le. Végül pedig a 3. oszlop a guaninnak (G), a 2. oszlop pedig a citozinnak (C) felel meg:

   A             C             G            T
0.246      0.147      0.284      0.323
0.445      0.158      0.342      0.055
0.001      0.001      0.001      0.997
0.001      0.001      0.014      0.984
0.309      0.001      0.476      0.215
0.112      0.505      0.136      0.247
0.261      0.146      0.496      0.097
0.309      0.393      0.002      0.295
0.994      0.004      0.001      0.001
0.997      0.001      0.001      0.001

A mátrixban szereplő motívum score egyedi; függ a motívum hosszától és a mátrixban nagy gyakorisággal megjelenő bázisok számától is. Ezt az értéket akkor szoktuk módosítani, amikor adott genomi régiókon szeretnénk egy-egy motívum meglétét vizsgálni, de a keresés túl sok és nem specifikus találatot eredményezett. Ebben az esetben a score értéket megemeljük, így a mátrixban szereplő értékek bár ugyanazok maradnak, a keresés sokkal szigorúbb módon zajlik. Annak vizsgálatáról viszont, hogy jelen van-e egy adott transzkripciós faktor motívuma a transzkripciós faktor kötőhelyek egy előre definiált csoportja alatt, a következő bejegyzésben lesz szó bővebben.

EEM (1)

Az Emberi Erőforrások Minisztériuma ÚNKP-18-3-III-DE-253 kódszámú Új Nemzeti Kiválóság Programjának támogatásával készült.

Beta-galaktozidáz enzimaktivitás mérése transzfekciót követően

In molecular biology on May 9, 2015 at 10:16 pm

β-gal aktivitás vizsgálat:

Génexpressziós vizsgálatoknál – DNS-fehérje, fehérje-fehérje kölcsönhatások vizsgálatánál – normalizálóként használják a B-gal aktivitás eredményét.

  1. A 36 órás transzfekciós inkubáció (PEI transzfekció c. alfejezet) letelte után felkaparjuk a sejteket a plate lyukaiból, lyukanként átpipettázuk eppendorf csövekbe a sejteket.
  2. Centrifugáljuk – 250g, 2 perc, szobahő, a felülúszót leszívjuk, 1x szobahős PBS-ben felszuszpendáljuk a sejteket. ( még egy mosási lépést beiktathatunk, ez opcionális).
  3. Ismét centrifugáljuk, a felülúszót leszívjuk, 250μl lízis pufferben felszuszpendáljuk őket.
  4. -70°C-ra helyezve lefagyasztjuk a sejteket, majd felolvasztjuk őket és ismét lefagyasztjuk.
    (A fizikai sokk és a lízis puffer hatására a sejtek lizálódnak, a b-gal enzim kiszabadul a sejtből.)
  1. Egy eppendorf csőbe 80μl sejtlizátumhoz 100μl β-gal szubsztrát oldatot pipettázunk.
  2. Pár percet várunk, az enzim reakció hatására be kell sárgulnia a sejtlizátum-oldat elegynek.

Megjegyzés: A lízis lépés gyakran eltér lízispuffer összetételtől függően. Amennyiben  a bGal esszét normalizálásra használjuk, a lizátum többi részét pl. a Luciferáz enzim aktivitásának mérésére használjuk fel, amely korrelál bizonyos génexpressziós szabályozási lépések megtörténtével/mértékével. Ilyenkor mindkét aktivitást egy VICTOR elnevezésű plate olvasó készülékkel kvantitáljuk, az enzimek szubsztrátjainak jelenlétében.

Oldatok összetétele:

  • 5x lízis puffer (100ml): ezt kell 5-szörösére hígítani MQ vízzel
  • 1,25ml 0,5M Tris (pH 7.8)
  • 1ml 1M DTT
  • 10ml 0,1M EDTA (pH 8.0)
  • 50ml glycerol
  • 5ml Triton-X-100
  • 40,75ml MQ víz
  • β-gal szubsztrát oldat (4ml-re):
  • 4ml β-gal puffer (200ml puffer összetétele: 120ml 0,1M Na2HPO4 + 80ml 0,1M NaH2PO4 + 2ml 1M KCl + 2ml 0,1M MgCl2)
  • 35μl β-markapto-etanol
  • 8mg ONPG (orto-nitrophenyl-β-galaktopiranozid)

PEI transzfekció

In molecular biology on May 9, 2015 at 10:07 pm

Transzfektálás:

Transzfekció fogalmán DNS eukarióta sejtbe való juttatását értjük, ez történhet fizikai vagy biokémiai módszerrel. A DNS sejtben maradásának időtartama szerint lehet tranziens vagy stabil a transzfekció. Tranziens transzfekcióval átmeneti kifejeződést érhetünk el, stabil transzfekciónál a bejuttatott DNS beépülhet a transzfektált sejt genomjába.

Módszerek:
Biokémiai módszerek: kalcium-foszfát mediált, dietilaminoetil(DEAE)-dextrán mediált, lipid mediált transzfekció (PEI, Lipofectamine, FuGene)

Fizikai módszerek: elektroporáció, direkt mikroinjektálás, génpuska

Virális módszer: retrovirális géntranszfer

Mi a biokémiai módszerek közül általában lipid mediált módszert alkalmazunk PEI (polietilénimin)-oldat használatával. A PEI transzfekció megfelelő hatásfokú letapadó sejtek esetén, rutinszerűen alkalmazzuk fehérjetermeltetéshez szükséges plazmidok bejuttatásához és az ún. kotranszfekciós “riporter esszé” típusú kísérleteknél.

Szükséges anyagok, eszközök:

  • steril lamináris fülke
  • T293 sejtek (humán embrionális vese sejt)
  • 6 lyukú sejjtenyésztő plate
  • 10 % FBS tartalmú DMEM médium (Dulbecco’s Modified Eagle Medium)
  • 1% FBS tartalmú médium
  • plazmidok (VDR-1, β-gal)
  • szűrt, 150 mM NaCl oldat
  • PEI oldat
  • szerológiai pipetták, pipettor
  • automata pipetták, pipettahegyek
  • eppendorf csövek

A transzfekciót megelőző nap elvégzett műveletek:

  1. “PLATELÉS”: Sejteket tettünk 6-lyukú plate-re. 1 lyukba 300 000 sejtet tettünk 2ml médiumban (10% FBS tartalmú DMEM)
    (A sejtek platelése a passzálás főbb lépéseivel egyeznek meg: a sejtekről leszívjuk a médiumot 2. 2-3ml PBS-sel mossuk őket 3. 1-2ml tripszin-EDTA-val leválasztjuk a flaska aljáról a sejteket 4. a tripszin mennyiségének minimum 2-szeresének megfelelő 10%FBS DMEM-mel leállítjuk a tripszint 5. Bürker-kamra segítéségével megszámoljuk a sejteket 6. a kívánt sejtszámot megfelelő mennyiségű friss médiummal kimérjük)
  2. 16-18 órán keresztül inkubáljuk a sejteket a transzfekciót megelőzően, mialatt letapadnak és log fázisba kerülnek.

TRANSZFEKCIÓ:

6 lyukú plate 1 lyukára számolva a DNS-PEI mix összetétele az alábbiak szerint alakul:

DNS-mix PEI-mix Összmennyiség(DNS-PEI mix) (µl)
DNS (µg) Kiegészítve NaCl-al  (µl-re) PEI (µl) Kiegészítve NaCl-al  (µl-re)
3 100 6 100 200

Az alábbiak szerint fogjuk a plazmidokat transzfektálni lyukanként:

  1.     Transzfekció előtt 1 órával cserélje le a sejteken a médiumot 1ml 1% FBS tartalmú médiumra! (éheztetés)
  2.     Számolja ki a plazmidok koncentrációja alapján, hogy hány μl plazmidra és NaCl-ra van szükség lyukanként!

Mindkét plazmid 1µg/µl-es tehát:

plazmid NaCl
1.      lyuk 3µl VDR-1 97µl
2. lyuk 1,5µl VDR-1 + 1,5µl β-gal 97µl
3. lyuk 3µl β-gal 97µl
  1. Pipettázzon 3 eppendorf csőbe 97-97µl NaCl oldatot és ehhez pipettázza hozzá a megfelelő plazmidot a megfelelő térfogatban!
  2. A 6 lyukú plate 3 lyukára számolva pipettázzon egy eppendorf csőbe 18μl PEI-oldatot és 282μl NaCl oldatot! Rázza össze!
  3. A DNS-NaCl mixekre pipettázzon 100μl-t a PEI-mixből lassan cseppenként adagolva! Rázza össze őket!
  4. Inkubálja a DNS-PEI mixet 20 percig szobahőmérsékleten!
  5. Pipettázza a sejtekre a DNS-PEI mixet lassan cseppenként adagolva!Slide1
  6. Inkubálja a sejteket 5-6 órát 37°C-on, 5% CO2 tartalom mellett!
  7. Adjon a sejtekhez 1ml 10%FBS tartalmú médiumot!
  8. Inkubálja a sejteket 36 órát 37°C-on, 5% CO2 tartalom mellett!
  9. beta-galaktozidáz enzimaktivitás mérése transzfekcót követően (köv. alfejezet)

Oldatok összetétele:

  • 1% FBS tartalmú médium (50ml-hez):
  • 50ml üres DMEM (Dulbecco’s Modified Eagle Medium)
  • 0,5ml szűrt, hő kezelt FBS (Fetal Bovine Serum)
  • 0,5ml L-glutamin
  • 0,5ml penicillin-streptomycin
  • PEI-oldat:
  • 4,5 mg PEI 10ml MQ vízben feloldva
  • 6,5-7,5 közöttire kell beállítani a pH-ját
  • 0,2μm-es szűrőn át kell szűrni

Jegyzetek:

A VDR-1 és bGal plazmidokat gyakran használjuk kotranszfekciós esszékben. A bGal egy transzfekciós normalizáló plazmid, minden egyes sejttenyésztő lyukra normalizálható vele a transzfekciós hatékonyság (mix és sejtszám-függő) – a plazmid által kódolt b-galaktozidáz enzim aktivitásának mérésével. A VDR-1 úgynevezett “puffer plazmid”, ha eltérő mennyiségben használunk bizonyos plazmidokat egy-egy lyukban, VDR-1-gyel egészítjük ki hogy minden kondícióban a totál transzfektált DNS mennyiség azonos legyen.

A beta-galaktozidáz enzim aktivitásának mérése:

“beta-galaktozidáz enzimaktivitás mérése transzfekcót követően” c. alfejezetben!

 

Domén szerkezetek meghatározása a SMART adatbázis segítségével

In molecular biology on November 3, 2014 at 6:33 pm

Mi is az a SMART?

A SMART ( Simple Modular Architecture Research Tool) egy biológiai adatbázis, amit fehérje domének, fehérje szekvenciákon belüli azonosítására és szerkezeti analízisére használunk. Használatával több mint 500 domén család tagját azonosíthatjuk melyek a jelátviteli, az extracelluláris és a kromatin-asszociált fehérjék közé tartoznak. Ezek a domének széles körben annotáltak, a fejlődésitani szempontból, a funkcionális alosztály, a harmadlagos szerkezet és a működés szempontjából fontos oldalláncok tekintetében. Minden domén információja egy nem-redundáns fehérje adatbázisban található, továbbá egy kapcsolódó adatbázis rendszer tárolja a keresési paramétereket és a rendszertani információkat.

Jelen tutoriálban az aktuális (2014) működési módjáról adunk egy áttekintést ami előreláthatólag változni fog.

A SMART-ot két különböző módban használhatod: normál és genomikai módban.

A fő különbség közöttük az alárendelt protein adatbázis használatában van.

  • A normál SMART-ban, az adatbázis a Swiss-Prot, SP-TrEMBL és a stabil Ensembl proteomokat tartalmazza.
  • A genomikai SMART-ban, csak a teljesen szekvenált genomok proteomjai használhatóak, Ensembl a metazoákhoz és a Swiss-Prot a maradékhoz.

A protein adatbázis a normál SMART-ban jelentős redundanciával (létszámfölösleggel) rendelkezik, annak ellenére, hogy az azonos fehérjéket eltávolították. Ha arra használod a SMART-ot, hogy domén szerkezeteket deríts fel, vagy meg akarod találni a különböző genomokban a pontos domén számot, fontold meg, hogy Genom módba váltasz.

Az adatbázist az Európai Molekuláris Biológiai Laboratórium (EMBL) kezeli Heidelbergben. Az EMBL egy molekuláris biológiai kutatóintézet, amit 20 európai ország és Ausztrália, mint társult tagállam támogat. Az EMBL 1974-ben jött létre, mint egy kormányközi szervezet, amit a tagországok állami kutatási pénzből tartanak fent. A kutatást az EMBL-ben körülbelül 85 független csoport végzi, átfedve a molekuláris biológia spektrumát. A Laboratórium 5 helyen működik: a fő laboratórium Heidelbergben van, a távoli állomásai Hinxtonban (az Európai Bioinformatikai Intézet (EBI)), Grenoble-ban, Hamburgban, és a Róma közelében fekvő Monterotondoban van.

Magyarország 2014-ben csatlakozott az EMBL-hez!!!

Mindegyik helyszín specifikus kutatási területtel rendelkezik. Az EBI a bioinformatikai kutatások és szolgáltatások fejlesztésének és nagyszámú adatbázis fenntartásának a központja, amelyek díjmentesen hozzáférhetőek a tudományos közösség számára. Grenoble-ban és Hamburgban a kutatás a szerkezeti biológiára összpontosít. Az EMBL kiemelt Egér Biológiai Egysége Monterotondoban található. A székhelyen, Heidelbergben, Sejtbiológiai és Biofizikai, Fejlődésbiológiai, Genom Biológiai és Szerkezeti és Számítógépes Biológiai egységek vannak, valamint szolgáltatói csoportok egészítik ki az előbb említett kutatási területeket.

SMART használata

A következőekben végigmegyünk egy domén szerkezet meghatározásának folyamatán. Azonban azt itt meg kell említeni, hogy nem rögtön a SMART felületen kezdjük. Első lépésként az UniProt adatbázis segítségével kikeressük a megfelelő, meghatározni kívánt domén kódját. Az UniProt a következő linken érhető el: http://www.uniprot.org/. A linkre kattintva megjelenik a főoldal.

Az oldal a következőképpen néz ki:

1

A UniProt egy átfogó, magas színvonalú és szabadon hozzáférhető adatbázisa a fehérje szekvenciáknak és a funkcionális információknak, sok bejegyzés a genom szekvenálási projektekből származik. Nagy mennyiségű információt tartalmaz a szakirodalomból származó fehérjék biológiai funkcióiról.

A UniProt az Európai Bioinformatikai Intézet (European Bioinformatics Institute (EMBL-EBI)), a Svájci Bioinformatika Intézet (Swiss Institute of Bioinformatics (SIB)), és a Protein Információ Forrás (Protein Information Resource (PIR)) közötti együttműködésként jött létre. A három intézményen keresztül, több mint 100 ember vesz részt különböző feladatokban, mint az adatbázis kezelésben, szoftverfejlesztésben és támogatásban.

Az EMBL-EBI-t és a SIB-et a Swiss-Prot és TrEMBL készítéséhez használták, míg a PIR a Protein Szekvencia Adatbázist (PIR-PSD) hozta létre. A TrEMBL (Translated EMBL Nucleotide Sequence Data Library) eredetileg azért jött létre, mert a szekvencia adatok olyan ütemben generálódtak, hogy a Swiss-Prot nem tudott vele lépést tartani. Eközben a PIR fenntartotta a PIR-PSD-t és a kapcsolódó adatbázisokat, köztük az iProClass-t, ami egy fehérje szekvencia adatbázis. 2002-ben a három intézmény úgy döntött, hogy egyesíti erőforrásait és szakértelmét és megalakítja az UniProt konzorciumot, melynek élén Rolf Apweiler, Alex Bateman, Cathy Wu és Ioannis Xenarios állnak.

A UniProt adatbázisok: a UniProt Knowledgebase (UniProtKB→ protein tudásbázis) , a UniProt Reference Clusters (UniRef→ szekvencia csoportok), és a UniProt Archive (UniParc→szekvenciák archívuma). A UniProt Metagenomic and Environmental Sequences (UniMES) adatbázis egy gyűjtemény, mely kifejezetten a metagenomikai és környezeti adatok számára lett kifejlesztve.

Attól függően, hogy mit szeretnél keresni, kiválaszthatod a legmegfelelőbb adatbázist:

2

Ez esetben, példaként tehát, az 1-es típusú ösztrogén receptor (ESR1) doménszerkezetét nézzük meg.
A UniProtKB-t kiválasztva, a keresőbe beírtam, hogy ESR1 (ösztrogén receptor 1). Majd a keresés gombra kattintottam, és a következőt kaptam:

3

Ahogy a piros nyíl is mutatja, a Homo sapiens (Human) ESR1-re kattintottam, mivel ennek a szerkezetét szeretném meghatározni. Így a következő oldalra jutottam:

4

A feljövő ablakban, az ESR1 funkciójáról, lokalizációjáról, egyéb elnevezéséről, mutációiról, expressziójáról, interakcióiról, stb. kaphatunk információt. De ahhoz, hogy mi a SMART-ban a doménszerkezetét láthassuk, a neve mellett lévő, bekarikázott kódot át kell, hogy másoljuk annak keresőjébe. Az alábbi linken érhető el a SMART főoldala:
http://smart.embl-heidelberg.de/

5

A találatok az alábbiak voltak, de a pirossal bekarikázottat választottam:

6

Megkaptam a doménszerkezetet! 🙂

7

A kapott szerkezetet a Zoom in/out gombra kattintva nagyíthatjuk/kicsinyíthetjük. Továbbá beállítható az intronok pozícióinak feltüntetése.

Az egyes doménekre rákattintva, részletes információkat kaphatunk azokról. Így példánk esetében megtudtam, hogy az ESR1, két, alacsony komplexitású régióval, egy C4 cink-ujj doménnel (ZnF_C4), és egy, a hormon receptorokra jellemző ligand-kötő doménnel (HOLI) rendelkezik.

8

9

A doménekről általában

A protein domén az adott protein szekvenciának egy konzervált része és a szerkezete (tercier) képes függetlenül fejlődni, funkcionálni és létezni a fehérje lánc többi részétől. Mindegyik domén egy kompakt 3D-s szerkezetet alkot, és gyakran egymástól függetlenül lehetnek stabilak és hajtogatottak. Számos fehérje különböző szerkezetű doméneket tartalmaz. Egy adott domén különböző fehérjében is megjelenhet. A molekuláris evolúció a doméneket, mint építőelemeket használja, melyeket különböző elrendezésben rekombinál, hogy különböző funkciójú fehérjéket hozzon létre. A domének hossza változó, körülbelül 25 aminosav hosszúságtól, legfeljebb 500 aminosav hosszúságig terjedhetnek. A legrövidebb doméneket, mint a cink-ujj fehérjéket, fémionok vagy biszulfid hidak stabilizálják. A domének gyakran funkcionális egységet alkotnak, mint például a kalmodulin kalcium-kötő EF-hand doménje. Mivel egymástól függetlenül stabilak, géntechnológiával a domének kicserélhetőek az egyes proteinek között, kiméra fehérjéket eredményezve.

Például az ESR1 domén szerkezete:

10

Kék színnel a DNS kötő domén (azaz a C4 cink-ujj domén), míg zöld színnel a ligand kötő domén (HOLI) látható.

A cink-ujj fehérjék

A cink-ujj (Znf) domének viszonylag kis fehérje motívumok, melyek összetett ujj-szerű kiemelkedéseket tartalmaznak, amik tandem kapcsolatokat létesítenek a célmolekuláikkal. Néhány ilyen domén képes cinket kötni, de sokan közülük nem, azok helyette fémet (mint például vasat), vagy pedig nem-fémet kötnek. Például, néhány családtag só hidakat hoz létre, hogy stabilizálja az ujj-szerű redőket. Először, mint DNS-kötő motívumot azonosították őket a Xenopus laevis (Afrikai karmos béka) TFIIIA transzkripciós faktorában, azonban mára felismerték, hogy DNS-hez, RNS-hez, fehérjékhez és/vagy lipid szubsztrátokhoz is képesek kötődni. A Znf domének gyakran klaszterekben találhatóak, ahol az ujjak különböző kötési sajátságokkal rendelkeznek. Jelentős sokoldalúságot mutatnak a kötési módokban, akár az azonos osztályba tartozó tagok között (pl.: néhányan DNS-hez, mások fehérjékhez kötődnek), ami arra utal, hogy a Znf motívumok stabil scaffold-ok (állványok), amik kialakított specializált funkciókkal bírnak. Például, hogy néhányat említsek, a Znf-t tartalmazó fehérjék a gén transzkripcióban, a transzlációban, az RNS-forgalomban, a citoszkeleton-szerveződésben, az epitheliális fejlődésben, a sejt adhézióban, a fehérje összetekerésben, a kromatin átalakításban és a cink-érzékelésben vesznek részt. A cink-kötő motívumok stabil struktúrák, amik ritkán ugyan, de konformáció változáson eshetnek át a célmolekulához történő kötődést követően.

A cink-ujj fehérjékről szóló videót lásd az alábbi linken:
https://www.youtube.com/watch?v=WyU2v7HT6bw

HOLI (hormon receptorok ligand-kötő doménje)

A szteroid vagy nukleáris hormon receptorok transzkripciós szabályozók fontos szupercsaládját alkotják, amik igen sokféle élettani funkcióban vesznek részt, beleértve az embrionális fejlődés szabályozását, a sejt differenciálódást és a homeosztázist. A receptorok a sejtmagban dimer molekulákként funkcionálnak, hogy ligand érzékeny módon szabályozzák a célgének transzkripcióját.

A nukleáris hormon receptorok nagymértékben konzervált DNS-kötő domént tartalmaznak, ami felismeri a specifikus szekvenciákat, s a C-terminális ligand-kötő doménhez egy linker régión keresztül kapcsolódik. Továbbá, bizonyos nukleáris hormon receptorok N-terminális moduláló doménnel rendelkeznek.

A ligand-kötő domén ligand kötődésre válaszol, vagyis a receptor konformációs változását idézi elő, kialakítva ezzel a választ. Így molekuláris kapcsolóként hatva bekapcsolja a transzkripciós aktivitást. A ligand-kötő domén egy olyan rugalmas egység, ahol a ligand bekötődése stabilizálja annak konformációját, ami viszont kedvez a koaktovátor bekötődésnek, módosítva a receptor aktivitását. A koaktivátor a ligand-kötő domén C-terminális végégnek AF2 helyéhez kötődik be. Tehát a ligand bekötődése a ligand-kötő domén konformációját megváltoztatja, ami viszont kihat a DNS-kötő domén DNS-kötő specificitására.

A hormonhatás mechanizmusa:
https://www.youtube.com/watch?v=TgNwxF3aQpE

Az alábbi linkre kattintva többet tudhatsz meg az ESR1-ről, illetve az ESR2-ről, de ez utóbbit példánkban nem említettük:
http://en.wikipedia.org/wiki/Estrogen_receptor

Az ösztrogén hatásmechanizmusáról szóló videó az alábbi linket érhető el:
https://www.youtube.com/watch?v=JQcFk7J_Tf4

Visszatérve a példánkhoz…

A szerkezeti ábra alatt található részben összegzik a receptorról meglévő adatokat. Öt fülön belül keresgélhetünk tovább:

11

Például, megnézhetjük, hogy mikkel áll kapcsolatban az ESR1:

12

Az ismert és a feltételezett kölcsönhatások a STRING adatbázisból érhetőek el:
http://string-db.org/

Sikeres keresgetést!  🙂

Flóra

A NanoDrop használata nukleinsav mérésre.

In molecular biology on February 17, 2014 at 10:33 am

Bevezetés:

A spektrofotometria az egyik legelterjedtebb anyagvizsgálati módszer. Az igen sokféle mérési technika közös alapja az, hogy az anyagok molekuláris,- atomi szintű energia átmenetei kvantáltak és ezek az energiaszintek jellemzőek az adott anyagra. Az egyes energia-átmenetekhez meghatározott hullámhosszak (elnyelt vagy kibocsátott) tartoznak a E=hν=hc/λ összefüggés alapján. Ha megvizsgáljuk egy gerjesztett állapotban levő anyag sugárzásának, a hullámhossz szerinti eloszlását (spektrumát), abból következtethetünk részben az anyagi minőségre, részben az anyagmennyiségre, sőt némely esetben a molekula-szerkezetre is. Ezt emissziós színképelemzésnek nevezzük. Ugyanez a cél az abszorpciós fotometriában, itt egy alapállapotú anyagot világítunk át valamilyen folytonos sugárzással és az átbocsátott/elnyelt sugárzást elemezzük. Legegyszerűbbek és legelterjedtebbek a látható fénnyel történő mérések, de a szerves molekulák vizsgálatára az infravörös tartományba eső rezgési színképeket használják.

Az anyagok spektroszkópia szempontjából fontos tulajdonsága a szín, amely szoros összefüggésben van molekula-szerkezetükkel. Sznesnek akkor nevezünk egy anyagot, ha a ráeső fényből szelektíven abszorbeál, vagy szelektíven ver vissza. Ha pl. valamely anyag a fehér fényből a vöröset nyeli el, akkor a többi spektrum szín keverékét, vagyis a zöldet engedi át vagy veri vissza. Lehetséges az is, hogy az anyag az ultraibolya vagy az infravörös tartományban abszorbeál, ezt szemünk nem érzékeli, az ilyen anyagokat színtelennek látjuk.

A nukleinsavak mennyiségi meghatározásához leggyakrabban a 260 nm-en mért elnyelési értéket szokták figyelembe venni. Ez a legegyszerűbb, leggyorsabb és legelterjedtebb módszer az RNS és DNS tartalom megállapítására. A tiszta nukleinsavak jellegzetes elnyelési profilt mutatnak 230 és 320 nm között. 320 nm-nél a tiszta nukleinsav-mintának nincs már elnyelése. A normális görbétől való eltérés szennyezők jelenlétére utal. Az elnyelés egyenesen arányos a minta RNS vagy DNS tartalmával. A nukleinsavak abszorpciós maximuma 260 nm-nél látható. Az elnyelés mértékéből a koncentráció a következő egyenlet alapján számítható:

μg (RNS) / ml = A260 × hígítás × 40,

ahol

A260 = elnyelés (abszorpció, optikai denzitás) 260 nm-nél (OD260)

hígítás = a hígítás mértéke, pl. tízszeres hígításnál 10

40 = az RNS átlagos extinkciós koefficiense (40 μg / OD260).

A pontos érték függ a pH-tól, illetve közvetett módon az azt befolyásoló tényezőktől. A kettős szálú DNS koncentrációja hasonlóan számolható (50 μg / OD260), de mivel a timin és az uracil extinkciós koefficiense különbözik, a DNS-szennyezett RNS-oldat, ill. az RNS-szennyezett DNS-kivonat elnyeléséből helytelen adat számolható.

A spektrofotometriára manapság leggyakrabban használt eszköz a NanoDrop. Amelyek nagy előnye, hogy nem küvettában, hanem két száloptika között mágnes segítségével kifeszített egyetlen cseppben mérik egy adott oldat elnyelési tulajdonságait. 0,5-3 μl minta elegendő a méréshez, ami nem elhanyagolható előny egy 20-60 μl végtérfogatú nukleinsav-kivonat esetén. A készülék a mérés után a 220 és 350 nm közötti spektrumot is kirajzolja, ill. a helyes beállítás mellett ng/μl mértékegységgel azonnal kijelzi a minta nukleinsav-tartalmát is.

ND2

Használat

Előkészítés

A munka megkezdése előtt fontos a munkavégzéshez szükséges anyagok s eszközök odakészítése. A mérés során 10 μl-es pipettára, 10 μl-es pipetta hegyre, NFW-re (nuclease free water), kis papírtörlőre, s persze magára a mintára lesz szükségünk. A NanoDrop, s a hozzá kapcsolódó számítógép kizárólag gumikesztyűben használható!

Program indítása

A számítógép asztalán a NanoDrop 1000 ikonra kattintva indítjuk el a programot. Ekkor a következő ablak jelenik meg, ahol a felhasználó illetve a mérni kívánt anyag állítható be. DNS/RNS mérése esetén a Nucleic Acid menüpontot válasszuk ki.

ND4

Kezelőfelület, használat

A megjelenő ablak jobb felső sarkában (Sample type) állítható be a mérni kívánt nukleinsav. Alatta adható meg a minta „neve” (Sample ID). Nagyon fontos, hogy ez egy olyan kód legyen, mely tartalmazza a mérést végző személy nevét, a mérés dátumát, s a minta azonosítóját.  A következő sorban a mérések sorszáma látható, ez automatikusan sorszámozza a méréseket. Az ablak jobb alsó sarkában a minta nukleinsav tartalma látható ng/μl mértékegységben.

ND5

A program indításakor az inicializáláshoz 1-5 μl NFW-t pipettázunk a minta felviteli felületre, ráhajtjuk a kart majd az OK-ra kattintunk, a folyamat indításához. Utána kis papírral mindkét felületet alaposan megtöröljük. Ezt követően további mosásokat végzünk. Továbbra is 1-5 μl NFW-t viszünk fel (vagy olyan oldatot, amelyben a nukleinsav fel van véve, pl. különböző DNS-tisztító kitek esetén bizonyos sóoldatok), majd „Blank-ra” kattintva végezzük a nullázást (háttérfelvétel). Ezt követően már mérhetjük a mintáinkat, melyből 1-2 μl-t használunk. Figyeljünk a név beállítására, s a minták közt alaposan töröljük meg a felületet.

ND3

Ha végeztünk a mintákkal, eredményeinket megtekinthetjük a „Show-report-ra” kattintva, továbbá kinyomtathatjuk a „Print-report” segítségével.

ND6

Minőségellenőrzés:

Érdemes az eredményeink elemzésénél ellenőrizni az OD 260/280 és OD 260/230 arányt, melynek a nukleinsav minták minőségi mutatói. A következőket érdemes tudni ezen számarányokról:

– A 260/280 arány protein, fenol vagy egyéb, 280 nm-en abszorbeáló szennyeződés jelenltére utal: RNS esetén 2.0, DNS esetén 1.8 tekintehtő teljesen tisztának.

– A 260/230 arány elsősorban partikuláris szennyeződésekre utal: általában mind DNS, mind RNS esetén magasabb, mint a 260/280 arány, általánosan 1.8-2.2 között mozog. Ha ennél alacsonyabb, az jelzi a kontaminációt.

Ezt követően a kikapcsolás előtt, 3x mossuk a gépet, megkönnyítve ezzel azon kollegánk (vagy épp a magunk) dolgát, aki utánunk következik. Épp ezért ne felejtsük ezt el! Végezetül a jobb felső sarokban lévő „Exit-re” kattintva léphetünk ki a programból.

 

A leírást Pataki Zoltán készítette.

Lektorálta: Ozgyin Lilla.

Gélelektroforézis

In molecular biology on October 27, 2013 at 2:14 pm

Az elektroforézis elvi alapjai

Töltéssel rendelkező részecskék elektromos térben töltésüknek megfelelő irányban mozognak. A pozitív töltésű kationok a negatív katód, míg a negatív töltésű anionok a pozitív anód felé haladnak. Az elektródok felületéhez érve az ionok töltésüket elvesztik.  Elválasztástechnikai szempontból az ionok áramlása, az ún. elektroforézis a lényeges, az ionok semlegesítődése az elektrolízis másodlagos kísérőfolyamatnak tekinthető.

Az ionok vándorlási sebességét töltéssűrűségük és az alkalmazott feszültség-gradiens nagysága szabja meg. A feszültség-gradiens egyenesen arányos a két elektród közötti feszültségkülönbséggel és fordítottan arányos az elektródok távolságával.  Az ionok töltéssűrűsége egyenesen arányos a nettó- töltéssel  és fordítva arányos a mérettel.

Az ionok eltérő töltéssűrűségük miatt eltérő sebességgel mozognak az elektromos térben, ami lehetővé teszi elválasztásukat. A töltéssel rendelkező ionok kialakulásának mértéke a közeg pH-jától függ.

Mindez lényegében azt jelenti, hogy minél kisebb egy ion tömege/mérete, annál gyorsabban tesz meg hosszabb távot a gélen, míg a nehezebb hosszabb idő alatt rövidebbet.

A katódon H2, az anódon O2 gáz keletkezik.

Az elektroforézisnek több típusa alakult ki a tudomány fejlődésével: szabad-határfelületű elektroforézis, zóna elektroforézis (hordozóval végzett), és végül az agaróz gél elektroforézis.

 

Agaróz gél elektroforézis

 

Az agaróz gélelektroforézis elsősorban nukleinsavak analízisére alkalmas módszer, egyéb kísérletes reakciók sikerességének ellenőrzésére szolgál: PCR, restrikció, szonikálás, DNS- és RNS-tisztítás. A nukleinsavak elválasztása elektromos erőtérben, hálózatos gélmátrixban, megfelelő nukleinsav referencia „létra” jelenlétében történik, detektálása fluoreszcens nukleinsav-festékkel történik.

 

GeneRuler_DNA_Ladder_1

A Thermo Scientific cég forgalomban lévő néhány “GeneRuler” létra

Az agaróz lineáris poliszacharid, melyet tengeri algából nyernek. Az alacsony olvadáspontú agaróz egészen kis DNS darabkák (50-500 bázispár) elválasztására is alkalmas, azonban az agaróz géleket általában nagyobb méretű molekulák szeparálására használjuk. A DNS vándorlási sebességét az agaróz gélben számos tényező befolyásolja. A DNS neutrális pH mellett negatív töltésű és az anód felé mozog. A nagyobb DNS darabok lassabban, a kisebbek gyorsabban mozognak a molekulaszűrő hatás miatt.

Ám a mérete mellett alakja is módosítja a vándorlás sebességét; a szuperhelikális, cirkuláris és lineáris DNS mozgékonysága az elektroforézis körülményeitől függő módon eltérő.

A gélben lévő DNS-t ethidium-bromiddal festik. A festék molekulái beékelődnek a DNS bázispárjai közé. A festék UV fényben láthatóvá válik, mivel 550 nm-en vöröses narancsszínű fluoreszcens fényt bocsát ki. A DNS festést legtöbbször az elválasztás után végzik, azonban meggyorsítható a detektálás úgy is, hogy az ethidium-bromidot már a gél készítésekor belekeverjük a gél anyagába. Az ethidium-bromid karcinogén, a vele való munka és a feleslegessé váló hulladék megsemmisítése nagy körültekintést igényel!

Ezért a laborban leginkább GelRed-et használunk DNS festésre, a gélhez a készítése során adjuk hozzá.

Agaróz gél készítése és öntése

 Gél készítése:

Általában 1%-os gélt szoktunk készíteni és önteni. Ez persze a végezni kívánt kísérlettől függ, ha a vizsgált nukleinsav rövid akkor töményebb, ha hosszabb akkor hígabb géllel kell dolgoznunk.

Kis futtatókáddal dolgozunk melybe mintafelvivő fésűt helyeztünk. Táramérlegen bemérünk 0,7 g agarózt, ezt beleszórjuk borszilikát üvegbe és ezt felöntjük 70 ml 1x TAE pufferrel. Ezt az elegyet mikrohullámú sütőben felmelegítjük annyira, hogy egy vízszerű, áttetsző agaróz szemcséket nem tartalmazó szirupszerű folyadékot kapjunk. Mindezt gyakori rázogatással érhetjük el gumi védőfogóval tartva az üveget hiszen nagyon forró. Az üveg kupakja végig rajta kell legyen meglazítva. Amikor kész ez az oldat akkor visszahűtjük az üveget kézmelegre és 1000x GelRed dsDNS (duplaszálú DNS) festéket adunk az agarózhoz. Az elegyet a kádba öntjük és az esetlegesen képződő buborékokat egy pipetta hegyének segítségével megsemmisítjük, ugyanis ha benne marad és úgy szilárdul meg az hibát okozhat a minta futásában.

Miután megszilárdult a gél a kádat 1x TAE pufferrel töltjük fel úgy, hogy fél cm-re ellepje a gélünket.

 Mintafelvitel:

Ált. 200-500 ng DNS már szép, látható jelet ad. Leggyakrabban Xylén-Cyanol loading dye segítségével tesszük láthatóvá a mintáink futását.

Az egyik vagy mindkét szélső zsebbe DNS létrát töltünk, majd sorban a mintáinkat. Gyorsan kell dolgoznunk, hogy ne diffundáljanak szét.

 Futtatás:

Ez a művelet úgy történik, hogy mivel tudjuk, hogy a DNS töltése negatív és ezért a pozitív irányba fog futni, ezért ennek megfelelő elrendezésben fedjük le az elektromos csatlakozókat tartalmazó fedővel a kádat és azokat csatlakoztatjuk is hozzá illetve a tápegységhez. A feszültség, futtatási idő változtatható a mintánk függvényében.

electrophoresis cr vs

 Elektroforetikus berendezés

   A gél vizsgálata:

A DNS sávok detektálása UV átvilágító asztalon történik védőálarcban. A gélt az átvilágító lapra kell helyezni és rázárni a fedelet. Az UV fényben láthatóvá válnak a gélben lévő

DNS sávok. Ezek helyzete és intenzitása felvilágosítást ad a minta tisztaságáról. Ha a várt sávok mellett további sávok is láthatók akkor az szennyezettségre utal. A plusz sávok mennyisége a szennyezettség mértékével arányos. Lehet degradáció miatt, RNS szennyezettség miatt, minta szétfutása miatt stb.

gel_0_0

 Fluoreszcensen jelzett DNS UV fényben

Az alábbi videóban megnézheted az elektroforézis folyamatát:

http://www.youtube.com/watch?v=ztKgyIqqA4U

 Sok sikert!

 Andi és Flóra

 

Sejtszámolás

In molecular biology on October 9, 2013 at 2:08 pm

A számolás lényege, hogy a sejtszuszpenzióból (az az oldat, amiben a sejtek a lehető legegyenletesebben vannak eloszlatva) egy kis mintát veszünk, abban meghatározzuk a sejtszámot, és az így kapott értékből következtetünk a teljes mennyiségre. A meghatározáshoz – a mikroszkóp mellett – egy segédeszközt használunk, ez a Bürker-kamra.

Bürker-kamra felépítése:

Ez egy vastagabb üveglemezből és egy vékony fedőlemezből áll. A vastag lemezre finom beosztás van karcolva. A kamra olyan, hogy ha a fedőlemezt a vastag lemezre helyezzük és azt leszorítjuk, akkor pontosan 0,1 mm vastag rés marad közöttük. A vizsgálandó anyagot ebbe a résbe helyezzük be a fedőlemez felhelyezése után úgy, hogy a vastag lemezbe vésett H alakú mélyedés szárai között található négyzetnél a fedőlemez széléhez cseppentjük. Mivel tudjuk a rés vastagságát és a vastag üveglemezen levő beosztások távolságát, a beosztások és a fedőlemez által határolt bármelyik téglatest térfogatát meg tudjuk határozni, így meg tudjuk adni a térfogategységben található sejtek számát.

 burker2

Taktikai segítség:

A számolást általában a bal felső sarokban 3 vonallal körülhatárolt négyzetben érdemes kezdeni. Ezt a lentebb látható képen kék négyzetek mutatják. A három vonal közzül azokat a sejteket számoljuk bele amelyek a középső vonalon vannak. Annak elkerülése érdekébe, hogy belezavarodjuk melyik sejtet is számoltuk, érdemes úgy csinálni, hogy azokat a sejteket is beleszámoljuk  amelyek a három vonallal körülhatárolt négyzetben felül és jobb oldalon középső vonalon vannak.A sejtek számolását balról jobbra végezzük. Általában 3 ilyen három vonallal határolt négyzetben határozhatjuk meg sejtek számát és ezeket átlagolva következtethetünk a teljes mennyiségre.

Burker3

Jó munkát! 🙂

Dóri és Niki

qPCR primertervezés egyszerűen

In molecular biology on September 5, 2013 at 5:17 pm

Kvantitatív PCR alapok

A qPCR technika (Real-Time, azaz valós idejű, kvantitatív) a nukleinsavak (DNS vagy cDNS) relatív/abszolút mennyiségi meghatározásának ún. “gold standard”-je. Alapelve nem különbözik a hagyományos, végpontos PCR-től, azonban van egy alapvető különbség: a fluoreszcens festékek használata. Ezek segítségével valós időben, a PCR ciklusok során, valós időben detektálható az aktuális DNS mennyiség az akkumulálódó fluoreszcens jel által. A fluoreszcens festékek közül elsősorban a SyBrGreen-t alkalmazzák, amely interkalálódik, így minden duplaszálú DNS-hez kötődik, ezáltal mind a primer dimerek, mind az aspecifikus amplikonokat kimutatja. Ezzel szemben a szekvencia-specifikus próbák, mint a “molekuláris fáklya” (Molecular Beacon), Skorpió és TaqMan hidrolízis próbák a két PCR primer közötti szekvenciához kötődve csakis a célszekvencia amplifikációját jelzik.

Kísérleti céltól függően különböző módon kell PCR primereket terveznünk. Genomi DNS esetén elsődleges fontosságú annak szem előtt tartása, hogy génre végzett PCR esetén tartalmazza az intronokat, így intron-exon határra tervezett primerekkel elkerülhető, hogy RNS amplifikálódjon. RNS abszolút vagy relatív kvantitálása esetén célszerű két szélső exonra tervezni, biztosítva, hogy az intronokat tartalmazó genomi DNS ne sokszorozódjon egyszerűen amiatt, mert az áthidalandó távolság a két primerpár közt túl nagy. Mindkét esetben figyelni kell az SNP-k jelenlétére, amelyek egyes esetekben teljesen meghiúsíthatják a reakciót.

A UPL rendszer

Laboratóriunkban évek óta az úgynevezett UPL rendszert használjuk.  Az itt mért adatpontok nagy része valószínűleg qPCR mérésekből származik, így hasznos lehet áttekinteni az esszétervezés szabályait. A UPL rövidítés az “Universal Probe Library” elnevezésből származik, amely kifejezés onnan ered, hogy olyan oligo szettet forgalmaznak (Roche), amely 165 különböző fluoreszcens hidrolízis próbát tartalmaz. Ez a szett teljes mértékben lefedi az eddig szekvenált genommal rendelkező összes élőlény transzkriptjeit azáltal, hogy a transzkriptek leggyakoribb 8-mer és 9-mer motívumait gyűjtötték össze. Így ha qPCR-t tervezünk, nincs szükség manuálisan megtervezni a próbát, hanem a Roche weboldalán elérhető “Assay Design Center”-ben a megfelelő lépések sorozatát követően a kívánt transzkriptre megkapjuk mind a legoptimálisabb PCR primerpárok szekvenciáját, mind az ezekhez ajánlott UPL próba számát. A laborunk rendelkezik ezen UPL próbák közül 90-nel, amelyek a teljes humán genomot lefedik. Ezen próbák jellegzetessége, hogy elkészítésükkor az ún. LNA technikát alkalmazták, amely annyit jelent, hogy olyan nukleotid-analódokat használtak szintéziskor, amelyek kémiailag erősebben kötődnek a templátjukhoz, mint a konvencionális oligonukleotidok. Erre azért van szükség, hogy kellően magasan tarthassuk a Tm-et rövid próbák mellett is ( a UPL próbák átlagosan 8-9 nukleotid hosszúságúak). Az LNA-król bővebben a következő linkeken olvashatnak, angol nyelven: 1., 2. A UPL rendszer leírása szintén angolul: itt.

A UPL Assay Design Center használata

Az elkövetkezőkben végigmegyünk egy példán keresztül a qPCR esszétervezés folyamatán. Az esszétervezés egy egyszerű webes felületen valósítható meg, amely a Roche oldalán, az alábbi közvetlen linken érhető el: UPL Assay Design Center. A linkre kattintva egy új ablakban meg fog jelenni a tervezőközpont főoldala, ahol alapbeállításokat végezhetünk. Az oldal a következőképpen néz ki (kattintással nagyítható):

UPL1

A főoldalon 3 fő lépés olvasható:

  • válassza ki az organizmust
  • vigye be a szekvenciát (copy&paste, szekvencia név vagy adatbázis ID alapján)
  • nyomja meg a “Design” gombot

Valóban ennyire egyszerű. A szekvenciabevitelnél esetünkben az adatbázis ID-t használjuk. Az ENSEMBL egy gén alapú genomböngésző, olyan genomi információkat tartalmazó, gazdagon annotált adatbázis, amely a genetikusoknak, molekuláris biológusoknak, és általában a genommal foglalkozó kutatóknak biztosít kiváló információforrást projektjeikhez. Többek között információt kaphatunk az adott pozíciókban fellelhető SNP-kről és az adott organizmusban megtalálható transzkriptekről (különböző RNS-ek, alternatív splice variánsok, exon-intron struktúra és egyebek). Így ha az ENSEMBL segítségével terveztetünk esszét a tervezőközpontban, biztosak lehetünk benne, hogy mindenre kiterjedően történik a primerek kiválasztása. A genomböngésző főoldala a következő linken érhető el: ENSEMBL.

Az ENSEMBL oldalán első lépésként bal oldalon ikonokon keresztül, vagy legördülő menüből ki kell választani azt a fajt, amelyből qPCR-t tervezünk, ezt követően egy új oldalon megjelenik a génspecifikus keresési felület. Esetünkben az egér IL-6 génre tervezünk qPCR esszét (kattintással nagyítható):

UPL1

upl4

A “Go”-ra kattintva megjelenik az adott génre  többféle tulajdonság. Ezek közül a “Gene”-re kattintunk:

UPL4

A linkre kattintva több eredményt is kaphatunk. A leírásukból megállapíthatő, hogy csak az első(néhány) a keresett gén, a többinek csak valamilyen biológiai kapcsolata van a sejtben a választott géntermékkel. Esetünkben a második találat az IL-6 receptorának génje.  Az első találatot választjuk, rákattintva a Gene ID-ra:

upl2

Ennek következtében a következő oldalra jutunk, amelyen a gén különböző tulajdonságait találjuk, az alternatív transzkriptekkel együtt, amelyek egy táblázat formájában jelennek meg. Ezeket egyenként megtekintve kiválasztható, hogy melyikre érdemes az esszét tervezni. Például lehetséges, hogy egyes transzkriptek “bizonytalanok”- van, amelyik nem íródik át fehérjévé, van, amelyik korán lebomlik és szintén nem eredményez fehérjét. Más esetben a kódoló szekvencia nem teljes. Minden esetben a bejegyzéseket egyenként kell ellenőrizni, így megtudhatjuk, melyik szakasz az, amely pl minden teljes értékű splice variánsban benne van. Esetünkben egy transzkript van: ENSMUST00000026845.

upl1

Térjünk vissza a UPL oldalára: UPL Assay Design Center.

A főoldalon válasszuk ki az organizmust (egér), majd a megjelenő oldalon másoljuk be a talált ENSEMBL azonosító(ka)t – ha többet is választottunk, akkor azokat vesszővel elválasztva írjuk be a boxba –  majd válasszuk ki az “intron spanning assay”-t alul, hogy a genomi DNS ne zavarjon be a reakcióba:

upl6

A lap alján található “Design” gombra kattintva a szoftver újra rákérdez, hogy milyen transzkriptekre tervezünk. Az előzőeket bejelölve rákattintunk ismét a “Design” gombra. A következő eredményt kapjuk:

upl5

A program kiad egy-egy primerszekvenciát és az ajánlott UPL próba számát (#6). Az alsó összefoglaló ábrán látható a két primer és a próba elhelyezkedése az RNS-en belük, valamint jelölve vannak a SNP-ek. A “PDF report gomb megnyomásával PDF formátumban letölthető a tervezett esszé.

A következő, minőségi kontroll lépés az esszé ellenőrzése az UCSC Genome Browser-en (e-PCR). Ez a genomböngésző alkalmas (sok más mellett) arra, hogy megnézhessük az adott génen a primerek orientációját, hogx valóban intron-átérő-e (intron-spanning) stb. A UCSC e-PCR oldala a következő linken elérhető: UCSC in silico PCR.

upl7

A fent pirosan keretezett részt kell kitölteni, egyrészt a fajnévvel, az adott fajhoz tartozó genom “assembly”-vel ( ált. a legújabbal), targetként RNS mérés esetén a “UCSC genes”-t választjuk. A két primert is bemásoljuk és a “submit”-ra kattintva megkapjuk a szekvenciát, amit meg lehet jeleníteni: a “keletkezett” PCR terméket jelöltem piros kerettel az alábbi képen – jól látszik, hogy megfelel az elvárásainknak, megfelelő orientáltságúak a primerek és intronnal elválasztott exonokon vannak a primerek.

upl8

Ezt követően megrendelhetjük a HPLC-tisztított primereket. Célszerű 2-3 esszét tervezni azonos génre, mert tapasztalataink szerint ezek 2/3-a nem, vagy csak optimalizálás után működik jól.

Általános qPCR szabályok:

  • Az amplikon (termék) hossza a lehető legrövidebb legyen (60-70 bp ideális, de mindenképpen 100 bp alatt).
  • A primerek Tm-je 60°C körül legyenek, míg a próbáé 10°C-kkal felette.

  • Az oligo és a próba közötti távolság minimális ekell, hogy legyen, mivel a Taq polimeráz exonukleáz aktivitása így a legnagyobb.
  • Az oligok Tm-je (GC-tartalom)  a lehető legközelebb legyen egymáshoz.
  • A két primer 3′ végének utolsó 5 nukleotidjai között a GC-tartalom lehetőleg identikus legyen.
  • Olyan oligo szetteket válasszunk, amelyek belső kötései gyengék.
  • Kerüljük el a primer dimereket és a belső önálló konformációkat:

conformations

  • Igazoljuk primerjeinket e-PCR segítségével, UCSC Genome Browseren.
  • Ha lehetséges, annotált adatot használjunk, hogy elkerülhessük az SNP-effektust.
  • Ha géneket PCR-ezünk (mRNS – cDNS), akkor olyan exonokat válasszunk, amelyek minden alternatív splicing variánsban megvannak (batch assay vagy common assay néven az UPL Design Centerben).

Sok szerencsét és sikeres próbálkozásokat 🙂

Lilla

Restrikciós analízis (Restrikciós enzimek)

In molecular biology on August 27, 2013 at 2:22 pm

A restrikciós analízis olyan molekuláris biológiai módszer, melyhez restrikciós endonukleázokat, röviden restrikciós enzimeket alkalmaznak.  A restrikciós enzimeket plazmidok hasítására használják.  Ezek az enzimek a baktériumban immunfunkciót látnak el. A baktériumban páronként jelennek meg: DNS metiláz és maga a restrikciós enzim vagy más néven endonukleáz. Mindketten ugyanazt a szekvenciát ismerik fel.  A baktérium szekvencia specifikus módon metilálja a saját DNS-ét. Ezáltal az védett lesz minden más idegen DNS-től.  Minthogy a horizontális génátvitel eléggé gyakori a baktériumban, így az meg tudja védeni a saját genetikai anyagát a restrikciós enzimek segítségével.  Az idegen DNS belépve  a sejtbe eltérő DNS metiláló mintát fog bemutatni. A metilálatlan felismerési szakaszt a restrikciós enzim levágja és ezáltal tönkreteszi.

A különböző baktérium törzseknek különböző restrikciós enzimei vannak, melyeknek  eltérő a felismerési szakasza ( természetesen mindegyiknek van DNS metiltranszferáza is).

Egy molekuláris biológiai laborban arra használjuk a restrikciós enzimeket, hogy hasítsuk és ezáltal manipuláljuk a plazmidokat.  Olyanok mint az olló, ami a rá specifikus részeket tudja kivágni a plazmidból, hogy megtisztítsa azt.

A restrikciós endonukleázoknak három típusa ismert: az I. III.  típusok molekuláris biológiai szempontból már nélkülözhetőek, míg a II-es típus nélkülözhetetlen.

Tulajdonságaik:

  •  csak endonukleáz aktivitásuk van, azaz a metilálást mindig egy másik enzim fogja végezni. A II-es típusnál van egy módosító enzimpár is a metiláló mellett.
  • mindig ugyanott, ugyanúgy, adott enzimre jellemző felismerési szekvencián belül vagy annak közelében hasítja a DNS-t
  • működésükhöz ATP nem szükséges, Mg2+ viszont kell!!!

Isoschizomereknek nevezzük azokat az enzimeket, amik azonos szekvenciát ismernek fel és azonos helyen hasítanak.

Neoschizomereknek nevezzük azokat az enzimeket, melyeknek csak a felmerési szekvenciájuk azonos, hasítási helyük különböző.

Nézzünk meg néhány alap restrikciós enzim használatot:

YOUTUBE – Restrikciós enzimek

Mindig amikor enzimekkel dolgozunk feltétlen gumikesztyűt kell húznunk, és az enzimet jégen tartanunk!!!

A restrikciós enzimek egysége a U (unit) az a mennyiség ami ideális körülmények között, egy óra alatt egy mikrogramm plazmid hasításához szükséges.

Egy tipikus restrikciós enzimmel végzett reakciót az alábbi példán szemléltetjük:

Hasítást végző restrikciós enzim:  EcoRI.

Jelentése: E= nemzetség Escherichia

co= faj coli

R= törzs

I= elsőként izolált endonukleáz

Protokoll ( minden gyakorlat előtt egy tervet készítünk,hogy mi szerint végezzük majd a feladatunkat ) :

1. A restrikciós reakció komponenseit jégre tesszük és kiolvasztjuk. Az enzimet glicerollal együtt tároljuk Eppendorf csövekben -20°C-on. A glicerol azért szükséges,hogy az enzimünk ne fagyjon meg. Használat előtt az enzimet tartalmazó csövet vortexeljük,hogy kicsit felkavarjuk.

2. Összemérjük jégen a reakciókat. Példánkban a végtérfogat 50 ul.

Így ennek megfelelően 37 ul NFW-t (nukleáz mentes vizet), 5 ul 10x-es hígítású   EcoRI puffert, 7ul 1ng-os templát DNS-t és 1ul 10U/ul-es enzimet mérünk össze.

3. Ezt követően 30 percig inkubáljuk 37°C-os vízfürdőben.

Néhány általános szabály amit jó tudni :

  • az enzim a lehető legrövidebb ideig tartózkodjon -20°C feletti hőmérsékleten
  • az enzim glicerolban oldott, és az gátolhatja a hasítást, így általános szabály, hogy a teljes reakciótérfogat max. 10%-a lehet az enzim
  • enzimenként eltérő a puffer összetétele
  • a reakció utolsó hozzáadott komponense mindig az enzim!!!
  • ha tovább szeretnénk vinni a reakciót pl. ligálási reakcióhoz,  célszerű hőinaktiválni ( ált. 65°C, 20 perc, enzimfüggő )
  • lehet egy csőben dupla hasítást végezni, de ekkor figyelni kell a pufferegyeztetésre
  • szuboptimális körülmények közt “star” aktivitás jelentkezik

Belepillanthatsz a módszer alkalmazásába az alábbi videóban.

YOUTUBE – Restrikciós emésztés és klónozás

Sok szerencsét!

Andi és Flóra

Tons of Resources for High Resolution Melt Analysis

In molecular biology on August 28, 2011 at 10:33 am

In this self-guided slideshare presentation you will  learn the basics of High Resolution Melt Analysis HRM, applications, important considerations, assay

via Tons of Resources for High Resolution Melt Analysis.

%d bloggers like this: