Labtutorials.org

DNS szekvencia motívumok azonosítása I.

In bioinfo, bioinformatics, bioinformatika, molecular biology on December 14, 2018 at 1:01 pm

A két leggyakrabban feltett kérdés, amikor motívumanalízisről beszélünk:

  1. Milyen szekvencia motívumok „dúsulnak fel” a transzkripciós faktor kötőhelyek egy előre definiált csoportjában?
  2. Jelen van-e egy adott transzkripciós faktor motívuma a transzkripciós faktor kötőhelyek egy előre definiált csoportjában?

Ebben a bejegyzésben az első kérdés megválaszolására alkalmas bioinformatikai módszerről fogok írni – de előtte néhány gondolat arról, mik is azok a motívumok.

A motívumokról

A szekvencia motívumok viszonylag rövid, általában 6-20 bázispár hosszú, visszatérő mintázatok a DNS szekvenciájában, melyeket bizonyos DNS-kötő fehérjék, transzkripciós faktorok képesek felismerni. Ezekhez a motívumokhoz a transzkripciós faktorok sokkal nagyobb affinitással képesek kötődni, mint egy nem specifikus szakaszához a DNS-nek; ebből adódóan azonosításuk fontos a génszabályozás pontos megismerésének szempontjából.

A motívumok azonosítása régen és most

Elsőként 1975-ben David Pribnow azonosította azt a 6 nukleotid hosszúságú TATAAT motívumot (TATA-box), melyről kiderült, hogy mind eukariótákban, mind prokariótákban az egyik alapvető transzkripciós iniciációs helyet jelöli a gének promóter régiójában (10 bázispárra a kezdőponttól). Baktériumokban a TATA-boxon túl (35 bázispárra) megtalálható TTGACA motívum is fontos szereppel bír az RNS polimeráz enzim kiindulópontjainak kijelölésében.

A szabályozó szekvenciák azonosítása korábban az ún. footprint analízis (DNase footprinting) segítségével történt. Ennek során a tesztelni kívánt szekvenciát hordozó DNS darabokat radioaktív végjelöléssel látták el. Kontrollként egy olyan oldatot használtak, amely nem tartalmazta a vizsgálni kívánt fehérjét, csak a DNS-t, így minden, egy kiválasztott DNS-hasító enzim által létrehozott, jelölt fragmentum mérete láthatóvá vált gélen való futtatás és a gélkép előhívása után. A vizsgálni kívánt fehérjét tartalmazó oldatban viszont ott, ahol a DNS-fehérje interakció létrejött, az enzim nem volt képes hasítani, emiatt az érintett fragmentmérethez tartozó sáv nem volt látható a gélképen. A fehérje által kötött/megvédett szekvenciát nevezték footprint-nek (lábnyomnak). Végül az enzim által el nem hasított régiót a kontroll sávból visszanyerve DNS szekvenálással a fehérje által elfoglalt DNS szekvencia azonosíthatóvá vált.

Ma újgenerációs szekvenálási adatokból kiindulva és számítógépes programok segítségével sokkal egyszerűbb módon azonosíthatunk ismétlődő mintázatokat a DNS szekvenciájában – akár olyanokat is, amelyekről jelenleg nem is tudjuk, mely transzkripciós faktor(ok) kötheti(k).

A motívumok meghatározásához legtöbbször ChIP-seq, ATAC-seq vagy DNáz-seq adatokból indulunk ki, mert az ezekkel a kísérletekkel kapott csúcsok középső (~100-200 bázispárnyi) régiójáról feltételezhető, hogy a fehérjekötés középpontját, egyben a válaszadó elem helyét jelzik.

Feldúsult motívumok azonosítása

Az alábbiakban bemutatom, mely HOMER parancsok lehetnek segítségünkre a motívumok azonosításában és milyen paraméterekre érdemes figyelni.

Ahhoz, hogy megválaszoljuk, milyen szekvencia motívumok „dúsulnak fel” a transzkripciós faktor kötőhelyek egy előre definiált csoportjában, a HOMER findMotifsGenome.pl parancsát kell, hogy segítségül hívjuk. Ez alkalmas mind ismert, mind újonnan feldúsult, ún. de novo motívumok azonosítására is.

A használatához szükséges minimum paraméterek a következőek:

findMotifsGenome.pl peaks.bed hg19 output_dir -size 200 -len 8

Az általam használt egyéb paraméterekkel kibővítve:

findMotifsGenome.pl peaks.bed hg19 output_dir -len 8,10,12,14 -size 200 -dumpFasta -bits -preparse -homer2

Mi mit jelöl?

A findMotifsGenome.pl egy program a HOMER csomagból, amit meghívunk. A peaks.bed a vizsgálni kívánt genomi régiókat tartalmazó bed fájl. A hg19 fogja a genomot megadni – amit a HOMER automatikusan felismer –, de ez a paraméter lehet mm10 is, amennyiben nem humán, hanem egér mintákkal dolgozunk. Minden egyéb modell organizmus használatakor a vizsgálni kívánt genom FASTA fájljához meg kell adni a teljes elérési utat.

Az output_dir az eredmények helyét definiálja – ezt a könyvtárat előre létre kell, hogy hozzuk. A kimeneti mappában a homerResults könyvtár fogja tartalmazni a de novo találatokat, a knownResults könyvtár pedig azokat a feldúsult motívumokat, amelyek a HOMER adatbázisában (is) megtalálhatóak voltak.

A -len 8,10,12,14 kapcsoló segítségével mondhatjuk meg, milyen hosszúságú motívumokat keresünk. Bár a minimum motívum hossz a fenti példában 8 bázispár hosszúságú volt, ezzel a beállítással például a 6+1 bázispár hosszúságú AP-1 motívumot (TGAnTCA) is visszakaphatjuk (amennyiben fel van dúsulva).

A -size 200 paraméter segítségével definiálhatjuk, hogy a peaks.bed fájlban található genomi régiók középpontjához viszonyítva milyen széles régión szeretnénk a motívumokat azonosítani. A -size 200 paraméter esetében (amely egyébként az alapértelmezett beállításnak felel meg) a középponttól -100/+100 bázispáron belül eső régiót vesszük csak figyelembe, de a HOMER lehetőséget ad arra is, hogy a –/+ irányban eltérő hosszúságú régión keressünk. Például a -size 100,50 a középponttól -100/+50 bázispáron belül eső régiót veszi figyelembe, de kereshetünk akár a bed fájlban lévő teljes régiókon is a -size given paraméter megadásával.

A -dumpFasta kapcsoló használatával a HOMER kigyűjti két külön fájlba azon régiók szekvenciáit, melyeket a peaks.bed-ben megadtunk (target.fa), illetve az általa háttérszekvenciaként meghatározott régiókét is (background.fa). Ez abban az esetben hasznos, ha szeretnénk más programokat is bevonni a motívumanalízisbe; így ugyanazokhoz a háttérszekvenciákhoz hasonlíthatjuk a vizsgálni kívánt régióinkat.

Míg alapesetben méretarányos, ún. proporcionális motívum logókat rajzoltathatunk, ahol az A, T, C és G nukleotidok mérete annak megfelelően fog kirajzolódni minden pozícióban, hogy a motívumon belül mennyire volt gyakori az egyes nukleotidok előfordulása, a -bits kapcsoló használatával a nukleotidok ún. információtartalmával arányosan lesz súlyozott a karakterek magassága.

Proporcionális:

222

„Bits-es”:

          bits

 

Visszautalva a -size paraméterre, jól látható, hogy a fenti motívum 10 bázispár hosszúságú, de az AP-1 fehérje motívuma (TGAnTCA) ezzel a hosszal is szépen kirajzolódott, a többi pozícióban lévő nukleotidok pedig csak kisebb, kiegyenlítettebb valószínűséggel fordultak elő.

A -preparse használatával a HOMER minden keresés során új random szekvenciákat generál, a -homer2 pedig egyszerűen az új HOMER programot hívja meg a régi verzió helyett.

Hogyan értelmezzük az eredményt, mit jelent az, hogy motívumfeldúsulás?

A motívumkeresés eredményeit a kimeneti könyvtárban található homerResults.html fájl segítségével webböngészőben könnyen megjeleníthetjük, a talált motívumok logóit pedig a homerResults mappában kell keresni. Azt követően, hogy a homerResults mappát a html fájllal együtt letöltöttük a számítógépünkre, az eredményt ilyen formában láthatjuk:

2222

A táblázatból kiderül, hogy összesen 16188 genomi régióban kerestük a feldúsult motívumokat (Total target sequences = 16188), a HOMER pedig 33193 random genomi régió szekvenciáját használta kontrollként (Total background sequences = 33193). Ez azt jelenti, hogy a vizsgálni kívánt 16188 régióban feldúsult motívumokat a háttérként használt 33193 régióban is megkereste, mi pedig ebből már csak egy-egy százalékértéket látunk (% of Targets és % of Background), melyek azt jelölik, hogy a vizsgálni kívánt és a háttérként használt régiók hány százalékában fordult elő az adott motívum. Azonban könnyen félrevezethetjük magunkat, ha csupán azt vesszük figyelembe, hogy a vizsgálni kívánt régiók jelentős százalékában (pl. 32,45%) dúsult fel egy motívum, de a kontroll régiókra kapott %-ot (amely mutathat szintén jelentős, pl. 29,6%-os feldúsulást) figyelmen kívül hagyjuk. A HOMER minden találatra generál egy P-értéket (P-value) is, és ennek megfelelően rangsorolja a találatokat.

Szintén könnyen félrevezethetjük magunkat, ha elhisszük a HOMER-nek, hogy egy motívum valóban az, aminek ő nevezi. A fenti ábrán az 1. találat a BORIS transzkripciós faktor motívuma, azonban ha a More information hivatkozásra kattintunk, további lehetséges találatokról is tájékozódhatunk. Esetünkben az 1. motívumot valószínűleg csak az általánosan kifejeződő CTCF transzkripciós faktor tudja kötni, nem a paralógja – ennek megítélésére azonban valamilyen szinten ismernünk kell a modellrendszerünket; tudnunk kell, hogy mely fehérjék játszanak szerepet a vizsgált sejtben, ill. hogy adott fehérjecsaládból melyik fehérjék fejeződnek ki egyáltalán.

A további motívumtalálatokat is hasonló fenntartással kell, hogy kezeljük. A 2. találatot elegendő, ha C/EBP-nek nevezzük; az, hogy a fehérjecsalád mely tagja van jelen, szintén a vizsgált sejttípustól függ. A 3. találatot nevezhetjük AP-1-nek, mert az AP-1 fehérjecsoport tagjai képesek kötni, de nevezhetjük akár TRE-nek (TPA Reponse element) is, a TPA ligand válaszkészsége alapján. A 4. motívumot a promóter régiókra jellemző Sp1 fehérje képes kötni, de a motívum neve GC-box, amely pedig a szekvencia alapján kapta ezt a nevet, akárcsak a TATA-box, amit a bejegyzés elején említettem.

Bár az ábrán nem látszik, a piros csillaggal jelölt találatokat (*-possible false positive) az alacsony P-érték ellenére a HOMER lehetséges fals pozitívnak tekinti. Ha nagyon kevés régiót adunk meg, a HOMER szintén nem képes releváns feldúsulásokat eredményezni. Ebben az esetben azért a knownResults mappában található html fájlra is érdemes egy pillantást vetni, mert a HOMER visszatérképezi az adatbázisában található több mint 400 motívumot és a legnagyobb számban előforduló motívumokat kigyűjti (még darabszámot is megad), még ha a kevés kiindulási régió miatt azok nem is mutattak szignifikáns feldúsulást.

A fentiek helyes megítélése néha igényel egy kis kutakodást az interneten, de idővel könnyen rá lehet érezni. Fontos megjegyezni azt is, hogy az összes transzkripciós faktor felismerésére szolgáló motívum szekvenciája eltérhet egy-egy nukleotidban; ez a fehérje iránti affinitást nem feltétlenül, vagy csak kis mértékben befolyásolja.

Motívum mátrixok értelmezése

Minden motívum logóhoz tartozik egy motívum mátrix (ún. position weigth matrix) is, amiből készült, ill. amelyet a motif file (matrix) hivatkozásra kattintva nyithatunk meg, és az alábbi információkat tartalmazza:

>DRTTGCGHAA      3-DRTTGCGHAA,BestGuess:CEBPE/MA0837.1/Jaspar(0.925)  6.901336         -829.796349   0               T:1901.0(11.75%),B:1348.2(4.06%),P:1e-360

0.246      0.147      0.284      0.323
0.445      0.158      0.342      0.055
0.001      0.001      0.001      0.997
0.001      0.001      0.014      0.984
0.309      0.001      0.476      0.215
0.112      0.505      0.136      0.247
0.261      0.146      0.496      0.097
0.309      0.393      0.002      0.295
0.994      0.004      0.001      0.001
0.997      0.001      0.001      0.001

Rögtön az első sor a motívum nukleotidjait adja meg, melynek értelmezéséhez egy kis segítséget itt találhattok: https://www.bioinformatics.org/sms/iupac.html.

Szintén az első sor tartalmazza ugyanazokat az információkat, amelyek a táblázatos formában is szerepeltek. A motívum neve mellett sok esetben szerepel az is, hogy milyen korábbi ChIP-seq kísérletből származó motívumhoz hasonlít a legjobban. Szerepel még egy motívum score (érték) is (6.901336), amelyre még visszatérek, illetve itt is megjelennek a Target- és Background %-ok (T:1901.0(11.75%),B:1348.2(4.06%), illetve a P-érték (P:1e-360).

A bemutatott mátrix a fenti táblázatban szereplő C/EBP motívumot reprezentálja:

22

 

A mátrix minden sora a motívum egy bázisát írja le, balról jobbra haladva, az oszlopok pedig egy-egy nukleotidot jelölnek. Megfigyelhető, hogy az egy sorban szereplő számok összege 1-et tesz ki és azt írja le, hogy az adott pozícióban melyik nukleotid milyen valószínűséggel fordult elő. Ha megfigyeljük a vastagon kiemelt számokat a mátrixban, jól látható, hogy a 3. és a 4. pozícióban szereplő timinnek (T) a 4. oszlop felel meg, az utolsó két pozícióban szereplő adenint (A) pedig az 1. oszlop írja le. Végül pedig a 3. oszlop a guaninnak (G), a 2. oszlop pedig a citozinnak (C) felel meg:

   A             C             G            T
0.246      0.147      0.284      0.323
0.445      0.158      0.342      0.055
0.001      0.001      0.001      0.997
0.001      0.001      0.014      0.984
0.309      0.001      0.476      0.215
0.112      0.505      0.136      0.247
0.261      0.146      0.496      0.097
0.309      0.393      0.002      0.295
0.994      0.004      0.001      0.001
0.997      0.001      0.001      0.001

A mátrixban szereplő motívum score egyedi; függ a motívum hosszától és a mátrixban nagy gyakorisággal megjelenő bázisok számától is. Ezt az értéket akkor szoktuk módosítani, amikor adott genomi régiókon szeretnénk egy-egy motívum meglétét vizsgálni, de a keresés túl sok és nem specifikus találatot eredményezett. Ebben az esetben a score értéket megemeljük, így a mátrixban szereplő értékek bár ugyanazok maradnak, a keresés sokkal szigorúbb módon zajlik. Annak vizsgálatáról viszont, hogy jelen van-e egy adott transzkripciós faktor motívuma a transzkripciós faktor kötőhelyek egy előre definiált csoportja alatt, a következő bejegyzésben lesz szó bővebben.

EEM (1)

Az Emberi Erőforrások Minisztériuma ÚNKP-18-3-III-DE-253 kódszámú Új Nemzeti Kiválóság Programjának támogatásával készült.

Advertisements

Genomi régiók lefedettségének ábrázolása hőtérképen

In bioinfo, bioinformatics, bioinformatika on June 22, 2018 at 3:02 pm

Hőtérképpel (heatmap) bizonyára már mindenki találkozott az internetes böngészése során, miközben egy időjárás-előrejelző oldalon rátekintett a Magyarország térképre és azt látta, ragyogó napsütésnek csupán a Balaton környékén van nyoma. Legtöbbször valóban a hőmérsékletet, csapadékmennyiséget jelző térképek esetében találkozhatunk ezzel a vizualizációs módszerrel, mely eltérő színek vagy színintenzitások használatával mindenki számára könnyen értelmezhető. Jócskán akad szerepe azonban a biológiában is, például génexpressziós vizsgálatok során.

Leggyakoribb a hideg-meleg érzést keltő zöld-piros, kék-piros vagy kék-sárga-piros, illetve ezen színek közötti átmenetek alkalmazása. Így például a nagyobb mértékben expresszálódó gének piros, az alacsony kifejeződést mutató gének pedig zöld négyzetként jelennek meg egy hőtérképeken. Az átmenetek értelmezéséhez azonban szükségünk van egy alsó-felső(-középső) értéket jelölő skálára is. Ebben a bejegyzésben azt fogom elmagyarázni, milyen módszerekkel tudjuk genomi régiók lefedettségét hőtérképen ábrázolni.

A genomi régiók lefedettségének megjelenítése kissé szofisztikáltabb a microarray vagy RNS szekvenálási módszerek által eredményezett génexpressziós értékek ábrázolásához képest. Utóbbi két módszer „jól meghatározott” értékeket szolgáltat, melyeket táblázatként kezelve akár a ClustVis weboldalon is pillanatok alatt ábrázolhatunk. A ClustVis bár számos R programcsomagot integrál (ggplot, pheatmap, RColorBrewer, stb.), egyetlen hátránya, hogy a megjeleníthető sorok száma maximalizálva van. Ezeket a programokat az ngsdeb szerverünkön keresztül az R programot meghívva is elérhetjük, aki pedig az R-hez készült fejlesztői környezetet, az RStudio-t használja, annak előbb telepítenie kell azokat. Mindhárom megközelítés a következő stílusú hőtérkép(ek)et eredményezné:

heatmap

Mit jelentenek a sorok és az oszlopok?

Minden sor egy gént reprezentál, az oszlopok pedig az adott sorban lévő gén 4 különböző expressziós értékének megfelelő színintenzitást veszik fel. Ezen az ábrán az A1 és A2, illetve a B1 és B2  oszlopok együtt értelmezendők, mivel azonos kondíciót (A1 és A2: kezeletlen; B1 és B2: kezelt) ábrázolnak. Ahhoz, hogy ne egy pepita képet lássunk, lehetőségünk van hasonlóság alapján klaszterezni az értékeket. Többféle klaszterezési mód létezik (hierarchikus, korreláció-alapú, Euklideszi távolság, Pearson, Spearman, Kendall-féle tau, stb.); a jobb oldali hőtérkép egy hierarchikus klaszteranalízis eredményét ábrázolja.

 

No, de hogyan lehet genomi régiók lefedettségét ábrázolni?

Egy korábbi bejegyzésben már volt szó a HOMER programcsomagról és a HOMER tag directory-jairól. Ezeket a tag könyvtárakat, amelyek a genomra térképezhető leolvasásokat tartalmazzák, a ChIP-seq_anal.sh pipeline-unk az alapanalízis során minden mintára egységesen létrehozza.

A leolvasások általi lefedettség értékek arányosak az adott pozícióban megvalósuló fehérjekötés gyakoriságával és erősségével, így tehát alkalmasak arra, hogy két, vagy akár több tíz mintában összehasonlíthassuk adott régiók egy bizonyos, vagy több fehérje általi lefedettségét.

Ehhez a következő parancssort kell begépelnünk:

annotatePeaks.pl peaks.bed hg19 -size 2000 -hist 50 -ghist -fragLength 150 -d ../tag_directory_of_the_sample/ > output_table.txt

Mi mit jelent?

Az annotatePeaks.pl maga a parancs;

peaks.bed fájl kell, hogy tartalmazza a régiókat, ahol a lefedettséget szeretnénk “megszámolni”;

a hg19 megadja a genomot (hg19: humán genom 19-es összállítása) és annak verzióját, de természetesen ez a fajtól és verziótól függően opcionális (hg18, mm9, mm10, stb.). Azt kell tudnunk, hogy a program ezen régiók határainak számtani közepét fogja középpontnak tekinteni, amely nem minden esetben jelenti a kötőhely valós csúcspontját. A nagymértékű eltolódások elkerülése végett legtöbbször a peak-ek summit pozícióját tartalmazó BED fájlt szoktuk megadni;

a -size 2000 paraméterrel pedig – jobb esetben – a summit pozíciókat egységesen kiterjesztjük -1000/+1000 bázispárnyi (bp-nyi) régióra. Így tehát összesen 2000 bp-nyi régión számolja a lefedettséget.

A -hist 50 megadja, hogy a 2000 bp-on belül hány bp lefedettségértékét átlagolja, azaz ebben az esetben 50 bp jelent egy ún. bin-t. Mivel a teljes régió 2000 bp lesz, mi pedig 50 bp-onként szeretnénk visszakapni egy értéket, azt jelenti, hogy a kimeneti fájlunkban 20+1+20 oszlop lesz (-1000 -950 -900 … 0 … +900 +950 +1000).

A -ghist kapcsoló régiónként kiszámolja a bin-ek lefedettségét;

a -fragLenght 150 paraméterrel az automatikus fragmenthossz számítása helyett azt tetszőlegesre állítom (opcionális). Megj.: A HOMER alapvetően a pozitív és negatív szálra térképeződő leolvasások egymáshoz viszonyított eloszlása alapján számolja ki az átlagos, elméleti fragmenthosszt.

Végezetül pedig a -d kapcsoló után kell megadnunk egy, vagy akár több minta HOMER tag könyvtárát.

A > karakter után a kimeneti fájl neve következik, melynek kiterjesztése .txt kell legyen, hogy a későbbiekben könnyen ábrázolni tudjuk..

 

Ábrázolás

A sok-sok sorból és oszlopból álló táblázatunkat ezek után már csak meg kell jelenítenünk. Ehhez mi a Java TreeView programot használjuk, ami bárki számára ingyen elérhető, letölthető a http://jtreeview.sourceforge.net/ weboldalról.

A program megnyitását követően tallózzuk be a táblázatunkat (File -> Open)! Automatikusan felajánlja, hogy az adott mappában csak a CDT vagy PCL kiterjesztésű fájlokat mutassa; itt ki kell válasszuk az All Files opciót. Innentől a táblázat megnyitása már csak annak méretén és a számítógépünkben található memória mennyiségétől függ. 🙂 Ha a betöltés leáll, próbáljuk meg egy jobb teljesítményű számítógépen ábrázolni, vagy osszuk két, vagy akár több részre a táblázatunkat!

Meg kell jegyezzem, hogy a TreeView-ban való megjelenítéshez a táblázat első két oszlopának egy-egy (megegyező) azonosítót kell tartalmaznia. Ez lehet akár a gének, a pozíciók neve, vagy akár egy sorszám. A táblázat első sorában is egy, az adott oszlopra vonatkozó azonosítónak kell szerepelnie. Ezek hiányában a táblázatban szereplő lefedettségértékek első két oszlopa és az első sora fogja ezt kiváltani, melyek emiatt nem lesznek ábrázolva.

Sikeres betöltést követően a következő kép fogad minket:

treeview1

 

Ezt követően a Settings -> Pixel Settings-re kattintva egy új ablak jelenik meg, ahol mind a négy skála esetében a Fixed Scale-ről át kell klikkelnünk a Fill-re:

 

treeview2

 

Szintén a Pixel Settings panelben tudjuk megváltoztatni az pozitív/negatív, a hiányzó és a nulla értéket felvevő bin-ek színét. Esetemben a “Positive”-at feketére, a “Zero”-t pedig fehérre változtatva, továbbá a skálát (Value) 3-ról 5-re átállítva a következő eredményt kaptam: 

 

treeview3.PNG

 

Az 5-ös érték azt jelenti, hogy egy bin-ben ha a lefedettségérték eléri az 5-öt, fekete színként jelenik meg. A skála csökkentésével kontrasztosabb képet kapunk, mivel egyre több olyan bin lesz, amely eléri a beállított értéket.

Az ábrán megjelenített kötőhelyek előzetesen egy másik minta középső 50 bp-nyi régiójának lefedettsége alapján sorba lettek rendezve, ennek köszönhető ez a mintázat.

Az elkészült ábrát az Export -> Export to Image menün keresztül tudjuk letölteni. Azonban itt is figyelni kell néhány dologra:

treeview4

Be tudjuk állítani az X- és az Y-tengely méretét, tehát az exportálni kívánt kép méretarányát. Amennyiben idő közben belekattintottunk a kirajzolódó képbe, a Selection Only-nál egy pipa jelenik meg – ezt ignorálnunk kell, ha az összes sort szeretnénk képként kinyerni. Végül pedig a bal oldalon kékkel kiemelt -1000 és Gene sorokra (amelyek esetemben az első sor és oszlop tartalmát jelzik) a Ctrl billentyű lenyomása mellett rá kell kattintani, hogy a kék kiemelés eltűnjön. Amennyiben ezt nem tesszük meg, a több tízezer soros táblázatunk minden sorának neve szerepelni fog az ábránkon. Természetesen néhány sor/oszlop megjelenítése esetén ez még akár jól is nézhet ki.

No, és mit rontottam el? Mivel -1000 van a név helyett, azt jelenti, hogy az első bin-emet elvesztettem az ábráról, mert nem duplikáltam meg az első oszlopot. 🙂

Utolsó lépésként mentsük el az ábránkat.

 

 EEM (1)
Az Emberi Erőforrások Minisztériuma ÚNKP-17-3-IV-DE-140 kódszámú Új Nemzeti Kiválóság Programjának támogatásával készült.

 

 

 

 

 

 

 

 

 

Adatok megjelenítése genom böngészőben

In bioinfo, bioinformatics, bioinformatika on June 16, 2018 at 5:10 pm

Az alapanalízis során “készülnek” olyan fájlok, amelyek alkalmasak genom böngészőkben történő megjelenítésre. Ilyen például a BAM fájl, amely pontosan megmutatja, hogy egy adott minta esetében a genom mely szakaszaira és mennyi read (leolvasás) térképeződött, illetve jelzi a leolvasásokban azokat a nukleotidokat is, amelyek a referencia genomhoz képest eltérést mutatnak.

De megjelenítésre alkalmasak a különféle BEDGRAPH-ok is, melyek a genom teljes “hosszában” Gauss-i eloszlást mutató csúcsokat rajzolnak ki; ebben az esetben a csúcsok magassága és szélessége attól függ, adott pozícióra hány read térképeződött. Megjeleníthetjük ugyanakkor a BED fájlokat is, önmagukban vagy BEDGRAPH-okkal együtt; utóbbi abban az esetben lehet hasznos, ha szeretnénk látni, egy kívánt lókuszon mely csúcsok érték el azt a küszöbértéket, amely alapján a MACS2 vagy a HOMER programok őket a kötőhelyek csoportjába sorolta, vagy sem.

Talán az IGV (Integrative Genomics Viewer) a légszélesebb körben használt genom böngésző. Számos hasznos tulajdonsággal rendelkezik; az egyszerű ide-oda húzgálás vagy a vizsgálni kívánt genomi régió célzott megjelenítése mellett egy listát létrehozva egyszerre több régió is megjeleníthető, amely funkció különböző ábrák készítésekor nagyon hasznos szereppel bír. A betöltött track-ek, ún. mintasávok sorrendje, elnevezése, a sáv mérete vagy épp színe egy-két klikkeléssel könnyen megváltoztatható.

Honnan tölthető le az IGV?

A https://software.broadinstitute.org/software/igv/ weboldalon a Downloads panel alatti nyílra kattintva megjelenik egy újabb oldal, ahol  kiválaszthatjuk az általunk használt operációs rendszerrel kompatibilis verziót, ill. ha nem rendelkezünk Java-val, közvetlenül innen azt is letölthetjük – a Java ugyanis, mint kiegészítő modul (plug-in), elengedhetetlen a IGV futtatásához.

java1

Letöltést és indítást követően egy “üres ablak” fogad bennünket; a fontosabb paneleket funkcióit az alábbi ábrán feliratozva találjátok:

igvvvvvvv_2

Végezetül pedig nézzük meg, hogyan néznek ki a fent említett fájltípusok az IGV-ben:

ddd

Első mező (coverage): BEDGRAPH fájlt, ami a transzkripciós faktor kötőhelyeket (ún. peak-eket) mutatja.

Második mező (peaks): a kék négyzetek a BED fájl tartalmát jelenítik meg, azaz jelölik a peak-ek pontos kezdő- és végpozícióit. Jól mutatja, mely feldúsulások valódi kötőhelyek és melyek nem.

Harmadik mező (BAM): a BAM fájl tartalmát jeleníti meg, amely az adott genomi pozícióra térképeződött leolvasásokat mutatja.

 

EEM (1)
Az Emberi Erőforrások Minisztériuma ÚNKP-17-3-IV-DE-140 kódszámú Új Nemzeti Kiválóság Programjának támogatásával készült.

 

%d bloggers like this: