Projekt sběru dat ENCODE

ENCODE v plné encyklopedii DNA Elements zahájil v roce 2003 projekt sběru dat, jehož cílem je inventarizace všech funkčních prvků lidského genomu. ENCODE byl vědci koncipován v Národním ústavu pro výzkum lidského genomu USA (NHGRI) v návaznosti na projekt Human Genome Project (HGP; 1990–2003), který vytvořil obrovské množství údajů o sekvenci DNA, ale nezahrnul komplexní analýzu. specifických genomických prvků.

Informace, které shromáždili vědci ENCODE, měly sloužit jako druh průvodce, který usnadňuje studium složek lidského genomu, které přispívají k funkci buněk a tkání, a které tedy mají důsledky pro lidské zdraví a nemoc. Poskytl také důležitý vhled pro studium evoluce člověka a genetiky a nakonec vytvořil data, která nejen naznačovala, že obrovské oblasti genomu, které byly kdysi považovány za nefunkční, byly skutečně funkčně důležité, ale také zpochybnily základní koncept genu.

Hledání funkčních prvků

Funkční prvky lidského genomu, jak jsou definovány v projektu ENCODE, zahrnují ty segmenty DNA, které kódují molekuly RNA procesem transkripce, které vážou regulační proteiny známé jako transkripční faktory nebo které mají vazebná místa pro methylové skupiny, které jsou schopné modifikace struktury chromatinu (kompaktní vlákna DNA-protein, která kondenzují za vzniku chromozomů). Tyto prvky patří do genomické regulační sítě (nebo regulomu), jejímž rysem je produkce RNA transkriptů z genů, které nesou informace pro produkci proteinů. Bílkoviny nakonec vytvářejí buňky a tkáně a regulují chemické procesy, které jsou nezbytné pro život.

Když však HGP skončila v roce 2003, nebylo jasné, kolik lidského genomu bylo aktivně přepsáno do RNA kódující protein a komplexnost a funkce RNA transkriptů nebyla rozsáhle prozkoumána. Stejně tak byla nejasná funkční relevantnost dalších genomických rysů, od vztahů mezi genovou expresí a modifikací histonových proteinů v chromatinu po transkripční význam pseudogenů (reliktní sekvence DNA, o nichž se předpokládá, že jsou v důsledku evoluce zaniklé). V důsledku toho existuje významná potřeba systematického přístupu k identifikaci a mapování umístění funkčních prvků ak charakterizaci fyzických vztahů prvků v regulomu. Tyto cíle přijali vědci ENCODE a očekává se, že jejich naplnění povede k důkladnějšímu pochopení mechanismů, které kontrolují geny a jejich aktivitu.

Struktura projektu ENCODE

ENCODE byl rozdělen do dvou fází: pilotní fáze a fáze vývoje technologií a fáze výroby. Pilotní složka se zaměřila na výběr souboru experimentálních a výpočetních metod, které by vědci ENCODE mohli použít k identifikaci funkčních prvků uvnitř zhruba tří miliard párů bází, které tvoří lidský genom. Aby se usnadnilo srovnání účinnosti a účinnosti, byly testovány různé metody ve stejných cílových regionech pokrývajících celkem 30 milionů párů bází (30 Mb; přibližně 1 procento lidského genomu) v různých typech lidských buněk. Mezi zkoumanými metodami byly některé technologie příští generace DNA sekvenování a genomická obkladová pole (nástroje pro skenování celých genomů pro regiony s danými vlastnostmi) a další výpočetní přístupy (jako je analýza chromatinové struktury). Základem technologické vývojové komponenty ENCODE bylo zdokonalení technologií schopných generovat data ve vysoce výkonné (automatizované) kapacitě. Metody identifikované jako nejužitečnější byly poté škálovány pro analýzu celého genomu.

Fáze výroby ENCODE v plném rozsahu, ve které vědci rozšířili hledání funkčních prvků na zbývajících 99 procent lidského genomu, začala v roce 2007 a byla dokončena v roce 2012. Více než 400 vědců, nejvíce financovaných z NHGRI, se zúčastnilo fáze v plném měřítku. Tito výzkumníci tvořili většinu konsorcia ENCODE a instituce se sídlem v USA, kde prováděly svůj výzkum, byly označeny jako výrobní centra ENCODE. Konsorcium ENCODE kromě provádění prací na vytvoření soupisu funkčních prvků také vyvinulo určité pracovní pokyny, jako je použití určených buněčných linií a standardizovaných nástrojů pro analýzu dat a vykazování dat, které byly zásadní pro umožnění srovnání údaje generované různými zúčastněnými laboratořemi.

Produkční centra ENCODE byla podporována Data Coordination Center (DCC), umístěným na University of California v Santa Cruz. DCC sloužil jako hlavní úložiště dat projektu, poskytoval účastníkům studie společný portál, přes který mohli předkládat svá data, zachycovat metadata spojená s experimenty a soubory dat a vyvíjet protokoly standardizace a ověřování dat. DCC také vytvořilo návody, které mají pomáhat výzkumníkům, kteří měli zájem o použití dat, jakmile budou zveřejněny. Později bylo do projektu přidáno samostatné středisko pro analýzu dat (DAC), založené na lékařské fakultě University of Massachusetts. DAC asistoval s integrační analýzou dat ENCODE.

Inventář ENCODE

Počáteční zjištění z pilotní fáze ENCODE byla zveřejněna v roce 2007. Přestože se tato fáze projektu zaměřovala především na výčet funkčních prvků nalezených v rámci 30 Mb cílových sekvencí, proces identifikace způsobů integrace a analýzy datových souborů vedl na zajímavá pozorování, zejména pokud jde o strukturu a chování genů. Tyto prvotní závěry byly podpořeny dodatečnými údaji získanými během produkční fáze ENCODE, jejichž výsledky byly zveřejněny v roce 2012. Zjištění z produkční fáze také obnovily debatu o funkčním významu nekódující DNA.

Předefinování genu

Data ENCODE zveřejněná v roce 2007 odhalila, že lidský genom je rozsáhle pokryt RNA transkripty, z nichž řada je produkována alternativním sestřihem (editace primárního transkriptu, který vede k produkci proteinu odlišného od toho, který transkript normálně kóduje). Tato zjištění potvrdila dřívější zprávy, ve kterých vědci navrhovali, že lidský genom sestává z rozsáhlých transkripčních sítí. Existence těchto sítí však rozmazávala tradiční představy o hranicích mezi geny a intergenními oblastmi (mezery mezi geny) a zpochybňovala tak základní koncept genu jako diskrétní proteinové kódovací jednotky. Koncept byl zpochybněn znovu v roce 2012, kdy vědci ENCODE uvedli, že až 75 procent lidského genomu může být pokryto primárními RNA transkripty. Toto rozsáhlé pokrytí RNA znamenalo významné překrývání sousedních genů.

Funkční role pro nekódující DNA

Data z produkční fáze dále odhalila, že 80 procent lidského genomu je biochemicky funkční v důsledku asociace s RNA nebo chromatinovými aktivitami. Protože většina lidského genomu je tvořena nekódující DNA (což dříve někteří považovali za „nevyžádanou“ DNA), z údajů vyplývá, že tyto regiony, které neprodukují protein, a proto se předpokládalo, že jsou nefunkční, jsou ve skutečnosti funkčně funkční relevantní. Přestože vědci mimo projekt ENCODE již dříve dospěli ke stejnému závěru, data ENCODE zdůraznila jeho význam. Výzkum provedený nezávisle a jako součást ENCODE ukázal, že nekódující regiony mohou hrát důležitou roli při regulaci produkce proteinu a při udržování strukturální integrity genomu.