Projekty genomu

Genomové projekty jsou vědecké snahy, jejichž konečným cílem je určit kompletní sekvenci genomu organismu (ať už se jedná o zvíře, rostlinu, houbu, bakterii, archea, protistu nebo virus) a anotovat geny kódující proteiny a další důležité znaky kódované genomem. Genomová sekvence organismu zahrnuje kolektivní sekvence DNA každého chromozomu v organismu. U bakterie obsahující jediný chromozom bude cílem genomového projektu zmapovat sekvenci tohoto chromozomu. U lidského druhu, jehož genom zahrnuje 22 párů autosomů a 2 pohlavní chromozomy, bude kompletní sekvence genomu zahrnovat 46 samostatných chromozomových sekvencí.

Projekt lidského genomu byl přelomovým genomovým projektem, který má již nyní velký dopad na výzkum napříč vědami o živé přírodě a má potenciál podnítit četný lékařský a komerční vývoj.

Sestavování genomů je velmi obtížný výpočetní problém, který je ztížen, protože mnoho genomů obsahuje velké množství identických sekvencí, známých jako repeaty. Tyto repeaty mohou mít tisíce nukleotidů a některé se vyskytují na tisících různých místech, zejména ve velkých genomech rostlin a živočichů.

Mohlo by vás zajímat: Protein integrální membrány

Výsledná (předloha) sekvence genomu je vytvořena spojením informací sekvenovaných obrysů a následným využitím propojovacích informací k vytvoření lešení. Lešení jsou umístěna podél fyzické mapy chromozomů a vytvářejí „zlatou cestu“.

Původně většina velkokapacitních sekvenčních center DNA vyvíjela vlastní software pro sestavování sekvencí, které produkovala. To se však změnilo, protože software se stal složitějším a počet sekvenčních center se zvýšil. Příklad takového assembleru Short Oligonucleotide Analysis Package vyvinutý společností BGI pro de novo sestavování genomů lidské velikosti, alignment, SNP detekci, resequencing, indel finding a strukturální variační analýzu.

Genomová anotace je proces přiřazování biologické informace k sekvencím. Skládá se ze tří hlavních kroků:

Nástroje pro automatickou anotaci se to vše snaží provádět pomocí počítačové analýzy, na rozdíl od manuální anotace (a.k.a. curation), která zahrnuje lidskou odbornost. V ideálním případě tyto přístupy koexistují a doplňují se ve stejném anotačním potrubí.

Strukturální anotace spočívá v identifikaci genomických prvků.

Funkční anotace spočívá v připojení biologické informace k genomickým prvkům.

Tyto kroky mohou zahrnovat jak biologické experimenty, tak in silico analýzu. Přístupy založené na proteogenezi využívají informace z exprimovaných proteinů, často odvozené z hmotnostní spektrometrie, ke zlepšení genomických anotací.

Byla vyvinuta celá řada softwarových nástrojů, které umožňují vědcům prohlížet a sdílet anotace genomů.

Genomová anotace zůstává velkou výzvou pro vědce zkoumající lidský genom, nyní, když jsou sekvence genomu více než tisíce lidských jedinců a několika modelových organismů z velké části kompletní. Identifikace umístění genů a dalších prvků genetické kontroly je často popisována jako definování seznamu biologických „částí“ pro sestavení a běžný provoz organismu. Vědci jsou stále v rané fázi procesu definování tohoto seznamu částí a pochopení toho, jak všechny části „do sebe zapadají“.

Genomová anotace je aktivní oblastí výzkumu a zahrnuje řadu různých organizací v komunitě věd o živé přírodě, které zveřejňují výsledky svého úsilí ve veřejně dostupných biologických databázích přístupných prostřednictvím webu a dalších elektronických prostředků. Zde je abecední seznam probíhajících projektů týkajících se genomové anotace:

Na Wikipedii se anotace genomů začala automatizovat pod záštitou portálu Gene Wiki, který provozuje robota, který sbírá genová data z výzkumných databází a na jejich základě vytváří genové pahýly.

Kdy je hotový genomový projekt?

Při sekvenování genomu se obvykle vyskytují oblasti, které je obtížné sekvenovat (často oblasti s vysoce se opakující DNA). Tudíž „dokončené“ sekvence genomu jsou zřídkakdy někdy kompletní a termíny jako „pracovní návrh“ nebo „v podstatě kompletní“ byly použity k přesnějšímu popisu stavu takových genomových projektů. I když byl určen každý základní pár sekvence genomu, stále se pravděpodobně vyskytují chyby, protože sekvenování DNA není zcela přesný proces. Dalo by se také argumentovat, že kompletní genomový projekt by měl zahrnovat sekvence mitochondrií a (u rostlin) chloroplastů, protože tyto organely mají své vlastní genomy.

Často se uvádí, že cílem sekvenování genomu je získat informace o kompletním souboru genů v dané konkrétní sekvenci genomu. Podíl genomu, který kóduje geny, může být velmi malý (zejména u eukaryot, jako je člověk, kde kódující DNA může tvořit jen několik procent celé sekvence). Není však vždy možné (nebo žádoucí) sekvenovat pouze jednotlivé oblasti kódů odděleně. Protože vědci také více chápou roli této nekódující DNA (často označované jako junk DNA), bude stále důležitější mít kompletní sekvenci genomu jako podklad pro pochopení genetiky a biologie jakéhokoli daného organismu.

V mnoha ohledech se genomové projekty neomezují pouze na určení sekvence DNA organismu. Takové projekty mohou také zahrnovat genovou predikci, která zjistí, kde geny v genomu jsou a co tyto geny dělají. Mohou také existovat související projekty sekvence EST nebo mRNA, které pomohou zjistit, kde geny skutečně jsou.

Historické a technologické perspektivy

Historicky bylo při sekvenování eukaryotických genomů (jako je červ Caenorhabditis elegans) běžné nejprve zmapovat genom a poskytnout tak řadu orientačních bodů napříč genomem. Spíše než sekvenovat chromozom v jednom tahu by byl sekvenován kus po kuse (s předchozí znalostí přibližně toho, kde se tento kus na větším chromozomu nachází). Změny v technologii a zejména zlepšení zpracovatelského výkonu počítačů znamenají, že genomy mohou být nyní „sekvenovány brokovnicí“ v jednom tahu (tento přístup má však své výhrady, když jej porovnáme s tradičním přístupem).

Zlepšení technologie sekvenování DNA znamená, že náklady na sekvenování nové sekvence genomu trvale klesají (pokud jde o náklady na jeden pár bází) a novější technologie také znamenají, že genomy mohou být sekvenovány daleko rychleji.

Když výzkumné agentury rozhodují o tom, které nové genomy mají být sekvenovány, klade se důraz na druhy, které jsou buď velmi důležité jako modelový organismus, nebo mají význam pro lidské zdraví (např. patogenní bakterie nebo přenašeči chorob, jako jsou komáři) nebo druhy, které mají komerční význam (např. hospodářská zvířata a rostliny). Sekundární důraz je kladen na druhy, jejichž genomy pomohou zodpovědět důležité otázky v molekulární evoluci (např. šimpanz obecný).

V budoucnu je pravděpodobné, že sekvence genomu bude ještě levnější a rychlejší. To umožní určit kompletní sekvence genomu z mnoha různých jedinců stejného druhu. Pro lidi to umožní lépe pochopit aspekty lidské genetické rozmanitosti.

L1 Dominette 01449, Hereford, který slouží jako předmět projektu Genom skotu

Mnoho organismů má genomové projekty, které byly buď dokončeny, nebo budou dokončeny v nejbližší době, včetně: