Krizové řízení pandemie/Biologická Kryptografie/úvod do genetického kódu

Tato stránka je součástí projektu:
Krizové řízení pandemie
Příslušnost: všeobecná

Stránka je součástí výzkumu "Krizového řízení pandemie" a je vnořeným podprojektem Biologické Kryptografie.

Úvod

Pokud se člověk zabývá Biologií i Matematikou do hloubky a ne pouze povrchně, brzy zjistí, že tyto dva obory nejsou od sebe tak vzdálené, jak by se na první pohled zdá. Například molekulární biologie souvisí s matematikou v podobě studování struktur (chemické struktury), které jsou zajímavé i z pohledu algebry nebo jiných matematických disciplín jako je kombinatorika, geometrie, teorie grup. Dalším z těchto fenoménů matematické biologie je molekulární genetika. Nové pokroky ve vědomostech ohledně matematiky, fyziky či astronomie se již několikrát věnovaly problematice genetického kódu z pohledu algebry či jiných matematických struktur a nástrojů. Tento nově vytvářený obor se však dívá na problematiku biologie očima matematiky z pohledu teorie kódování.

Přičemž teorie kódování popisuje situace, kdy určitou informaci (zprávu) zapisujeme pomocí posloupnosti znaků z nějaké kódové abecedy. I přestože důvody k tomuto procesu mohou být různé, jedním z nich je problematika možnosti či nemožnosti přenést nebo zaznamenat původní zprávu zvolenými technickými prostředky. Například Morseův telegraf neumožňoval přenos mluvené řeči. Protože na papír nelze přímo zaznamenat tóny, tedy reálnou zvukovou informaci. Podobně nepostačující může být i schopnost zaznamenat mluvený jazyk pomocí písma nebo schopnost zaznamenat informaci hudby do podoby notového záznamu. Vždy v takovém případě dochází k ztrátě a redukci komplexních informací do zjednodušené formy snažící se vystihnout to nejpodstatnější, díky čemuž lze informaci z velké části zachovat a dále reprodukovat. Podobně i genetický kód pouze zjednodušuje komplexní obsah biologické informace do redukované a výstižnější podoby.

Jindy je zpráva v originálu až zbytečně dlouhá a lze ji pro výstižnost a jednoduchost zredukovat. Čímž se teorie dotýká také komprimací dat a informací. Někdy kódování umožní zhustit objem informací do vrstev a vytvářet kódy uvnitř kódů. Díky čemuž lze zaznamenat mnohem větší objem informací.

Všechny tyto dovednosti v souvislosti s genetickým kódem nabývají nové a podstatné důležitosti v době pandemie covid19 2020 a mají za cíl podpořit výzkum pochopení viru SARS-CoV-2 zkoumáním jeho genetického kódu RNA, z cílem nad virem a nemocí vyhrát.

Biologická Kryptografie

Teorie č.1: Duplet 16 = 4 x 4

Když byla v roce 1953 objevena struktura DNA začali první pokusy o pochopení této struktury. Amerického fyzika ruského původu z Oděsy George Gamowa uchvátila myšlenka, že k vysvětlení druhové rozmanitosti a fungování genů by mohla být použita kombinatorika a teorie čísel. Jako jeden z prvních si tehdy uvědomil, že 20 druhů aminokyselin, z nichž se skládají proteiny, nemůže být kódováno dvojicemi nukleotidů, protože existuje jen 16 = 4 x 4 různých dvojic kombinací čtyřprvkové abecedy DNA = {A, C, G, T} nebo RNA = {A, C, G, U}, kde:

A - adenin
C - cytosin
G - guanin
T - thymin
U - uracil

Zatímco triplet 64 = 4 x 4 x 4 různých trojící kombinací čtyřprvkové abecedy. Přestože kombinační potenciál 16-ti kombinací je málo, tak 64 kombinací je zase zbytečně hodně na kódování 20 aminokyselin.

Teorie č.2: Triplet 64 = 4 x 4 x 4

Byl to právě fyzik Francis H .C. Crick spoluobjevitel struktury DNA. který správně pochopil, že danou aminokyselinu kóduje trojce nukleotidů (triplet) 64 = 4 x 4 x 4 a dobře věděl, že tyto triplety (kodony) nejsou nikterak odděleny. To znamená, že není úplně jasné kde daná trojice začíná a odkud se má vlastně začít číst genetická informace.

Předpokládal však, že trojice AAA, CCC GG a TTT nic nekódují a že na zbylých 60-ti trojících je zavedeno 20 tříd ekvivalence. Tedy že 20 aminokyselin se vejde do 60 variant tripletů, nejspíše v podobě 60 = 20 + 20 +20. Tedy, že každá aminokyselina je kódována 3 různými způsoby. Přičemž triplety považoval za ekvivalentní pokud zůstala v rozsahu permutace nikoliv kombinace . Například tři různé způsoby AAC, ACA a CAA jsou ekvivalenty kódující jednu a tu samou aminokyselinu. Přičemž permutační struktura vlastně v takovém případě říká že:

A se vyskytne v tripletu dvakrát (2x)
C se vyskytne v tripletu jednou (1x)

Tedy že struktura takovéhoto tripletu je (A = 2x, C = 1x), se kterými je permutačně mícháno avšak představují to samé. Neboli že každý ekvivalent tripletu je tvořen ze stejných stavebních kamenů, ale pouze jinak zamíchané. Tím pádem:

AAC vyplívá že A = 2x, C = 1x
ACA vyplívá že A = 2x, C = 1x
CAA vyplívá že A = 2x, C = 1x

Tyto tři kombinace AAC, ACA, CAA tedy mají stejnou permutační strukturu. Jenomže se ukázalo že:

AAC kóduje Asn
ACA kóduje Thr
CAA kóduje Gln

To znamená, že tyto zmiňované triplety mající stejnou permutační strukturu nekódují stejnou aminokyselinu, ale každá kóduje jinou (Asn, Thr, Gln). Příroda zdá se u genetického kódu neuznává krásně čistou permutaci.

Teorie č.3: Kombinace teorií předchozích

Při dalším zkoumání se ukázalo, že existují jakési struktury díky kterým lze kódování stejné aminokyseliny seskupit do jakých si tříd nebo bloků, avšak co je zajímavé tak do 4 tripletů kódující tu samou aminokyselinu. Například:

Aminokyselina Ser
- TCx struktura
- TCT kóduje Ser
- TCC kóduje Ser
- TCA kóduje Ser
- TCG kóduje Ser
Aminokyselina Pro
- CCx struktura
- CCT kóduje Pro
- CCC kóduje Pro
- CCA kóduje Pro
- CCG kóduje Pro
Aminokyselina Thr
- ACx struktura
- ACT kóduje Thr
- ACC kóduje Thr
- ACA kóduje Thr
- ACG kóduje Thr

Najednou začínalo být zřejmé, že skutečná pravda bude asi někde uprostřed mezi první teorii o dupletu (16 = 4 x 4) a druhou teorií o tripletu (64 = 4 x 4 x 4). Kde druhá teorie je pouze rozšířením té první čímž vzniká třetí teorie. Najednou se zdálo, že první dva znaky tripletu kódují aminokyselinu a její třetí znak je variantou. Tedy, že první dva znaky například AC jsou konstantou a zbylí třetí znak v rozsahu T, C, A, G je jeho modifikátorem.

Jenomže jak by mohla být jedna a ta samá aminokyselina kódována čtyřmi různými způsoby, když celkových 20 aminokyselin se vejde do 60 variant pouze třikrát? Odpověď je triviálně jednoduchá. Protože ne všechny aminokyseliny mají čtyři varianty. Tatím co třeba aminokyselina Leu se objevuje pouze dvakrát jako TTA, TTG. Tak aminokyselina Iie se objevuje třikrát v jako ATT, ATC ATA. Aminokyselina Met se dokonce objevuje ve vzácné jediné variantě ATG. Zatímco aminokyselina Arg se objevuje hned šestkrát jako CGT, CGC, CGA, CGG, AGA, AGG.

Aminokyselina Leu (2 varianty)
- TTA
- TTG
Aminokyseliny Iie (3 varianty)
- ATT
- ATC
- ATA
Aminokyselina Met (1 varianta)
- ATG
Aminokyselina Arg (6 variant)
- CGT
- CGC
- CGA
- CGG
- AGA
- AGG

U některých aminokyselin je struktura pravidelná a symetrická a u jiných aminokyselin je struktura zcela nepravidelná a tudíž pomocí pravidel prakticky nepopsatelná. Proto byla vyslovena teorie, že genetický kód jakožto systém začíná degradovat a že nejspíše byla DNA v minulosti více pravidelná a více uspořádaná. To proto, že evidentně určitá část kódu je uspořádaná a část kódu není uspořádaná. Část sytému kódu je stabilní a část nikoliv. Část systému je konstantní (stálá) a část systému je variabilní (proměnlivá).

Triplety start a stop

Vyvstává však otázka odkud začít genetickou informaci číst, vlivem neurčitosti a neohraničenosti lze kód na první pohled číst minimálně 3 způsoby:

způsob: ...GAT AAT GCT...
způsob: ...G ATA ATG CT...
způsob: ...GA TAA TGC T...

Tím pádem ale každý způsob mění význam genetického kódu a kóduje pokaždé jiný sled aminokyselin v bílkovině.

Přičemž tři tečky před sekvencí znamenají předcházející část sekvence a tři tečky za sekvencí znamenají zbylou část sekvence. Přičemž podle vědců panuje názor, že některé části sekvence nic nekódují a na tvorbě proteinů se nepodílí. Přičemž se u nekódující sekvence zjistily shodné sekvence některých virů. V každém případě je nutné znát začátek a konec sekvence.

Příroda tento problém vyřešila tak, že většina proteinů (většina sekvencí) začíná aminokyselinou Met (Methionin), která se vyskytuje ve své jediné variantě v DNA tripletem (kodonem) ATG. Čímž se stává jakýmsi příznakem startu čtení sekvence.

Triplet ATG může být samozřejmě i na jiných místech kódování v sekvenci. Jak tedy buňka pozná, že začátek šifry pro bílkovinu je zrovna zde a nikoliv na jiném místě ATG uvnitř sekvence? Ten správný startovací kodón totiž předchází další specifická kombinace několik kodonů, jenž říkají při napojování čtecího enzymu, že se jedná o správný startovací kodón (triplet).

Specifická startovací sekvence je širší nejenom proto, aby ji čtecí enzym našel, ale také proto, aby se mohl dobře uchytit, protože čtecí enzym je složitější větší zachumlaná molekula.

Konec šifrování určuje STOP-kodón, který se vyskytuje ve 3 variantách, konkrétně jako TAA, TGA a TAG. Tyto triplety nešifrují žádnou aminokyselinu a výroba bílkoviny se na nich zastavuje. Přičemž ve speciálních případech může být místo dvou z tripletů "TGA" a "TAG" dosazen aminokyselinou U (selenocytein) nebo O (pyrolysin)

Tabulka START-STOP kodónů:

START - 1 varianta
- ATG kódující Met (Methionin)
STOP - 3 varianty
- TAA - nic nekóduje
- TGA - nic nekóduje
- TAG - nic nekóduje

Proteiny a aminokyseliny

Protein je složen z aminokyselin
Struktura proteinu je dána pořadím aminokyselin a polypeptidovém řetězci. Tato struktura se označuje jako sekvence proteinu. Standardně se zapisuje od N-konce k C-konci proteinu. Tato sekvenční struktura udává chemické vlastnosti bílkoviny a také determinuje vyšší struktury protože bílkoviny je možné dál skládat do větších celků.
Z 20 druhů obvyklých aminokyselin, které se vyskytují v lidském těle, může v případě jednoduchého proteinu, složeného ze 100 aminokyselin seřazených do řetězce, vzniknout až 10¹³⁰ různých proteinů.
Většina organismů je tvořena různě složitými proteiny
- skleroproteiny (fibriální) - Molekuly proteinů mohou vytvářet protáhlé, vláknité, ve vodě nerozpustné struktury
  - kolagen, keratin, fibroin - jenž tvoří vlasy, rohovinu, chrupavky atd.
- sferoproteiny (globulární) - Jsou kulovité nebo elipsoidní, ve vodě rozpustné.
  - enzymy, svalová tkáň

Protein je definován především aminokyselinovou sekvencí. Proces skládání probíhá jako hledání konformace, ve kterém je molekula v nejnižším energetickém stavu. Protože v tomto stavu dosahuje nejvyšší stability. Hlavním faktorem při skládání proteinu je hydrofobní efekt, díky kterému některé typy aminokyselin zaujmou automaticky uspořádání v jádru proteinu a tím se ukryjí před molekulami vody. Dalším faktorem je tvorba vodíkových můstků mezi hydrofilními aminokyselinami díky čemuž pak společně v jádru udržují stabilní stav.

Základním stavebním kamenem takovéhoto proteinu jsou 2 aminokyseliny, spojené peptidovou vazbou. Pokud je protein tvořen více než 2 aminokyselinami až do velikosti 80, mluvíme o peptidech složitější struktury. Pokud má protein více než 80 aminokyselin nazýváme jej bílkovinou. Přehledněji:

základní peptin - 2 aminokyseliny spojené peptidovou vazbou
složitější peptin- od 2 do 80 aminokyselin
bílkovina (protein) - od 80 aminokyselin a více

Jiné členění:

oligopeptidy - 2 až 10 aminokyselin
polypeptidy - 11 až 100 aminokyselin (v jiné literatuře 11 až 50 aminokyselin)
vlastní bílkoviny - více než 100 aminokyselin ( v jiné literatuře více než 50 aminokyselin)

Seznam 20 (ve skutečnosti 21) aminokyselin:

Glycin - Gly - G
Alanin - Ala - A
Arginin - Arg - R
Asparagin - Asn - N
Kyselina asparágová - Asp - D
Cystein - Cys - C
Glutamin - Gln - Q
Kyselina glutamová - Glu - E
Histidin - His - H
Isoleucin - IIe - I
Leucin - Leu - L
Lysin - Lys - K
Methionin - Met - M
Fenylalanin - Phe - F
Prolin - Pro - P
Serin - Ser - S
Threonin - Thr - T
Tryptofan - Trp - W
Tyrosin - Tyr - Y
Valin - Val - V
Selenocystein - SeCys - nahazuje cystein (Cys - C) v lidském enzymu glutathionperoxidáze a v některých bakterií.

Závěr

Reference