Что является единицей генетического кода

Гены, генетический код и его свойства

Содержание:

Генетический код – это информация в геноме, где закодированы строение и структура белковых молекул человеческого организма. Одна молекула ДНК является «носительницей знаний» о сотнях тысяч белков.

Структура белковой молекулы записана как на ленте кинопленке – на одном гене. Чтобы синтез белка прошел удачно, информация определенным образом считывается с молекулы ДНК. Благодаря этому синтезируются разные и похожие по структуре белковые макромолекулы.

Ген – это элементарная единица, предназначенная для хранения наследственной информации. Учеными-генетиками подсчитано количество наследственной информации, которая пока определяется 30 000 генов.

Все гены делятся на две большие категории:

Структура гена

Что является единицей генетического кода

Нить ДНК состоит из последовательно расположенных нуклеотидов, а цепочка белковой молекулы строится из аминокислот. Для синтеза белка нужно 20 аминокислот. Каждая аминокислота кодируется тремя нуклеотидами ДНК (триплет).

К сведению: Для каждого организма генетический код является универсальной формулой, которая отличается только последовательностью нуклеотидов. В 1965 году ученые-генетики частично расшифровали структуру генетического кода. Был открыт 61 триплет, чтобы закодировать аминокислоты и 3 стоп-триплета, означающие окончание гена.

Общие черты генетического кода:

Свойства генетического кода

Что является единицей генетического кода

Генетический код строится из триплетов (тройки) нуклеотидов, расположенных в нескольких комбинациях. Каждый триплет кодирует конкретную аминокислоту, которая будет встроена в полипептидную белковую цепочку. Часть кодонов расшифрована и есть таблицы, в которых указана последовательность триплетов ДНК, необходимых для построения отдельных белковых молекул.

На заметку: Исключительность каждой личности – факт, установленный научно. Исключение составляют только однояйцевые близнецов. Комбинации генов в геноме постоянно меняются, поэтому невозможно рождение второго Баха, Менделеева, Пушкина или любого другого человека, который уже существовал на Земле.

Источник

Генетический код

Генети́ческий код — свойственный всем живым организмам способ кодирования аминокислотной последовательности белков при помощи последовательности нуклеотидов.

В ДНК используется четыре азотистых основания — аденин (А), гуанин (G), цитозин (С), тимин (T), которые в русскоязычной литературе обозначаются буквами А, Г, Ц и Т. Эти буквы составляют алфавит генетического кода. В РНК используются те же нуклеотиды, за исключением тимина, который заменён похожим нуклеотидом — урацилом, который обозначается буквой U (У в русскоязычной литературе). В молекулах ДНК и РНК нуклеотиды выстраиваются в цепочки и, таким образом, получаются последовательности генетических букв.

Что является единицей генетического кода

Что является единицей генетического кода

Белки практически всех живых организмов построены из аминокислот всего 20 видов. Эти аминокислоты называют каноническими. Каждый белок представляет собой цепочку или несколько цепочек аминокислот, соединённых в строго определённой последовательности. Эта последовательность определяет строение белка, а следовательно все его биологические свойства.

Реализация генетической информации в живых клетках (то есть синтез белка, кодируемого геном) осуществляется при помощи двух матричных процессов: транскрипции (то есть синтеза мРНК на матрице ДНК) и трансляции генетического кода в аминокислотную последовательность (синтез полипептидной цепи на мРНК). Для кодирования 20 аминокислот, а также сигнала «стоп», означающего конец белковой последовательности, достаточно трёх последовательных нуклеотидов. Набор из трёх нуклеотидов называется триплетом. Принятые сокращения, соответствующие аминокислотам и кодонам, изображены на рисунке.

Содержание

Свойства

Таблицы соответствия кодонов мРНК и аминокислот

Генетический код, общий для большинства про- и эукариот. В таблице приведены все 64 кодона и указаны соответствующие аминокислоты. Порядок оснований — от 5′ к 3′ концу мРНК.

UUU (Phe/F)Фенилаланин
UUC (Phe/F)Фенилаланин
UUA (Leu/L)Лейцин
UUG (Leu/L)Лейцин

UCU (Ser/S)Серин
UCC (Ser/S)Серин
UCA (Ser/S)Серин
UCG (Ser/S)Серин

UAU (Tyr/Y)Тирозин
UAC (Tyr/Y)Тирозин
UAA Ochre (Стоп)
UAG Amber (Стоп)

CUU (Leu/L)Лейцин
CUC (Leu/L)Лейцин
CUA (Leu/L)Лейцин
CUG (Leu/L)Лейцин

CCU (Pro/P)Пролин
CCC (Pro/P)Пролин
CCA (Pro/P)Пролин
CCG (Pro/P)Пролин

CAU (His/H)Гистидин
CAC (His/H)Гистидин
CAA (Gln/Q)Глутамин
CAG (Gln/Q)Глутамин

CGU (Arg/R)Аргинин
CGC (Arg/R)Аргинин
CGA (Arg/R)Аргинин
CGG (Arg/R)Аргинин

AUU (Ile/I)Изолейцин
AUC (Ile/I)Изолейцин
AUA (Ile/I)Изолейцин
AUG (Met/M)Метионин, Start [2]

ACU (Thr/T)Треонин
ACC (Thr/T)Треонин
ACA (Thr/T)Треонин
ACG (Thr/T)Треонин

AAU (Asn/N)Аспарагин
AAC (Asn/N)Аспарагин
AAA (Lys/K)Лизин
AAG (Lys/K)Лизин

AGU (Ser/S)Серин
AGC (Ser/S)Серин
AGA (Arg/R)Аргинин
AGG (Arg/R)Аргинин

GUU (Val/V)Валин
GUC (Val/V)Валин
GUA (Val/V)Валин
GUG (Val/V)Валин

GCU (Ala/A)Аланин
GCC (Ala/A)Аланин
GCA (Ala/A)Аланин
GCG (Ala/A)Аланин

GAU (Asp/D)Аспарагиновая кислота
GAC (Asp/D)Аспарагиновая кислота
GAA (Glu/E)Глутаминовая кислота
GAG (Glu/E)Глутаминовая кислота

GGU (Gly/G)Глицин
GGC (Gly/G)Глицин
GGA (Gly/G)Глицин
GGG (Gly/G)Глицин

Что является единицей генетического кода

Что является единицей генетического кода

2-е основание
UCAG
1-е
основание
U
Обратная таблица (указаны кодоны для каждой аминокислоты, а также стоп-кодоны)

Ala/AGCU, GCC, GCA, GCGLeu/LUUA, UUG, CUU, CUC, CUA, CUG
Arg/RCGU, CGC, CGA, CGG, AGA, AGGLys/KAAA, AAG
Asn/NAAU, AACMet/MAUG
Asp/DGAU, GACPhe/FUUU, UUC
Cys/CUGU, UGCPro/PCCU, CCC, CCA, CCG
Gln/QCAA, CAGSer/SUCU, UCC, UCA, UCG, AGU, AGC
Glu/EGAA, GAGThr/TACU, ACC, ACA, ACG
Gly/GGGU, GGC, GGA, GGGTrp/WUGG
His/HCAU, CACTyr/YUAU, UAC
Ile/IAUU, AUC, AUAVal/VGUU, GUC, GUA, GUG
STARTAUGSTOPUAG, UGA, UAA

Вариации стандартного генетического кода

В некоторых белках нестандартные аминокислоты, такие как селеноцистеин и пирролизин, вставляются рибосомой, прочитывающей стоп-кодон, что зависит от последовательностей в мРНК. Селеноцистеин сейчас рассматривается в качестве 21-й, а пирролизин 22-й аминокислот, входящих в состав белков.

Несмотря на эти исключения, у всех живых организмов генетический код имеет общие черты: кодон состоят из трёх нуклеотидов, где два первых являются определяющими, кодоны транслируются тРНК и рибосомами в последовательность аминокислот.

История представлений о генетическом коде

Тем не менее в начале 60-х годов XX века новые данные обнаружили несостоятельность гипотезы «кода без запятых». Тогда эксперименты показали, что кодоны, считавшиеся Криком бессмысленными, могут провоцировать белковый синтез в пробирке, и к 1965 году был установлен смысл всех 64 триплетов. Оказалось, что некоторые кодоны просто-напросто избыточны, то есть целый ряд аминокислот кодируется двумя, четырьмя или даже шестью триплетами.

Источник

Генетический код. Биосинтез белка

теория по биологии 🌿 основы генетики

Генетическая информация и генетический код

Каждый вид имеет свой собственный, отличный от других видов, набор белков. Интересно то, что белки, выполняющие идентичные функции у разных видов могут быть похожими или даже абсолютно идентичными.

У белков есть несколько состояний их структур:

Что является единицей генетического кода

Именно первичная структура является определяющей свойства белка. Эта структура – цепь из аминокислот. Аминокислоты, в свою очередь, представляют собой ряд триплетов из нуклеотидов. Решая генетические задачи, обращаются как раз-таки к знакомой таблице:

Что является единицей генетического кода

Каждая аминокислота кодируется тремя нуклеотидами, которые составляют триплет или иначе кодон. Именно последовательность нуклеотидов называется генетической информацией, а участок последовательности, в котором хранится информация о первичной структуре белка это и есть ген.

Нуклеотиды, составляющие ДНК и РНК различаются:

В состав ДНК входят:

В состав РНК входят:

Кроме того, в составе РНК (рибонуклеиновой кислоты) сахар рибоза, а ДНК (дезоксирибонуклеиновой кислоты) — дезоксирибоза. РНК — одноцепочечная, а ДНК — двухцепочечная.

Между нуклеотидами есть водородные связи. Они могут быть как двойные, так и тройные. Нуклеотиды не могу быть связаны в случайном порядке. Для этого существует принцип комплементарности ДНК, по которому аденин одной цепи ДНК соединяется с тимином другой цепи ДНК, другая пара в ДНК – гуанин – цитозин. В РНК все аналогично, за исключением того, что вместо тимина там урацил. Между парами А-Т/А-У две водородных связи, а между парами Ц-Г – три. На письме это обозначается чёрточками: двойная связь как знак «равно», а тройная – три горизонтальные черты.

Что является единицей генетического кода

Свойства генетического кода

Транскрипция и трансляция

Из цитологии известно, что генетическая информация у эукариотических клеток заключена в ядре в виде ДНК. Однако процесс биосинтеза белка происходит в цитоплазме на рибосомах.

Спиральная цепь ДНК при раскручивается, в это время по одной из цепочек ДНК строится комплементарная цепь. Из ядра в цитоплазму информация выходит в виде информационной РНК (иРНК). иРНК комплементарная одной из цепей ДНК. Этот процесс переписывания называется транскрипцией. Полученная цепь практически идентичная другой цепи ДНК, за исключением того, что вместо тимина там урацил.В процессе участвует специальный фермент РНК-полимераза.

Что является единицей генетического кода

Теперь в ядре есть цепочка, которая уже начала процесс биосинтеза. Как говорилось выше, процесс ассимиляции идет на рибосомах. иРНК выходит в цитоплазму через поры ядерной мембраны

тРНК по форме напоминает лист клевера, а по принципу работы – штамп. На него, прямо как чернила, наслаиваются кодоны.

В цитоплазме начинается процесс трансляции, то есть перевод последовательности нуклеотидов информационной РНК в последовательность аминокислот белка.

Что является единицей генетического кода

Рибосома захватывает стартовый конец цепи иРНК. Затем она начинает двигаться по цепи, одна остановка рибосомы происходит на 6-ти нуклеотидах. В это время молекула тРНК, на которых есть триплет аминокислоты «подлетает» к цепи, в месте, где находится рибосома. За время остановки рибосомы транспортная РНК успевает распознать свою пару на цепи иРНК, которая называется антикодоном. Тогда тРНК «ставит свой штамп», оставляя на цепи свой кодон. Между нуклеотидами образуются водородные связи. Так нарастает новая цепь. На одной информационной РНК работает сразу много рибосом, поэтому работа идет очень быстро. Совокупность рибосом, синтезирующих на одной иРНК, называется полисомой.

По окончанию процесса биосинтеза, цепочка отсоединяется от рибосомы и принимает свою природную структуру: вторичную, третичную или четвертичную.

pазбирался: Надежда | обсудить разбор | оценить

В современной генетической инженерии часто применняют технологии, связанные с гомологичной рекомбинацией ДНК непосредственно в живом объекте. Один из примеров – система CRE-Lox P. Lox P – это последовательность нуклеотидов в ДНК фага Р1. Она состоит из 34 нуклеотидов. В середине располагается несимметричная последовательность из 8 нуклеотидов (показана серой стрелкой на рисунке). По краям располагаются так называемые палиндромные последовательности из 13 нуклеотидов (выделены на рисунке как пунктирные блоки). Они симметричны (чтобы в этом убедиться, достаточно прочитать обе последовательность от 5´- конца к 3´- концу). Именно эти палиндромные участки узнаёт особый фермент, вызывающий рекомбинацию, который обозначают CRE. Будем в дальнейшем называть этот фермент рекомбиназой CRE. Для того, чтобы состоялась рекомбинация, два сайта Lox P должны расположиться параллельно друг другу. Рекомбиназа CRE узнает эти сайты, внесет в ДНК разрезы в определённых местах, а затем Что является единицей генетического кодасоединит по-новому две нити ДНК (т.е. произойдет рекомбинация). Аналогично работает и другая система гомологичной рекомбинации – Flp-FRT, обнаруженная у пекарских дрожжей. Сайт FRT – это последовательность ДНК, которую узнает свой фермент гомологичной рекомбинации – флиппаза (Flp). Что является единицей генетического кодаПри рекомбинации две молекулы ДНК должны ориентироваться параллельно друг другу сайтами FRT, и только в этом случае произойдёт рекомбинация. Заметим, что флиппаза Flp узнает только свою последовательность FRT, но не может работать с сайтами Lox P, а рекомбиназа CRE узнает только свои сайты Lox P, но не работает с сайтами FRT. Предварительное доказательство (лемма) к задаче 9 (5 баллов). 1. Докажем, что при гомологичной рекомбинаци по «перевёрнутым» (инвертированным) повторам происходит «переворот» последовательности ДНК, находящейся между повторами. Для этого нарисуем молекулу ДНК и условно обозначим на ней буквами несколько точек. Что является единицей генетического кодаЗатем «изогнём» молекулу так, чтобы повторы, обозначенные стрелками, встали параллельно друг другу. После обмена участками и «распрамления» окажется, что центральная часть между повторами «перевернулась». Что является единицей генетического кода2. Докажем, что при гомологичной рекомбинаци по прямым повторам происходит образование кольцевой ДНК, при этом из линейной последовательности ДНК «удаляется» участок, находящейся между повторами. Для этого используем тот же приём: нарисуем молекулу ДНК и условно обозначим на ней буквами несколько точек. Только в этом случае для того, чтобы прямые повторы встали параллельно друг другу, придётся хитроумно изогнуть молекулу так, чтобы от конца одного из повторов (точка С) шли точки D, E, F, а потом начинался новый повтор (в точке G). После рекомбинации точки С и G поменяются местами, и в результате получится кольцевая ДНК (C, D, E, F, G) и линейный участок (A, B, H, J). Будем считать, что кольцевая ДНК как бы «исчезает» (не может реплицироваться в клетке). Что является единицей генетического кодаА. Поскольку после 35S-промотора на той же цепи ДНК располагается кодирующая часть гена DsRed, клетки должна светиться красным светом. Б. Рекомбиаза CRE узнаёт последовательнсоти LoxP. Если повторы расположены инвертированно, то произойдёт «переворот» последовательности ДНК, расположенной между повторами. Таким образом, после рекомбинации конструкция будет выглядеть следущим образом: Что является единицей генетического кодаСвечение клеток изменится, поскольку после промотора на той же цепи ДНК окажется гена BFP, обестпечивающий синее свечение клеток. В. При рекомбинации по прямым повторам происходит потеря участка ДНК, расположенного между ними. Из двух повторов остаётся только один. Таким образом, после рекомбинации по сайтам FRT конструкция будет выглядеть следующим образом: Что является единицей генетического кодаКлетки будут светиться зелёным светом за счёт того, что под промотором оказалась кодирующая последовательность гена GFP. Г. После действия рекомбиназы CRE те последовательности, на которые может действовать флип паза Flp, «перевернулись», и вместо прямых стали инвертрованными. После рекомбинации участок между ними также должен «перевернуться»: Что является единицей генетического кодаВ этом случае клетки также будут светиться зелёным светом за счёт того, что под промотором оказалась кодирующая последовательность гена GFP.

pазбирался: Надежда | обсудить разбор | оценить

pазбирался: Надежда | обсудить разбор | оценить

Сначала найдём место расщепления плазмиды рестриктазой BglII: Что является единицей генетического кодаТаких участков оказывается два. В результате расщепления из плазмиды выщепляется короткий фрагмент: Что является единицей генетического кодаОстаётся укороченная линейная ДНК, содержащая интактный ген устойчивости к ампицилину и расщеплённый ген устойчивости к эритромицину. Что является единицей генетического кодаПри сшивании липких концов ДНК-лигазой наиболее часто будут соединяться концы этой молекулы и образовываться кольцо длиной 4163 нуклеотида. Такая ДНК будет сообщать клеткам устойчивость к ампицилину и не даст устойчивости к эритромицину. Второй фрагмент из-за небольшой длины не может замкнуться в кольцо. Второй вариант лигирования приводит к сшиванию липких концов двух фрагментов. Он происходит примерно в 10 раз реже, а после сшивки вторая пара липких концов скорее всего также, как и исходный фрагмент замкнётся в кольцо. Таких колец из пары фрагментов может образоваться 4 вида: димеры большого фрагмента в двух разных ориентациях (правый конец с левым концом второго фрагмента и левый конец с правым концом второго фрагмента или правый с правым и левый с левым) и соединения большого и малого фрагмента в двух разных ориентациях (вариант исходной плазмиды и инверсия малого фрагмента). Из них только в варианте исходной плазмиды восстанавливается устойчивость к эритромицину. Линейная молекула, образованная сшиванием двух фрагментов, может присоединить ещё один фрагмент с ещё в 10 раз меньшей частотой. Такие фрагменты в дальнейшем будут циклизоваться в плазмиды трёх размеров: из трёх больших фрагментов, из двух больших и одного малого и одного большого и двух малых. Три малых фрагмента дадут короткую последовательность, которая не сможет замкнуться в кольцо и существовать в клетке. В каждом размерном классе будет несколько вариантов с разной ориентацией фрагментов. Только в одном из них восстановится ген устойчивости к эритромицину: правый конец большого фрагмента соединяется с левым концом малого фрагмента, а правый конец малого фрагмента – с левым концом второго большого фрагмента, а оставшиеся концы двух больших фрагментов соединяются с образованием кольцевой плазмиды длиной 8363 пары нуклеотидов. Доля таких молекул будет менее 1% всех плазмид. Вероятность образования плазмид из 4 и более фрагментов ещё на порядок ниже и их обнаружение при данном числе полученных трансформированных клеток нереально. А. Так как расщепление рестриктазой не затрагивает ген устойчивости к ампицилину, все клетки, в результате трансформации получившие любую плазмиду, будут устойчивы к ампицилину и вырастут на среде с этим антибиотиком. Таким образом из 33506 выросших колоний плазмиду получили 578, выросших на ампицилине. Эффективность трансформации представляет долю трансформированных клеток от общего их числа, т.е. 573 : 51366 × 100% = 1.12% Б. На эритромицине могут вырасти только те клетки, в которые попали плазмиды, в которых в результате лигирования восстановится последовательность нуклеотидов в гене устойчивости к этому антибиотику, расщеплённому рестриктазой. Остальные плазмиды, полученные по приведённой методике, будут содержать либо ген с выщепленным коротким фрагментом, что приведёт либо к утрате стартового кодона (если обозначенный зелёным цветом кодон является стартовым), либо к сдвигу рамки считывания (т.к. число удалённых нуклеотидов не кратно трём), либо, при инверсии короткого фрагмента, к появлению стоп-кодонов т.е. прекращению синтеза белка. Таким образом большинство полученных плазмид не обеспечат устойчивости к эритромицину. В. Рост на эритромицине могут обеспечить только плазмиды, несущие восстановленную последовательность гена устойчивости. Такие плазмиды могли образоваться из одного большого и одного малого фрагмента (4200 пар, исходная плазмида)) или из двух больших и одного малого (8363 пары, начало и конец гена из разных копий большого фрагмента). Г. Получается 1 размер из одного большого фрагмента, два размерных класса из двух фрагментов и три размерных класса из трёх фрагментов, то есть 6 размерных классов. (В реальности различить по длине плазмиды, отличающиеся на длину малого фрагмента, т.е. менее чем на 0,5%, невозможно. Поэтому в эксперименте, например на электрофореграмме, будут видны лишь три размерных класса, соответствующие 1, 2 или 3 копиям большого фрагмента.)

pазбирался: Надежда | обсудить разбор | оценить

По принципу комплементарности строим

Источник

Анализ Генетического кода I

Что является единицей генетического кода
Иллюстрация melmagazine.com (Source: melmagazine.com/wp-content/uploads/2019/11/DNA-1280×533.jpg)

В настоящее время для информационного обмена широко используются сети общего доступа с каналами, не защищенными от нарушителя. Обмен сообщениями в таких связных и компьютерных сетях пользователи вынуждены защищать самостоятельно. Так как сами каналы передачи сообщений пользователь защитить не может, он защищает сообщение.

Что в сообщении защищается? Во-первых, синтаксис (целостность) с этой целью используется кодология (кодирование и анализ кодов), во-вторых, семантика (конфиденциальность) для чего используются криптология (криптография и криптографический анализ), в-третьих, косвенно нарушителю можно ограничить доступность сообщения путем скрытия факта его передачи для чего используется стеганология (стеганография и стеганоанализ).

Перечисленные возможности теоретически и практически обеспечены в разной мере, и хотя каждое направление развивается достаточно длительное время, они еще далеки от завершения. В предлагаемой работе коснемся только одного частного вопроса — анализа кодов сообщений.

Введение

В качестве объекта анализа выбран генетический код (ГК). С любопытным примером использования ГК в области информационной защиты (по-видимому непрофессиональной и потому не успешной) можно познакомиться здесь.

В теории кодирования могут быть выделены два важных направления: кодирование источника информации и канальное кодирование. Первое из них реализуется, как правило, передающей стороной и имеет целью — устранение избыточности сообщений (пример, код Морзе), целью второго является — обнаружение и устранение ошибок в сообщениях. До появления корректирующих кодов задача устранения ошибок решалась повторной передачей искаженного фрагмента сообщения по запросу приемной стороны.

Здесь отметим факт невозможности правильного расшифрования приемной стороной шифрграммы, если в ее тексте возникли ошибки. Шифры не позволяют ни обнаруживать ошибки, ни тем более их исправлять. По этой причине на передающей стороне системы связи сообщение-шифрграмма кодируется корректирующим кодом, а на приемной стороне декодер в полученном сообщении обнаруживает (если они есть) и исправляет ошибки.

После этого вступает в дело криптосистема и легитимному получателю предоставляется расшифрованное сообщение. Таковы в общих чертах положения функционирования сетей, обменивающихся защищенными сообщениями.

В этой работе займемся подробно анализом очень важного Генетического кода, который создан не разумом человека, а самой природой (редкий случай).

История одного открытия и Нобелевская премия

Зададимся вопросом, как природой на уровне генетики и метаболизма организмов (клеток) реализованы такие положения информационного обмена в жизнедеятельности видов и их отдельных представителей?

Научному миру еще до Второй мировой войны было известно, что у живых организмов передача от поколения к поколению наследственных признаков осуществляется через относительно простые химические единицы (гены), включающие огромное количество информации, необходимой для продолжения и воспроизводства жизни.

Все гены (не являются белками) связываются в цепочки (хромосомы) и материализуются в дезоксирибонуклеиновой кислоте (ДНК). У специалистов не было ясности в том, как все происходит и как устроена сама ДНК.

Молодые исследователи физик англичанин Ф. Крик и биолог американец Дж. Уотсон в 1953 году (25.4) опубликовали в журнале Nature статью «Структура дезоксирибонуклеиновой кислоты». На момент начала их работы 1949 г. Джеймсу Уотсону было 23 года, Френсису Крику и Морису Уилкинсу по 33.

В статье авторы описали модель пространственной структуры ДНК в виде двойной спирали, две нити которой закручивалась вправо. Сами нити при этом оказывались связанными поперечными «ступенями», образованными из нуклеотидов.

Определение. Нуклеотиды — соединения, состоящие из сахара, азотсодержащих оснований (пурина или пиримидина) и фосфорной кислоты. Нуклеотиды являются «строительными блоками» для ДНК и РНК.

Эта спираль ДНК – носитель генетического кода – кода наследственности признаков организмов животных и растений. Это была совершенно необычная новая работа о строении и свойствах молекулы дезоксирибонуклеиновой кислоты.

Модель ДНК молодых авторов получила подтверждение при сопоставлении ее с рентгеновской дифракционной картиной кристаллической структуры ДНК английского биофизика Мориса Уилкинса. Позднее был открыт генетический код, содержащий и передающий информацию о синтезе структуры и состава белков – основных составляющих каждой клетки живых организмов, реализующей клеточный цикл.

Определение. Клеточный цикл — правильное чередование периодов относительного покоя с периодами деления клетки.

В этом же году позднее авторы опубликовали еще одну статью, в которой описывался возможный механизм копирования ДНК путем матричного синтеза при делении живых клеток. Двойная спираль ДНК уподоблялась «замку молния».

Каждая нить спирали после «расстегивания замка» и разведения нитей становилась синтезирующей матрицей и достраивалась второй нитью материалом из цитоплазмы клетки по принципу комплементарности до полной ДНК. Там же говорилось, что определенная последовательность оснований (кодонов, триплетов) является кодом, который содержит генетическую информацию.

Идея математизации кода высказывалась впервые Г. Гамовым в статье 1954 года как проблема перевода слов из четырехбуквенного алфавита (системы) в слова двадцатибуквенного алфавита. Он представил проблему кодирования жизненных явлений не как биохимическую, а как комбинаторную математическую задачу. Предварительные длительные усилия авторов этого труда хорошо описаны в книге Д. Уотсона «Нить жизни».

В 1962 году Уотсон, Крик и Уилкинс получили Нобелевскую премию по физиологии и медицине «за открытия в области молекулярной структуры нуклеиновых кислот и за определение их роли для пере-дачи информации в живой материи».

Они располагали информацией о следующих фактах:

В гипотезах и предположениях недостатка не было, но кто-то должен проверять их истинность.
Перекрывающиеся коды (один нуклеотид-буква входит в состав более чем одного кодона): треугольный, мажорно-минорный и последовательный, предложены Гамовым с коллегами;
неперекрывающиеся коды: комбинационный Гамова и Ичаса, «код без запятых» Крика, Гриффита и Оргела. В комбинационном коде аминокислоты (20) кодируются триплетами из 4-х нуклеотидов, но важен не их порядок, а только состав: триплеты ТТА, ТАТ, АТТ кодируют в белках одну и ту же аминокислоту.

Код без запятых объяснял, как выбирается «рамка считывания». Такое «скользящее окно» вдоль нити ДНК, где буквы следуют, друг за другом без разделителей (запятых) их на слова предполагает, что слова все-таки как-то различаются. Согласно модели Ф. Крика делалось допущение: все триплеты разделяются на осмысленные, т. е. соответствующие конкретным аминокислотам, и не имеющие смысла.

Если только осмысленные триплеты формируют ДНК, то в другой «рамке считывания» такие триплеты окажутся не имеющими смысла. Авторы этого кода показали, что можно подобрать триплеты, удовлетворяющие таким требованиям и что их ровно 20. Конечно, полной уверенности в своей правоте у авторов не было.

Действительно, после 1960 года было показано, что кодоны, считавшиеся Криком бессмысленными, в пробирке реализовывали белковый синтез, а к 1965 году был установлен смысл всех 64 кодонов-триплетов. Выяснилось также, что ряд аминокислот кодируется двумя, тремя, четырьмя и даже шестью разными триплетами, т. е. имеет место определенная избыточность, назначение которой еще предстоит определить.

Генетический код жизни. Наследственная информация

Определение. Генетический код – множество слов, задающих способ кодирования цепочками нуклеотидов (букв алфавита А, G, C, T), последовательности аминокислот синтеза белков, свойственных всем живым организмам. Цепочки триплетов (кодовых слов) образуют хромосомы – носители наследственной информации. Каждому виду живых организмов соответствует свой хромосомный набор. Этот способ кодирования универсален и реализуется в каждой клетке растительного и животного организма при ее делении.

Для кодирования каждой из 20 видов канонических аминокислот, из которых строятся далее практически все белки и терминального сигнала «стоп» оказывается достаточно набора из трех нуклеотидов (букв), называемого триплетом (кодоном). Последовательность кодонов формирует в хромосомной нити ген и определяет последовательность аминокислот в полипептидной цепи белка, кодируемого этим геном. Существовала концепция «один ген – один фермент».

Классическое представление информации (линейность ее записи) – это тексты в широком понимании (речь, письма, книги, изображения, фильмы, музыка и т. п.) этого слова в некотором естественном языке (ЕЯ). Язык включает обширный словарь (лексику), а если ЕЯ кроме устной речи имеет письменность, то и алфавит с грамматикой.

Для сохранения информации в течение длительного времени и передачи ее копий необходимы прочная, хорошо защищенная память и письменность. Наследственная информация живых организмов записана ЕЯ природы в длинных текстах словами в некотором «молекулярном» алфавите, которые хранятся в форме хромосом в ядрах всех клеток живых организмов.

Процессы и пути переноса информации, записанной на естественных её носителях-молекулах, сформулированы Ф. Криком (1958 г.) в форме центральной догмы молекулярной биологии. Три основных процесса обеспечивают управление всеми остальными процессами функционирования клетки и жизни организмов в целом.

Эти процессы: репликация, транскрипция и трансляция. Далее о них будет сказано более подробно. Информация в организмах передается только в одном направлении от нуклеиновых кислот (ДНК → РНК →белок) к белку, обратной передачи не существует. Возможны особые случаи ДНК → белок, РНК→ РНК, РНК → ДНК.

Чтение информации вдоль молекулярных цепочек допустимо только в одном прямом направлении. Используется понятие «рамка считывания».

Определение. Рамкой считывания (открытой) называется последовательность неперекрывающихся кодонов, способная синтезировать белок, начинающаяся со старт-кодона и завершающаяся стоп-кодоном. Рамка определяется самым первым триплетом, с которого начинается трансляция.

Для начала трансляции старт-кодона недостаточно, необходим ещё инициационный кодон (их три: AUG, GUG, UUG). После его считывания трансляция идет путем последовательного считывания кодонов рибосомальной рРНК и присоединения аминокислот друг к другу рибосомой до достижения стоп-кодона.

Кодоны в ходе трансляции «читаются» всегда с некоторого стартового инициирующего символа (AUG) и не перекрываются. Чтение после старта триплет за триплетом идет до стоп-кодона завершения синтеза белковой полипептидной цепи.

Эти факты обобщаются в таблице способов передачи генетической информации.

Таблица 1 – Центральная догма молекулярной биологии
Что является единицей генетического кода

История изучения текстов наследственности организмов, их осмысления, длительная, богатая открытиями, достижениями, заблуждениями и разочарованиями. Перечень событий истории постижения (познания) текстов природы представляет несомненный интерес, как для науки, так и для каждого отдельного человека.

Слова текстов имеют очень большую длину, но алфавит письменности «ЕЯ природы» содержит всего четыре буквы – это молекулярные основания: в РНК это А (аденин), С (цитозин), G (гуанин), U (урацил) (в ДНК урацил заменяется на Т (тимин)). Язык живой природы – это язык молекул.

Биологами установлено, что каждое слово текста наследственности образовано полимерной молекулой ДНК (дезоксирибонуклеиновой кислоты, открытой в 1868 г. врачом И. Ф. Мишером), построенной из 4-х оснований (нуклеотидов – от nuclear — ядерный).

Основания скрепляются (соединяются) между собой в пары, А ←→ Т, Т←→ А, G ←→ C, С ←→ G особыми водородными связями, реализующими принцип дополнительности (комплементарности). Эти факты устанавливались в разное время, разными учеными и методами многих наук (физики, химии, биологии, цитологии, генетики и др.). Сложности на пути познания этого ЕЯ встречались постоянно.

Молекулы ДНК не кристаллизовались, но когда это удалось сделать, то задача установления структуры ДНК свелась к решению обратной задачи рентгеноструктурного анализа (преобразованием Фурье дифракционной картины кристалла, созданной на экране рентгеновскими лучами).

На рассчитанной и собранной вручную Дж. Уотсоном и Фрэнсисом Криком в 1953 году модели аналогично детской игре «LEGO», где элементами являлись молекулярные основания и очень точно выдерживались межатомные расстояния и углы разворота, была воспроизведена структура хромосомы в большом масштабе.

Эта модель практически подтвердила многообразные гипотезы теоретиков и убедительно доказала отсутствие расхождений с практическими экспериментами и результатами рентгеноструктурного анализа кристаллической ДНК.

Основные детальные данные о химическом строении ДНК и числовые характеристики модели были получены Розалиндой Франклин и М. Уилкинсом ранее 1953 г. в лаборатории рентгеноструктурного анализа. Конфликт ученых описан в романе «Одиночество в сети» Януша Леона Вишневского.

Наличие наглядной структуры ДНК и ее количественных характеристик дало толчок для развития генетики и всех бионаук, из которого возникла идея проекта «Геном человека» 2000 г. Уотсон стал первым руководителем этого проекта, в рамках проекта был полностью расшифрован хромосомный набор человека Homo sapiens. Полная генетическая карта 1-й хромосомы завершена в 2006. Карта содержит 3141 ген и 991 псевдоген.

С позиций математики четырем буквам алфавита можно приписать четыре элемента конечного расширенного поля Галуа GF(2 2 ) = (0, 1, α, β), операции с которыми выполняются по модулю неприводимого многочлена р(х) = х 2 + х + 1. Тогда α + β = 1, α∙β = 1 и сопоставление элементов поля буквам принимает вид
Что является единицей генетического кода

, а дополнительный (комплементарный) нуклеотид вычисляется по правилу ¬х → х + 1, откуда Т → А + 1, С → G + 1.

Структурно модель ДНК представляет две эквидистантные полимерные цепи попарно соединенных нуклеотидов (по принципу веревочной лестницы) и закрученных в правую двойную спираль. Ниже по тексту вертикально выписанные пары букв соответствуют ступеням «лестницы»:

Т А G G T T C G Т …
A T C C A A G C A …

Две цепи повторяют последовательность букв, но начало одной расположено напротив конца другой. Информация в молекулах ДНК записывается с большой степенью избыточности, что, конечно, обеспечивает высокий уровень надежности при считывании информации и ее копировании (репликации: ДНК → ДНК). К исходному слову приписывается еще одно, но в дополнительном коде.

Все хромосомы содержат в своем составе гены и в каждой клетке содержатся в очень малом объеме (в ядре клетки) и короткие и очень длинные. Расстояние между нитями ДНК составляет 2 нм, между «ступеньками» – 0.31 нм, один полный оборот «спирали» через каждые 10 пар. Суммарная длина всех ДНК, вытянутых в одну нить достигает 2м. Наследственная информация человека записана в 23 хромосомах. Длина хромосомы порядка 10 9 нуклеотидов, а диаметр ядра меньше микрометра. Таким образом, ДНК в клетке компактизована.

Определение. Ген (греч.γενοζ – род). Структурная и функциональная единица наследственности живых организмов. Гены (точнее аллели) определяют наследственные признаки организмов, передающиеся от родителей потомству при размножении.

В словах ДНК можно выделить и рассматривать отдельные части-подслова (гены), которые несут целостную информацию о строении одной молекулы белка или одной молекулы РНК. Кроме того, гены характеризуются регуляторными последовательностями (промоторами).

Промоторы могут быть расположены как в непосредственной близости от открытой «рамки считывания», кодирующей белок или начала последовательности РНК, так и на расстоянии многих миллионов пар оснований (нуклеотидов), например, в случаях с энхансерами, инсуляторами и супрессорами.

Каждый ген предназначен и отвечает за создание определенного белка, необходимого для жизнедеятельности организма. Понятием генотип обозначается наследственная конституция гамет (половых клеток) и зигот (соматических клеток) в отличие от фенотипа, описывающего благоприобретенные признаки, которые по наследству не передаются.

Блоковые коды

Код многозначное понятие. Кодом, прежде всего, можно назвать множество кодовых слов, образующих собственно сам код. Именно такие слова распознает декодер на приемной стороне при передаче сообщений, а на передающей — их формирует кодер.

При формировании кодовых слов используется однозначное отображение конечного упорядоченного множества символов, принадлежащих некоторому конечному алфавиту, на иное, не обязательно упорядоченное, как правило, более обширное множество символов для кодирования передачи, хранения или преобразования информации

Перечислим свойства рассматриваемого генетического кода (ГК):

Г. Гамовым было высказано предположение о триплетности кода. Поскольку речь идет о 4-х нуклеотидах, образующих алфавит, и о 20 аминокислотах, используемых при синтезе белков, каждая из них должна в качестве прообраза иметь одно (или более) синтезирующее ее слово.

Свойство связано с избыточностью. Состав каждого слова из 64 возможных был установлен лишь в 1965 году на основе многочисленных опытов. Выяснилось, что избыточность числа слов при синтезе некоторых белков используется природой для надежности правильности считывания информации. В итоге получилось, что каждая аминокислота кодируется разным числом триплетов (кодонов). Свойство кода назвали вырожденностью.

Таблица 2 — Количественные соотношения триплетов и аминокислот
Что является единицей генетического кода

Рассмотрим два дискретных множества Х и n, содержащие соответственно |X| и |n| элементов и отображение φ: n → Х. При представлении произвольных отображений множеств словами в алфавите Х получается множество Х n слов, каждое длиной n символов из имеющихся q = |X|, которые образуют алфавит текстовых сообщений. Удобно все слова Х n расположить в лексикографическом порядке в общий список.

Нашей целью в этой части работы является формирование кода, обеспечивающего кодирование (преобразование) передаваемых данных в форму удобную для передачи в пространстве и времени и трансляцию (перевод) с одного языка на другой понятный получателю сообщения.

Формирование кода предполагает выбор алфавита, определение регулярности, а при выборе регулярного кода, определение длины кодового слова, определение количества кодовых слов, определение побуквенного состава каждого слова.

Таблица 3 — Генетический код состоит из 64 кодовых слов из 3-х букв каждое
Что является единицей генетического кода

Таблица 4 — Обратные значения кодовой последовательности триплетов РНК
Что является единицей генетического кода

Дополнительные свойства кода, например, код не должен иметь запятой, определяются более жесткими требованиями к названным параметрам кода. Код без запятой должен иметь слова с максимальным периодом. Такие требования ориентированы на удобство последующего синтеза кодека. С этими положениями синтеза кода тесно связаны вопросы кодирования информации и ее декодирования.

Анализ кода

Совсем по-другому звучит задача анализа кода, когда код уже существует и используется, но о нем самом практически мало что известно. Кодированные сообщения доступны для обозрения и изучения, но они столь разнообразны и многочисленны, что принцип их создания не просматривается даже при весьма обширном их анализе.

Собственно, сама система кодирования также доступна для наблюдения и изучения, но уровень сложности ее построения и функционирования не позволяет получить полное качественное и достоверное описание.

Информация (данные) представляет собой сообщение, т.е. цепочку символов алфавита, которая с некоторой стартовой позиции может быть разбита на отрезки (блоки) длиной n символов, и каждый такой отрезок представляет собой кодовое слово. Код в этом случае блоковый.

На приемной стороне канала передачи сообщения получатель должен иметь возможность правильно разделять непрерывную цепочку символов сообщения на отдельные слова. Использование разделителей слов (запятой) нежелательно, так как требует ресурсов.

Синхронизация. Без выполнения синхронизации правильная трансляция сообщения невозможна. Отсюда вытекает одно из требований к формируемому коду – код должен быть устроен так, чтобы синхронизация обеспечивалась однозначно средствами (свойствами) самого кода и приемного устройства информации.

Определение. Процесс установления позиции, содержащей стартовый (начальный) символ кодового слова, называется синхронизацией.
Задача синхронизации просто решается, если в алфавите используется специальный символ-разделитель слов, например, запятая. Рамка считывания очередного кодового слова устанавливается непосредственно за разделителем.

Такой разделитель удобен, но нежелателен по нескольким причинам.

Для лучшей различимости слов кода они в полном списке возможных слов должны быть удалены одно от другого на некоторое расстояние, т.е. различаться составом значений символов, как векторы векторного пространства компонентами.

Следовательно, кодовыми словами могут быть не все и не любые слова множества Х n , а только лишь некоторое их подмножество D є Х n . Выбор символьного состава слов кода и представляет основную задачу его формирования, так как именно состав слов кода должен обеспечивать удовлетворение сформулированным требованиям к коду. Таким образом, будем далее рассматривать код без запятой.

Синхронизация кода без запятой. Покажем здесь, как может быть обеспечена однозначность синхронизации кода без запятой. Выберем два триплета кодовых слова вида х = (х1, х2, …, хn) и у = (у1, у2, …, уn). Образуем их конкатенацию х||у = (х1, х2, …, хn, у1, у2, …, уn). Эта конкатенация из двух слов позволяет породить еще n – 1 слово множества Х n путем многократных циклических сдвигов на одну позицию влево и выделения первых n символов сдвинутой последовательности. Введем важное понятие перекрытия пары слов.

Определение. При циклических сдвигах символов на шаг получаются слова вида (х2, …, хn, у1), (х3, …, хn, у1, у2)…( хn, у1,…, уn-2, уn-1), которые называются перекрытиями пары слов х и у.

Если все перекрытия в конкатенации для любой пары кодовых слов не являются кодовыми словами, то механизм приемной стороны (декодер) канала передачи информации имеет возможность устанавливать однозначно стартовую позицию. Это возможно при наличии у декодера списка D всех кодовых слов и возможности сопоставления их со считываемыми n символами из принятого сообщения.

Покажем, как это осуществляется. Пусть в принятой последовательности символов выбран и зафиксирован некоторый символ. Отсчитав n символов от фиксированного, декодер сопоставляет слово, которое получилось, со словами кодового списка. Если имеет место совпадение с одним из слов кодового списка, то синхронизация установлена. Фиксированный символ и его позиция стартовые.

Если совпадения нет ни с одним из слов списка кода, т. е. попали на слово-перекрытие, то это означает, что стартовая позиция расположена левее фиксированной позиции.
Сдвигаемся влево на одну позицию от фиксированной и повторяем действия предыдущего шага до тех пор, пока не получим на некотором шаге совпадения с одним из кодовых слов. Этот процесс обязательно имеет успешное завершение в правильной стартовой позиции, т. е. синхронизация в среднем устанавливается за число n/2 шагов.

Определение. Блоковым кодом без разделителя (запятой) называется подмножество D є Х n слов длины n в алфавите Х таких, что для любых двух кодовых слов х, у єD все перекрытия для них не являются кодовыми словами.

Мы уже установили, что такой код обеспечивает правильную синхронизацию в длинных цепочках кодовых слов без разделителей между ними. Какие же слова из множества Х n включаются в подмножество D є Х n ? Если мощность множества Х n делится на целые числа, то мощность D может быть одним из таких делителей (теорема Лагранжа о группах) и код при этом называется групповым блоковым кодом без запятой.

Состав символов в словах кода пока остается не установленным, так же, как и количество слов в D. Очевидно, что выбор конкретного подмножества D из Х n имеет много вариантов (сочетаний из Х n по D), из которых только немногие или возможно единственный удовлетворяет всем требованиям к коду без запятой. Нами рассмотрено одно из важных требований о перекрытиях, и это свойство слов кода может быть использовано в качестве фильтра для отсеивания непригодных вариантов при выборе D.

Перейдем к решению вопроса о числе слов в формируемом коде.

Мощность кода без запятой. Будем отыскивать наибольшее из возможных число слов в коде D, которое обозначим символом |D| = Wn(q). Точное значение получить не удается, но оценку сверху для количества слов получить возможно, используя понятие периода слова. Обозначим символом Т k х циклический сдвиг слова длиной n на k шагов, k k х = х и d ≤ n, d | n. Слова максимального периода d = n называются полноцикловыми (основными). Код без запятой включает в свой состав только полноцикловые слова.

Действительно, пусть кодовое слово х = (х1, х2, х3, х1, х2, х3 ) имеет период d

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *