shvarz: (Default)
shvarz ([personal profile] shvarz) wrote2011-03-29 02:39 pm

Секвинирование

В февральском номере Nature две интересные статьи (обе в открытом доступе):
Eric Lander's "Initial impact of the sequencing of human genome"
Elaine Mardis' "A decade's perspective on DNA sequencing technology"

Картинка из второй статьи: Выход (в тысячах нуклеотидов) одного прогона среднего секвенатора:

(шкала логарифмическая).
Я для сравнения наложил темпы роста размера харддрайва в персональном компьютере за эти же годы (синяя линия).

[identity profile] galicarnax.livejournal.com 2011-03-30 05:15 am (UTC)(link)
***но кроме буквы основания в человеческом геноме есть еще много чего.***
Это да, эпигенетические штучки расширяют информационную емкость одного положения в геноме. Но речь-то о секвенаторах, а они выдают только символы голого генома.

***а о числе байтов 'A','T','G', 'C','N','.' содержащихся в служебных файлах***
Нужно ли привязываться к формату выдачи данных? Все ли секвенаторы используют для выдачи результатов формат ASCII? Можно соорудить формат, в котором для хранения отдельных букв отводится не один байт, а 10. Тогда график еще круче будет %) Поэтому самый честный способ сравнивать кол-во информации в одном и том же формате - в бинарном.

[identity profile] vasja-iz-aa.livejournal.com 2011-03-30 06:33 am (UTC)(link)
Вы не поняли. Большее значение имеет не то, сколько бит потрачено на каждую букву, а то что в рекламных публикациях считается содержимое служебных файлов. В которых каждая конкретная позиция реальной ДНА может быть представлена сотни и тысячи раз.

А записать результат можно еще короче, тривиальным кодом Хаффмана. Но это все пренебрежимо малые величины экономии, в сравнении с.