shvarz | Секвинирование

Entry tags:

Секвинирование

В февральском номере Nature две интересные статьи (обе в открытом доступе):
Eric Lander's "Initial impact of the sequencing of human genome"
Elaine Mardis' "A decade's perspective on DNA sequencing technology"

Картинка из второй статьи: Выход (в тысячах нуклеотидов) одного прогона среднего секвенатора:

(шкала логарифмическая).
Я для сравнения наложил темпы роста размера харддрайва в персональном компьютере за эти же годы (синяя линия).

Flat | Top-Level Comments Only

Не очень понятно, как сравнивалось. Для секвенаторов там указано output per instrumetn run. Что под этим понимать для хард-драйва?

И потом, единицы разные. 1kbp = 250 байт, учтено ли?

'А' -- это байт

Ну, назвать можно как угодно. Но фактическое количество информации, которое имеет одна позиция в геноме - это два бита, ни больше, ни меньше. Геном человека имеет ~ 3*10^9 пар оснований и несет количество информации ~ 750 мегабайт.

Мне про теорию лень, но кроме буквы основания в человеческом геноме есть еще много чего.

В данном контексте это безразлично, так как речь идет не о прочитаных с заданой точностью нуклеотидах из некоторой реальной молекулy ДНК, а о числе байтов 'A','T','G', 'C','N','.' содержащихся в служебных файлах, которые шмудак генерит по ходу своей работы. Если эти байты потом преобразовывать в последовательности человеческого генома(допустим, что мы именноего секвинируем) то их с одного рана станет сильно меньше сразу. На пару порядков.

***но кроме буквы основания в человеческом геноме есть еще много чего.***
Это да, эпигенетические штучки расширяют информационную емкость одного положения в геноме. Но речь-то о секвенаторах, а они выдают только символы голого генома.

***а о числе байтов 'A','T','G', 'C','N','.' содержащихся в служебных файлах***
Нужно ли привязываться к формату выдачи данных? Все ли секвенаторы используют для выдачи результатов формат ASCII? Можно соорудить формат, в котором для хранения отдельных букв отводится не один байт, а 10. Тогда график еще круче будет %) Поэтому самый честный способ сравнивать кол-во информации в одном и том же формате - в бинарном.

Вы не поняли. Большее значение имеет не то, сколько бит потрачено на каждую букву, а то что в рекламных публикациях считается содержимое служебных файлов. В которых каждая конкретная позиция реальной ДНА может быть представлена сотни и тысячи раз.

А записать результат можно еще короче, тривиальным кодом Хаффмана. Но это все пренебрежимо малые величины экономии, в сравнении с.

Сравниваются исключительно скорости. Сравнивать абсолютные цифры я не собирался.

Тогда у Вас скорость для хардов даже завышена, по-моему. Из картинки на вики следует, что в период с 2000 по 2010 их емкость увеличилась в 100 раз, а у Вас концы синего отрезка отличаются по оси Y в 10^5 раз, за тот же период.

Действительно, накосячил :)

Flat | Top-Level Comments Only

Секвинирование

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject