shvarz: (Default)
shvarz ([personal profile] shvarz) wrote2011-03-29 02:39 pm

Секвинирование

В февральском номере Nature две интересные статьи (обе в открытом доступе):
Eric Lander's "Initial impact of the sequencing of human genome"
Elaine Mardis' "A decade's perspective on DNA sequencing technology"

Картинка из второй статьи: Выход (в тысячах нуклеотидов) одного прогона среднего секвенатора:

(шкала логарифмическая).
Я для сравнения наложил темпы роста размера харддрайва в персональном компьютере за эти же годы (синяя линия).

[identity profile] galicarnax.livejournal.com 2011-03-30 03:52 am (UTC)(link)
Не очень понятно, как сравнивалось. Для секвенаторов там указано output per instrumetn run. Что под этим понимать для хард-драйва?

И потом, единицы разные. 1kbp = 250 байт, учтено ли?

[identity profile] galicarnax.livejournal.com 2011-03-30 04:05 am (UTC)(link)
Ну, назвать можно как угодно. Но фактическое количество информации, которое имеет одна позиция в геноме - это два бита, ни больше, ни меньше. Геном человека имеет ~ 3*10^9 пар оснований и несет количество информации ~ 750 мегабайт.

[identity profile] vasja-iz-aa.livejournal.com 2011-03-30 04:41 am (UTC)(link)
Мне про теорию лень, но кроме буквы основания в человеческом геноме есть еще много чего.

В данном контексте это безразлично, так как речь идет не о прочитаных с заданой точностью нуклеотидах из некоторой реальной молекулy ДНК, а о числе байтов 'A','T','G', 'C','N','.' содержащихся в служебных файлах, которые шмудак генерит по ходу своей работы. Если эти байты потом преобразовывать в последовательности человеческого генома(допустим, что мы именноего секвинируем) то их с одного рана станет сильно меньше сразу. На пару порядков.

[identity profile] galicarnax.livejournal.com 2011-03-30 05:15 am (UTC)(link)
***но кроме буквы основания в человеческом геноме есть еще много чего.***
Это да, эпигенетические штучки расширяют информационную емкость одного положения в геноме. Но речь-то о секвенаторах, а они выдают только символы голого генома.

***а о числе байтов 'A','T','G', 'C','N','.' содержащихся в служебных файлах***
Нужно ли привязываться к формату выдачи данных? Все ли секвенаторы используют для выдачи результатов формат ASCII? Можно соорудить формат, в котором для хранения отдельных букв отводится не один байт, а 10. Тогда график еще круче будет %) Поэтому самый честный способ сравнивать кол-во информации в одном и том же формате - в бинарном.

[identity profile] vasja-iz-aa.livejournal.com 2011-03-30 06:33 am (UTC)(link)
Вы не поняли. Большее значение имеет не то, сколько бит потрачено на каждую букву, а то что в рекламных публикациях считается содержимое служебных файлов. В которых каждая конкретная позиция реальной ДНА может быть представлена сотни и тысячи раз.

А записать результат можно еще короче, тривиальным кодом Хаффмана. Но это все пренебрежимо малые величины экономии, в сравнении с.

[identity profile] shvarz.livejournal.com 2011-03-30 08:10 pm (UTC)(link)
Сравниваются исключительно скорости. Сравнивать абсолютные цифры я не собирался.

[identity profile] galicarnax.livejournal.com 2011-03-31 07:15 am (UTC)(link)
Тогда у Вас скорость для хардов даже завышена, по-моему. Из картинки на вики следует, что в период с 2000 по 2010 их емкость увеличилась в 100 раз, а у Вас концы синего отрезка отличаются по оси Y в 10^5 раз, за тот же период.

[identity profile] shvarz.livejournal.com 2011-03-31 04:56 pm (UTC)(link)
Действительно, накосячил :)