Секвинирование
Mar. 29th, 2011 02:39 pm![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
В февральском номере Nature две интересные статьи (обе в открытом доступе):
Eric Lander's "Initial impact of the sequencing of human genome"
Elaine Mardis' "A decade's perspective on DNA sequencing technology"
Картинка из второй статьи: Выход (в тысячах нуклеотидов) одного прогона среднего секвенатора:

(шкала логарифмическая).
Я для сравнения наложил темпы роста размера харддрайва в персональном компьютере за эти же годы (синяя линия).
Eric Lander's "Initial impact of the sequencing of human genome"
Elaine Mardis' "A decade's perspective on DNA sequencing technology"
Картинка из второй статьи: Выход (в тысячах нуклеотидов) одного прогона среднего секвенатора:

(шкала логарифмическая).
Я для сравнения наложил темпы роста размера харддрайва в персональном компьютере за эти же годы (синяя линия).
no subject
Date: 2011-03-29 06:48 pm (UTC)no subject
Date: 2011-03-29 07:08 pm (UTC)no subject
Date: 2011-03-29 07:11 pm (UTC)сиквинирование-секвинатор-сиквенс-секвенировать-итд :)
no subject
Date: 2011-03-29 07:14 pm (UTC)no subject
Date: 2011-03-29 07:15 pm (UTC)no subject
Date: 2011-03-29 07:29 pm (UTC)no subject
Date: 2011-03-29 07:57 pm (UTC)no subject
Date: 2011-03-29 07:31 pm (UTC)no subject
Date: 2011-03-29 07:55 pm (UTC)no subject
Date: 2011-03-30 04:22 am (UTC)no subject
Date: 2011-03-30 08:07 pm (UTC)no subject
Date: 2011-03-29 08:37 pm (UTC)Illumina GA может за один раз выдать 40 Gb ну 50 если попинать правильно.
Это всего 5*10^10 (пруфлинк (http://www.genomeweb.com/sequencing/survey-illumina-solid-and-454-gain-ground-research-labs-most-users-mull-addition)).
На рисунке же по Y подписано kbp (т.е. 10^3 оснований) и Solexa/Illumina уже 10^12 т.е. 10^15, или это 1000 Тб! Лажа!
Синяя прямая проведена правильно, а основной график не верен.
На практике на простой терабайтник легко умешаются сотни ранов и проблем тут особых нет. Ну разве что для анализа порекомендую сервер ядер так на 64, а лучше кластер поболе.
(Unscreen to reply)
no subject
Date: 2011-03-29 08:38 pm (UTC)no subject
Date: 2011-03-29 08:48 pm (UTC)no subject
Date: 2011-03-29 09:03 pm (UTC)no subject
Date: 2011-03-29 08:45 pm (UTC)no subject
Date: 2011-03-29 08:48 pm (UTC)no subject
Date: 2011-03-29 08:46 pm (UTC)правильнее по тем данным и совместить в 2005 году
http://ns1758.ca/winch/winchest.html
no subject
Date: 2011-03-29 08:50 pm (UTC)no subject
Date: 2011-03-29 09:11 pm (UTC)no subject
Date: 2011-03-29 09:14 pm (UTC)no subject
Date: 2011-03-29 09:23 pm (UTC)С 2007года Иллюмина поднялась раз так в 20, по производительности. Ну и в последний год скачком на новую платформу еще в 3. Т.е. где то 60, за три с половиной года.
no subject
Date: 2011-03-30 01:59 am (UTC)no subject
Date: 2011-03-30 03:13 am (UTC)Впечатление немного обманчивое возникает оттого, что дисковый график сильно ниже, кажется, что они никак секвинаторов догнать не могут. А на самом деле, по потребностям, они сильно выше. Терабайтный диск будет примерно на 80 элементарных проб с иллюминовского самого мощного аппарата. Только заплатить за сам процесс секвинирования обойдется желающему в ~$20К. А еще сами пробы сделать надо. Сто долларов за сам диск на этом фоне не видны даже где лежат.
Я не знаю, пишут ли об этом в статьях, но самая заметная проблема у этих процедур -- скорость. Они и так то неспешные, теоретически, а еще и машины ломаются частенько. Вот эти рекордные цифры, которые все хвастают, их может занять пару недель что б получить в лучшем из случаев.
no subject
Date: 2011-03-30 08:10 pm (UTC)no subject
Date: 2011-03-31 03:57 am (UTC)no subject
Date: 2011-03-30 03:52 am (UTC)И потом, единицы разные. 1kbp = 250 байт, учтено ли?
no subject
Date: 2011-03-30 03:59 am (UTC)no subject
Date: 2011-03-30 04:05 am (UTC)no subject
Date: 2011-03-30 04:41 am (UTC)В данном контексте это безразлично, так как речь идет не о прочитаных с заданой точностью нуклеотидах из некоторой реальной молекулy ДНК, а о числе байтов 'A','T','G', 'C','N','.' содержащихся в служебных файлах, которые шмудак генерит по ходу своей работы. Если эти байты потом преобразовывать в последовательности человеческого генома(допустим, что мы именноего секвинируем) то их с одного рана станет сильно меньше сразу. На пару порядков.
no subject
Date: 2011-03-30 05:15 am (UTC)Это да, эпигенетические штучки расширяют информационную емкость одного положения в геноме. Но речь-то о секвенаторах, а они выдают только символы голого генома.
***а о числе байтов 'A','T','G', 'C','N','.' содержащихся в служебных файлах***
Нужно ли привязываться к формату выдачи данных? Все ли секвенаторы используют для выдачи результатов формат ASCII? Можно соорудить формат, в котором для хранения отдельных букв отводится не один байт, а 10. Тогда график еще круче будет %) Поэтому самый честный способ сравнивать кол-во информации в одном и том же формате - в бинарном.
no subject
Date: 2011-03-30 06:33 am (UTC)А записать результат можно еще короче, тривиальным кодом Хаффмана. Но это все пренебрежимо малые величины экономии, в сравнении с.
no subject
Date: 2011-03-30 08:10 pm (UTC)no subject
Date: 2011-03-31 07:15 am (UTC)no subject
Date: 2011-03-31 04:56 pm (UTC)Скороговорка
Date: 2011-03-30 09:14 am (UTC)Вот еще интересная картинка
http://www.nature.com/nature/journal/v461/n7262/fig_tab/461357a_F1.html
Re: Скороговорка
Date: 2011-03-30 08:36 pm (UTC)И еще:
http://www.nature.com/nature/journal/v471/n7340/full/471578d.html
no subject
Date: 2011-04-02 08:00 am (UTC)no subject
Date: 2011-04-02 11:34 am (UTC)