shvarz: (Default)
shvarz ([personal profile] shvarz) wrote2011-03-29 02:39 pm

Секвинирование

В февральском номере Nature две интересные статьи (обе в открытом доступе):
Eric Lander's "Initial impact of the sequencing of human genome"
Elaine Mardis' "A decade's perspective on DNA sequencing technology"

Картинка из второй статьи: Выход (в тысячах нуклеотидов) одного прогона среднего секвенатора:

(шкала логарифмическая).
Я для сравнения наложил темпы роста размера харддрайва в персональном компьютере за эти же годы (синяя линия).

[identity profile] lugermaxotto.livejournal.com 2011-03-29 06:48 pm (UTC)(link)
Логистическая кривая, оннако...

[identity profile] uncle-stan.livejournal.com 2011-03-29 07:08 pm (UTC)(link)
секвЕнирование, не?

[identity profile] shvarz.livejournal.com 2011-03-29 07:11 pm (UTC)(link)
Я считаю, что первые две гласные в этом слове пишутся так, как в данный момент больше нравится.
сиквинирование-секвинатор-сиквенс-секвенировать-итд :)

[identity profile] t4k1984.livejournal.com 2011-03-29 07:14 pm (UTC)(link)
и что дает это сопоставление?

[identity profile] shvarz.livejournal.com 2011-03-29 07:15 pm (UTC)(link)
IT индустрия сосет :)

[identity profile] nakamura.livejournal.com 2011-03-29 07:29 pm (UTC)(link)
Производители харддрайвов тайно спонсировали разработку секвенаторов!

[identity profile] lugermaxotto.livejournal.com 2011-03-29 07:31 pm (UTC)(link)
Кстати, а какая сложность задачи- в смысле, линейная, квадратичная или избави Боже, чего похуже?

[identity profile] shvarz.livejournal.com 2011-03-29 07:55 pm (UTC)(link)
Какой именно задачи?

[identity profile] shvarz.livejournal.com 2011-03-29 07:57 pm (UTC)(link)
Не так уж и тайно. Разработка секвенаторов изрядно спонсировалась государством, то есть туда шли налоги собранные с IT компаний :)

[identity profile] true-stranger.livejournal.com 2011-03-29 08:37 pm (UTC)(link)
Либо кто-то врет на графике, либо я чего-то не понимаю.

Illumina GA может за один раз выдать 40 Gb ну 50 если попинать правильно.
Это всего 5*10^10 (пруфлинк (http://www.genomeweb.com/sequencing/survey-illumina-solid-and-454-gain-ground-research-labs-most-users-mull-addition)).

На рисунке же по Y подписано kbp (т.е. 10^3 оснований) и Solexa/Illumina уже 10^12 т.е. 10^15, или это 1000 Тб! Лажа!
Синяя прямая проведена правильно, а основной график не верен.

На практике на простой терабайтник легко умешаются сотни ранов и проблем тут особых нет. Ну разве что для анализа порекомендую сервер ядер так на 64, а лучше кластер поболе.

(Unscreen to reply)

[identity profile] shvarz.livejournal.com 2011-03-29 08:38 pm (UTC)(link)
Может буквочка k (в kbp) закралась нечаянно?

[identity profile] true-stranger.livejournal.com 2011-03-29 08:45 pm (UTC)(link)
И синюю линию я бы поднял немножко. На конец 2009 года HDD 500Gb уже не было редкостью, а это 5*10^11.

[identity profile] vasja-iz-aa.livejournal.com 2011-03-29 08:46 pm (UTC)(link)
так графики рисовать не хорошо
правильнее по тем данным и совместить в 2005 году
http://ns1758.ca/winch/winchest.html

[identity profile] true-stranger.livejournal.com 2011-03-29 08:48 pm (UTC)(link)
Даже если так, то на пару порядков завышено.

[identity profile] shvarz.livejournal.com 2011-03-29 08:48 pm (UTC)(link)
Я там не абсолютные цифры отложил (шкалы все равно нет), просто наклон - чуть больше 2 порядков.

[identity profile] shvarz.livejournal.com 2011-03-29 08:50 pm (UTC)(link)
Цены много чем определяются, так что их сравнивать не корректно.

[identity profile] shvarz.livejournal.com 2011-03-29 09:03 pm (UTC)(link)
А в левой части графика? Там получается 10^5 нуклеотидов за прогон, а тогда ведь Applied Biosystems использовались. То есть около 500 нт на дорожку, не могли же они 200 дорожек гнать одновременно? Или в HGP были такие машины?

[identity profile] vasja-iz-aa.livejournal.com 2011-03-29 09:11 pm (UTC)(link)
А какая нам разница, чем она определяется. Нам важно сколько терабайтов может ученый покупать на 100 долларов в месяц.

[identity profile] shvarz.livejournal.com 2011-03-29 09:14 pm (UTC)(link)
Ну не знаю, нам вот все равно сколько терабайтов может купить ученый...

[identity profile] vasja-iz-aa.livejournal.com 2011-03-29 09:23 pm (UTC)(link)
А сколько гигабайт в средний ПС упаковывают не всеравнее?

С 2007года Иллюмина поднялась раз так в 20, по производительности. Ну и в последний год скачком на новую платформу еще в 3. Т.е. где то 60, за три с половиной года.

[identity profile] shvarz.livejournal.com 2011-03-30 01:59 am (UTC)(link)
Ок, то есть корректнее было бы отложить плотность данных на диске или емкость одной пластины. Где бы найти такие данные?

[identity profile] vasja-iz-aa.livejournal.com 2011-03-30 03:13 am (UTC)(link)
Да можно и как есть все оставить. Графики эти, как их не вертеть/крутить, идти будут примерно параллельно, с 2006го. Такого скачка, как в 2005ом у хардрайвов не было это правда. Ну так они зато все прошлое десятилетие каждый год уверенно прибавляли.
Впечатление немного обманчивое возникает оттого, что дисковый график сильно ниже, кажется, что они никак секвинаторов догнать не могут. А на самом деле, по потребностям, они сильно выше. Терабайтный диск будет примерно на 80 элементарных проб с иллюминовского самого мощного аппарата. Только заплатить за сам процесс секвинирования обойдется желающему в ~$20К. А еще сами пробы сделать надо. Сто долларов за сам диск на этом фоне не видны даже где лежат.

Я не знаю, пишут ли об этом в статьях, но самая заметная проблема у этих процедур -- скорость. Они и так то неспешные, теоретически, а еще и машины ломаются частенько. Вот эти рекордные цифры, которые все хвастают, их может занять пару недель что б получить в лучшем из случаев.

[identity profile] galicarnax.livejournal.com 2011-03-30 03:52 am (UTC)(link)
Не очень понятно, как сравнивалось. Для секвенаторов там указано output per instrumetn run. Что под этим понимать для хард-драйва?

И потом, единицы разные. 1kbp = 250 байт, учтено ли?

[identity profile] vasja-iz-aa.livejournal.com 2011-03-30 03:59 am (UTC)(link)
'А' -- это байт

[identity profile] galicarnax.livejournal.com 2011-03-30 04:05 am (UTC)(link)
Ну, назвать можно как угодно. Но фактическое количество информации, которое имеет одна позиция в геноме - это два бита, ни больше, ни меньше. Геном человека имеет ~ 3*10^9 пар оснований и несет количество информации ~ 750 мегабайт.

[identity profile] lugermaxotto.livejournal.com 2011-03-30 04:22 am (UTC)(link)
Задачи секвенсирования.

[identity profile] vasja-iz-aa.livejournal.com 2011-03-30 04:41 am (UTC)(link)
Мне про теорию лень, но кроме буквы основания в человеческом геноме есть еще много чего.

В данном контексте это безразлично, так как речь идет не о прочитаных с заданой точностью нуклеотидах из некоторой реальной молекулy ДНК, а о числе байтов 'A','T','G', 'C','N','.' содержащихся в служебных файлах, которые шмудак генерит по ходу своей работы. Если эти байты потом преобразовывать в последовательности человеческого генома(допустим, что мы именноего секвинируем) то их с одного рана станет сильно меньше сразу. На пару порядков.

[identity profile] galicarnax.livejournal.com 2011-03-30 05:15 am (UTC)(link)
***но кроме буквы основания в человеческом геноме есть еще много чего.***
Это да, эпигенетические штучки расширяют информационную емкость одного положения в геноме. Но речь-то о секвенаторах, а они выдают только символы голого генома.

***а о числе байтов 'A','T','G', 'C','N','.' содержащихся в служебных файлах***
Нужно ли привязываться к формату выдачи данных? Все ли секвенаторы используют для выдачи результатов формат ASCII? Можно соорудить формат, в котором для хранения отдельных букв отводится не один байт, а 10. Тогда график еще круче будет %) Поэтому самый честный способ сравнивать кол-во информации в одном и том же формате - в бинарном.

[identity profile] vasja-iz-aa.livejournal.com 2011-03-30 06:33 am (UTC)(link)
Вы не поняли. Большее значение имеет не то, сколько бит потрачено на каждую букву, а то что в рекламных публикациях считается содержимое служебных файлов. В которых каждая конкретная позиция реальной ДНА может быть представлена сотни и тысячи раз.

А записать результат можно еще короче, тривиальным кодом Хаффмана. Но это все пренебрежимо малые величины экономии, в сравнении с.

Скороговорка

[identity profile] mfreidin.livejournal.com 2011-03-30 09:14 am (UTC)(link)
Секвенатор секвенировал, секвенировал, пиросеквенировал.

Вот еще интересная картинка
http://www.nature.com/nature/journal/v461/n7262/fig_tab/461357a_F1.html

[identity profile] shvarz.livejournal.com 2011-03-30 08:07 pm (UTC)(link)
Я не математик и не программист, но мне кажется линейная. Взлет производительности обусловлен переходом к массовой параллельности ее решения.

[identity profile] shvarz.livejournal.com 2011-03-30 08:10 pm (UTC)(link)
Логично. Я, однако, не хотел напрямую сравнивать кто кого обогнал, а скорее просто сравнить темпы роста. IT обычно ставится в пример, как быстрорастущая индустрия, на этом же графике видно, что технология секвенирования вдруг выросла совершенно громадными темпами.

[identity profile] shvarz.livejournal.com 2011-03-30 08:10 pm (UTC)(link)
Сравниваются исключительно скорости. Сравнивать абсолютные цифры я не собирался.

Re: Скороговорка

[identity profile] shvarz.livejournal.com 2011-03-30 08:36 pm (UTC)(link)
Для ВИЧ картинка была бы существенно иная.

И еще:
http://www.nature.com/nature/journal/v471/n7340/full/471578d.html

[identity profile] vasja-iz-aa.livejournal.com 2011-03-31 03:57 am (UTC)(link)
Эти секвинаторы, они и есть ИТ индустрия. Ну, т.е. они наполовину конечно химия, но на вторую половину именно что ИТ -- и софт и хард. И то, что мы их начинаем видеть все более доступными, надежными и дешевыми, это равно одновременный прогресс и в молекулярной биологии, и в ИТ индустрии.

[identity profile] galicarnax.livejournal.com 2011-03-31 07:15 am (UTC)(link)
Тогда у Вас скорость для хардов даже завышена, по-моему. Из картинки на вики следует, что в период с 2000 по 2010 их емкость увеличилась в 100 раз, а у Вас концы синего отрезка отличаются по оси Y в 10^5 раз, за тот же период.

[identity profile] shvarz.livejournal.com 2011-03-31 04:56 pm (UTC)(link)
Действительно, накосячил :)

[identity profile] kyosanshugisha.livejournal.com 2011-04-02 08:00 am (UTC)(link)
А что, статьи из Nature через какое-то время закрывают? Мне вот предлагают Instant access за 32 доллара, а иначе никак.

[identity profile] shvarz.livejournal.com 2011-04-02 11:34 am (UTC)(link)
Хм, от меня сейчас тоже подписку требуют. Черт их знает, у них какие-то очень сложные игры с доступом. Если очень нужно - кидайте свой емейл в личку, я пришлю.