shvarz: (Default)
[personal profile] shvarz
В февральском номере Nature две интересные статьи (обе в открытом доступе):
Eric Lander's "Initial impact of the sequencing of human genome"
Elaine Mardis' "A decade's perspective on DNA sequencing technology"

Картинка из второй статьи: Выход (в тысячах нуклеотидов) одного прогона среднего секвенатора:

(шкала логарифмическая).
Я для сравнения наложил темпы роста размера харддрайва в персональном компьютере за эти же годы (синяя линия).

Date: 2011-03-29 06:48 pm (UTC)
From: [identity profile] lugermaxotto.livejournal.com
Логистическая кривая, оннако...

Date: 2011-03-29 07:08 pm (UTC)
From: [identity profile] uncle-stan.livejournal.com
секвЕнирование, не?

Date: 2011-03-29 07:11 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Я считаю, что первые две гласные в этом слове пишутся так, как в данный момент больше нравится.
сиквинирование-секвинатор-сиквенс-секвенировать-итд :)

Date: 2011-03-29 07:14 pm (UTC)
From: [identity profile] t4k1984.livejournal.com
и что дает это сопоставление?

Date: 2011-03-29 07:15 pm (UTC)
From: [identity profile] shvarz.livejournal.com
IT индустрия сосет :)

Date: 2011-03-29 07:29 pm (UTC)
From: [identity profile] nakamura.livejournal.com
Производители харддрайвов тайно спонсировали разработку секвенаторов!

Date: 2011-03-29 07:57 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Не так уж и тайно. Разработка секвенаторов изрядно спонсировалась государством, то есть туда шли налоги собранные с IT компаний :)

Date: 2011-03-29 07:31 pm (UTC)
From: [identity profile] lugermaxotto.livejournal.com
Кстати, а какая сложность задачи- в смысле, линейная, квадратичная или избави Боже, чего похуже?

Date: 2011-03-29 07:55 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Какой именно задачи?

Date: 2011-03-30 04:22 am (UTC)
From: [identity profile] lugermaxotto.livejournal.com
Задачи секвенсирования.

Date: 2011-03-30 08:07 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Я не математик и не программист, но мне кажется линейная. Взлет производительности обусловлен переходом к массовой параллельности ее решения.

Date: 2011-03-29 08:37 pm (UTC)
From: [identity profile] true-stranger.livejournal.com
Либо кто-то врет на графике, либо я чего-то не понимаю.

Illumina GA может за один раз выдать 40 Gb ну 50 если попинать правильно.
Это всего 5*10^10 (пруфлинк (http://www.genomeweb.com/sequencing/survey-illumina-solid-and-454-gain-ground-research-labs-most-users-mull-addition)).

На рисунке же по Y подписано kbp (т.е. 10^3 оснований) и Solexa/Illumina уже 10^12 т.е. 10^15, или это 1000 Тб! Лажа!
Синяя прямая проведена правильно, а основной график не верен.

На практике на простой терабайтник легко умешаются сотни ранов и проблем тут особых нет. Ну разве что для анализа порекомендую сервер ядер так на 64, а лучше кластер поболе.

(Unscreen to reply)

Date: 2011-03-29 08:38 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Может буквочка k (в kbp) закралась нечаянно?

Date: 2011-03-29 08:48 pm (UTC)
From: [identity profile] true-stranger.livejournal.com
Даже если так, то на пару порядков завышено.

Date: 2011-03-29 09:03 pm (UTC)
From: [identity profile] shvarz.livejournal.com
А в левой части графика? Там получается 10^5 нуклеотидов за прогон, а тогда ведь Applied Biosystems использовались. То есть около 500 нт на дорожку, не могли же они 200 дорожек гнать одновременно? Или в HGP были такие машины?

Date: 2011-03-29 08:45 pm (UTC)
From: [identity profile] true-stranger.livejournal.com
И синюю линию я бы поднял немножко. На конец 2009 года HDD 500Gb уже не было редкостью, а это 5*10^11.

Date: 2011-03-29 08:48 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Я там не абсолютные цифры отложил (шкалы все равно нет), просто наклон - чуть больше 2 порядков.

Date: 2011-03-29 08:46 pm (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
так графики рисовать не хорошо
правильнее по тем данным и совместить в 2005 году
http://ns1758.ca/winch/winchest.html

Date: 2011-03-29 08:50 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Цены много чем определяются, так что их сравнивать не корректно.

Date: 2011-03-29 09:11 pm (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
А какая нам разница, чем она определяется. Нам важно сколько терабайтов может ученый покупать на 100 долларов в месяц.

Date: 2011-03-29 09:14 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Ну не знаю, нам вот все равно сколько терабайтов может купить ученый...

Date: 2011-03-29 09:23 pm (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
А сколько гигабайт в средний ПС упаковывают не всеравнее?

С 2007года Иллюмина поднялась раз так в 20, по производительности. Ну и в последний год скачком на новую платформу еще в 3. Т.е. где то 60, за три с половиной года.

Date: 2011-03-30 01:59 am (UTC)
From: [identity profile] shvarz.livejournal.com
Ок, то есть корректнее было бы отложить плотность данных на диске или емкость одной пластины. Где бы найти такие данные?

Date: 2011-03-30 03:13 am (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
Да можно и как есть все оставить. Графики эти, как их не вертеть/крутить, идти будут примерно параллельно, с 2006го. Такого скачка, как в 2005ом у хардрайвов не было это правда. Ну так они зато все прошлое десятилетие каждый год уверенно прибавляли.
Впечатление немного обманчивое возникает оттого, что дисковый график сильно ниже, кажется, что они никак секвинаторов догнать не могут. А на самом деле, по потребностям, они сильно выше. Терабайтный диск будет примерно на 80 элементарных проб с иллюминовского самого мощного аппарата. Только заплатить за сам процесс секвинирования обойдется желающему в ~$20К. А еще сами пробы сделать надо. Сто долларов за сам диск на этом фоне не видны даже где лежат.

Я не знаю, пишут ли об этом в статьях, но самая заметная проблема у этих процедур -- скорость. Они и так то неспешные, теоретически, а еще и машины ломаются частенько. Вот эти рекордные цифры, которые все хвастают, их может занять пару недель что б получить в лучшем из случаев.

Date: 2011-03-30 08:10 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Логично. Я, однако, не хотел напрямую сравнивать кто кого обогнал, а скорее просто сравнить темпы роста. IT обычно ставится в пример, как быстрорастущая индустрия, на этом же графике видно, что технология секвенирования вдруг выросла совершенно громадными темпами.

Date: 2011-03-31 03:57 am (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
Эти секвинаторы, они и есть ИТ индустрия. Ну, т.е. они наполовину конечно химия, но на вторую половину именно что ИТ -- и софт и хард. И то, что мы их начинаем видеть все более доступными, надежными и дешевыми, это равно одновременный прогресс и в молекулярной биологии, и в ИТ индустрии.

Date: 2011-03-30 03:52 am (UTC)
From: [identity profile] galicarnax.livejournal.com
Не очень понятно, как сравнивалось. Для секвенаторов там указано output per instrumetn run. Что под этим понимать для хард-драйва?

И потом, единицы разные. 1kbp = 250 байт, учтено ли?

Date: 2011-03-30 03:59 am (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
'А' -- это байт

Date: 2011-03-30 04:05 am (UTC)
From: [identity profile] galicarnax.livejournal.com
Ну, назвать можно как угодно. Но фактическое количество информации, которое имеет одна позиция в геноме - это два бита, ни больше, ни меньше. Геном человека имеет ~ 3*10^9 пар оснований и несет количество информации ~ 750 мегабайт.

Date: 2011-03-30 04:41 am (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
Мне про теорию лень, но кроме буквы основания в человеческом геноме есть еще много чего.

В данном контексте это безразлично, так как речь идет не о прочитаных с заданой точностью нуклеотидах из некоторой реальной молекулy ДНК, а о числе байтов 'A','T','G', 'C','N','.' содержащихся в служебных файлах, которые шмудак генерит по ходу своей работы. Если эти байты потом преобразовывать в последовательности человеческого генома(допустим, что мы именноего секвинируем) то их с одного рана станет сильно меньше сразу. На пару порядков.

Date: 2011-03-30 05:15 am (UTC)
From: [identity profile] galicarnax.livejournal.com
***но кроме буквы основания в человеческом геноме есть еще много чего.***
Это да, эпигенетические штучки расширяют информационную емкость одного положения в геноме. Но речь-то о секвенаторах, а они выдают только символы голого генома.

***а о числе байтов 'A','T','G', 'C','N','.' содержащихся в служебных файлах***
Нужно ли привязываться к формату выдачи данных? Все ли секвенаторы используют для выдачи результатов формат ASCII? Можно соорудить формат, в котором для хранения отдельных букв отводится не один байт, а 10. Тогда график еще круче будет %) Поэтому самый честный способ сравнивать кол-во информации в одном и том же формате - в бинарном.

Date: 2011-03-30 06:33 am (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
Вы не поняли. Большее значение имеет не то, сколько бит потрачено на каждую букву, а то что в рекламных публикациях считается содержимое служебных файлов. В которых каждая конкретная позиция реальной ДНА может быть представлена сотни и тысячи раз.

А записать результат можно еще короче, тривиальным кодом Хаффмана. Но это все пренебрежимо малые величины экономии, в сравнении с.

Date: 2011-03-30 08:10 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Сравниваются исключительно скорости. Сравнивать абсолютные цифры я не собирался.

Date: 2011-03-31 07:15 am (UTC)
From: [identity profile] galicarnax.livejournal.com
Тогда у Вас скорость для хардов даже завышена, по-моему. Из картинки на вики следует, что в период с 2000 по 2010 их емкость увеличилась в 100 раз, а у Вас концы синего отрезка отличаются по оси Y в 10^5 раз, за тот же период.

Date: 2011-03-31 04:56 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Действительно, накосячил :)

Скороговорка

Date: 2011-03-30 09:14 am (UTC)
From: [identity profile] mfreidin.livejournal.com
Секвенатор секвенировал, секвенировал, пиросеквенировал.

Вот еще интересная картинка
http://www.nature.com/nature/journal/v461/n7262/fig_tab/461357a_F1.html

Re: Скороговорка

Date: 2011-03-30 08:36 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Для ВИЧ картинка была бы существенно иная.

И еще:
http://www.nature.com/nature/journal/v471/n7340/full/471578d.html

Date: 2011-04-02 08:00 am (UTC)
From: [identity profile] kyosanshugisha.livejournal.com
А что, статьи из Nature через какое-то время закрывают? Мне вот предлагают Instant access за 32 доллара, а иначе никак.

Date: 2011-04-02 11:34 am (UTC)
From: [identity profile] shvarz.livejournal.com
Хм, от меня сейчас тоже подписку требуют. Черт их знает, у них какие-то очень сложные игры с доступом. Если очень нужно - кидайте свой емейл в личку, я пришлю.

December 2013

S M T W T F S
1234567
891011121314
15161718192021
22232425262728
293031    

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated May. 25th, 2025 07:51 am
Powered by Dreamwidth Studios