Feb. 18th, 2011

shvarz: (Default)
К слову о Plural of data is not knowledge и о доступе к данным:
Новое поколение секвинирующих технологий позволяет очень быстро и аккуратно читать ДНК последовательности. Правда технологии эти таковы, что их "сырые данные" представляют из себя огромные массивы коротких "считываний", которые потом нужно "собирать" в цельные последовательности. Из одного эксперимента получаются десятки гигабайт этих "сырых данных". NCBI открыл архив SRA, чтобы предоставить ученым возможность выкладывать эти данные в свободный доступ, дабы любой мог их самостоятельно проанализировать и прийти к выводу о качестве работы, а может и что-то новое по ним сделать.
И вот теперь RSA закрывается (а вместе с ним и Peptidome, плюс Conserved Domains Database будет уменьшена в объеме).

Похоже что у архива в принципе были проблемы и работал он не очень хорошо. Но основыми причинами для закрытия называют недостаток денег. Конечно, у NIH сейчас тяжелые времена, а с приходом к власти республиканцев/чайников они может станут еще и хуже. Тем не менее, SRA скорее всего вернется в каком-то новом перевоплощении. Но вообще в ближайшее время проблема хранения данных будет становиться все более серьезной. Не говоря уж об анализе.

Кстати, о коротких "считываниях" - это для генетиков они являются "сырыми" данными. Генетики обычно имеют дело с одной большой последовательностью (геномом), которую нужно "собрать" из кусочков. Конечная последовательность для них важна в первую очередь, а "считывания" действительно после сборки становятся мало кому интересны. Но для людей, работающих с РНК-вирусами, "считывания" в гораздо большей степени являются "конечными" данными. Потому что у РНК вирусов нет одной конкретной последовательности - их популяции состоят из близкородственных, но разных последовательностей. Поэтому сами "считывания" и их относительная частота несут в себе полезную информацию о составе популяции. Например, может быть так, что для одного конкретного нуклеотида в геноме 95% вирусов имеют G, 4% имеют A, 0.8% имеют T, и 0.2% имеют C. И именно эти 0.2% важны для эксепримента, потому что они имеют устойчивость к лекарству или способны ускользнуть от иммунного ответа.

December 2013

S M T W T F S
1234567
891011121314
15161718192021
22232425262728
293031    

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jun. 17th, 2025 05:07 pm
Powered by Dreamwidth Studios