NCBI закрывает SRA
Feb. 18th, 2011 01:47 pmК слову о Plural of data is not knowledge и о доступе к данным:
Новое поколение секвинирующих технологий позволяет очень быстро и аккуратно читать ДНК последовательности. Правда технологии эти таковы, что их "сырые данные" представляют из себя огромные массивы коротких "считываний", которые потом нужно "собирать" в цельные последовательности. Из одного эксперимента получаются десятки гигабайт этих "сырых данных". NCBI открыл архив SRA, чтобы предоставить ученым возможность выкладывать эти данные в свободный доступ, дабы любой мог их самостоятельно проанализировать и прийти к выводу о качестве работы, а может и что-то новое по ним сделать.
И вот теперь RSA закрывается (а вместе с ним и Peptidome, плюс Conserved Domains Database будет уменьшена в объеме).
Похоже что у архива в принципе были проблемы и работал он не очень хорошо. Но основыми причинами для закрытия называют недостаток денег. Конечно, у NIH сейчас тяжелые времена, а с приходом к власти республиканцев/чайников они может станут еще и хуже. Тем не менее, SRA скорее всего вернется в каком-то новом перевоплощении. Но вообще в ближайшее время проблема хранения данных будет становиться все более серьезной. Не говоря уж об анализе.
Кстати, о коротких "считываниях" - это для генетиков они являются "сырыми" данными. Генетики обычно имеют дело с одной большой последовательностью (геномом), которую нужно "собрать" из кусочков. Конечная последовательность для них важна в первую очередь, а "считывания" действительно после сборки становятся мало кому интересны. Но для людей, работающих с РНК-вирусами, "считывания" в гораздо большей степени являются "конечными" данными. Потому что у РНК вирусов нет одной конкретной последовательности - их популяции состоят из близкородственных, но разных последовательностей. Поэтому сами "считывания" и их относительная частота несут в себе полезную информацию о составе популяции. Например, может быть так, что для одного конкретного нуклеотида в геноме 95% вирусов имеют G, 4% имеют A, 0.8% имеют T, и 0.2% имеют C. И именно эти 0.2% важны для эксепримента, потому что они имеют устойчивость к лекарству или способны ускользнуть от иммунного ответа.
Новое поколение секвинирующих технологий позволяет очень быстро и аккуратно читать ДНК последовательности. Правда технологии эти таковы, что их "сырые данные" представляют из себя огромные массивы коротких "считываний", которые потом нужно "собирать" в цельные последовательности. Из одного эксперимента получаются десятки гигабайт этих "сырых данных". NCBI открыл архив SRA, чтобы предоставить ученым возможность выкладывать эти данные в свободный доступ, дабы любой мог их самостоятельно проанализировать и прийти к выводу о качестве работы, а может и что-то новое по ним сделать.
И вот теперь RSA закрывается (а вместе с ним и Peptidome, плюс Conserved Domains Database будет уменьшена в объеме).
Похоже что у архива в принципе были проблемы и работал он не очень хорошо. Но основыми причинами для закрытия называют недостаток денег. Конечно, у NIH сейчас тяжелые времена, а с приходом к власти республиканцев/чайников они может станут еще и хуже. Тем не менее, SRA скорее всего вернется в каком-то новом перевоплощении. Но вообще в ближайшее время проблема хранения данных будет становиться все более серьезной. Не говоря уж об анализе.
Кстати, о коротких "считываниях" - это для генетиков они являются "сырыми" данными. Генетики обычно имеют дело с одной большой последовательностью (геномом), которую нужно "собрать" из кусочков. Конечная последовательность для них важна в первую очередь, а "считывания" действительно после сборки становятся мало кому интересны. Но для людей, работающих с РНК-вирусами, "считывания" в гораздо большей степени являются "конечными" данными. Потому что у РНК вирусов нет одной конкретной последовательности - их популяции состоят из близкородственных, но разных последовательностей. Поэтому сами "считывания" и их относительная частота несут в себе полезную информацию о составе популяции. Например, может быть так, что для одного конкретного нуклеотида в геноме 95% вирусов имеют G, 4% имеют A, 0.8% имеют T, и 0.2% имеют C. И именно эти 0.2% важны для эксепримента, потому что они имеют устойчивость к лекарству или способны ускользнуть от иммунного ответа.