Доступ к данным
Oct. 26th, 2010 04:37 pm![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Интересный парадокс (ну, если не парадокс, то противоречие) обнаруживается, когда говоришь с учеными о предоставлении открытого доступа к данным. С одной стороны, они не доверяют данным из других лабораторий и не особенно жаждут в них копаться. С другой стороны, они считают свои собственные данные необычайно ценными и уверены, что стоит их выложить, как все тут же кинутся в них копаться.
P.S: У меня во френдах есть практикующие ученые: Вы согласились бы выкладывать свои сырые необработанные данные в открытый доступ? Не сразу, конечно, а допустим через год после их получения. Предполагается, что для этого есть специальные программы и базы данных и у вас не уйдет на это много времени и сил. Стали бы вы анализировать данные из других лабораторий?
P.S: У меня во френдах есть практикующие ученые: Вы согласились бы выкладывать свои сырые необработанные данные в открытый доступ? Не сразу, конечно, а допустим через год после их получения. Предполагается, что для этого есть специальные программы и базы данных и у вас не уйдет на это много времени и сил. Стали бы вы анализировать данные из других лабораторий?
no subject
Date: 2010-10-27 01:54 am (UTC)В областях, которые я упомянул, эти условия выполняют 10 из 10 на гораздо большей выборке: статьи просто не принимаются к рассмотрению без депонирования последовательностей ДНК и белков, структур белков, экспрессии генов в соответствующую базу данных. Помимо журналов, доступность этих и некоторых других типов данных регулируется NIH и NSF. Например, получатели NIH грантов, превышающих $500,000, обязаны делать доступными все сырые GWAS данные.
no subject
Date: 2010-10-27 03:33 pm (UTC)То есть не такая уж это надуманная проблема.
Ну и я говорил не о тех, для кого выкладывание в базы данных - норма (вроде генетиков или структурных биологов), а о тех, кто этого не делает, потому что боится, что его обкрадут.
потому что боится, что его обкрадут
Date: 2010-10-27 03:56 pm (UTC)Re: потому что боится, что его обкрадут
Date: 2010-10-27 05:28 pm (UTC)Re: потому что боится, что его обкрадут
Date: 2010-10-27 06:00 pm (UTC)Re: потому что боится, что его обкрадут
Date: 2010-10-27 06:03 pm (UTC)Re: потому что боится, что его обкрадут
Date: 2010-10-27 06:48 pm (UTC)Я больше знаю фактов о том, что в публичный доступ сбрасывают всякий мусор гигабайтами, а действительно ценные или критичные куски находят возможность придержать. Тут надо отличать специальный тип работ, который изначально нацелен на создание коллекций, картирований или справочников и тому подобное. Эти что обещали, ровно то и делают -- кладут данные в доступ. Насколько их деятельность полезна разговор за рамками темы.
Re: потому что боится, что его обкрадут
Date: 2010-10-28 05:34 pm (UTC)Re: потому что боится, что его обкрадут
Date: 2010-11-01 12:11 am (UTC)Письма были лишь эпизодом длительного процесса по извлечению из климатологов данных и кода программ.
Попробуйте посмотреть на вопрос немного с другой стороны. А зачем вообще нужно класть в базу сами данные? Вполне достаточно поместить туда информацию, что у исследователя Иванова такие данные есть и он готов ими делиться, безвозмезно или на каких то условиях. Тогда тот ученый Петров, которому данные нужны, он напишет емайл Иванову и получит их в той форме и с теми сопроводительными комментариями, которые ему хочется и которые именно для его варианта использования данных важны. А может быть Иванов йти данные на своей персональной вебстраничке будет держать, для автоматического скачивания. Чем такой вариант, хуже? Ну, кроме того, что биоинформатик Сидоров без зарплаты остался.
Re: потому что боится, что его обкрадут
Date: 2010-11-03 06:12 pm (UTC)Или окажется, что данные Иванов хранил на 5-дюймовых дискетах и сейчас уже не найти дисковода, чтобы их считать.
Или окажется, что данные аннотированы настолько скудно, что разобраться в них мог лишь постдок Смирнов, который их получил, и который сейчас бросил науку и ушел на Уолл-стрит.
Или окажется, что Иванов сам бросил лабу и ушел на пенсию.
Да много еще можно придумать сценариев, когда "данные на страничке" вовсе не равны данным в базе данных.
Re: потому что боится, что его обкрадут
Date: 2010-11-04 05:22 am (UTC)Во времена 5-дюймовых дискет экспрессионные профили получали на стеклянных пластинках со ста точками на каждой, и в наши дни эти сырые данные в совершенно равной степени нужны научному сообществу в общедоступной базе, на 5-дюймовых дискетах и в мусорной корзине.
и так далее.
А в преимуществах мы выигрываем в адресности предоставлямой информации и в отсутствии потерь на то, что нужная часть описания потерялась из-за издержек стандартизации.
no subject
Date: 2010-10-28 12:36 am (UTC)no subject
Date: 2010-10-28 08:36 pm (UTC)no subject
Date: 2010-10-28 11:43 pm (UTC)А начинать лучше всего с создния базы данных, внесения в нее своих данных и приглашений всем желающим вносить ихние. В виде пряников обещать, что NIH будет более благосклонно к их будущим заявкам, поскольку их данные публично доступны. У NIH же попросить денег на эту базу данных.
no subject
Date: 2010-10-29 02:37 am (UTC)А что за данные вам нужны? Я, правда, с этими авторами не знаком и поэтому помочь их раздобыть не смогу, но просто из интереса.
Проблем с такой базой данных масса: непонятно что именно туда выкладывать и зачем; доступ к мед.данным по которым даже теоретически можно вычислить пациента надо ограничивать; подписанные ими consent forms зачастую настолько узки, что ни для каких новых анализов их данные использовать нельзя; стандартизации методов тоже нет. И поверх всего этого простое нежелание людей ничем делиться...
no subject
Date: 2010-10-29 04:28 am (UTC)