shvarz: (Default)
[personal profile] shvarz
Интересный парадокс (ну, если не парадокс, то противоречие) обнаруживается, когда говоришь с учеными о предоставлении открытого доступа к данным. С одной стороны, они не доверяют данным из других лабораторий и не особенно жаждут в них копаться. С другой стороны, они считают свои собственные данные необычайно ценными и уверены, что стоит их выложить, как все тут же кинутся в них копаться.

P.S: У меня во френдах есть практикующие ученые: Вы согласились бы выкладывать свои сырые необработанные данные в открытый доступ? Не сразу, конечно, а допустим через год после их получения. Предполагается, что для этого есть специальные программы и базы данных и у вас не уйдет на это много времени и сил. Стали бы вы анализировать данные из других лабораторий?

Date: 2010-10-27 01:54 am (UTC)
From: [identity profile] riftsh.livejournal.com
Ссылаясь на смешную статью в PLOS ONE, нужно обязятельно указывать, что там: а) было сделано ровно 10 запросов, на которые пришел 1 ответ (статистическую значимость этого результата подсчитать нетрудно), б) речь там идет о клинических данных, где большую роль играет HIPAA и другие специальные примочки. "Многочисленные" исследования на эту тему мне не известны.

В областях, которые я упомянул, эти условия выполняют 10 из 10 на гораздо большей выборке: статьи просто не принимаются к рассмотрению без депонирования последовательностей ДНК и белков, структур белков, экспрессии генов в соответствующую базу данных. Помимо журналов, доступность этих и некоторых других типов данных регулируется NIH и NSF. Например, получатели NIH грантов, превышающих $500,000, обязаны делать доступными все сырые GWAS данные.

Date: 2010-10-27 03:33 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Я не ссылался на нее, мне казалось, что я видел еще парочку похожих исследований. Одно, кстати, если не ошибаюсь было в Nature про их же собственные статьи. Сейчас найти не могу, но вот что поиск вытащил: http://www.nature.com/nature/journal/v461/n7261/full/461171a.html
То есть не такая уж это надуманная проблема.

Ну и я говорил не о тех, для кого выкладывание в базы данных - норма (вроде генетиков или структурных биологов), а о тех, кто этого не делает, потому что боится, что его обкрадут.
From: [identity profile] vasja-iz-aa.livejournal.com
Не того он боится. Это красиво выглядящая отговорка, в которую некоторые сами же искренне поверили. Способность человека к самовнушению безгранична. Большинство боится критиков и неброжелателей, которые получат возможность говорить что либо данные гавно, либо выводы из них были сделаны неверные.
From: [identity profile] shvarz.livejournal.com
Да, это верное совершенно замечание. Обоснован ли этот страх?
From: [identity profile] vasja-iz-aa.livejournal.com
В каком смысле обоснован? В том желающие найдутся и будут критиковать или что в работе автора действительно есть изьяны, и публикация исходных данных их вскроет? Первого, как мне кажется, боятся вполне обосновано, а второе неважно. Все равно отвечать, нервничать, тратить время... А еще есть варианты, что автора и не спросят: я вот зайду к к Вам по своим делам и между делом скажу, что посмотрел материалы Сидорова и там сплошная грязь, а Сидоров гадай потом -- отчего это Вы с ним сухо здороваться стали.
From: [identity profile] shvarz.livejournal.com
Мне вот кажется, что желающих не найдется. По-крайней мере не больше их будет, чем сейчас есть. Сплетничают и обсуждают плохо-сделанные работы постоянно, данные тут вовсе не обязательны. Есть у вас факты таких злопыхателей в областях, где данные выкладываются на общее обозрение регулярно (структуры, геномика, транскриптомика итп)?
From: [identity profile] vasja-iz-aa.livejournal.com
Почему же не найдется? Эвона сколько желающих ринулось читать краденые письма английских климатологов. Склока вокруг Всемирного потепления вообще дает массу иллюстративного материала по теме.

Я больше знаю фактов о том, что в публичный доступ сбрасывают всякий мусор гигабайтами, а действительно ценные или критичные куски находят возможность придержать. Тут надо отличать специальный тип работ, который изначально нацелен на создание коллекций, картирований или справочников и тому подобное. Эти что обещали, ровно то и делают -- кладут данные в доступ. Насколько их деятельность полезна разговор за рамками темы.
From: [identity profile] shvarz.livejournal.com
Так то непричастные к науке люди кинулись и скандал в основном потому, что ничего они в них не поняли. И потом, письма это одно, а данные - совсем другое.
From: [identity profile] vasja-iz-aa.livejournal.com
Ринулось огромное количество людей, к науке весьма причастных -- физиков, математиков и даже биологов.

Письма были лишь эпизодом длительного процесса по извлечению из климатологов данных и кода программ.

Попробуйте посмотреть на вопрос немного с другой стороны. А зачем вообще нужно класть в базу сами данные? Вполне достаточно поместить туда информацию, что у исследователя Иванова такие данные есть и он готов ими делиться, безвозмезно или на каких то условиях. Тогда тот ученый Петров, которому данные нужны, он напишет емайл Иванову и получит их в той форме и с теми сопроводительными комментариями, которые ему хочется и которые именно для его варианта использования данных важны. А может быть Иванов йти данные на своей персональной вебстраничке будет держать, для автоматического скачивания. Чем такой вариант, хуже? Ну, кроме того, что биоинформатик Сидоров без зарплаты остался.
From: [identity profile] shvarz.livejournal.com
Иванов ответит первым трем запрашивающим, остальных пошлет нафиг, потому что ему надоест. Вот пример: http://shvarz.livejournal.com/257253.html?thread=3996133#t3996133

Или окажется, что данные Иванов хранил на 5-дюймовых дискетах и сейчас уже не найти дисковода, чтобы их считать.

Или окажется, что данные аннотированы настолько скудно, что разобраться в них мог лишь постдок Смирнов, который их получил, и который сейчас бросил науку и ушел на Уолл-стрит.

Или окажется, что Иванов сам бросил лабу и ушел на пенсию.

Да много еще можно придумать сценариев, когда "данные на страничке" вовсе не равны данным в базе данных.
From: [identity profile] vasja-iz-aa.livejournal.com
Первым Иванов пошлет биоинформатика, который захочет забрать его данные к себе в базу. Примеров полно, в том числе и в этот треде. А уж потом , во-вторых, Иванов ответит не первым трем, а лучшим трем, чем сушественно увеличит качество обращающихся данных и избавит нас от изрядной доли спама. Сам. Бесплатно.

Во времена 5-дюймовых дискет экспрессионные профили получали на стеклянных пластинках со ста точками на каждой, и в наши дни эти сырые данные в совершенно равной степени нужны научному сообществу в общедоступной базе, на 5-дюймовых дискетах и в мусорной корзине.

и так далее.

А в преимуществах мы выигрываем в адресности предоставлямой информации и в отсутствии потерь на то, что нужная часть описания потерялась из-за издержек стандартизации.

Date: 2010-10-28 12:36 am (UTC)
From: [identity profile] riftsh.livejournal.com
Я думаю, что основные причины - это отсутствие инфраструктуры (которую нетривиально создать из-за колоссального разнообразия типов данных) и отсутствие культуры обмена данными. Скорее всего это изменится в ближайшее время (моя оценка - 5-15 лет), первое, благодаря новым технологиям (NSF активно инвестирует в подобные проекты, я месяц назад получил грант ровно на это, вот закончим его и будет всем щастье ;), второе - с помощью административного ресурса.

Date: 2010-10-28 08:36 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Абсолютно верно - культура и инфраструктура . Я вот тут думаю начать ускорять этот процесс в нашей отдельно-взятой области, но не знаю толком с какой стороны к нему подступиться.

Date: 2010-10-28 11:43 pm (UTC)
From: [identity profile] riftsh.livejournal.com
В вашей отдельно-взятой области дела обстоят местами не очень хорошо. Вот есть, например, такая известная HOMER-когорта, которую начали генотипировать когда они были HAART-наивными, а потом продолжали в процессе и после лечения. Отдельные данные из этого депонированы где надо, а другие - нет, и получить их у авторов мне пока не удалось.

А начинать лучше всего с создния базы данных, внесения в нее своих данных и приглашений всем желающим вносить ихние. В виде пряников обещать, что NIH будет более благосклонно к их будущим заявкам, поскольку их данные публично доступны. У NIH же попросить денег на эту базу данных.

Date: 2010-10-29 02:37 am (UTC)
From: [identity profile] shvarz.livejournal.com
Я знаю, что не очень хорошо. Если бы они обстояли хорошо, то мне бы не надо было этим заниматься :)

А что за данные вам нужны? Я, правда, с этими авторами не знаком и поэтому помочь их раздобыть не смогу, но просто из интереса.

Проблем с такой базой данных масса: непонятно что именно туда выкладывать и зачем; доступ к мед.данным по которым даже теоретически можно вычислить пациента надо ограничивать; подписанные ими consent forms зачастую настолько узки, что ни для каких новых анализов их данные использовать нельзя; стандартизации методов тоже нет. И поверх всего этого простое нежелание людей ничем делиться...

Date: 2010-10-29 04:28 am (UTC)
From: [identity profile] riftsh.livejournal.com
Последовательности доступны, а ассоциированные с ними фенотипы - нет.

December 2013

S M T W T F S
1234567
891011121314
15161718192021
22232425262728
293031    

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jun. 20th, 2025 09:08 am
Powered by Dreamwidth Studios