shvarz: (Default)
shvarz ([personal profile] shvarz) wrote2010-10-26 04:37 pm
Entry tags:

Доступ к данным

Интересный парадокс (ну, если не парадокс, то противоречие) обнаруживается, когда говоришь с учеными о предоставлении открытого доступа к данным. С одной стороны, они не доверяют данным из других лабораторий и не особенно жаждут в них копаться. С другой стороны, они считают свои собственные данные необычайно ценными и уверены, что стоит их выложить, как все тут же кинутся в них копаться.

P.S: У меня во френдах есть практикующие ученые: Вы согласились бы выкладывать свои сырые необработанные данные в открытый доступ? Не сразу, конечно, а допустим через год после их получения. Предполагается, что для этого есть специальные программы и базы данных и у вас не уйдет на это много времени и сил. Стали бы вы анализировать данные из других лабораторий?

[identity profile] vigna.livejournal.com 2010-10-26 08:42 pm (UTC)(link)
Я и так выкладываю. Но доступ к ним появляется только после выхода публикации. Чужие использую, конечно, тоже.
Все, конечно, не кинутся, но однажды я проворонила release date последовательностей, которые я отправила в Генбанк, они открылись задолго до выхода статьи. И что же - через пару месяцев присылают мне на рецензию статью, основанную наполовину на моих сиквенсах, на вторую половину - на сиквенсах английских коллег, они не то тоже проворонили, не то просто альтруисты такие. Данных самих авторов там почти не было.

[identity profile] shvarz.livejournal.com 2010-10-26 08:46 pm (UTC)(link)
Ну да, последовательности все уже привыкли выкладывать и использовать. Тоже, кстати, противоречие - с последовательностями никто не возмущается, а если речь идет о FACS-анализе, так тут сразу в штыки.

Вопрос про статью на ваших последовательностях: А вы бы сами сделали то, что было проделано в этой статье? Или они вам таки не конкуренты (а просто паразиты :)?

[identity profile] sciuro.livejournal.com 2010-10-26 08:56 pm (UTC)(link)
Да, если шеф не против будет :) У меня из сырых данных в основном flow cytometry, ну так будет куда ссылаться, когда говоришь людям - вот так можно делать, а вот этак - низзя :)

Я бы, может, и стала бы анализировать чужие данные, но вот скажем с теми же факсами - публикуют что-то настолько вопиющее, что даже из обработанных данных оно торчит и вопиет, а что делать-то? В ООН жаловаться? Те, кто в теме, те понимают.

[identity profile] vigna.livejournal.com 2010-10-26 08:56 pm (UTC)(link)
Ну да, последовательности все уже привыкли выкладывать и использовать. Тоже, кстати, противоречие - с последовательностями никто не возмущается, а если речь идет о FACS-анализе, так тут сразу в штыки.
Я считаю, что надо выкладывать всё, что в принципе выкладываемо :) За это люблю "безразмерные" журналы типа плосовских или BMC.

Вопрос про статью на ваших последовательностях: А вы бы сами сделали то, что было проделано в этой статье? Или они вам таки не конкуренты (а просто паразиты :)?
Да, сделали бы, только лучше :) Собственно, и сделали.
Там вообще интересна история с этой статьёй. Первоначально её написали китайцы, которые не конкуренты, а просто паразиты. Она попала на рецензию к американцу, который таки конкурент. Он её отклонил, не забыв сказать китайцам, что у них плохой английский. Они после отклонения ему написали и попросили поправить английский и стать соавтором. Он согласился. И вот уже этот вариант статьи попал ко мне. Так что я затрудняюсь с ответом :)

[identity profile] ahmash.livejournal.com 2010-10-26 08:59 pm (UTC)(link)
ИМХО, потеря времени. Я сам то не люблю анализ и статистику делать, а кто не видел как и чего, тот вообще ничего не поймёт.
Другое дело, если шефу на проверку статьи конкурентов попадают...

[identity profile] ackap.livejournal.com 2010-10-26 09:00 pm (UTC)(link)
я сомневаюсь чтобы кто-то выложил всю серию экспериментов, включая неудачные. Исходные данные для картинок... почему бы и нет. Чужие данные было бы полезно посмотреть при попытках воспроизвести методику, так что я скорее за.

[identity profile] sliger.livejournal.com 2010-10-26 09:02 pm (UTC)(link)
Основной материал я бы выложил опосля публикации. Часть данных, которые я никак пока не могу "переварить" я бы уже выложил сейчас с призывом "Разобрать, к чертям, и побыстрее", да начальница аки собака на сене - не дает даже до соседней лабы сходить к спецам на предмет мозгового штурма. Постдок человек подневольный :(.

В прочем, характер данных для узкого круга - записи спонтанных осциляций внутриклеточного кальция в клетках органной культуры эмбриональной почки. "Кальциеведы", как правило, или в нейрологии сидят и им почка, как собаке пятая нога, или же занимаются механизмами на молекулярном уровне - органный уровень для них не интересен.

[identity profile] vdinets.livejournal.com 2010-10-26 09:05 pm (UTC)(link)
После публикации - запросто. Хотя в них вряд ли кто-то станет копаться, даже если заплатить. В зоологии по этой части вообще расслабуха.

[identity profile] shvarz.livejournal.com 2010-10-26 09:06 pm (UTC)(link)
То есть таки ничего особенно страшного не произошло? И это логично - производящая данные находится в куда более выгодном положении использовать эти данные, чем конкуренты или "паразиты" (в кавычках, потому как слишком уж негативное слово для вполне нормальной деятельности). Ведь эти данные заточены под ее гипотезы, под ее анализ и их слабые и сильные стороны она знает лучше других.

[identity profile] shvarz.livejournal.com 2010-10-26 09:14 pm (UTC)(link)
Я flow уже сто лет не делал, да и когда делал - только самые примитивные вещи, так что я не в теме. Сам процесс выкладывания не поможет делу? У баз данных обычно существуют определенные критерии по контролю качества данных, существуют ontologies, которые указывают на детали экспериментов и т.п.

[identity profile] shvarz.livejournal.com 2010-10-26 09:16 pm (UTC)(link)
А если база данных будет приходить со встроенными функциями для анализа? Всех анализов, конечно, не предусмотреть, но допустим есть некий тип данных, которые большинство ученых в вашей области собирает и обрабатывает примерно одинаковым образом - это ведь можно автоматизировать.

[identity profile] shvarz.livejournal.com 2010-10-26 09:19 pm (UTC)(link)
Неудачные можно и не выкладывать :)
Собственно (на мой взгляд) смысл выкладывать данные имеет только для каких-то видов данных, которые имеют общую ценность для всей области. Кто как конкретно гель прогнал никого особенно не интересует.

[identity profile] san-diegan.livejournal.com 2010-10-26 09:19 pm (UTC)(link)
У нас другая специфика. ДО публикации в peer review журнале, я выкладываю основные результаты с иллюстрациями, но без таблиц, экспериментальные подходы, выводы и заключения в одно-двухстраничных конференционных абстрактах. На них ссылаются как на публикацию, хотя строго говоря публикацией как таковой не являются. Даже Science, который очень щепетилен в том, что данные должны быть опубликованы впервые, допускает это. Больше ничего и никуда я не выкладываю.

[identity profile] shvarz.livejournal.com 2010-10-26 09:20 pm (UTC)(link)
Ну да, делиться через централизованные базы данных имеет смысл лишь для тех данных, которые могут быть интересны большому количеству людей. Если в вашей области 5 человек, то вы и так сможете договориться почти обо всем :)

[identity profile] sciuro.livejournal.com 2010-10-26 09:20 pm (UTC)(link)
Бывает, что в некоторых областях, таких, как наша, скажем, те, кто делают сложный flow - это такие маги, владеющие методом, недоступным другим. Критерии еще не выработались. Поэтому важнее не дать людям сырые данные, а научить их смотреть критично хотя бы на обработанные обработанные результаты.

[identity profile] shvarz.livejournal.com 2010-10-26 09:22 pm (UTC)(link)
А какие данные бывают у зоологов? Размер крокодила от носа до хвоста? Или "увидел редкого зверя в точке с GPS координатами..."? Совершенно не представляю себе эту науку.

[identity profile] shvarz.livejournal.com 2010-10-26 09:25 pm (UTC)(link)
А что за область? И чем так ценны таблицы? И почему вы их не выкладываете?
Собственно то, о чем вы пишете, это уже обработанные данные. Цель предоставления доступа к сырым данным в том, что кто-то сможет их проанализировать так, как вы не додумались. Или в том, что кто-то добавит своих данных и объединенный массив позволит ответить на вопрос, на который ни один из отдельных наборов данных ответить не позволял.

[identity profile] shvarz.livejournal.com 2010-10-26 09:28 pm (UTC)(link)
Ну да, это несколько иная ситуация и тут доступ к данным имеет совсем иной оттенок. Я имел в виду примерно такие использования баз данных (цитирую из коммента ниже): "Цель предоставления доступа к сырым данным в том, что кто-то сможет их проанализировать так, как вы не додумались. Или в том, что кто-то добавит своих данных и объединенный массив позволит ответить на вопрос, на который ни один из отдельных наборов данных ответить не позволял."

Это подразумевает то, что методики производства данных уже относительно утряслись и все делают их примерно одним и тем же способом или, по-крайней мере, получают примерно одинаковую информацию на выходе (типа ген. последовательности).

[identity profile] vdinets.livejournal.com 2010-10-26 09:29 pm (UTC)(link)
Смотря кто что изучает. Встречаемость и параметры тех или иных форм поведения, данные учетов численности, генетические исследования степени родства и так далее.

[identity profile] ahmash.livejournal.com 2010-10-26 09:31 pm (UTC)(link)
Если честно, то я бы не стал доверять такой базе данных. Подсунуть коллегам неправильные данные, чтоб опередить - легко, а ответственности никакой.

[identity profile] shvarz.livejournal.com 2010-10-26 09:31 pm (UTC)(link)
Казалось бы сам бог велел все это сводить в единую базу данных...

[identity profile] sciuro.livejournal.com 2010-10-26 09:33 pm (UTC)(link)
Ну да, я понимаю - прошу прощения за оффтопик.

[identity profile] vdinets.livejournal.com 2010-10-26 09:33 pm (UTC)(link)
Слишком данные разнородные, это ж не последовательности ДНК.

[identity profile] shvarz.livejournal.com 2010-10-26 09:33 pm (UTC)(link)
Это же публичная база данных - все всплывет наружу довольно быстро. Ученые живут репутацией, сомневаюсь что кто-то на такое пойдет. Опять же смотрите на существующие базы - Genbank, например, - там такое неслыхано.

[identity profile] shvarz.livejournal.com 2010-10-26 09:36 pm (UTC)(link)
Да какие же разнородные? Вот данные учетов численности, например - это же просто цифры в конечном итоге.

Page 1 of 5