shvarz: (Default)
shvarz ([personal profile] shvarz) wrote2010-10-26 04:37 pm
Entry tags:

Доступ к данным

Интересный парадокс (ну, если не парадокс, то противоречие) обнаруживается, когда говоришь с учеными о предоставлении открытого доступа к данным. С одной стороны, они не доверяют данным из других лабораторий и не особенно жаждут в них копаться. С другой стороны, они считают свои собственные данные необычайно ценными и уверены, что стоит их выложить, как все тут же кинутся в них копаться.

P.S: У меня во френдах есть практикующие ученые: Вы согласились бы выкладывать свои сырые необработанные данные в открытый доступ? Не сразу, конечно, а допустим через год после их получения. Предполагается, что для этого есть специальные программы и базы данных и у вас не уйдет на это много времени и сил. Стали бы вы анализировать данные из других лабораторий?

[identity profile] vigna.livejournal.com 2010-10-26 08:42 pm (UTC)(link)
Я и так выкладываю. Но доступ к ним появляется только после выхода публикации. Чужие использую, конечно, тоже.
Все, конечно, не кинутся, но однажды я проворонила release date последовательностей, которые я отправила в Генбанк, они открылись задолго до выхода статьи. И что же - через пару месяцев присылают мне на рецензию статью, основанную наполовину на моих сиквенсах, на вторую половину - на сиквенсах английских коллег, они не то тоже проворонили, не то просто альтруисты такие. Данных самих авторов там почти не было.

[identity profile] shvarz.livejournal.com 2010-10-26 08:46 pm (UTC)(link)
Ну да, последовательности все уже привыкли выкладывать и использовать. Тоже, кстати, противоречие - с последовательностями никто не возмущается, а если речь идет о FACS-анализе, так тут сразу в штыки.

Вопрос про статью на ваших последовательностях: А вы бы сами сделали то, что было проделано в этой статье? Или они вам таки не конкуренты (а просто паразиты :)?

(no subject)

[identity profile] vigna.livejournal.com - 2010-10-26 20:56 (UTC) - Expand

(no subject)

[identity profile] shvarz.livejournal.com - 2010-10-26 21:06 (UTC) - Expand

(no subject)

[identity profile] vigna.livejournal.com - 2010-10-26 21:45 (UTC) - Expand

(no subject)

[identity profile] shvarz.livejournal.com - 2010-10-27 00:06 (UTC) - Expand

[identity profile] sciuro.livejournal.com 2010-10-26 08:56 pm (UTC)(link)
Да, если шеф не против будет :) У меня из сырых данных в основном flow cytometry, ну так будет куда ссылаться, когда говоришь людям - вот так можно делать, а вот этак - низзя :)

Я бы, может, и стала бы анализировать чужие данные, но вот скажем с теми же факсами - публикуют что-то настолько вопиющее, что даже из обработанных данных оно торчит и вопиет, а что делать-то? В ООН жаловаться? Те, кто в теме, те понимают.

[identity profile] shvarz.livejournal.com 2010-10-26 09:14 pm (UTC)(link)
Я flow уже сто лет не делал, да и когда делал - только самые примитивные вещи, так что я не в теме. Сам процесс выкладывания не поможет делу? У баз данных обычно существуют определенные критерии по контролю качества данных, существуют ontologies, которые указывают на детали экспериментов и т.п.

(no subject)

[identity profile] sciuro.livejournal.com - 2010-10-26 21:20 (UTC) - Expand

(no subject)

[identity profile] shvarz.livejournal.com - 2010-10-26 21:28 (UTC) - Expand

(no subject)

[identity profile] sciuro.livejournal.com - 2010-10-26 21:33 (UTC) - Expand

[identity profile] ahmash.livejournal.com 2010-10-26 08:59 pm (UTC)(link)
ИМХО, потеря времени. Я сам то не люблю анализ и статистику делать, а кто не видел как и чего, тот вообще ничего не поймёт.
Другое дело, если шефу на проверку статьи конкурентов попадают...

[identity profile] shvarz.livejournal.com 2010-10-26 09:16 pm (UTC)(link)
А если база данных будет приходить со встроенными функциями для анализа? Всех анализов, конечно, не предусмотреть, но допустим есть некий тип данных, которые большинство ученых в вашей области собирает и обрабатывает примерно одинаковым образом - это ведь можно автоматизировать.

(no subject)

[identity profile] ahmash.livejournal.com - 2010-10-26 21:31 (UTC) - Expand

(no subject)

[identity profile] shvarz.livejournal.com - 2010-10-26 21:33 (UTC) - Expand

(no subject)

[identity profile] vigna.livejournal.com - 2010-10-26 22:10 (UTC) - Expand

(no subject)

[identity profile] shvarz.livejournal.com - 2010-10-27 15:17 (UTC) - Expand

(no subject)

[identity profile] ahmash.livejournal.com - 2010-10-27 12:03 (UTC) - Expand

(no subject)

[identity profile] shvarz.livejournal.com - 2010-10-27 15:16 (UTC) - Expand

(no subject)

[identity profile] pochekailov.livejournal.com - 2010-10-27 00:03 (UTC) - Expand

(no subject)

[identity profile] shvarz.livejournal.com - 2010-10-27 00:10 (UTC) - Expand

(no subject)

[identity profile] pochekailov.livejournal.com - 2010-10-27 00:18 (UTC) - Expand

[identity profile] ackap.livejournal.com 2010-10-26 09:00 pm (UTC)(link)
я сомневаюсь чтобы кто-то выложил всю серию экспериментов, включая неудачные. Исходные данные для картинок... почему бы и нет. Чужие данные было бы полезно посмотреть при попытках воспроизвести методику, так что я скорее за.

[identity profile] shvarz.livejournal.com 2010-10-26 09:19 pm (UTC)(link)
Неудачные можно и не выкладывать :)
Собственно (на мой взгляд) смысл выкладывать данные имеет только для каких-то видов данных, которые имеют общую ценность для всей области. Кто как конкретно гель прогнал никого особенно не интересует.

(no subject)

[identity profile] pochekailov.livejournal.com - 2010-10-27 00:05 (UTC) - Expand

(no subject)

[identity profile] shvarz.livejournal.com - 2010-10-27 00:11 (UTC) - Expand

[identity profile] sliger.livejournal.com 2010-10-26 09:02 pm (UTC)(link)
Основной материал я бы выложил опосля публикации. Часть данных, которые я никак пока не могу "переварить" я бы уже выложил сейчас с призывом "Разобрать, к чертям, и побыстрее", да начальница аки собака на сене - не дает даже до соседней лабы сходить к спецам на предмет мозгового штурма. Постдок человек подневольный :(.

В прочем, характер данных для узкого круга - записи спонтанных осциляций внутриклеточного кальция в клетках органной культуры эмбриональной почки. "Кальциеведы", как правило, или в нейрологии сидят и им почка, как собаке пятая нога, или же занимаются механизмами на молекулярном уровне - органный уровень для них не интересен.

[identity profile] shvarz.livejournal.com 2010-10-26 09:20 pm (UTC)(link)
Ну да, делиться через централизованные базы данных имеет смысл лишь для тех данных, которые могут быть интересны большому количеству людей. Если в вашей области 5 человек, то вы и так сможете договориться почти обо всем :)

(no subject)

[identity profile] sliger.livejournal.com - 2010-10-26 21:38 (UTC) - Expand

(no subject)

[identity profile] shvarz.livejournal.com - 2010-10-27 00:13 (UTC) - Expand

(no subject)

[identity profile] sliger.livejournal.com - 2010-10-27 08:09 (UTC) - Expand

(no subject)

[identity profile] shvarz.livejournal.com - 2010-10-27 15:19 (UTC) - Expand

(no subject)

[identity profile] shao-s.livejournal.com - 2010-10-27 11:31 (UTC) - Expand

(no subject)

[identity profile] sliger.livejournal.com - 2010-11-02 08:46 (UTC) - Expand

[identity profile] vdinets.livejournal.com 2010-10-26 09:05 pm (UTC)(link)
После публикации - запросто. Хотя в них вряд ли кто-то станет копаться, даже если заплатить. В зоологии по этой части вообще расслабуха.

[identity profile] shvarz.livejournal.com 2010-10-26 09:22 pm (UTC)(link)
А какие данные бывают у зоологов? Размер крокодила от носа до хвоста? Или "увидел редкого зверя в точке с GPS координатами..."? Совершенно не представляю себе эту науку.

(no subject)

[identity profile] vdinets.livejournal.com - 2010-10-26 21:29 (UTC) - Expand

(no subject)

[identity profile] shvarz.livejournal.com - 2010-10-26 21:31 (UTC) - Expand

(no subject)

[identity profile] vdinets.livejournal.com - 2010-10-26 21:33 (UTC) - Expand

(no subject)

[identity profile] shvarz.livejournal.com - 2010-10-26 21:36 (UTC) - Expand

(no subject)

[identity profile] vdinets.livejournal.com - 2010-10-26 21:38 (UTC) - Expand

(no subject)

[identity profile] shvarz.livejournal.com - 2010-10-26 21:41 (UTC) - Expand

(no subject)

[identity profile] vdinets.livejournal.com - 2010-10-26 21:43 (UTC) - Expand

(no subject)

[identity profile] vasja-iz-aa.livejournal.com - 2010-10-27 16:21 (UTC) - Expand

(no subject)

[identity profile] shvarz.livejournal.com - 2010-10-27 17:30 (UTC) - Expand

(no subject)

[identity profile] vasja-iz-aa.livejournal.com - 2010-10-27 17:46 (UTC) - Expand

(no subject)

[identity profile] shvarz.livejournal.com - 2010-10-27 17:49 (UTC) - Expand

(no subject)

[identity profile] vasja-iz-aa.livejournal.com - 2010-10-27 18:02 (UTC) - Expand

(no subject)

[identity profile] shvarz.livejournal.com - 2010-10-27 18:10 (UTC) - Expand

(no subject)

[identity profile] vasja-iz-aa.livejournal.com - 2010-10-27 23:04 (UTC) - Expand

(no subject)

[identity profile] shvarz.livejournal.com - 2010-10-28 20:33 (UTC) - Expand

[identity profile] san-diegan.livejournal.com 2010-10-26 09:19 pm (UTC)(link)
У нас другая специфика. ДО публикации в peer review журнале, я выкладываю основные результаты с иллюстрациями, но без таблиц, экспериментальные подходы, выводы и заключения в одно-двухстраничных конференционных абстрактах. На них ссылаются как на публикацию, хотя строго говоря публикацией как таковой не являются. Даже Science, который очень щепетилен в том, что данные должны быть опубликованы впервые, допускает это. Больше ничего и никуда я не выкладываю.

[identity profile] shvarz.livejournal.com 2010-10-26 09:25 pm (UTC)(link)
А что за область? И чем так ценны таблицы? И почему вы их не выкладываете?
Собственно то, о чем вы пишете, это уже обработанные данные. Цель предоставления доступа к сырым данным в том, что кто-то сможет их проанализировать так, как вы не додумались. Или в том, что кто-то добавит своих данных и объединенный массив позволит ответить на вопрос, на который ни один из отдельных наборов данных ответить не позволял.

(no subject)

[identity profile] san-diegan.livejournal.com - 2010-10-26 21:48 (UTC) - Expand

(no subject)

[identity profile] shvarz.livejournal.com - 2010-10-27 00:17 (UTC) - Expand

(no subject)

[identity profile] san-diegan.livejournal.com - 2010-10-27 01:25 (UTC) - Expand

(no subject)

[identity profile] shvarz.livejournal.com - 2010-10-27 15:30 (UTC) - Expand

(no subject)

[identity profile] san-diegan.livejournal.com - 2010-10-28 01:08 (UTC) - Expand

[identity profile] mayskaya-groza.livejournal.com 2010-10-26 09:37 pm (UTC)(link)
Мне не жалко, кому они нафиг нужны!
В чужих, наверно, не стала бы копаться. Часто бывает, сделали открытие, а потом оказалось что это случайное совпадение, пришлось "закрыть" открытие.

[identity profile] shvarz.livejournal.com 2010-10-27 12:18 am (UTC)(link)
Ну, ненужное наверно и не стоит выкладывать. Речь идет о том, что кому-то еще может пригодиться.

[identity profile] v1adis1av.livejournal.com 2010-10-26 10:27 pm (UTC)(link)
1.Да.
2.Да.

[identity profile] shvarz.livejournal.com 2010-10-27 12:18 am (UTC)(link)
Во!

[identity profile] kolobkovod.livejournal.com 2010-10-26 10:34 pm (UTC)(link)
Жадность в отношении к каким данным, которые предположительно существуют только у вас присуща в той или иной степени все людям ))
Наука это не только сотрудничество, еще и конкуренция наверное
Если кто-то вдумчиво проанализирует мои данные, то, какие данные я использую, какие источники - то он может сделать выводы о направлении в котором я двигаюсь. И что-то у меня из под носа утянуть :)))

Наверное с упрощением способов получения этих данных исчезнет и желание жадничать.
но данные и их наличие/отсутствие могут оказывать влияние на развитие каких-то идей, потому наверное не все хотят делиться.

Было бы неплохо сделать так : какая-то организация берет на себя функции управления таким банком данных. Ну как звукозаписывающая компания (как Spotify) :). И я, если сдаю какие-то данные в этот банк - получаю от этой организации какую-то материальную компенсацию, по небольшой сходной цене продаю те данные, которыми мне не жалко поделиться.

А любой желающий может купить абонемент за небольшую сумму и пользоваться всеми доступными данными в базе, иметь возможность связаться с автором этих данных, иметь возможность еще какие-то дополнительные функции использовать.

все счастливы :)

[identity profile] kolobkovod.livejournal.com 2010-10-26 10:40 pm (UTC)(link)
ну не могут быть люди полностью бескорыстны ))
и получение некоторых данных иногда требует затрат ресурсов, которые никто не компенсирует

(no subject)

[identity profile] shvarz.livejournal.com - 2010-10-27 00:19 (UTC) - Expand

(no subject)

[identity profile] kolobkovod.livejournal.com - 2010-10-27 01:16 (UTC) - Expand

[identity profile] shao-s.livejournal.com 2010-10-26 11:15 pm (UTC)(link)
Да, по обоим пунктам.

Но с двумя условиями.

1. Все выкладываемые базы данных имеют одинаковые алгоритмы систематизации.
2. Доступ к моим данным имеют только те, кто тоже выкладывает данные в свободный доступ.

[identity profile] shvarz.livejournal.com 2010-10-27 12:21 am (UTC)(link)
Номер 1 это не условие, скорее техническая необходимость. Иначе будет не база данных, а свалка данных. Номер 2 да, довольно справедлив, но что делать с разными теоретиками, которые в принципе никаких данных не производят, а только моделируют или анализируют?

(no subject)

[identity profile] shao-s.livejournal.com - 2010-10-27 10:09 (UTC) - Expand

[identity profile] riftsh.livejournal.com 2010-10-26 11:24 pm (UTC)(link)
Вопрос странный, поскольку в нормальных™ областях он регулируется редакционной политикой приличных журналов, напр.:

An inherent principle of publication is that others should be able to replicate and build upon the authors' published claims. Therefore, a condition of publication in a Nature journal is that authors are required to make materials, data and associated protocols promptly available to readers without undue qualifications in material transfer agreements.

(выделено ими)

Подробности о том, что, куда и почем с последовательностями, структурами, экспрессией, MS, таксономией и пр. (http://www.nature.com/authors/editorial_policies/availability.html)

[identity profile] shvarz.livejournal.com 2010-10-27 12:23 am (UTC)(link)
Многочисленные, наверно, на сегодняшний день уже исследования показывают, что на практике эти условия выполняет лишь примерно 1 из 10. И потом, made promptly available - понятие растяжимое. Если это "пришлите мне емейл, я вам вышлю 2 терабайта необработанных плохо-аннотированных данных", то это promptly или нет?

(no subject)

[identity profile] riftsh.livejournal.com - 2010-10-27 01:54 (UTC) - Expand

(no subject)

[identity profile] shvarz.livejournal.com - 2010-10-27 15:33 (UTC) - Expand

(no subject)

[identity profile] riftsh.livejournal.com - 2010-10-28 00:36 (UTC) - Expand

(no subject)

[identity profile] shvarz.livejournal.com - 2010-10-28 20:36 (UTC) - Expand

(no subject)

[identity profile] riftsh.livejournal.com - 2010-10-28 23:43 (UTC) - Expand

(no subject)

[identity profile] shvarz.livejournal.com - 2010-10-29 02:37 (UTC) - Expand

(no subject)

[identity profile] riftsh.livejournal.com - 2010-10-29 04:28 (UTC) - Expand

[identity profile] imbg.livejournal.com 2010-10-26 11:25 pm (UTC)(link)
Я согласен на эксперимент прямо сейчас! При условии близости к моей теме (молекулярнка иммунного ответа, NFkB, TLRs, RIG etc)

[identity profile] shvarz.livejournal.com 2010-10-27 12:25 am (UTC)(link)
Какого рода данные можно было бы выкладывать таким образом? В смысле - от общественного сбора каких данных в этой области на ваш взгляд была бы польза?

(no subject)

[identity profile] imbg.livejournal.com - 2010-10-27 00:51 (UTC) - Expand

[identity profile] prof-yura.livejournal.com 2010-10-26 11:33 pm (UTC)(link)
Я практически все свои тексты выкладываю в арХив, одновременно с подачей в журнал. Некоторые мои коллеги ждут пока статья будет принята и, только после этого, кладут свой текст в арХив.

[identity profile] shvarz.livejournal.com 2010-10-27 12:26 am (UTC)(link)
Тексты это несколько иное - это уже законченная работа. Ее у вас можно только украсть. Данные позволяют людям делать свою собственную работу.

[identity profile] pochekailov.livejournal.com 2010-10-27 12:14 am (UTC)(link)
Я бы выкладывал, но не полностью сырые, а хотя бы частично обработанные. Полностью сырые данные будут просто непонятны без длинного объяснения способа их получения.

Кроме того, большой вопрос с сотрудниками. Нужно согласие всех, кто участвовал в эксперименте. А это гораздо сложнее.

С моей точки зрения, большую ценность бы имело выкладывать подробные методики в открытый доступ, с теми подробностями, которые никогда в журналах не публикуются.

Например, сидишь, читаешь статью из чужой области, и понятно, что их эксперимент можно скомбинировать с твоим. Но на воспроизведение чужого эксперимента уходит куча времени, и никогда с первого раза не получается. Все из-за важных мелочей, которые приходится додумывать самому.

(Да, я исследую фотовольтаику с использованием органических соединений).

[identity profile] shvarz.livejournal.com 2010-10-27 12:31 am (UTC)(link)
Полностью сырые данные будут просто непонятны без длинного объяснения способа их получения.
Предполагается, что данные выкладываются в наиболее удобной форме для анализа (если нужно, то частично обработанные) и что методики, подходы и общие схемы построения экспериментов более-менее согласованы. То есть это имеет смысл делать только там, где способ производства данных более-менее нейтрален или может быть систематизирован (разбит на сортируемые категории). Если вы сделали совершенно уникальный эксперимент, то эти данные все равно невозможно будет сгруппировать с данными из других жкспериментов, и тогда действительно тут важнее выложить методику, чем сами данные.

[identity profile] feniouk.livejournal.com 2010-10-27 12:39 am (UTC)(link)
Данные выкладывал бы охотно. Даже не через год, а прям сразу после публикации, за исключением каких-то специальных случаев (например, когда понятно, что на этих данных можно быстро сделать еще одну работу).

Иметь доступ к чужим данным было бы тоже очень и очень полезно.

P.S. Область работы - биохимия\биофизика.

[identity profile] shvarz.livejournal.com 2010-10-27 03:34 pm (UTC)(link)
Во!

[identity profile] true-stranger.livejournal.com 2010-10-27 01:04 am (UTC)(link)
Свое выкладываем, чужое анализируем. В основном next-gen sequencing и после публикации.

[identity profile] shvarz.livejournal.com 2010-10-27 03:35 pm (UTC)(link)
Да, генетики в этом смысле впереди планеты всей. Но, кстати, если мне не изменяет память, переход к этой системе дался генетикам далеко не малой кровью. Страсти вполне даже кипели...

[identity profile] overscience-mes.livejournal.com 2010-10-27 04:14 am (UTC)(link)
Мне было бы лень. Исходные данные в разных форматах, их надо было бы переводить в асц и подробно подписывать...

[identity profile] shvarz.livejournal.com 2010-10-27 03:37 pm (UTC)(link)
Предполагается, что для выкладывания есть специальные программы.
А как такой вот стимул: Вы подписываете и выкладываете данные, а база данных позволяет сделать какой-то более-менее стандартный анализ этих данных. Например, выдать полный стат-анализ, как-нибудь визуализировать их красивенько или сравнить с результатами похожих работ?

[identity profile] 2myshki.livejournal.com 2010-10-27 04:32 am (UTC)(link)
до публикации - нет, после - пожалуйста.

фактически если речь идет о сиквенсах, то так и происходит в обязательном порядке. с разным генотипированием - сложнее, т.к. первичку очень редко выкладывают даже в дополнительных материалах.

[identity profile] shvarz.livejournal.com 2010-10-27 03:42 pm (UTC)(link)
С сиквенсами часто задолго до публикации выкладывают - человеческий геном секвинировали, договорились в течение 24 часов выкладывать. Сейчас разные секвинирующие проекты придерживаются похожих правил.

Стали бы вы анализировать данные из других лаборатори

[identity profile] demographer.livejournal.com 2010-10-27 05:38 am (UTC)(link)
у нас немного другие данные, но, как правило, через некоторое время выкладываются в public domain
я токо с такими и работаю, других у меня нет
хотя данные ФНМЦ СПИД недоступны до такой степени, что посещает мысль: есть ли оне ваще?

Re: Стали бы вы анализировать данные из других лаборато

[identity profile] shvarz.livejournal.com 2010-10-27 03:14 pm (UTC)(link)
Ну, с вами, теоретиками, все и так было понятно :)

[identity profile] vasja-iz-aa.livejournal.com 2010-10-27 06:21 am (UTC)(link)
Это не настоящий парадокс. Вообще не парадокс. Они все дураки и копаться в ихних грязных и бессмысленых данных мне, великому, малоинтересно. А вот если выложить в общий доступ мои великолепные результаты, то тут же набежит толпа китайских и прочих бездельников за халявой.

[identity profile] u_niq.livejournal.com 2010-10-27 06:46 am (UTC)(link)
Отдельно от статьи - нет. По двум причинам. Во-первых, это лишь все запутает, если без текста, без обсуждения... А во-вторых, сейчас во многих журналах есть Приложение. И туда я вставляю все данные по теме, которые хочу.

Единственный для меня вид данных, которые имеет смысл выкладывать с сеть - это данные gene expression profiling и тому подобные. Как правило, в этих данных авторы обсуждают лишь фрагмент, а их размещение в сети позволяет остальным выделять свои интересные моменты. Но как я знаю, некоторые лаборатории так и делают (напр, лаб. Katze по вирусологии)

данные gene expression profiling

[identity profile] vasja-iz-aa.livejournal.com 2010-10-27 07:32 am (UTC)(link)
На мой взгляд это одни из самых бесполезных данных для общественного выкладывания. Какой то смысл имеют очень большии серии, сделаные одними руками по стандартизованой методике. А если какой то ученый сунул в GEO дату с полдюжины своих аффиметриковских чипов, то это лишь бессмысленое забивание мегабайтами дискового пространства на ихних серверах.

[identity profile] basist.livejournal.com 2010-10-27 08:21 am (UTC)(link)
Я не учёный, но думаю, что стал бы выкладывать тезисно. Без обоснований.

[identity profile] mfreidin.livejournal.com 2010-10-27 08:59 am (UTC)(link)
Чиповые профили экспрессии обязательно надо депонировать и давать ссылку на номер в соответствующем банке данных. Это требование западных журналов.

Очень много статей, анализирующих чужие данные, находящиеся в свободном доступе, по экспрессии и полногеномному анализу ассоциаций.

[identity profile] shvarz.livejournal.com 2010-10-27 05:31 pm (UTC)(link)
Да, открытый доступ к данным не такая уж и редкость сейчас. Тем более удивительно, что такое отношение к этому продолжает так активно жить и процветать.

(no subject)

[identity profile] mfreidin.livejournal.com - 2010-10-28 08:36 (UTC) - Expand

[identity profile] ratamaque.livejournal.com 2010-10-27 10:54 am (UTC)(link)
Я не стал бы.

(no subject)

[identity profile] ratamaque.livejournal.com - 2010-10-29 14:55 (UTC) - Expand

Page 1 of 2