shvarz: (Default)
shvarz ([personal profile] shvarz) wrote2010-10-26 04:37 pm
Entry tags:

Доступ к данным

Интересный парадокс (ну, если не парадокс, то противоречие) обнаруживается, когда говоришь с учеными о предоставлении открытого доступа к данным. С одной стороны, они не доверяют данным из других лабораторий и не особенно жаждут в них копаться. С другой стороны, они считают свои собственные данные необычайно ценными и уверены, что стоит их выложить, как все тут же кинутся в них копаться.

P.S: У меня во френдах есть практикующие ученые: Вы согласились бы выкладывать свои сырые необработанные данные в открытый доступ? Не сразу, конечно, а допустим через год после их получения. Предполагается, что для этого есть специальные программы и базы данных и у вас не уйдет на это много времени и сил. Стали бы вы анализировать данные из других лабораторий?

[identity profile] mayskaya-groza.livejournal.com 2010-10-26 09:37 pm (UTC)(link)
Мне не жалко, кому они нафиг нужны!
В чужих, наверно, не стала бы копаться. Часто бывает, сделали открытие, а потом оказалось что это случайное совпадение, пришлось "закрыть" открытие.

[identity profile] sliger.livejournal.com 2010-10-26 09:38 pm (UTC)(link)
У меня все еще запущеннее - я пока один. Почечники разводят руками - дескать интересно, но не наше им генетические модели подавай. Мозговеды тоже разводят руками - почка не мозги, синапсов не найдешь. Остается только биофизиков привлекать к анализу данных, но их в лабе мало, на мой проект начальство не "выделяет" людской ресурс, а в коллаборацию тоже не хотят, жадничают. Вот тихо все и ковыряю в одну лопату. Сам себе и швец и жнец. Не правильно это, но мне, как постдоку, пока трудно тягаться с двумя профессорами.

[identity profile] vdinets.livejournal.com 2010-10-26 09:38 pm (UTC)(link)
Методов учета десятки, и результаты обычно можно сравнивать только с данными, полученными в том же месте в то же время года тем же методом, а часто и только теми же людьми.

[identity profile] shvarz.livejournal.com 2010-10-26 09:41 pm (UTC)(link)
Это все совершенно решаемые вопросы в базах данных, нужны лишь инструменты для сортировки по этим параметрам. Разрабатывается онтология данных, потом все данные аннотируются этой метаинформацией и вперед!

[identity profile] vdinets.livejournal.com 2010-10-26 09:43 pm (UTC)(link)
Ну, не знаю, пока таких предложений я не слышал. По встречам редких видов любители пытаются что-то создавать, но на крайне любительском уровне.

[identity profile] vigna.livejournal.com 2010-10-26 09:45 pm (UTC)(link)
Не произошло, но кажется, только потому, что у редактора оказалось хорошее чувство юмора - одним рецензентом была я, а вторым - тот самый английский коллега, у которого потырили вторую часть данных.

[identity profile] san-diegan.livejournal.com 2010-10-26 09:48 pm (UTC)(link)
Космохимия. Исследования хронологии ранней Солнечной системы методами высокоточной масс-спектрометрии с использованием коротко- и дологоживущих радинуклидов.
Таблицы не то что бы особенно ценны, они в абстракты просто не влезают)), не тот формат. Абстракты вообще для другого, не для деталей.
Что до сырых данных, то мне остаётся непонятным, зачем их отдавать кому-то на анализ. Проанализируют, сделают выводы, опубликуют. А зачем я тогда в лаборатории месяцами сидел? Я же после этого те же данные не смогу опубликовать. А без публикаций и грантов не дадут. И вообще обидно )). Нет, пусть вначале я опубликую результаты, достаточно "причёсанные" а потом уже пусть другие анализируют как хотят, сравнивают со своими данными, подтверждают или не подтверждают.

[identity profile] vigna.livejournal.com 2010-10-26 10:10 pm (UTC)(link)
В генбанке много ошибок, кстати. Вряд ли злонамеренных, впрочем.

[identity profile] v1adis1av.livejournal.com 2010-10-26 10:27 pm (UTC)(link)
1.Да.
2.Да.

[identity profile] kolobkovod.livejournal.com 2010-10-26 10:34 pm (UTC)(link)
Жадность в отношении к каким данным, которые предположительно существуют только у вас присуща в той или иной степени все людям ))
Наука это не только сотрудничество, еще и конкуренция наверное
Если кто-то вдумчиво проанализирует мои данные, то, какие данные я использую, какие источники - то он может сделать выводы о направлении в котором я двигаюсь. И что-то у меня из под носа утянуть :)))

Наверное с упрощением способов получения этих данных исчезнет и желание жадничать.
но данные и их наличие/отсутствие могут оказывать влияние на развитие каких-то идей, потому наверное не все хотят делиться.

Было бы неплохо сделать так : какая-то организация берет на себя функции управления таким банком данных. Ну как звукозаписывающая компания (как Spotify) :). И я, если сдаю какие-то данные в этот банк - получаю от этой организации какую-то материальную компенсацию, по небольшой сходной цене продаю те данные, которыми мне не жалко поделиться.

А любой желающий может купить абонемент за небольшую сумму и пользоваться всеми доступными данными в базе, иметь возможность связаться с автором этих данных, иметь возможность еще какие-то дополнительные функции использовать.

все счастливы :)

[identity profile] kolobkovod.livejournal.com 2010-10-26 10:40 pm (UTC)(link)
ну не могут быть люди полностью бескорыстны ))
и получение некоторых данных иногда требует затрат ресурсов, которые никто не компенсирует

[identity profile] shao-s.livejournal.com 2010-10-26 11:15 pm (UTC)(link)
Да, по обоим пунктам.

Но с двумя условиями.

1. Все выкладываемые базы данных имеют одинаковые алгоритмы систематизации.
2. Доступ к моим данным имеют только те, кто тоже выкладывает данные в свободный доступ.

[identity profile] riftsh.livejournal.com 2010-10-26 11:24 pm (UTC)(link)
Вопрос странный, поскольку в нормальных™ областях он регулируется редакционной политикой приличных журналов, напр.:

An inherent principle of publication is that others should be able to replicate and build upon the authors' published claims. Therefore, a condition of publication in a Nature journal is that authors are required to make materials, data and associated protocols promptly available to readers without undue qualifications in material transfer agreements.

(выделено ими)

Подробности о том, что, куда и почем с последовательностями, структурами, экспрессией, MS, таксономией и пр. (http://www.nature.com/authors/editorial_policies/availability.html)

[identity profile] imbg.livejournal.com 2010-10-26 11:25 pm (UTC)(link)
Я согласен на эксперимент прямо сейчас! При условии близости к моей теме (молекулярнка иммунного ответа, NFkB, TLRs, RIG etc)

[identity profile] prof-yura.livejournal.com 2010-10-26 11:33 pm (UTC)(link)
Я практически все свои тексты выкладываю в арХив, одновременно с подачей в журнал. Некоторые мои коллеги ждут пока статья будет принята и, только после этого, кладут свой текст в арХив.

[identity profile] pochekailov.livejournal.com 2010-10-27 12:03 am (UTC)(link)
По-моему - очень сложно так сделать. Специфических областей науки со своими специфическими данными настолько много, что практически нереально все предусмотреть и автоматизировать.

[identity profile] pochekailov.livejournal.com 2010-10-27 12:05 am (UTC)(link)
Как раз неудачные-то и самые интересные. Если лезешь разбираться в какую-то новую область - сразу будет понятно, что пробовали, но не получилось, а что просто не пробовали. Куча времени экономиться будет. А удачные данные - их и в статьях посмотреть можно.

[identity profile] shvarz.livejournal.com 2010-10-27 12:06 am (UTC)(link)
Тоже урок, в некотором роде. В сообществе все более-менее друг друга знают и откровенное воровство просто так не пройдет. Может даже наоборот, если человек держит данные при себе и кто-то про них узнал и обогнал, то это может ему сойти с рук, а если данные выложены в открытый доступ, то тут уж не украдешь.

[identity profile] shvarz.livejournal.com 2010-10-27 12:10 am (UTC)(link)
Под "автоматизировать" я имел в виду встроить базовые функции для анализа. Типа "посчитать корреляцию между параметрами А и Б" или "отобрать все исследования, пользовавшиеся методом Х". Выбор того, какие наборы данных использовать, как фильтровать и что коррелировать, это остается на усмотрение пользователя.

[identity profile] shvarz.livejournal.com 2010-10-27 12:11 am (UTC)(link)
Тоже верно. Неудачные в смысле "искали, получили хорошие данные, но гипотеза не выгорела" как раз в такие базы данных было бы хорошо складывать. Потому что кто-то может догадается на что нужно посмотреть, чтобы что-то в этих данных найти.

[identity profile] shvarz.livejournal.com 2010-10-27 12:13 am (UTC)(link)
Ну это да, совсем иной случай. Тут действительно большого смысле выкладывать данные нет. Речь шла о тех областях, где аккумуляция данных, полученных более-менее стандартизированными методами в разных лабораториях может принести пользу.

[identity profile] pochekailov.livejournal.com 2010-10-27 12:14 am (UTC)(link)
Я бы выкладывал, но не полностью сырые, а хотя бы частично обработанные. Полностью сырые данные будут просто непонятны без длинного объяснения способа их получения.

Кроме того, большой вопрос с сотрудниками. Нужно согласие всех, кто участвовал в эксперименте. А это гораздо сложнее.

С моей точки зрения, большую ценность бы имело выкладывать подробные методики в открытый доступ, с теми подробностями, которые никогда в журналах не публикуются.

Например, сидишь, читаешь статью из чужой области, и понятно, что их эксперимент можно скомбинировать с твоим. Но на воспроизведение чужого эксперимента уходит куча времени, и никогда с первого раза не получается. Все из-за важных мелочей, которые приходится додумывать самому.

(Да, я исследую фотовольтаику с использованием органических соединений).

[identity profile] shvarz.livejournal.com 2010-10-27 12:17 am (UTC)(link)
Что до сырых данных, то мне остаётся непонятным, зачем их отдавать кому-то на анализ. Проанализируют, сделают выводы, опубликуют. А зачем я тогда в лаборатории месяцами сидел?
Ну я же вроде ответил выше - кто-то может найти в ваших данных то, чего вы сами найти не смогли. Это как один пример.

Я же после этого те же данные не смогу опубликовать.
Обычно в таких ситуациях есть эмбарго на год, чтобы производитель данных мог первым опубликоваться.

И опять же возвращаясь к начальному посылу: Если кто-то в вашей области выложит свои неопубликованные еще данные в открытий доступ, то будете ли вы их анализировать и публиковать до того, как он их проанализирует и опубликует?

[identity profile] shvarz.livejournal.com 2010-10-27 12:18 am (UTC)(link)
Ну, ненужное наверно и не стоит выкладывать. Речь идет о том, что кому-то еще может пригодиться.

[identity profile] pochekailov.livejournal.com 2010-10-27 12:18 am (UTC)(link)
Тогда конечно. Я не удивлюсь, если Google уже давно этим занимается. Ведь многие ученые своими данными через Gmail обмениваются. А фильтры информации у них очень хорошие.

Page 2 of 5