shvarz

Читаю сейчас один отчет, который заставил меня вспомнить о дискуссиях по поводу разразившегося несколько месяцев назад климат-гейта, и задуматься о том, как именно хранятся научные данные, насколько открыт к ним доступ для широкой публики, и насколько широко распространяются обязательства ученых по предоставлению информации, необходимой для воспроизведения их экспериментов. В теории, конечно, ответ довольно прост: при публикации ученый обязан подробно описать все методы, необходимые для воспроизведения его работы, а после публикации, обязан предоставить реактивы и-или необработанные данные всем желающим. На практике, на самом деле, все бывает намного сложнее и запутаннее.

Многие наборы данных невоспроизводимы. Эпидемия вируса, взрыв сверхновой, влияние появления интернета на потребление информации - исторические события могут быть описаны неким набором данных, который воспроизвести просто невозможно. Некоторые данные воспроизвести невозможно по этическим причинам: сравнение продолжительности жизни в группах ВИЧ-положительных людей принимающих и не принимающих антивирусные лекарства было возможно лишь в самых ранних испытаниях, когда эффективность лекарств была неизвестна; сейчас контрольная группа всегда получает стандартное лечение. Наконец, некоторые наборы данных воспроизводить просто нерационально: для того, чтобы воспроизвести эксперименты на Большом Хадронном Коллайдере, нужно построить еще один Коллайдер.

Необработанные данные часто не существуют или не могут быть распространены. Возьмем тот же Коллайдер: он за секунду получает петабайт (миллион гигабайт) данных. Хранить столько данных невозможно даже при самых современных технологиях хранения информации. Поэтому данные на лету анализируются "на интересность" компьютером, из них 99.99999% тут же выбрасывается, а сохраняются из них лишь порядка 100 мегабайт. Схожие проблемы существуют в самых разных областях науки, где "необработанные" данные существуют лишь временно или даже вообще не существуют. В биологии, когда клетки красятся разными маркерами одновременно, то инструмент настраивается в каждом эксперименте так, чтобы компенсировать утечку сигнала от одного маркера в другой. Компенсация производится прибором на лету, необработанные данные не сохраняются, и по окончательным данным невозможно воспроизвести ни природу ни количество такой компенсации. В медицине, необработанные данные содержат в себе личную информацию о пациенте (его возраст, даты прихода в клинику, болезни родственников) и хотя они и существуют, но их нельзя выкладывать в общественный домен.

Порой сбор информации занимает годы и усилия целой группы людей, но эта информация потом может анализироваться самыми разными способами и вести к ряду публикаций. Ученые, собравшие некий большой и трудоемкий набор данных, обычно получают некоторый срок на то, чтобы полностью его проанализировать. Поэтому бывает и так, что при публикации научной статьи данные, по которым эта статья была сделана, остаются закрытыми. Если я не ошибаюсь, то данные с того же Коллайдера держатся внутри тех коллабораций, которые их получили (френды поправят, если это не так).

Теперь пара замечаний о методах:

Некоторые методы анализа построены так, что они невоспроизводимы в точности. Например, при построении филогенетических деревьев используется bootstrapping - процесс, при котором из общего набора данных случайно выбирается поднабор, который можно реалистично проанализировать и на его основе строится дерево. Это проделывается очень много раз и в конце концов результатом является дерево, которое появлялось наиболее часто. Поскольку такой анализ основан на случайных выборках, его результаты не будут в точности воспроизводимы в повторных анализах тех же самых данных.

Некоторые экспериментальные методы и методы анализа настолько сложны, что их невозможно (или нерационально с практической точки зрения) полностью описать в журнале или даже в сопроводительных материалах к статье. Даже более-менее простые методики зачастую содержат в себе знания или навыки, которые возможно получить лишь после многолетнего обучения или практики. Должно ли в обязанности ученого входить обучения и тренировка всех, кто желает повторить или даже просто полностью понять его методы и-или знания в некоторой области? Мне кажется, что - нет.

И напоследок об образцах: Многие научные работы делаются на образцах, которые очень трудно получить или воспроизвести, и которые имеются в очень ограниченном количестве. Например - образцы грунта с Луны. Или вот менее экзотический пример: образцы крови из недавно проведенного испытания в ВИЧ-вакцины в Тайланде - их совсем немного и на то, чтобы их получить, были потрачены годы работы и больше 100 миллионов баксов. Такие образцы не могут быть предоставлены в общий доступ и для всеобщего анализа, потому что они слишком ценны и необходимы для проведения тех исследований, для которы они и были собраны. В процессе этих исследований эти образцы будут использованы полностью и воспроизвести эксперименты будет невозможно.

Ну и совсем уж напоследок: Стандарты хранения данных и переноса их с устаревающих или разрушающихся носителей на новые очень сильно варьируют от одной области науки к другой. В большинстве биологических лабораторий, лабораторные журналы и реагенты хранятся пять лет. Иногда больше, иногда меньше, в зависимости от стоимости хранения, наличия места и целесообразности этого хранения. Одним из наиболее организованно хранящихся типов данных является последовательность ДНК. Например, база данных в Лос Аламосе хранит практически все известные последовательности геномов ВИЧ, будь они полными или частичными. Но в этой базе данных хранятся не необработанные данные (гели или файлы с секвенаторов), а уже конечные последовательности, то есть невозможно проверить их аккуратность и достоверность.

Интересно, что когда я приводил эти примеры в дискуссиях о климат-гейте, чтобы проиллюстрировать то, что идеальная картина организации науки далеко не всегда соответствует практике, то меня сразу же зачисляли в ряды таких же "ученых" (sic, в кавычках!) или воспринимали их как подтверждение того, что наука сейчас вообще неизвестно куда катится и состоит лишь сплошь из прохиндеев и жуликов.

Flat | Top-Level Comments Only

From:

slavka.livejournal.com

ничуть
для того чтоб понять, что данные, за сбор которых я заплатил, должны быть доступны мне и всем кого я нанял, вовсе не надо быть ученым

только в том случае, если они все это делали на свои деньги.

shvarz.livejournal.com

Какие именно данные должны быть доступны? Давайте обсудим какой-нибудь конкретный проект, раз вы такой специалист по научной этике. Два примера:
1. Пример с петабайтом в секунду сырых необработанных данных с Коллайдера. Они должны быть доступны всем? Вы согласны платить за такой доступ?
2. Секвенирование генов. Сейчас сохраняются лишь текстовые файлы с последовательностью геномов. Как вы считаете, что именно нужно хранить в данной ситуации в дополнение к этой информации? Сами жидкие реакции секвенирования, гели, считанные сырые данные компьютера, обработанные компьютерные данные? Учтите, что например, хранение самих реакций требует заморозки на -80, что очень дорого и занимает очень много места.

И как долго их надо хранить? 2 года, 5 лет, тысячу? Кто будет за это платить? Вы пухните по поводу 100 баксов в год, которые с вас берут на бюджет NIH, что вы скажете насчет уплаты 10 тысяч баксов на хранение данных, которые вы понять не можете, а ученые считают ненужными?

они должны быть доступны всем, кто
1) спонсировал проект
2) согласен заплатить за перекачку

понятия не имею. этот вопрос надо задать тем, кто хотел бы увидеть эти данные.

ну скажем сутки; через сутки на то же место записывать свежие данные итд

кому интересно – тот скачает и посмотрит.

они должны быть доступны всем, кто
1) спонсировал проект
2) согласен заплатить за перекачку

Вопрос не в том, кому они должны быть доступны, а в том, кто будет платить за их хранение. Это очень большие деньги. И вопрос также в рациональности их хранения. Вы, как специалист по научной этике, должны быть способны ответить на этот вопрос.

понятия не имею. этот вопрос надо задать тем, кто хотел бы увидеть эти данные.
Именно это я и говорю. Решать такие вопросы должны специалисты, а не те, кто платил за исследования. Вы вылезли с тем, что имеете право решать, потому что платили. Давайте - решайте!

ну скажем сутки; через сутки на то же место записывать свежие данные итд

Это совершенно идиотская идея и на самом деле делает ситуацию даже хуже, чем существующая на сегодняшний день. Потому что в вашей модели все данные стираются через сутки, а в настоящей ситуации стираются только те, что не считаются неважными людьми, которые в этом гораздо лучше вас разбираются.

Короче, мой вам совет - перестаньте высказывать категоричные мнения о том, в чем не разбираетесь. Вы платите не только за сбор данных, но и за их интерпретацию. Отказываться от этой интерпретации - выбрасывать столь вами же любимые деньги на ветер.

я же сказал – никакого особенного хранения не надо, нужен доступ.

правильно. поэтому я требую, что даннные были доступны всем специалистам которым я лично доверяю – а они скажут что им надо.
читайте внимательнее.
через сутки стираются только те данные, которые были предназначены для немедленного распространения. Все остальные данные, которые ученые хотят оставить, они могут оставить
разумеется. и чтоб оценить качество интерпретации (за которое я плачу) кому-то могут потребоваться и данные тоже

S	M	T	W	T	F	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Научный подход: Данные и Методы

Научный подход: Данные и Методы

no subject

no subject

no subject

no subject

no subject

Profile

December 2013

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags