shvarz: (Default)
[personal profile] shvarz
Читаю сейчас один отчет, который заставил меня вспомнить о дискуссиях по поводу разразившегося несколько месяцев назад климат-гейта, и задуматься о том, как именно хранятся научные данные, насколько открыт к ним доступ для широкой публики, и насколько широко распространяются обязательства ученых по предоставлению информации, необходимой для воспроизведения их экспериментов. В теории, конечно, ответ довольно прост: при публикации ученый обязан подробно описать все методы, необходимые для воспроизведения его работы, а после публикации, обязан предоставить реактивы и-или необработанные данные всем желающим. На практике, на самом деле, все бывает намного сложнее и запутаннее.

Многие наборы данных невоспроизводимы. Эпидемия вируса, взрыв сверхновой, влияние появления интернета на потребление информации - исторические события могут быть описаны неким набором данных, который воспроизвести просто невозможно. Некоторые данные воспроизвести невозможно по этическим причинам: сравнение продолжительности жизни в группах ВИЧ-положительных людей принимающих и не принимающих антивирусные лекарства было возможно лишь в самых ранних испытаниях, когда эффективность лекарств была неизвестна; сейчас контрольная группа всегда получает стандартное лечение. Наконец, некоторые наборы данных воспроизводить просто нерационально: для того, чтобы воспроизвести эксперименты на Большом Хадронном Коллайдере, нужно построить еще один Коллайдер.

Необработанные данные часто не существуют или не могут быть распространены. Возьмем тот же Коллайдер: он за секунду получает петабайт (миллион гигабайт) данных. Хранить столько данных невозможно даже при самых современных технологиях хранения информации. Поэтому данные на лету анализируются "на интересность" компьютером, из них 99.99999% тут же выбрасывается, а сохраняются из них лишь порядка 100 мегабайт. Схожие проблемы существуют в самых разных областях науки, где "необработанные" данные существуют лишь временно или даже вообще не существуют. В биологии, когда клетки красятся разными маркерами одновременно, то инструмент настраивается в каждом эксперименте так, чтобы компенсировать утечку сигнала от одного маркера в другой. Компенсация производится прибором на лету, необработанные данные не сохраняются, и по окончательным данным невозможно воспроизвести ни природу ни количество такой компенсации. В медицине, необработанные данные содержат в себе личную информацию о пациенте (его возраст, даты прихода в клинику, болезни родственников) и хотя они и существуют, но их нельзя выкладывать в общественный домен.

Порой сбор информации занимает годы и усилия целой группы людей, но эта информация потом может анализироваться самыми разными способами и вести к ряду публикаций. Ученые, собравшие некий большой и трудоемкий набор данных, обычно получают некоторый срок на то, чтобы полностью его проанализировать. Поэтому бывает и так, что при публикации научной статьи данные, по которым эта статья была сделана, остаются закрытыми. Если я не ошибаюсь, то данные с того же Коллайдера держатся внутри тех коллабораций, которые их получили (френды поправят, если это не так).

Теперь пара замечаний о методах:

Некоторые методы анализа построены так, что они невоспроизводимы в точности. Например, при построении филогенетических деревьев используется bootstrapping - процесс, при котором из общего набора данных случайно выбирается поднабор, который можно реалистично проанализировать и на его основе строится дерево. Это проделывается очень много раз и в конце концов результатом является дерево, которое появлялось наиболее часто. Поскольку такой анализ основан на случайных выборках, его результаты не будут в точности воспроизводимы в повторных анализах тех же самых данных.

Некоторые экспериментальные методы и методы анализа настолько сложны, что их невозможно (или нерационально с практической точки зрения) полностью описать в журнале или даже в сопроводительных материалах к статье. Даже более-менее простые методики зачастую содержат в себе знания или навыки, которые возможно получить лишь после многолетнего обучения или практики. Должно ли в обязанности ученого входить обучения и тренировка всех, кто желает повторить или даже просто полностью понять его методы и-или знания в некоторой области? Мне кажется, что - нет.

И напоследок об образцах: Многие научные работы делаются на образцах, которые очень трудно получить или воспроизвести, и которые имеются в очень ограниченном количестве. Например - образцы грунта с Луны. Или вот менее экзотический пример: образцы крови из недавно проведенного испытания в ВИЧ-вакцины в Тайланде - их совсем немного и на то, чтобы их получить, были потрачены годы работы и больше 100 миллионов баксов. Такие образцы не могут быть предоставлены в общий доступ и для всеобщего анализа, потому что они слишком ценны и необходимы для проведения тех исследований, для которы они и были собраны. В процессе этих исследований эти образцы будут использованы полностью и воспроизвести эксперименты будет невозможно.

Ну и совсем уж напоследок: Стандарты хранения данных и переноса их с устаревающих или разрушающихся носителей на новые очень сильно варьируют от одной области науки к другой. В большинстве биологических лабораторий, лабораторные журналы и реагенты хранятся пять лет. Иногда больше, иногда меньше, в зависимости от стоимости хранения, наличия места и целесообразности этого хранения. Одним из наиболее организованно хранящихся типов данных является последовательность ДНК. Например, база данных в Лос Аламосе хранит практически все известные последовательности геномов ВИЧ, будь они полными или частичными. Но в этой базе данных хранятся не необработанные данные (гели или файлы с секвенаторов), а уже конечные последовательности, то есть невозможно проверить их аккуратность и достоверность.


Интересно, что когда я приводил эти примеры в дискуссиях о климат-гейте, чтобы проиллюстрировать то, что идеальная картина организации науки далеко не всегда соответствует практике, то меня сразу же зачисляли в ряды таких же "ученых" (sic, в кавычках!) или воспринимали их как подтверждение того, что наука сейчас вообще неизвестно куда катится и состоит лишь сплошь из прохиндеев и жуликов.

Date: 2010-03-21 05:50 pm (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
Вы забыли упомянуть, что в подавляющем большинстве случаев повторять чужую работу просто никто не будет. У тех кто может -- у них своя работа есть, гораздо более им важная и интересная. А у тех кто не может, у тех все равно не получится, сколько данных в открытый доступ не выкладывай.

Так что ни чему, кроме лишних бессмысленых расходов исполнение этого требования не приведет.

Date: 2010-03-22 10:10 am (UTC)
From: [identity profile] hoegni.livejournal.com
В полной мере повторять - нет. Но использовать сходные методы, воспроизвести часть работы, чтобы, основываясь на ней, сделать что-то свое - это сколько угодно, так что межлабораторная воспроизводимость результата до сих пор остается важным показателем достоверности.

Date: 2010-03-22 10:30 pm (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
Для того, что бы в своей системе получить результат подтверждающий или опровергающий чьи то выводы, для этого никаких дополнительных первичных данных от автора выводов не нужно.
Дополнительные первичные данные могут быть нужны только для целей поимки первичного автора на фальсификации.

Date: 2010-03-22 06:00 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Я много чего забыл упомянуть :)
Но это - да, важный момент.

December 2013

S M T W T F S
1234567
891011121314
15161718192021
22232425262728
293031    

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated May. 28th, 2025 08:51 am
Powered by Dreamwidth Studios