shvarz | Научный подход: Данные и Методы

Читаю сейчас один отчет, который заставил меня вспомнить о дискуссиях по поводу разразившегося несколько месяцев назад климат-гейта, и задуматься о том, как именно хранятся научные данные, насколько открыт к ним доступ для широкой публики, и насколько широко распространяются обязательства ученых по предоставлению информации, необходимой для воспроизведения их экспериментов. В теории, конечно, ответ довольно прост: при публикации ученый обязан подробно описать все методы, необходимые для воспроизведения его работы, а после публикации, обязан предоставить реактивы и-или необработанные данные всем желающим. На практике, на самом деле, все бывает намного сложнее и запутаннее.

Многие наборы данных невоспроизводимы. Эпидемия вируса, взрыв сверхновой, влияние появления интернета на потребление информации - исторические события могут быть описаны неким набором данных, который воспроизвести просто невозможно. Некоторые данные воспроизвести невозможно по этическим причинам: сравнение продолжительности жизни в группах ВИЧ-положительных людей принимающих и не принимающих антивирусные лекарства было возможно лишь в самых ранних испытаниях, когда эффективность лекарств была неизвестна; сейчас контрольная группа всегда получает стандартное лечение. Наконец, некоторые наборы данных воспроизводить просто нерационально: для того, чтобы воспроизвести эксперименты на Большом Хадронном Коллайдере, нужно построить еще один Коллайдер.

Необработанные данные часто не существуют или не могут быть распространены. Возьмем тот же Коллайдер: он за секунду получает петабайт (миллион гигабайт) данных. Хранить столько данных невозможно даже при самых современных технологиях хранения информации. Поэтому данные на лету анализируются "на интересность" компьютером, из них 99.99999% тут же выбрасывается, а сохраняются из них лишь порядка 100 мегабайт. Схожие проблемы существуют в самых разных областях науки, где "необработанные" данные существуют лишь временно или даже вообще не существуют. В биологии, когда клетки красятся разными маркерами одновременно, то инструмент настраивается в каждом эксперименте так, чтобы компенсировать утечку сигнала от одного маркера в другой. Компенсация производится прибором на лету, необработанные данные не сохраняются, и по окончательным данным невозможно воспроизвести ни природу ни количество такой компенсации. В медицине, необработанные данные содержат в себе личную информацию о пациенте (его возраст, даты прихода в клинику, болезни родственников) и хотя они и существуют, но их нельзя выкладывать в общественный домен.

Порой сбор информации занимает годы и усилия целой группы людей, но эта информация потом может анализироваться самыми разными способами и вести к ряду публикаций. Ученые, собравшие некий большой и трудоемкий набор данных, обычно получают некоторый срок на то, чтобы полностью его проанализировать. Поэтому бывает и так, что при публикации научной статьи данные, по которым эта статья была сделана, остаются закрытыми. Если я не ошибаюсь, то данные с того же Коллайдера держатся внутри тех коллабораций, которые их получили (френды поправят, если это не так).

Теперь пара замечаний о методах:

Некоторые методы анализа построены так, что они невоспроизводимы в точности. Например, при построении филогенетических деревьев используется bootstrapping - процесс, при котором из общего набора данных случайно выбирается поднабор, который можно реалистично проанализировать и на его основе строится дерево. Это проделывается очень много раз и в конце концов результатом является дерево, которое появлялось наиболее часто. Поскольку такой анализ основан на случайных выборках, его результаты не будут в точности воспроизводимы в повторных анализах тех же самых данных.

Некоторые экспериментальные методы и методы анализа настолько сложны, что их невозможно (или нерационально с практической точки зрения) полностью описать в журнале или даже в сопроводительных материалах к статье. Даже более-менее простые методики зачастую содержат в себе знания или навыки, которые возможно получить лишь после многолетнего обучения или практики. Должно ли в обязанности ученого входить обучения и тренировка всех, кто желает повторить или даже просто полностью понять его методы и-или знания в некоторой области? Мне кажется, что - нет.

И напоследок об образцах: Многие научные работы делаются на образцах, которые очень трудно получить или воспроизвести, и которые имеются в очень ограниченном количестве. Например - образцы грунта с Луны. Или вот менее экзотический пример: образцы крови из недавно проведенного испытания в ВИЧ-вакцины в Тайланде - их совсем немного и на то, чтобы их получить, были потрачены годы работы и больше 100 миллионов баксов. Такие образцы не могут быть предоставлены в общий доступ и для всеобщего анализа, потому что они слишком ценны и необходимы для проведения тех исследований, для которы они и были собраны. В процессе этих исследований эти образцы будут использованы полностью и воспроизвести эксперименты будет невозможно.

Ну и совсем уж напоследок: Стандарты хранения данных и переноса их с устаревающих или разрушающихся носителей на новые очень сильно варьируют от одной области науки к другой. В большинстве биологических лабораторий, лабораторные журналы и реагенты хранятся пять лет. Иногда больше, иногда меньше, в зависимости от стоимости хранения, наличия места и целесообразности этого хранения. Одним из наиболее организованно хранящихся типов данных является последовательность ДНК. Например, база данных в Лос Аламосе хранит практически все известные последовательности геномов ВИЧ, будь они полными или частичными. Но в этой базе данных хранятся не необработанные данные (гели или файлы с секвенаторов), а уже конечные последовательности, то есть невозможно проверить их аккуратность и достоверность.

Интересно, что когда я приводил эти примеры в дискуссиях о климат-гейте, чтобы проиллюстрировать то, что идеальная картина организации науки далеко не всегда соответствует практике, то меня сразу же зачисляли в ряды таких же "ученых" (sic, в кавычках!) или воспринимали их как подтверждение того, что наука сейчас вообще неизвестно куда катится и состоит лишь сплошь из прохиндеев и жуликов.

Flat | Top-Level Comments Only

From:

duchifat.livejournal.com

а после публикации, обязан предоставить реактивы и-или необработанные данные всем желающим.

Признаться, это очень странное требование. Никакого обязательства хранить свои данные / черновики / реактивы всю жизнь IMHO никто не несет.

From:

kelavrik-0.livejournal.com

А можно попросить комментаторов предъявить черновики своих программ (если писали). Бухгалтеров предъявить все чеки. И тд.

From:

plakhov.livejournal.com

А можно попросить комментаторов предъявить черновики своих программ (если писали)
Замечание потрясающе глупое. Надеюсь, что это случайность.

From:

kelavrik-0.livejournal.com

Замечание подчёркивает, что далеко не всё в нашей жизни документировано. В науке же документированность намного лучше.

From:

plakhov.livejournal.com

Я работаю в области программирования, в которой часто нужно сравнивать два варианта разрабатываемой системы на больших массивах данных, чтобы получить понимание того, какая из них статистически ведет себя "лучше". Мне кажется, это довольно близкая ситуация к теме поста.
Как и в науке, для этого придумано много методов. Как и в науке, вес и значимость исследования прямо зависят от того, окажутся ли результаты исследования положительными (и даже карьера "исследователя", пусть не прямо, но косвенно точно). И у нас принята презумпция честности исследователя. И у нас проблемы с объемами данных, с рандомизированными методами, с достаточностью выборки, с устареванием данных, и т.п. И, несмотря на то, что это не наука, несмотря на то, что изучаемая "область" очень замкнутая, не имеет почти никакой значимости вне компании (а вне индустрии и подавно), несмотря на все это, стандарты ясности и повторяемости, судя по тому, что я здесь читаю, точно как минимум не ниже.

From:

kelavrik-0.livejournal.com

Ну так все промежуточные данные сохраняются? Все исследования, особенно основанные на случайных числах. И я говорю не столько о разработке алгоритма, сколько о реализации. Ну не хранятся черновые оценки долго. Нет необходимости.

From:

plakhov.livejournal.com

Я реально не понимаю, почему вы выделяете слово "все" жирным шрифтом. Смотрите.

Если я утверждаю, что такие-то мои изменения в коде увеличивают такую-то целевую метрику на столько-то процентов, но не способен предъявить этот результат в такой форме, в которой самостоятельно воспроизвести его может еще минимум 20% разработчиков, а с моей минимальной помощью и объяснениями тонких мест - все 100%, то я натурально выставляю себя на посмешище. Требование сохранить массив данных, на котором получен важный результат, мне кажется совершенно базовым (именно тут, я о вирусологии, а тем более о климатологии, ничего не знаю, хотя не очень понятно, в чем должна быть принципиальная разница). Честно, даже не очень понятно, что тут вообще доказывать.

Дальше, если я правильно понимаю, что вы называете "черновыми оценками", то не очень понимаю, почему вы требуете их "вечного хранения". По-моему, сравнивать это с просьбой показать массив данных, на котором строились защищаемые агрегаты, мягко говоря, некорректно. Этому будет соответствовать, скорее, внезапное требование диктофонных записей всех разговоров коллектива ученых.

From:

kelavrik-0.livejournal.com

Кстати, защиту докторских и кандидатских пишут на магнитофон. Но это к слову.

Итак, вы сказали, что нечто увеличивает целевую метрику на несколько процентов. (к слову, выбор метрики тоже вещь в себе, особенно в чистом программировании) Пусть вы оттестировали свою метрику на нескольких массивах. Что, все промежуточные результаты сохраняются? Обычно только начальный и конечный результат. Требование хранить промежуточные сильно замедлит работу программы. И опять же, это место. Примерно в той же ситуации и находятся вирусологи, секвенирующие ДНК. Вирус хранится (по идее!). Результат (последовательность нуклеотидов) тоже хранится. А вот гели, сделанные в ходе работы нет.

From:

plakhov.livejournal.com

Кстати, защиту докторских и кандидатских пишут на магнитофон
О докторских ничего пока не знаю, а на защите кандидатской с моим диктофоном сидел мой же знакомый, и запись эта нужна была опять же только мне, чтобы изготовить по ней стенограмму. Верность стенограммы никто с диктофоном не сверял. Так что формально как бы да, можно сказать, что пишут, но по существу, по-моему, нет :)

Ладно, это все лирика, к основной теме. Мне начинает казаться, что как минимум один из нас слабо себе представляет процесс доказательного улучшения качества (о ужас, что я такое говорю :-\). Что такое ваше "оттестировали метрику"? Любая метрика, естественно, не "дана свыше", может совершенствоваться и т.п., но делать это одновременно с исследованием содержательного изменения системы - полный абсурд.

Главное, что вы все-таки называете "промежуточными результатами"? Я уже пятый раз какое-то объяснение пишу, а потом все стираю, потому что никак не могу родить хоть какую-то внутренне непротиворечивую модель ваших представлений о программировании, согласующуюся с вашими же словами. Все мыслимые кандидаты на роль "промежуточных результатов" либо действительно хранятся до тех пор, пока в основном выводе хоть кто-то может усомниться, либо могут быть однозначно и верифицируемо восстановлены с нуля, причем не только автором "исследования", но еще кучей народа, и довольно малой ценой. Я даже примерно не могу себе представить ситуацию, когда разработчик получает сильный положительный результат на некотором массиве данных, требует на этом основании выкатить некое изменение в production, и при этом отказывается сделать эти данные (а также какие угодно нетривиальные промежуточные версии, агрегаты, что угодно еще, на чем основан его результат) доступными внутри команды, и мотивирует это тем, что они безвозвратно утрачены, или их слишком дорого считать/хранить, или чем угодно еще. Ну это просто бред, я не знаю, как еще написать.

Вы поймите, я не учу вас делать вашу работу, ни в коем случае, и верю, что причины, кроме "так принято", в вашем случае есть. Я просто пытаюсь объяснить, почему ваша аналогия на самом деле активно работает против вашей же точки зрения, а вовсе не за нее.

From:

kelavrik-0.livejournal.com

Если вы нечто оптимизируете методом Монте-Карло или генетическими алгоритмами, то храните все случайные числа? Все промежуточные стадии, принятые и не принятые? Если да, то зачем?

From:

plakhov.livejournal.com

Ну послушайте, какое это имеет отношение к тому, о чем мы говорим?
Я также не записываю свою жизнь на видео, а когда я нажимаю Backspace на клавиатуре, это не вызывает коммит текущего варианта текста в надежную распределенную систему контроля версий - символ бесследно пропадает.

Вы же понимаете, надеюсь, что некоторые блобы информации критически важны в качестве свидетельств корректности полученного результата, а некоторые такой ценности совершенно не имеют? Первые хранятся и/или могут быть воспроизведены, вторые - нет.

From:

kelavrik-0.livejournal.com

Ну так о том и заметка.

(no subject)

From:

plakhov.livejournal.com - Date: 2010-03-22 02:19 pm (UTC) - Expand

(no subject)

From:

kelavrik-0.livejournal.com - Date: 2010-03-22 02:28 pm (UTC) - Expand

(no subject)

From:

plakhov.livejournal.com - Date: 2010-03-22 02:29 pm (UTC) - Expand

(no subject)

From:

shvarz.livejournal.com - Date: 2010-03-22 05:29 pm (UTC) - Expand

(no subject)

From:

plakhov.livejournal.com - Date: 2010-03-22 05:43 pm (UTC) - Expand

(no subject)

From:

shvarz.livejournal.com - Date: 2010-03-22 05:50 pm (UTC) - Expand

(no subject)

From:

plakhov.livejournal.com - Date: 2010-03-22 05:57 pm (UTC) - Expand

From:

vigna.livejournal.com

Не всю жизнь, но в течение трёх или пяти лет - во многих журналах есть такое требование.

From:

slavka.livejournal.com

1) про всю жизнь никто не говорил
2) а на чьи деньги делались исследования?

From:

duchifat.livejournal.com

Часто бывает, человек сделал что-то, опубликовал, уехал, сменил работу и страну, ищи его свищи через пару лет, на старой работе его тоже никто не помнит и записей не хранит. На чьи деньги, в данном случае, не принципиально. Даже если на свои личные - то что, правила этики от этого меняются?

From:

slavka.livejournal.com

я всего лишь предложил давать доступ к данным
вечного хранения никто не заказывал.

From:

shvarz.livejournal.com

Любое предложение для решения сложного вопроса, начинающееся со слов "всего лишь", можно смело игнорировать :)

From:

slavka.livejournal.com

Главное, не забывайте почаще напоминать, что этот вопрос Очень Сложный и для его решения нужны Настоящие Ученые (ну и Много Денег, ессно)

------------
Взгляд Выбегаллы стал гневным.
-- Я прошу всех присутствующих отметить этот провокационный вопрос,
от которого за версту разит мальтузианством, неомальтузианством,
прагматизмом, экзистенцио... оа... нализмом и неверием, товарищи

From:

shvarz.livejournal.com

Спасибо вам за столь наглядную иллюстрацию моего поста. Теперь читателям далеко ходить не надо, достаточно комменты почитать.

From:

shvarz.livejournal.com

Кстати, дабы не возникло ложного впечатления: Я - обеими руками за открытый доступ к данным, причем во возможности даже еще до публикации их в журнале. Особенно если дело касается исследований, проводимых на государственные деньги. Суть моего поста в том (для тех, кто не понял, хотя я вроде прямо высказался), что в реальной жизни иногда такой доступ невозможен по ряду причин. Тем не менее, отсутствие доступа в таких случаях не означает, что наука каким-то образом в данных случаях коррупционна или лжива.

From:

slavka.livejournal.com

Суть моего поста в том что эта "невозможность" зачастую является как минимум преувеличенной. Если экспериментаторы заранее обьявят что будет идти эксперимент и данные доступны по цене самовывоза, то кому надо тот придумает как эти данные вывезти и сохранить
Если ученым некогда с этим возиться, то они тоже могут об этом честно сказать и предложить добровольцам заняться процессом.
а помощь в организации раздачи данных – неплохой курсовой проект для студентов IT-шников

From:

shvarz.livejournal.com

По второму кругу пошли.

From:

shvarz.livejournal.com

Ну, на классах научной этики (вас не заставляли их недавно брать), частенько упоминают о том, что ученые обязаны (как минимум, с моральной точки зрения) предоставлять реактивы, необходимые для воспроизведения их результатов. Всю жизнь или нет, как-то не обсуждается :)
Как ниже верно заметили, многие журналы формализуют такие требования.

From:

duchifat.livejournal.com

А что значит реактивы? Имеются в виду результаты опытов, или какие-то ноу-хау, необходимые для осуществления опытов? В любом случае, если вы были аспирантом, защитились, опубликовались, уехали, ваш руководитель ушел оттуда или ушел на пенсию, то, скорее всего, никто не будет ничего хранить. Фактически, статья это и есть archival record того, что вы проделали, никаких других записей после вас не остается.

From:

shvarz.livejournal.com

Нет, я имел в виду именно реактивы, которые часто создаются для специфических целей в лабораториях. Например, какая-нибудь клеточная линия или плазмида или вирус. Даже если процесс их создания полностью описан, часто люди их просят потому, что это существенно экономит время. Вместо того, чтобы воссоздавать все заново и тратить на это годы, можно написать письмо и получить нужный реагент через неделю. Я когда уходил из предыдущих лаб всегда составлял подробный список всего, что я использовал и того, где именно в холодильнике это лежит. Сколько это будет храниться - исключительно на совести профессоров, которые за это хранение платят.