shvarz: (Default)
shvarz ([personal profile] shvarz) wrote2010-03-20 11:46 pm
Entry tags:

Научный подход: Данные и Методы

Читаю сейчас один отчет, который заставил меня вспомнить о дискуссиях по поводу разразившегося несколько месяцев назад климат-гейта, и задуматься о том, как именно хранятся научные данные, насколько открыт к ним доступ для широкой публики, и насколько широко распространяются обязательства ученых по предоставлению информации, необходимой для воспроизведения их экспериментов. В теории, конечно, ответ довольно прост: при публикации ученый обязан подробно описать все методы, необходимые для воспроизведения его работы, а после публикации, обязан предоставить реактивы и-или необработанные данные всем желающим. На практике, на самом деле, все бывает намного сложнее и запутаннее.

Многие наборы данных невоспроизводимы. Эпидемия вируса, взрыв сверхновой, влияние появления интернета на потребление информации - исторические события могут быть описаны неким набором данных, который воспроизвести просто невозможно. Некоторые данные воспроизвести невозможно по этическим причинам: сравнение продолжительности жизни в группах ВИЧ-положительных людей принимающих и не принимающих антивирусные лекарства было возможно лишь в самых ранних испытаниях, когда эффективность лекарств была неизвестна; сейчас контрольная группа всегда получает стандартное лечение. Наконец, некоторые наборы данных воспроизводить просто нерационально: для того, чтобы воспроизвести эксперименты на Большом Хадронном Коллайдере, нужно построить еще один Коллайдер.

Необработанные данные часто не существуют или не могут быть распространены. Возьмем тот же Коллайдер: он за секунду получает петабайт (миллион гигабайт) данных. Хранить столько данных невозможно даже при самых современных технологиях хранения информации. Поэтому данные на лету анализируются "на интересность" компьютером, из них 99.99999% тут же выбрасывается, а сохраняются из них лишь порядка 100 мегабайт. Схожие проблемы существуют в самых разных областях науки, где "необработанные" данные существуют лишь временно или даже вообще не существуют. В биологии, когда клетки красятся разными маркерами одновременно, то инструмент настраивается в каждом эксперименте так, чтобы компенсировать утечку сигнала от одного маркера в другой. Компенсация производится прибором на лету, необработанные данные не сохраняются, и по окончательным данным невозможно воспроизвести ни природу ни количество такой компенсации. В медицине, необработанные данные содержат в себе личную информацию о пациенте (его возраст, даты прихода в клинику, болезни родственников) и хотя они и существуют, но их нельзя выкладывать в общественный домен.

Порой сбор информации занимает годы и усилия целой группы людей, но эта информация потом может анализироваться самыми разными способами и вести к ряду публикаций. Ученые, собравшие некий большой и трудоемкий набор данных, обычно получают некоторый срок на то, чтобы полностью его проанализировать. Поэтому бывает и так, что при публикации научной статьи данные, по которым эта статья была сделана, остаются закрытыми. Если я не ошибаюсь, то данные с того же Коллайдера держатся внутри тех коллабораций, которые их получили (френды поправят, если это не так).

Теперь пара замечаний о методах:

Некоторые методы анализа построены так, что они невоспроизводимы в точности. Например, при построении филогенетических деревьев используется bootstrapping - процесс, при котором из общего набора данных случайно выбирается поднабор, который можно реалистично проанализировать и на его основе строится дерево. Это проделывается очень много раз и в конце концов результатом является дерево, которое появлялось наиболее часто. Поскольку такой анализ основан на случайных выборках, его результаты не будут в точности воспроизводимы в повторных анализах тех же самых данных.

Некоторые экспериментальные методы и методы анализа настолько сложны, что их невозможно (или нерационально с практической точки зрения) полностью описать в журнале или даже в сопроводительных материалах к статье. Даже более-менее простые методики зачастую содержат в себе знания или навыки, которые возможно получить лишь после многолетнего обучения или практики. Должно ли в обязанности ученого входить обучения и тренировка всех, кто желает повторить или даже просто полностью понять его методы и-или знания в некоторой области? Мне кажется, что - нет.

И напоследок об образцах: Многие научные работы делаются на образцах, которые очень трудно получить или воспроизвести, и которые имеются в очень ограниченном количестве. Например - образцы грунта с Луны. Или вот менее экзотический пример: образцы крови из недавно проведенного испытания в ВИЧ-вакцины в Тайланде - их совсем немного и на то, чтобы их получить, были потрачены годы работы и больше 100 миллионов баксов. Такие образцы не могут быть предоставлены в общий доступ и для всеобщего анализа, потому что они слишком ценны и необходимы для проведения тех исследований, для которы они и были собраны. В процессе этих исследований эти образцы будут использованы полностью и воспроизвести эксперименты будет невозможно.

Ну и совсем уж напоследок: Стандарты хранения данных и переноса их с устаревающих или разрушающихся носителей на новые очень сильно варьируют от одной области науки к другой. В большинстве биологических лабораторий, лабораторные журналы и реагенты хранятся пять лет. Иногда больше, иногда меньше, в зависимости от стоимости хранения, наличия места и целесообразности этого хранения. Одним из наиболее организованно хранящихся типов данных является последовательность ДНК. Например, база данных в Лос Аламосе хранит практически все известные последовательности геномов ВИЧ, будь они полными или частичными. Но в этой базе данных хранятся не необработанные данные (гели или файлы с секвенаторов), а уже конечные последовательности, то есть невозможно проверить их аккуратность и достоверность.


Интересно, что когда я приводил эти примеры в дискуссиях о климат-гейте, чтобы проиллюстрировать то, что идеальная картина организации науки далеко не всегда соответствует практике, то меня сразу же зачисляли в ряды таких же "ученых" (sic, в кавычках!) или воспринимали их как подтверждение того, что наука сейчас вообще неизвестно куда катится и состоит лишь сплошь из прохиндеев и жуликов.

[identity profile] plakhov.livejournal.com 2010-03-21 10:57 am (UTC)(link)
Общее замечание. Вы опираетесь на презумпцию честности исследователя. Чудесно, когда можно так поступать.

Пара частных замечаний.
Некоторые методы анализа построены так, что они невоспроизводимы в точности. <...> Это проделывается очень много раз и в конце концов результатом является дерево, которое появлялось наиболее часто. Поскольку такой анализ основан на случайных выборках, его результаты не будут в точности воспроизводимы в повторных анализах тех же самых данных.
Я не биолог, занимаюсь скорее чем-то близким к machine learning'у, но по-моему как. Если рандомизированный метод не дает вообще никаких статистических гарантий - это не метод, а профанация. В частности, результат может быть "не воспроизводим в точности", но утверждение "этот результат мог быть получен этим методом на этих данных" должно оставаться проверяемым.

Должно ли в обязанности ученого входить обучения и тренировка всех, кто желает повторить или даже просто полностью понять его методы и-или знания в некоторой области?
Мне кажется, что да. Кажется, что в этом и состоит отличие науки от R&D на производстве. Понятно, что речь не о каких-то крайностях - не нужно пытаться учить дураков или троллей, не нужно посвящать этому 24 часа в сутки в ущерб всему остальному, и тд и тп. Но "в принципе", при разумных ограничениях - да, должно.

[identity profile] vvz.livejournal.com 2010-03-21 11:29 am (UTC)(link)
> Понятно, что речь не о каких-то крайностях - не нужно пытаться учить дураков или троллей, не нужно посвящать этому 24 часа в сутки в ущерб всему остальному, и тд и тп.

А сколько времени на это нужно тратить? И, извините, кто за это будет платить?

Вот вдруг, с какого-то панталыку, кто-то решит, что не верит в hERG и потребует от меня научить его практической электрофизиологии. Где то ограничение, по которому я его должен привести в лабораторию и научить методу, которым пользуюсь?

Приводить только по выходным, только с 6 до 8 вечера и т.п.? Ведь многие методы хоть и описаны в деталях, но учат им не по книжкам, а на экспериментальных установках.

В обязанности учёного должно входить доложить о методе, который он использовал для получения данных, и только если этот метод уникальный и никто, кроме него, больше им не пользуется, научить кого-то (причём желательно не человека с нулевого уровня, а своих коллег), дабы они могли проверить результаты. Если же этот метод признан наукой (подвтерждён результатами из разных лабораторий), то никто никого учить не обязан. Сомневаешься в данных - иди, учись той или иной дисциплине, приходи в лабораторию (находи деньги или получай разрешение от начальства) и попробуй опровергнуть.

[identity profile] plakhov.livejournal.com 2010-03-21 01:09 pm (UTC)(link)
Вы меня, кажется, в экстремисты записали. Я всего лишь что хочу сказать.
Сейчас постоянно вижу, что люди, которые делают, и люди, которые учат, как делать - это сильно разные люди. И это сильно не на пользу никому. То есть может быть в вашей области все иначе, но вот в AI, в machine learning, и в computer science вообще это так. И по-моему как раз потому, что настроения "это не наша обязанность" преобладают.

А сколько времени на это нужно тратить? И, извините, кто за это будет платить?
А сколько времени и сил нужно тратить на те или иные исследования? Кто вообще платит за науку и образование? Странно "в двух словах" на такие вопросы отвечать, имхо.

[identity profile] the-boris.livejournal.com 2010-03-21 04:55 pm (UTC)(link)
Мне кажется что наука не работает без презумпции честности.
И пока в обязанности ученого НЕ входит обучение и тренировка, хотя крупные агенства занимаются популяризацией науки (Смотрите Hubble 3D во всех IMAX'ах города) это не совсем то что вы имеете в виду, верно? Вы не может рассказать как это должно выглядеть? Многие последствия важные для обывателя (ради чего он вообще бы стал лезть разбираться в науку) следует из некой общей научной концепции созданой сотней, а то и тысячей ученых. Чтобы разобраться с одной деталью картины вам потребуется примерно тоже самое время что заняло у ученого обучение+исследование. Или вам придется все равно верить ему на слово. Ясное дело этого не достаточно для валидации всей концепции, так как таким образом разобрались только с одной деталью (какой бы важной она не была). Как быть?

[identity profile] plakhov.livejournal.com 2010-03-22 08:53 am (UTC)(link)
Массовое обучение обывателей я, конечно, не имел в виду.
Я имел в виду, во-первых, обучение талантливых школьников и студентов тому, как оно все устроено на практике, а не в теории. А во-вторых, умение и желание излагать суть своих методов (не результатов, а именно того, как они достигаются) представителям других, пусть для начала смежных, профессий. Это не такой уж тяжелый труд, в отличие от "обучения обывателей". И это не что-то совершенно новое, многие этим занимаются уже сейчас. Но важность таких действий, кажется, сильно недооценивается.

[identity profile] gleb-kudr.livejournal.com 2010-03-22 09:14 am (UTC)(link)
>Если рандомизированный метод не дает вообще никаких статистических гарантий - это не метод, а профанация.

+100

[identity profile] shvarz.livejournal.com 2010-03-22 05:48 pm (UTC)(link)
Если рандомизированный метод не дает вообще никаких статистических гарантий - это не метод, а профанация.

Метод вполне может быть и неплох, но суровая правда жизни такова, что мало кто заботится о том, чтобы использовать генераторы псевдослучайных чисел и записывать seed. Именно потому, что при повторном прогоне обычно результаты получаются очень даже схожие. Как я выш ответил одному человеку, люди сохраняют ту информацию, которую считают важной для воспроизведения эксперимента, но важность этой иноформации зачастую субъективна. Это не означает, что любой, не записавший seed для генератора псевдослучайных чисел, профанирует науку или занимается подделкой данных.

Но "в принципе", при разумных ограничениях - да, должно.
Ну, в принципе, при разумных ограничения - оно и существует. Обычно люди только рады принять кого-нибудь из другой лабы и обучить их своей методике. Но вот, в том же случае с климат-гейтом, этих ученых забрасывали десятками е-мейлов, в которых говорили "а я не понимаю, что именно вы сделали вот на этом шаге, объясните подробнее", "в ваших мат.выкладках есть переход от формулы А к Б, приведите все промежуточные шаги" и т.д.

[identity profile] plakhov.livejournal.com 2010-03-22 06:03 pm (UTC)(link)
Именно потому, что при повторном прогоне обычно результаты получаются очень даже схожие
Да это-то понятно, что в таких случаях требовать привести методику получения "в точности того же" результата - просто троллинг. Просто в изначальной буче речь шла как раз о безусловных и качественных оценках, в этом случае ссылаться на рандомизированность, мне кажется, как-то странно.

в том же случае с климат-гейтом, этих ученых забрасывали десятками е-мейлов, в которых говорили "а я не понимаю, что именно вы сделали вот на этом шаге, объясните подробнее", "в ваших мат.выкладках есть переход от формулы А к Б, приведите все промежуточные шаги" и т.д
Если так, значит, либо статьи были ужасно написаны, либо те, кто забрасывал, поступали плохо. :) Но вообще, я практически ничего не знаю об этом скандале, и лучше не буду комментировать то, что относится ровно к нему.

[identity profile] shvarz.livejournal.com 2010-03-22 06:05 pm (UTC)(link)
Я согласен, что пример с рандомизацией не очень удачен. Если когда-нибудь соберусь написать серьезную статью на эту тему, то использовать его не буду :) А для поста в ЖЖ сойдет.

[identity profile] imageman72.livejournal.com 2010-03-24 07:50 am (UTC)(link)
На мой взгляд всегда нужно писать ожидаемую точность (например: X=55 [+-2%] ). Можно указать, какими способами была вычислена погрешность (точность)