shvarz | Научный подход: Данные и Методы

Entry tags:

Научный подход: Данные и Методы

Читаю сейчас один отчет, который заставил меня вспомнить о дискуссиях по поводу разразившегося несколько месяцев назад климат-гейта, и задуматься о том, как именно хранятся научные данные, насколько открыт к ним доступ для широкой публики, и насколько широко распространяются обязательства ученых по предоставлению информации, необходимой для воспроизведения их экспериментов. В теории, конечно, ответ довольно прост: при публикации ученый обязан подробно описать все методы, необходимые для воспроизведения его работы, а после публикации, обязан предоставить реактивы и-или необработанные данные всем желающим. На практике, на самом деле, все бывает намного сложнее и запутаннее.

Многие наборы данных невоспроизводимы. Эпидемия вируса, взрыв сверхновой, влияние появления интернета на потребление информации - исторические события могут быть описаны неким набором данных, который воспроизвести просто невозможно. Некоторые данные воспроизвести невозможно по этическим причинам: сравнение продолжительности жизни в группах ВИЧ-положительных людей принимающих и не принимающих антивирусные лекарства было возможно лишь в самых ранних испытаниях, когда эффективность лекарств была неизвестна; сейчас контрольная группа всегда получает стандартное лечение. Наконец, некоторые наборы данных воспроизводить просто нерационально: для того, чтобы воспроизвести эксперименты на Большом Хадронном Коллайдере, нужно построить еще один Коллайдер.

Необработанные данные часто не существуют или не могут быть распространены. Возьмем тот же Коллайдер: он за секунду получает петабайт (миллион гигабайт) данных. Хранить столько данных невозможно даже при самых современных технологиях хранения информации. Поэтому данные на лету анализируются "на интересность" компьютером, из них 99.99999% тут же выбрасывается, а сохраняются из них лишь порядка 100 мегабайт. Схожие проблемы существуют в самых разных областях науки, где "необработанные" данные существуют лишь временно или даже вообще не существуют. В биологии, когда клетки красятся разными маркерами одновременно, то инструмент настраивается в каждом эксперименте так, чтобы компенсировать утечку сигнала от одного маркера в другой. Компенсация производится прибором на лету, необработанные данные не сохраняются, и по окончательным данным невозможно воспроизвести ни природу ни количество такой компенсации. В медицине, необработанные данные содержат в себе личную информацию о пациенте (его возраст, даты прихода в клинику, болезни родственников) и хотя они и существуют, но их нельзя выкладывать в общественный домен.

Порой сбор информации занимает годы и усилия целой группы людей, но эта информация потом может анализироваться самыми разными способами и вести к ряду публикаций. Ученые, собравшие некий большой и трудоемкий набор данных, обычно получают некоторый срок на то, чтобы полностью его проанализировать. Поэтому бывает и так, что при публикации научной статьи данные, по которым эта статья была сделана, остаются закрытыми. Если я не ошибаюсь, то данные с того же Коллайдера держатся внутри тех коллабораций, которые их получили (френды поправят, если это не так).

Теперь пара замечаний о методах:

Некоторые методы анализа построены так, что они невоспроизводимы в точности. Например, при построении филогенетических деревьев используется bootstrapping - процесс, при котором из общего набора данных случайно выбирается поднабор, который можно реалистично проанализировать и на его основе строится дерево. Это проделывается очень много раз и в конце концов результатом является дерево, которое появлялось наиболее часто. Поскольку такой анализ основан на случайных выборках, его результаты не будут в точности воспроизводимы в повторных анализах тех же самых данных.

Некоторые экспериментальные методы и методы анализа настолько сложны, что их невозможно (или нерационально с практической точки зрения) полностью описать в журнале или даже в сопроводительных материалах к статье. Даже более-менее простые методики зачастую содержат в себе знания или навыки, которые возможно получить лишь после многолетнего обучения или практики. Должно ли в обязанности ученого входить обучения и тренировка всех, кто желает повторить или даже просто полностью понять его методы и-или знания в некоторой области? Мне кажется, что - нет.

И напоследок об образцах: Многие научные работы делаются на образцах, которые очень трудно получить или воспроизвести, и которые имеются в очень ограниченном количестве. Например - образцы грунта с Луны. Или вот менее экзотический пример: образцы крови из недавно проведенного испытания в ВИЧ-вакцины в Тайланде - их совсем немного и на то, чтобы их получить, были потрачены годы работы и больше 100 миллионов баксов. Такие образцы не могут быть предоставлены в общий доступ и для всеобщего анализа, потому что они слишком ценны и необходимы для проведения тех исследований, для которы они и были собраны. В процессе этих исследований эти образцы будут использованы полностью и воспроизвести эксперименты будет невозможно.

Ну и совсем уж напоследок: Стандарты хранения данных и переноса их с устаревающих или разрушающихся носителей на новые очень сильно варьируют от одной области науки к другой. В большинстве биологических лабораторий, лабораторные журналы и реагенты хранятся пять лет. Иногда больше, иногда меньше, в зависимости от стоимости хранения, наличия места и целесообразности этого хранения. Одним из наиболее организованно хранящихся типов данных является последовательность ДНК. Например, база данных в Лос Аламосе хранит практически все известные последовательности геномов ВИЧ, будь они полными или частичными. Но в этой базе данных хранятся не необработанные данные (гели или файлы с секвенаторов), а уже конечные последовательности, то есть невозможно проверить их аккуратность и достоверность.

Интересно, что когда я приводил эти примеры в дискуссиях о климат-гейте, чтобы проиллюстрировать то, что идеальная картина организации науки далеко не всегда соответствует практике, то меня сразу же зачисляли в ряды таких же "ученых" (sic, в кавычках!) или воспринимали их как подтверждение того, что наука сейчас вообще неизвестно куда катится и состоит лишь сплошь из прохиндеев и жуликов.

Threaded | Top-Level Comments Only

да

хотя не все об этом знают или используют, т.к. по дефолту, seed часто также выбирается (pseudo)randomly - тогда уж точно ничего не воспроизведёшь, пожалуй

Массовое обучение обывателей я, конечно, не имел в виду.
Я имел в виду, во-первых, обучение талантливых школьников и студентов тому, как оно все устроено на практике, а не в теории. А во-вторых, умение и желание излагать суть своих методов (не результатов, а именно того, как они достигаются) представителям других, пусть для начала смежных, профессий. Это не такой уж тяжелый труд, в отличие от "обучения обывателей". И это не что-то совершенно новое, многие этим занимаются уже сейчас. Но важность таких действий, кажется, сильно недооценивается.

> Например, база данных в Лос Аламосе хранит практически все известные последовательности геномов ВИЧ, будь они полными или частичными. Но в этой базе данных хранятся не необработанные данные (гели или файлы с секвенаторов), а уже конечные последовательности, то есть невозможно проверить их аккуратность и достоверность.

Это что, они не библиотеку хранят, а просто набор текстовых файлов? А если библиотеку, то какая проблема отсеквенировать еще раз?

Я реально не понимаю, почему вы выделяете слово "все" жирным шрифтом. Смотрите.

Если я утверждаю, что такие-то мои изменения в коде увеличивают такую-то целевую метрику на столько-то процентов, но не способен предъявить этот результат в такой форме, в которой самостоятельно воспроизвести его может еще минимум 20% разработчиков, а с моей минимальной помощью и объяснениями тонких мест - все 100%, то я натурально выставляю себя на посмешище. Требование сохранить массив данных, на котором получен важный результат, мне кажется совершенно базовым (именно тут, я о вирусологии, а тем более о климатологии, ничего не знаю, хотя не очень понятно, в чем должна быть принципиальная разница). Честно, даже не очень понятно, что тут вообще доказывать.

Дальше, если я правильно понимаю, что вы называете "черновыми оценками", то не очень понимаю, почему вы требуете их "вечного хранения". По-моему, сравнивать это с просьбой показать массив данных, на котором строились защищаемые агрегаты, мягко говоря, некорректно. Этому будет соответствовать, скорее, внезапное требование диктофонных записей всех разговоров коллектива ученых.

>Если рандомизированный метод не дает вообще никаких статистических гарантий - это не метод, а профанация.

+100

В полной мере повторять - нет. Но использовать сходные методы, воспроизвести часть работы, чтобы, основываясь на ней, сделать что-то свое - это сколько угодно, так что межлабораторная воспроизводимость результата до сих пор остается важным показателем достоверности.

Кстати, защиту докторских и кандидатских пишут на магнитофон. Но это к слову.

Итак, вы сказали, что нечто увеличивает целевую метрику на несколько процентов. (к слову, выбор метрики тоже вещь в себе, особенно в чистом программировании) Пусть вы оттестировали свою метрику на нескольких массивах. Что, все промежуточные результаты сохраняются? Обычно только начальный и конечный результат. Требование хранить промежуточные сильно замедлит работу программы. И опять же, это место. Примерно в той же ситуации и находятся вирусологи, секвенирующие ДНК. Вирус хранится (по идее!). Результат (последовательность нуклеотидов) тоже хранится. А вот гели, сделанные в ходе работы нет.

Кстати, защиту докторских и кандидатских пишут на магнитофон
О докторских ничего пока не знаю, а на защите кандидатской с моим диктофоном сидел мой же знакомый, и запись эта нужна была опять же только мне, чтобы изготовить по ней стенограмму. Верность стенограммы никто с диктофоном не сверял. Так что формально как бы да, можно сказать, что пишут, но по существу, по-моему, нет :)

Ладно, это все лирика, к основной теме. Мне начинает казаться, что как минимум один из нас слабо себе представляет процесс доказательного улучшения качества (о ужас, что я такое говорю :-\). Что такое ваше "оттестировали метрику"? Любая метрика, естественно, не "дана свыше", может совершенствоваться и т.п., но делать это одновременно с исследованием содержательного изменения системы - полный абсурд.

Главное, что вы все-таки называете "промежуточными результатами"? Я уже пятый раз какое-то объяснение пишу, а потом все стираю, потому что никак не могу родить хоть какую-то внутренне непротиворечивую модель ваших представлений о программировании, согласующуюся с вашими же словами. Все мыслимые кандидаты на роль "промежуточных результатов" либо действительно хранятся до тех пор, пока в основном выводе хоть кто-то может усомниться, либо могут быть однозначно и верифицируемо восстановлены с нуля, причем не только автором "исследования", но еще кучей народа, и довольно малой ценой. Я даже примерно не могу себе представить ситуацию, когда разработчик получает сильный положительный результат на некотором массиве данных, требует на этом основании выкатить некое изменение в production, и при этом отказывается сделать эти данные (а также какие угодно нетривиальные промежуточные версии, агрегаты, что угодно еще, на чем основан его результат) доступными внутри команды, и мотивирует это тем, что они безвозвратно утрачены, или их слишком дорого считать/хранить, или чем угодно еще. Ну это просто бред, я не знаю, как еще написать.

Вы поймите, я не учу вас делать вашу работу, ни в коем случае, и верю, что причины, кроме "так принято", в вашем случае есть. Я просто пытаюсь объяснить, почему ваша аналогия на самом деле активно работает против вашей же точки зрения, а вовсе не за нее.

Если вы нечто оптимизируете методом Монте-Карло или генетическими алгоритмами, то храните все случайные числа? Все промежуточные стадии, принятые и не принятые? Если да, то зачем?

Пересеквенировали, нашли расхождение. В прошлый раз просеквенировали неправильно или вирус мутировал?

Ну послушайте, какое это имеет отношение к тому, о чем мы говорим?
Я также не записываю свою жизнь на видео, а когда я нажимаю Backspace на клавиатуре, это не вызывает коммит текущего варианта текста в надежную распределенную систему контроля версий - символ бесследно пропадает.

Вы же понимаете, надеюсь, что некоторые блобы информации критически важны в качестве свидетельств корректности полученного результата, а некоторые такой ценности совершенно не имеют? Первые хранятся и/или могут быть воспроизведены, вторые - нет.

Ну так о том и заметка.

Вы издеваетесь, что ли? Мало того, что пост вовсе не об этом, так еще и говорили мы не столько о нем, сколько о том, что ваша аналогия с "черновиками программ" ни в какие ворота не лезет.

Я сказал всё, что хотел. Если вы не поняли, то это не мои проблемы.

Я понял, ок.

Ученых, не следующих научной этике, наказывают и очень строго. Другое дело, что судить о научной этике часто берутся люди, к науке отношения не имеющие и видящие ее в очень упрощенных и примитивных терминах. Собственно, об этом и был пост.

имхо, раз эти люди вынуждены финансировать науку (через свои налоги) то и судить о научной этике они могут так, как считают нужным.

Вы же понимаете, надеюсь, что некоторые блобы информации критически важны в качестве свидетельств корректности полученного результата, а некоторые такой ценности совершенно не имеют? Первые хранятся и/или могут быть воспроизведены, вторые - нет.

Я хотел указать на то, что указанное вами разделение существует лишь в идеале. На практике часто оказывается, что важность информации является субъективной, не вся информация сохраняется или может быть открыта, и некоторая информация невоспроизводима по объективным причинам.

По такой логике они должны быть способны не только о научной этике судить, но и о науке. Не желаете со мной обсудить проблемы вирусной эволюции или устройства иммунной системы?

Ну, на классах научной этики (вас не заставляли их недавно брать), частенько упоминают о том, что ученые обязаны (как минимум, с моральной точки зрения) предоставлять реактивы, необходимые для воспроизведения их результатов. Всю жизнь или нет, как-то не обсуждается :)
Как ниже верно заметили, многие журналы формализуют такие требования.

С этими науками вообще капец, я туда даже не полез :)

ничуть
для того чтоб понять, что данные, за сбор которых я заплатил, должны быть доступны мне и всем кого я нанял, вовсе не надо быть ученым

только в том случае, если они все это делали на свои деньги.

С этим я не спорю. Я был резко не согласен с умозаключениями, в которых из нечеткости подобного разделения и невозможности хранить "совсем всё" каким-то образом следовало, что можно и не стараться, типа "воруй-убивай-сорцы уничтожай".

Если рандомизированный метод не дает вообще никаких статистических гарантий - это не метод, а профанация.

Метод вполне может быть и неплох, но суровая правда жизни такова, что мало кто заботится о том, чтобы использовать генераторы псевдослучайных чисел и записывать seed. Именно потому, что при повторном прогоне обычно результаты получаются очень даже схожие. Как я выш ответил одному человеку, люди сохраняют ту информацию, которую считают важной для воспроизведения эксперимента, но важность этой иноформации зачастую субъективна. Это не означает, что любой, не записавший seed для генератора псевдослучайных чисел, профанирует науку или занимается подделкой данных.

Но "в принципе", при разумных ограничениях - да, должно.
Ну, в принципе, при разумных ограничения - оно и существует. Обычно люди только рады принять кого-нибудь из другой лабы и обучить их своей методике. Но вот, в том же случае с климат-гейтом, этих ученых забрасывали десятками е-мейлов, в которых говорили "а я не понимаю, что именно вы сделали вот на этом шаге, объясните подробнее", "в ваших мат.выкладках есть переход от формулы А к Б, приведите все промежуточные шаги" и т.д.

Хм, сомневаюсь что кто-то придерживается такой позиции :)
Я точно не это имел в виду.

Threaded | Top-Level Comments Only

Page 2 of 3

Научный подход: Данные и Методы

Re: невоспроизводимость и случайные числа

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

Re: на Большом Хардонном Коллайдере

no subject

no subject

no subject

no subject