Entry tags:
Научный подход: Данные и Методы
Читаю сейчас один отчет, который заставил меня вспомнить о дискуссиях по поводу разразившегося несколько месяцев назад климат-гейта, и задуматься о том, как именно хранятся научные данные, насколько открыт к ним доступ для широкой публики, и насколько широко распространяются обязательства ученых по предоставлению информации, необходимой для воспроизведения их экспериментов. В теории, конечно, ответ довольно прост: при публикации ученый обязан подробно описать все методы, необходимые для воспроизведения его работы, а после публикации, обязан предоставить реактивы и-или необработанные данные всем желающим. На практике, на самом деле, все бывает намного сложнее и запутаннее.
Многие наборы данных невоспроизводимы. Эпидемия вируса, взрыв сверхновой, влияние появления интернета на потребление информации - исторические события могут быть описаны неким набором данных, который воспроизвести просто невозможно. Некоторые данные воспроизвести невозможно по этическим причинам: сравнение продолжительности жизни в группах ВИЧ-положительных людей принимающих и не принимающих антивирусные лекарства было возможно лишь в самых ранних испытаниях, когда эффективность лекарств была неизвестна; сейчас контрольная группа всегда получает стандартное лечение. Наконец, некоторые наборы данных воспроизводить просто нерационально: для того, чтобы воспроизвести эксперименты на Большом Хадронном Коллайдере, нужно построить еще один Коллайдер.
Необработанные данные часто не существуют или не могут быть распространены. Возьмем тот же Коллайдер: он за секунду получает петабайт (миллион гигабайт) данных. Хранить столько данных невозможно даже при самых современных технологиях хранения информации. Поэтому данные на лету анализируются "на интересность" компьютером, из них 99.99999% тут же выбрасывается, а сохраняются из них лишь порядка 100 мегабайт. Схожие проблемы существуют в самых разных областях науки, где "необработанные" данные существуют лишь временно или даже вообще не существуют. В биологии, когда клетки красятся разными маркерами одновременно, то инструмент настраивается в каждом эксперименте так, чтобы компенсировать утечку сигнала от одного маркера в другой. Компенсация производится прибором на лету, необработанные данные не сохраняются, и по окончательным данным невозможно воспроизвести ни природу ни количество такой компенсации. В медицине, необработанные данные содержат в себе личную информацию о пациенте (его возраст, даты прихода в клинику, болезни родственников) и хотя они и существуют, но их нельзя выкладывать в общественный домен.
Порой сбор информации занимает годы и усилия целой группы людей, но эта информация потом может анализироваться самыми разными способами и вести к ряду публикаций. Ученые, собравшие некий большой и трудоемкий набор данных, обычно получают некоторый срок на то, чтобы полностью его проанализировать. Поэтому бывает и так, что при публикации научной статьи данные, по которым эта статья была сделана, остаются закрытыми. Если я не ошибаюсь, то данные с того же Коллайдера держатся внутри тех коллабораций, которые их получили (френды поправят, если это не так).
Теперь пара замечаний о методах:
Некоторые методы анализа построены так, что они невоспроизводимы в точности. Например, при построении филогенетических деревьев используется bootstrapping - процесс, при котором из общего набора данных случайно выбирается поднабор, который можно реалистично проанализировать и на его основе строится дерево. Это проделывается очень много раз и в конце концов результатом является дерево, которое появлялось наиболее часто. Поскольку такой анализ основан на случайных выборках, его результаты не будут в точности воспроизводимы в повторных анализах тех же самых данных.
Некоторые экспериментальные методы и методы анализа настолько сложны, что их невозможно (или нерационально с практической точки зрения) полностью описать в журнале или даже в сопроводительных материалах к статье. Даже более-менее простые методики зачастую содержат в себе знания или навыки, которые возможно получить лишь после многолетнего обучения или практики. Должно ли в обязанности ученого входить обучения и тренировка всех, кто желает повторить или даже просто полностью понять его методы и-или знания в некоторой области? Мне кажется, что - нет.
И напоследок об образцах: Многие научные работы делаются на образцах, которые очень трудно получить или воспроизвести, и которые имеются в очень ограниченном количестве. Например - образцы грунта с Луны. Или вот менее экзотический пример: образцы крови из недавно проведенного испытания в ВИЧ-вакцины в Тайланде - их совсем немного и на то, чтобы их получить, были потрачены годы работы и больше 100 миллионов баксов. Такие образцы не могут быть предоставлены в общий доступ и для всеобщего анализа, потому что они слишком ценны и необходимы для проведения тех исследований, для которы они и были собраны. В процессе этих исследований эти образцы будут использованы полностью и воспроизвести эксперименты будет невозможно.
Ну и совсем уж напоследок: Стандарты хранения данных и переноса их с устаревающих или разрушающихся носителей на новые очень сильно варьируют от одной области науки к другой. В большинстве биологических лабораторий, лабораторные журналы и реагенты хранятся пять лет. Иногда больше, иногда меньше, в зависимости от стоимости хранения, наличия места и целесообразности этого хранения. Одним из наиболее организованно хранящихся типов данных является последовательность ДНК. Например, база данных в Лос Аламосе хранит практически все известные последовательности геномов ВИЧ, будь они полными или частичными. Но в этой базе данных хранятся не необработанные данные (гели или файлы с секвенаторов), а уже конечные последовательности, то есть невозможно проверить их аккуратность и достоверность.
Интересно, что когда я приводил эти примеры в дискуссиях о климат-гейте, чтобы проиллюстрировать то, что идеальная картина организации науки далеко не всегда соответствует практике, то меня сразу же зачисляли в ряды таких же "ученых" (sic, в кавычках!) или воспринимали их как подтверждение того, что наука сейчас вообще неизвестно куда катится и состоит лишь сплошь из прохиндеев и жуликов.
Многие наборы данных невоспроизводимы. Эпидемия вируса, взрыв сверхновой, влияние появления интернета на потребление информации - исторические события могут быть описаны неким набором данных, который воспроизвести просто невозможно. Некоторые данные воспроизвести невозможно по этическим причинам: сравнение продолжительности жизни в группах ВИЧ-положительных людей принимающих и не принимающих антивирусные лекарства было возможно лишь в самых ранних испытаниях, когда эффективность лекарств была неизвестна; сейчас контрольная группа всегда получает стандартное лечение. Наконец, некоторые наборы данных воспроизводить просто нерационально: для того, чтобы воспроизвести эксперименты на Большом Хадронном Коллайдере, нужно построить еще один Коллайдер.
Необработанные данные часто не существуют или не могут быть распространены. Возьмем тот же Коллайдер: он за секунду получает петабайт (миллион гигабайт) данных. Хранить столько данных невозможно даже при самых современных технологиях хранения информации. Поэтому данные на лету анализируются "на интересность" компьютером, из них 99.99999% тут же выбрасывается, а сохраняются из них лишь порядка 100 мегабайт. Схожие проблемы существуют в самых разных областях науки, где "необработанные" данные существуют лишь временно или даже вообще не существуют. В биологии, когда клетки красятся разными маркерами одновременно, то инструмент настраивается в каждом эксперименте так, чтобы компенсировать утечку сигнала от одного маркера в другой. Компенсация производится прибором на лету, необработанные данные не сохраняются, и по окончательным данным невозможно воспроизвести ни природу ни количество такой компенсации. В медицине, необработанные данные содержат в себе личную информацию о пациенте (его возраст, даты прихода в клинику, болезни родственников) и хотя они и существуют, но их нельзя выкладывать в общественный домен.
Порой сбор информации занимает годы и усилия целой группы людей, но эта информация потом может анализироваться самыми разными способами и вести к ряду публикаций. Ученые, собравшие некий большой и трудоемкий набор данных, обычно получают некоторый срок на то, чтобы полностью его проанализировать. Поэтому бывает и так, что при публикации научной статьи данные, по которым эта статья была сделана, остаются закрытыми. Если я не ошибаюсь, то данные с того же Коллайдера держатся внутри тех коллабораций, которые их получили (френды поправят, если это не так).
Теперь пара замечаний о методах:
Некоторые методы анализа построены так, что они невоспроизводимы в точности. Например, при построении филогенетических деревьев используется bootstrapping - процесс, при котором из общего набора данных случайно выбирается поднабор, который можно реалистично проанализировать и на его основе строится дерево. Это проделывается очень много раз и в конце концов результатом является дерево, которое появлялось наиболее часто. Поскольку такой анализ основан на случайных выборках, его результаты не будут в точности воспроизводимы в повторных анализах тех же самых данных.
Некоторые экспериментальные методы и методы анализа настолько сложны, что их невозможно (или нерационально с практической точки зрения) полностью описать в журнале или даже в сопроводительных материалах к статье. Даже более-менее простые методики зачастую содержат в себе знания или навыки, которые возможно получить лишь после многолетнего обучения или практики. Должно ли в обязанности ученого входить обучения и тренировка всех, кто желает повторить или даже просто полностью понять его методы и-или знания в некоторой области? Мне кажется, что - нет.
И напоследок об образцах: Многие научные работы делаются на образцах, которые очень трудно получить или воспроизвести, и которые имеются в очень ограниченном количестве. Например - образцы грунта с Луны. Или вот менее экзотический пример: образцы крови из недавно проведенного испытания в ВИЧ-вакцины в Тайланде - их совсем немного и на то, чтобы их получить, были потрачены годы работы и больше 100 миллионов баксов. Такие образцы не могут быть предоставлены в общий доступ и для всеобщего анализа, потому что они слишком ценны и необходимы для проведения тех исследований, для которы они и были собраны. В процессе этих исследований эти образцы будут использованы полностью и воспроизвести эксперименты будет невозможно.
Ну и совсем уж напоследок: Стандарты хранения данных и переноса их с устаревающих или разрушающихся носителей на новые очень сильно варьируют от одной области науки к другой. В большинстве биологических лабораторий, лабораторные журналы и реагенты хранятся пять лет. Иногда больше, иногда меньше, в зависимости от стоимости хранения, наличия места и целесообразности этого хранения. Одним из наиболее организованно хранящихся типов данных является последовательность ДНК. Например, база данных в Лос Аламосе хранит практически все известные последовательности геномов ВИЧ, будь они полными или частичными. Но в этой базе данных хранятся не необработанные данные (гели или файлы с секвенаторов), а уже конечные последовательности, то есть невозможно проверить их аккуратность и достоверность.
Интересно, что когда я приводил эти примеры в дискуссиях о климат-гейте, чтобы проиллюстрировать то, что идеальная картина организации науки далеко не всегда соответствует практике, то меня сразу же зачисляли в ряды таких же "ученых" (sic, в кавычках!) или воспринимали их как подтверждение того, что наука сейчас вообще неизвестно куда катится и состоит лишь сплошь из прохиндеев и жуликов.
no subject
Признаться, это очень странное требование. Никакого обязательства хранить свои данные / черновики / реактивы всю жизнь IMHO никто не несет.
no subject
no subject
Замечание потрясающе глупое. Надеюсь, что это случайность.
no subject
no subject
Как и в науке, для этого придумано много методов. Как и в науке, вес и значимость исследования прямо зависят от того, окажутся ли результаты исследования положительными (и даже карьера "исследователя", пусть не прямо, но косвенно точно). И у нас принята презумпция честности исследователя. И у нас проблемы с объемами данных, с рандомизированными методами, с достаточностью выборки, с устареванием данных, и т.п. И, несмотря на то, что это не наука, несмотря на то, что изучаемая "область" очень замкнутая, не имеет почти никакой значимости вне компании (а вне индустрии и подавно), несмотря на все это, стандарты ясности и повторяемости, судя по тому, что я здесь читаю, точно как минимум не ниже.
no subject
no subject
Если я утверждаю, что такие-то мои изменения в коде увеличивают такую-то целевую метрику на столько-то процентов, но не способен предъявить этот результат в такой форме, в которой самостоятельно воспроизвести его может еще минимум 20% разработчиков, а с моей минимальной помощью и объяснениями тонких мест - все 100%, то я натурально выставляю себя на посмешище. Требование сохранить массив данных, на котором получен важный результат, мне кажется совершенно базовым (именно тут, я о вирусологии, а тем более о климатологии, ничего не знаю, хотя не очень понятно, в чем должна быть принципиальная разница). Честно, даже не очень понятно, что тут вообще доказывать.
Дальше, если я правильно понимаю, что вы называете "черновыми оценками", то не очень понимаю, почему вы требуете их "вечного хранения". По-моему, сравнивать это с просьбой показать массив данных, на котором строились защищаемые агрегаты, мягко говоря, некорректно. Этому будет соответствовать, скорее, внезапное требование диктофонных записей всех разговоров коллектива ученых.
no subject
Итак, вы сказали, что нечто увеличивает целевую метрику на несколько процентов. (к слову, выбор метрики тоже вещь в себе, особенно в чистом программировании) Пусть вы оттестировали свою метрику на нескольких массивах. Что, все промежуточные результаты сохраняются? Обычно только начальный и конечный результат. Требование хранить промежуточные сильно замедлит работу программы. И опять же, это место. Примерно в той же ситуации и находятся вирусологи, секвенирующие ДНК. Вирус хранится (по идее!). Результат (последовательность нуклеотидов) тоже хранится. А вот гели, сделанные в ходе работы нет.
no subject
О докторских ничего пока не знаю, а на защите кандидатской с моим диктофоном сидел мой же знакомый, и запись эта нужна была опять же только мне, чтобы изготовить по ней стенограмму. Верность стенограммы никто с диктофоном не сверял. Так что формально как бы да, можно сказать, что пишут, но по существу, по-моему, нет :)
Ладно, это все лирика, к основной теме. Мне начинает казаться, что как минимум один из нас слабо себе представляет процесс доказательного улучшения качества (о ужас, что я такое говорю :-\). Что такое ваше "оттестировали метрику"? Любая метрика, естественно, не "дана свыше", может совершенствоваться и т.п., но делать это одновременно с исследованием содержательного изменения системы - полный абсурд.
Главное, что вы все-таки называете "промежуточными результатами"? Я уже пятый раз какое-то объяснение пишу, а потом все стираю, потому что никак не могу родить хоть какую-то внутренне непротиворечивую модель ваших представлений о программировании, согласующуюся с вашими же словами. Все мыслимые кандидаты на роль "промежуточных результатов" либо действительно хранятся до тех пор, пока в основном выводе хоть кто-то может усомниться, либо могут быть однозначно и верифицируемо восстановлены с нуля, причем не только автором "исследования", но еще кучей народа, и довольно малой ценой. Я даже примерно не могу себе представить ситуацию, когда разработчик получает сильный положительный результат на некотором массиве данных, требует на этом основании выкатить некое изменение в production, и при этом отказывается сделать эти данные (а также какие угодно нетривиальные промежуточные версии, агрегаты, что угодно еще, на чем основан его результат) доступными внутри команды, и мотивирует это тем, что они безвозвратно утрачены, или их слишком дорого считать/хранить, или чем угодно еще. Ну это просто бред, я не знаю, как еще написать.
Вы поймите, я не учу вас делать вашу работу, ни в коем случае, и верю, что причины, кроме "так принято", в вашем случае есть. Я просто пытаюсь объяснить, почему ваша аналогия на самом деле активно работает против вашей же точки зрения, а вовсе не за нее.
no subject
no subject
Я также не записываю свою жизнь на видео, а когда я нажимаю Backspace на клавиатуре, это не вызывает коммит текущего варианта текста в надежную распределенную систему контроля версий - символ бесследно пропадает.
Вы же понимаете, надеюсь, что некоторые блобы информации критически важны в качестве свидетельств корректности полученного результата, а некоторые такой ценности совершенно не имеют? Первые хранятся и/или могут быть воспроизведены, вторые - нет.
no subject
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
no subject
no subject
1) про всю жизнь никто не говорил
2) а на чьи деньги делались исследования?
no subject
no subject
вечного хранения никто не заказывал.
no subject
игнорируйте на здоровие ;)
------------
Взгляд Выбегаллы стал гневным.
-- Я прошу всех присутствующих отметить этот провокационный вопрос,
от которого за версту разит мальтузианством, неомальтузианством,
прагматизмом, экзистенцио... оа... нализмом и неверием, товарищи
Re: игнорируйте на здоровие ;)
no subject
no subject
Суть моего поста в том что эта "невозможность" зачастую является как минимум преувеличенной. Если экспериментаторы заранее обьявят что будет идти эксперимент и данные доступны по цене самовывоза, то кому надо тот придумает как эти данные вывезти и сохранить
Если ученым некогда с этим возиться, то они тоже могут об этом честно сказать и предложить добровольцам заняться процессом.
а помощь в организации раздачи данных – неплохой курсовой проект для студентов IT-шников
no subject
no subject
Как ниже верно заметили, многие журналы формализуют такие требования.
no subject
no subject