shvarz: (Default)
shvarz ([personal profile] shvarz) wrote2010-03-20 11:46 pm
Entry tags:

Научный подход: Данные и Методы

Читаю сейчас один отчет, который заставил меня вспомнить о дискуссиях по поводу разразившегося несколько месяцев назад климат-гейта, и задуматься о том, как именно хранятся научные данные, насколько открыт к ним доступ для широкой публики, и насколько широко распространяются обязательства ученых по предоставлению информации, необходимой для воспроизведения их экспериментов. В теории, конечно, ответ довольно прост: при публикации ученый обязан подробно описать все методы, необходимые для воспроизведения его работы, а после публикации, обязан предоставить реактивы и-или необработанные данные всем желающим. На практике, на самом деле, все бывает намного сложнее и запутаннее.

Многие наборы данных невоспроизводимы. Эпидемия вируса, взрыв сверхновой, влияние появления интернета на потребление информации - исторические события могут быть описаны неким набором данных, который воспроизвести просто невозможно. Некоторые данные воспроизвести невозможно по этическим причинам: сравнение продолжительности жизни в группах ВИЧ-положительных людей принимающих и не принимающих антивирусные лекарства было возможно лишь в самых ранних испытаниях, когда эффективность лекарств была неизвестна; сейчас контрольная группа всегда получает стандартное лечение. Наконец, некоторые наборы данных воспроизводить просто нерационально: для того, чтобы воспроизвести эксперименты на Большом Хадронном Коллайдере, нужно построить еще один Коллайдер.

Необработанные данные часто не существуют или не могут быть распространены. Возьмем тот же Коллайдер: он за секунду получает петабайт (миллион гигабайт) данных. Хранить столько данных невозможно даже при самых современных технологиях хранения информации. Поэтому данные на лету анализируются "на интересность" компьютером, из них 99.99999% тут же выбрасывается, а сохраняются из них лишь порядка 100 мегабайт. Схожие проблемы существуют в самых разных областях науки, где "необработанные" данные существуют лишь временно или даже вообще не существуют. В биологии, когда клетки красятся разными маркерами одновременно, то инструмент настраивается в каждом эксперименте так, чтобы компенсировать утечку сигнала от одного маркера в другой. Компенсация производится прибором на лету, необработанные данные не сохраняются, и по окончательным данным невозможно воспроизвести ни природу ни количество такой компенсации. В медицине, необработанные данные содержат в себе личную информацию о пациенте (его возраст, даты прихода в клинику, болезни родственников) и хотя они и существуют, но их нельзя выкладывать в общественный домен.

Порой сбор информации занимает годы и усилия целой группы людей, но эта информация потом может анализироваться самыми разными способами и вести к ряду публикаций. Ученые, собравшие некий большой и трудоемкий набор данных, обычно получают некоторый срок на то, чтобы полностью его проанализировать. Поэтому бывает и так, что при публикации научной статьи данные, по которым эта статья была сделана, остаются закрытыми. Если я не ошибаюсь, то данные с того же Коллайдера держатся внутри тех коллабораций, которые их получили (френды поправят, если это не так).

Теперь пара замечаний о методах:

Некоторые методы анализа построены так, что они невоспроизводимы в точности. Например, при построении филогенетических деревьев используется bootstrapping - процесс, при котором из общего набора данных случайно выбирается поднабор, который можно реалистично проанализировать и на его основе строится дерево. Это проделывается очень много раз и в конце концов результатом является дерево, которое появлялось наиболее часто. Поскольку такой анализ основан на случайных выборках, его результаты не будут в точности воспроизводимы в повторных анализах тех же самых данных.

Некоторые экспериментальные методы и методы анализа настолько сложны, что их невозможно (или нерационально с практической точки зрения) полностью описать в журнале или даже в сопроводительных материалах к статье. Даже более-менее простые методики зачастую содержат в себе знания или навыки, которые возможно получить лишь после многолетнего обучения или практики. Должно ли в обязанности ученого входить обучения и тренировка всех, кто желает повторить или даже просто полностью понять его методы и-или знания в некоторой области? Мне кажется, что - нет.

И напоследок об образцах: Многие научные работы делаются на образцах, которые очень трудно получить или воспроизвести, и которые имеются в очень ограниченном количестве. Например - образцы грунта с Луны. Или вот менее экзотический пример: образцы крови из недавно проведенного испытания в ВИЧ-вакцины в Тайланде - их совсем немного и на то, чтобы их получить, были потрачены годы работы и больше 100 миллионов баксов. Такие образцы не могут быть предоставлены в общий доступ и для всеобщего анализа, потому что они слишком ценны и необходимы для проведения тех исследований, для которы они и были собраны. В процессе этих исследований эти образцы будут использованы полностью и воспроизвести эксперименты будет невозможно.

Ну и совсем уж напоследок: Стандарты хранения данных и переноса их с устаревающих или разрушающихся носителей на новые очень сильно варьируют от одной области науки к другой. В большинстве биологических лабораторий, лабораторные журналы и реагенты хранятся пять лет. Иногда больше, иногда меньше, в зависимости от стоимости хранения, наличия места и целесообразности этого хранения. Одним из наиболее организованно хранящихся типов данных является последовательность ДНК. Например, база данных в Лос Аламосе хранит практически все известные последовательности геномов ВИЧ, будь они полными или частичными. Но в этой базе данных хранятся не необработанные данные (гели или файлы с секвенаторов), а уже конечные последовательности, то есть невозможно проверить их аккуратность и достоверность.


Интересно, что когда я приводил эти примеры в дискуссиях о климат-гейте, чтобы проиллюстрировать то, что идеальная картина организации науки далеко не всегда соответствует практике, то меня сразу же зачисляли в ряды таких же "ученых" (sic, в кавычках!) или воспринимали их как подтверждение того, что наука сейчас вообще неизвестно куда катится и состоит лишь сплошь из прохиндеев и жуликов.

[identity profile] shvarz.livejournal.com 2010-03-22 05:57 pm (UTC)(link)
Какие именно данные должны быть доступны? Давайте обсудим какой-нибудь конкретный проект, раз вы такой специалист по научной этике. Два примера:
1. Пример с петабайтом в секунду сырых необработанных данных с Коллайдера. Они должны быть доступны всем? Вы согласны платить за такой доступ?
2. Секвенирование генов. Сейчас сохраняются лишь текстовые файлы с последовательностью геномов. Как вы считаете, что именно нужно хранить в данной ситуации в дополнение к этой информации? Сами жидкие реакции секвенирования, гели, считанные сырые данные компьютера, обработанные компьютерные данные? Учтите, что например, хранение самих реакций требует заморозки на -80, что очень дорого и занимает очень много места.

И как долго их надо хранить? 2 года, 5 лет, тысячу? Кто будет за это платить? Вы пухните по поводу 100 баксов в год, которые с вас берут на бюджет NIH, что вы скажете насчет уплаты 10 тысяч баксов на хранение данных, которые вы понять не можете, а ученые считают ненужными?

[identity profile] plakhov.livejournal.com 2010-03-22 05:57 pm (UTC)(link)
Нет, вы, конечно, не имели, я такого и не думал :)
Это всего лишь предположение по поводу смысла настойчивых вопросов kelavrik_0 о том, сохраняем ли мы вообще всё, и его желания сделать некие Выводы из моего (предположительно отрицательного) ответа.

Re: невоспроизводимость и случайные числа

[identity profile] shvarz.livejournal.com 2010-03-22 05:57 pm (UTC)(link)

[identity profile] shvarz.livejournal.com 2010-03-22 05:59 pm (UTC)(link)
Ну да, конечная цифра вполне совпадает с моей - 100-150 мб в секунду. Цифра про петабайт из отчета, который я сейчас читаю. Ссылки там нет.

[identity profile] shvarz.livejournal.com 2010-03-22 06:00 pm (UTC)(link)
Я много чего забыл упомянуть :)
Но это - да, важный момент.

[identity profile] shvarz.livejournal.com 2010-03-22 06:00 pm (UTC)(link)
Хранится просто набор текстовых файлов с метаданными, описывающими откуда пришли данные.

[identity profile] plakhov.livejournal.com 2010-03-22 06:03 pm (UTC)(link)
Именно потому, что при повторном прогоне обычно результаты получаются очень даже схожие
Да это-то понятно, что в таких случаях требовать привести методику получения "в точности того же" результата - просто троллинг. Просто в изначальной буче речь шла как раз о безусловных и качественных оценках, в этом случае ссылаться на рандомизированность, мне кажется, как-то странно.

в том же случае с климат-гейтом, этих ученых забрасывали десятками е-мейлов, в которых говорили "а я не понимаю, что именно вы сделали вот на этом шаге, объясните подробнее", "в ваших мат.выкладках есть переход от формулы А к Б, приведите все промежуточные шаги" и т.д
Если так, значит, либо статьи были ужасно написаны, либо те, кто забрасывал, поступали плохо. :) Но вообще, я практически ничего не знаю об этом скандале, и лучше не буду комментировать то, что относится ровно к нему.

[identity profile] shvarz.livejournal.com 2010-03-22 06:05 pm (UTC)(link)
Я согласен, что пример с рандомизацией не очень удачен. Если когда-нибудь соберусь написать серьезную статью на эту тему, то использовать его не буду :) А для поста в ЖЖ сойдет.

[identity profile] slavka.livejournal.com 2010-03-22 06:09 pm (UTC)(link)
они должны быть доступны всем, кто
1) спонсировал проект
2) согласен заплатить за перекачку

понятия не имею. этот вопрос надо задать тем, кто хотел бы увидеть эти данные.

ну скажем сутки; через сутки на то же место записывать свежие данные итд

кому интересно – тот скачает и посмотрит.

[identity profile] shvarz.livejournal.com 2010-03-22 06:20 pm (UTC)(link)
они должны быть доступны всем, кто
1) спонсировал проект
2) согласен заплатить за перекачку


Вопрос не в том, кому они должны быть доступны, а в том, кто будет платить за их хранение. Это очень большие деньги. И вопрос также в рациональности их хранения. Вы, как специалист по научной этике, должны быть способны ответить на этот вопрос.

понятия не имею. этот вопрос надо задать тем, кто хотел бы увидеть эти данные.
Именно это я и говорю. Решать такие вопросы должны специалисты, а не те, кто платил за исследования. Вы вылезли с тем, что имеете право решать, потому что платили. Давайте - решайте!

ну скажем сутки; через сутки на то же место записывать свежие данные итд


Это совершенно идиотская идея и на самом деле делает ситуацию даже хуже, чем существующая на сегодняшний день. Потому что в вашей модели все данные стираются через сутки, а в настоящей ситуации стираются только те, что не считаются неважными людьми, которые в этом гораздо лучше вас разбираются.

Короче, мой вам совет - перестаньте высказывать категоричные мнения о том, в чем не разбираетесь. Вы платите не только за сбор данных, но и за их интерпретацию. Отказываться от этой интерпретации - выбрасывать столь вами же любимые деньги на ветер.

[identity profile] slavka.livejournal.com 2010-03-22 08:19 pm (UTC)(link)
я же сказал – никакого особенного хранения не надо, нужен доступ.

правильно. поэтому я требую, что даннные были доступны всем специалистам которым я лично доверяю – а они скажут что им надо.
читайте внимательнее.
через сутки стираются только те данные, которые были предназначены для немедленного распространения. Все остальные данные, которые ученые хотят оставить, они могут оставить
разумеется. и чтоб оценить качество интерпретации (за которое я плачу) кому-то могут потребоваться и данные тоже

[identity profile] duchifat.livejournal.com 2010-03-22 08:48 pm (UTC)(link)
Часто бывает, человек сделал что-то, опубликовал, уехал, сменил работу и страну, ищи его свищи через пару лет, на старой работе его тоже никто не помнит и записей не хранит. На чьи деньги, в данном случае, не принципиально. Даже если на свои личные - то что, правила этики от этого меняются?

[identity profile] duchifat.livejournal.com 2010-03-22 08:54 pm (UTC)(link)
А что значит реактивы? Имеются в виду результаты опытов, или какие-то ноу-хау, необходимые для осуществления опытов? В любом случае, если вы были аспирантом, защитились, опубликовались, уехали, ваш руководитель ушел оттуда или ушел на пенсию, то, скорее всего, никто не будет ничего хранить. Фактически, статья это и есть archival record того, что вы проделали, никаких других записей после вас не остается.

[identity profile] slavka.livejournal.com 2010-03-22 09:00 pm (UTC)(link)
я всего лишь предложил давать доступ к данным
вечного хранения никто не заказывал.

[identity profile] shvarz.livejournal.com 2010-03-22 10:02 pm (UTC)(link)
Нет, я имел в виду именно реактивы, которые часто создаются для специфических целей в лабораториях. Например, какая-нибудь клеточная линия или плазмида или вирус. Даже если процесс их создания полностью описан, часто люди их просят потому, что это существенно экономит время. Вместо того, чтобы воссоздавать все заново и тратить на это годы, можно написать письмо и получить нужный реагент через неделю. Я когда уходил из предыдущих лаб всегда составлял подробный список всего, что я использовал и того, где именно в холодильнике это лежит. Сколько это будет храниться - исключительно на совести профессоров, которые за это хранение платят.

[identity profile] shvarz.livejournal.com 2010-03-22 10:04 pm (UTC)(link)
Любое предложение для решения сложного вопроса, начинающееся со слов "всего лишь", можно смело игнорировать :)

игнорируйте на здоровие ;)

[identity profile] slavka.livejournal.com 2010-03-22 10:18 pm (UTC)(link)
Главное, не забывайте почаще напоминать, что этот вопрос Очень Сложный и для его решения нужны Настоящие Ученые (ну и Много Денег, ессно)

------------
Взгляд Выбегаллы стал гневным.
-- Я прошу всех присутствующих отметить этот провокационный вопрос,
от которого за версту разит мальтузианством, неомальтузианством,
прагматизмом, экзистенцио... оа... нализмом и неверием, товарищи

Re: игнорируйте на здоровие ;)

[identity profile] shvarz.livejournal.com 2010-03-22 10:20 pm (UTC)(link)
Спасибо вам за столь наглядную иллюстрацию моего поста. Теперь читателям далеко ходить не надо, достаточно комменты почитать.

[identity profile] vasja-iz-aa.livejournal.com 2010-03-22 10:30 pm (UTC)(link)
Для того, что бы в своей системе получить результат подтверждающий или опровергающий чьи то выводы, для этого никаких дополнительных первичных данных от автора выводов не нужно.
Дополнительные первичные данные могут быть нужны только для целей поимки первичного автора на фальсификации.

[identity profile] shvarz.livejournal.com 2010-03-23 05:24 am (UTC)(link)
Кстати, дабы не возникло ложного впечатления: Я - обеими руками за открытый доступ к данным, причем во возможности даже еще до публикации их в журнале. Особенно если дело касается исследований, проводимых на государственные деньги. Суть моего поста в том (для тех, кто не понял, хотя я вроде прямо высказался), что в реальной жизни иногда такой доступ невозможен по ряду причин. Тем не менее, отсутствие доступа в таких случаях не означает, что наука каким-то образом в данных случаях коррупционна или лжива.

[identity profile] slavka.livejournal.com 2010-03-23 10:32 am (UTC)(link)

Суть моего поста в том что эта "невозможность" зачастую является как минимум преувеличенной. Если экспериментаторы заранее обьявят что будет идти эксперимент и данные доступны по цене самовывоза, то кому надо тот придумает как эти данные вывезти и сохранить
Если ученым некогда с этим возиться, то они тоже могут об этом честно сказать и предложить добровольцам заняться процессом.
а помощь в организации раздачи данных – неплохой курсовой проект для студентов IT-шников

[identity profile] shvarz.livejournal.com 2010-03-23 01:33 pm (UTC)(link)
По второму кругу пошли.

[identity profile] imageman72.livejournal.com 2010-03-24 07:50 am (UTC)(link)
На мой взгляд всегда нужно писать ожидаемую точность (например: X=55 [+-2%] ). Можно указать, какими способами была вычислена погрешность (точность)

Page 3 of 3