shvarz: (Default)
[personal profile] shvarz
И раз уж мы о доступе: Статья с анализом запросов на доступ к данным в базе данных dbGaP

Есть такая (несколько странная) позиция, что необработанные данные выкладывать не имеет смысла, потому что они все равно никому не нужны. В статье проанализировали 97 выложенных наборов данных и нашли, что за два года 70 из них были запрошены хотя бы один раз, а за три года - 96. Общее количество запросов за два года было 2724, но цифра эта явно завышена, потому что если сотрудничество ученых из 15 университетов делало запрос, то это считалось, как 15 разных запросов (и посчитать реальное количество запросов было невозможно). В статье еще много разных процентов и цифирек, но упомянутая проблема с переоценкой заставляет относиться к ним секптически. Но все равно интересно - подавляющее большинство запросов было от академии, но исследователи из фармы-биотеха в среднем запрашивали больше наборов данных. Целью большинства запросов был поиск новых закономерностей в результатах, на втором и третьем местах - разработка новых методов и проверка уже опубликованных результатов.

Date: 2012-01-24 08:27 am (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
Действительно странная позиция. А как они обосновывают?

Xотел бы обратить Ваше внимание на то, что выкладывать необработаные данные в общественный доступ не запрещено И никто и никогда не предлагал этого запретить. Так что если кто хочет свои данные положить -- да ради бога, клади. В чем проблема то, да?
Я Вам могу еще раз сказать, в чем проблема. Она в том, что активисты предлагают давать деньги, и немалые деньги за организацию выкладывания данных в общественный доступ.И даже не тем ученым давать, которые данные получили, а биоинформатикам и другим шарлатанам. Это совсем другой-другой вопрос.
А еще отдельно смешно, что сырые данные к этой самой статье в свободный доступ не выложены.

Date: 2012-01-24 04:54 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Проблема, наверно, в том, что выложенные таким образом данные гораздо труднее искать, у них больше шансов иметь нестандартный формат самих данных или метаданных, выкладывающим приходится платить за сервер/bandwidth и разбираться с этическими/легальными заморочками по предоставлению доступа и т.д. Активисты, я так понимаю, выступают за economy of scale.

Date: 2012-01-24 07:21 pm (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
Мне кажется, что перечисленые Вами проблемы -- это внутренние проблемы "централизованого" подхода и за его рамками просто не существуют. Например платить сколь-нибуть заметные деньги за сервер/bandwidth надо будет только если этот сервер собираются данные с ученых всей америки и всему миру с него же раздаются. А из рук в руки собственные результаты передать никакой проблемы с каналом нет. Даже у Вашего смартфона уже есть бесплатный месячный траффик гигабайта так на два или вовсе неограниченый. Поиск по ПабМеду вполне хороший, легальные заморочки возникают оттого, что данные раздает посредник. Ну и так далее. Ну взгляните с другой стороны : мы живем в 21ом веке, миллионы домохозяек гуглом находят нужные им товары и сами покупают их онлайн, подростки всего мира сами торрентом находят что им надо и сами этой порнухой обмениваются.... А тысяча человек с высшим образованием без дядиной помощи не могут сами друг другу файлы посылать с данными? Мне иной раз кажется что у старших биоинформатиков случился в голове какой то старческий процесс и они до сих пор полагают, что на дворе 80ые и вокруг террабайта данных надо вычислительный центр строить. С семизначным бюджетом, кучей серверов/администраторов и ими, такими мудрыми, во главе.

У активистов очень интересная всегда получается шкала экономии -- они предлагают дать денег сейчас и им, которые они наверняка потратят. А экономить будет потом и кто то, да то вилами по воде писано.

Date: 2012-01-24 07:25 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Ну я вообще с биоинформатиками не так уж много и общаюсь, активистов вижу все больше в лице PI-ев больших лаб, которые содержат собственные сервера, но при этом ругаются, что централизованых баз данных нет.

А шкала экономии вполне нормальная - вся современная биология на ней построена :)

Date: 2012-01-24 07:37 pm (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
???
что такое "содержат собственные сервера" ?

Date: 2012-01-24 07:39 pm (UTC)
From: [identity profile] shvarz.livejournal.com
В буквальном смысле - оплачивают hardware и bandwidth, находят или пишут software, платят зарплату паре человек, которые следят за серверами и за данными на них и параллельно пишут софт.

Date: 2012-01-24 07:52 pm (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
у них что, прям в ихней лабе стоит стоит настоящий компьютер серверного исполнения?

Date: 2012-01-24 08:55 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Деталей не знаю, кому и NAS - сервер.

Date: 2012-01-24 09:02 pm (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
NAS не надо поддерживать, он сам стоит. но больше меня удивило, что устройство предположительно стоит в лабе

Date: 2012-01-24 09:06 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Может я и ошибаюсь, но у меня возникло впечатление, что да - в лабе (ну или в подсобке какой). А что в этом такого? У нас на работе наш вебсайт-сервер, он же емейл сервер, стоит прямо у нас в чулане.

Date: 2012-01-24 09:36 pm (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
за ~$70 в год можно перестать поддерживать(что более бы это не значило) сервер и поиметь много дополнительных ништяков. а чулан использовать по прямому назначению

например:
http://www.godaddy.com/hosting/web-hosting.aspx?ci=21391

Date: 2012-01-24 09:38 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Вполне допускаю, что вы правы, я ничего в этом не понимаю, решение про чулан принимал не я.

Date: 2012-01-25 12:10 am (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
ваш чулан мы не обсуждаем, а вот биоинформатический активист, достаточно разумный для управления бюджетом в две человеческие зарплаты, он если сервер в подсобку поставил, то наверняка понимает -- что он делает

Date: 2012-01-24 07:55 pm (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
>зарплату паре человек, которые следят за серверами и за данными на них и параллельно пишут софт.

А пиццу они не разносят еще, парралельно и за ту же зарплату?

March 2022

S M T W T F S
  12345
6789101112
13141516171819
20212223242526
2728293031  

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Feb. 24th, 2026 11:36 am
Powered by Dreamwidth Studios