ЭлементыЭлементы большой науки
Жизнь в науке. Дневники
Главная / Дневники / Сергей Паринов / Запись

ОНЛАЙНОВАЯ НАУЧНАЯ ИНФРАСТРУКТУРА ДЛЯ ОТКРЫТОЙ НАУКИ: ПОДДЕРЖКА "ЖИВЫХ" СТАТЕЙ

26.03.2009
09:53

Глядя на бурное развитие (пока не в России, а на Западе) научных открытых архивов и институтских репозиториев, возникает законный вопрос: какую дополнительную выгоду может получить научное сообщество, если все эти локальные источники данных и онлайновых сервисов будут интегрированы в общую систему, сохраняя свою независимость и определенную автономность?

Очевидно, что такая интегрирующая система должна иметь вид инфраструктуры и называться, например, "онлайновая научная инфраструктура".

О желаемых выгодах от появления научной инфраструктуры я еще напишу позднее, а сейчас - о необходимых выгодах. Хотелось бы ожидать, что онлайновая научная инфраструктура будет сконструирована таким образом, чтобы за одно разрешать некоторые необычные ситуации и потенциальные проблемы. Например, такую:

Если ученый (или его представитель) депонирует в открытом архиве свою статью, то у него остается возможность постоянно (т.е. на протяжении всей своей профессиональной жизни) редактировать и изменять текст этой статьи.

Научные электронные статьи по определению превращаются в "живые" документы (в одном европейском проекте их назвали "жидкими публикациями" - liquid publication).

Выгоды и потенциальные проблемы от этого очевидны:

Выгода - научный результат, над которым долгое время работает ученый, локализован в одном и том же эволюционирующем информационном объекте. Его будет легче найти, а его цитирование гарантирует ссылку на текущую обновленную версию научного результата. Сохраняя старые версии статей, можно проследить историю развития научной идеи. И т.д. и т.п.

Потенциальные проблемы - очередное редактирование "живого" документа может нарушить цитаты из этой статьи, уже сделанные учеными. С учетом возможно развитой сети связей цитирования между "живыми" документами, нарушение связей цитирования с одним документом, может поставить под сомнение содержание и множества других документов в данной сети цитирования.

Решение - онлайновая научная инфраструктура должна иметь сервис мониторинга связей цитирования, который будет уведомлять:

авторов исходной статьи - о том, что и кем процитировано из его статей, а также какие связи цитирования автор нарушает, когда вносит в свою статью изменения;

авторов статей, цитирующих другие статьи - о том, что цитируемая статья была изменена и сделанные цитаты требуют проверки (валидации);

читателей - о наличии или отсутствии обновления (валидации) цитат в читаемой статье, если цитируемые статьи изменялись уже после "выхода" читаемой статьи.

Интересно, как ученые относятся к превращению их статей в "живые" документы и появлению сервиса мониторинга связей цитирования, описанного выше ?

Ответить предыдущая | следующая

КОММЕНТАРИИ:

26.03.2009 10:12#
bayak
Онлайновая научная инфраструктура для Открытой Науки: поддержка "живых" статей
Действительно, статьи как цветы - живые и постояно требуют ухода, например, я уже лет 10 культивирую свои работы.
26.03.2009 10:43#
putnik
Онлайновая научная инфраструктура для Открытой Науки: поддержка "живых" статей
> Потенциальные проблемы - очередное редактирование "живого" документа может нарушить цитаты из этой статьи, уже сделанные учеными. С учетом возможно развитой сети связей цитирования между "живыми" документами, нарушение связей цитирования с одним документом, может поставить под сомнение содержание и множества других документов в данной сети цитирования.
Решение - онлайновая научная инфраструктура должна иметь сервис мониторинга связей цитирования, который будет уведомлять:
авторов исходной статьи - о том, что и кем процитировано из его статей, а также какие связи цитирования автор нарушает, когда вносит в свою статью изменения;
авторов статей, цитирующих другие статьи - о том, что цитируемая статья была изменена и сделанные цитаты требуют проверки (валидации);
читателей - о наличии или отсутствии обновления (валидации) цитат в читаемой статье, если цитируемые статьи изменялись уже после "выхода" читаемой статьи.


Проблема надуманная. :-)
При цитировании, достаточно указать дату-время текущей версии цитируемой статьи. Интернет-ссылка также будет вести именно на цитируемую версию статьи...

Так что здесь нет проблемы.
26.03.2009 11:51#
Онлайновая научная инфраструктура для Открытой Науки: поддержка "живых" статей
>При цитировании, достаточно указать дату-время текущей версии цитируемой статьи. Интернет-ссылка также будет вести именно на цитируемую версию статьи...
>Так что здесь нет проблемы.

Так я другую проблему решаю: для меня важно создать условия, которые стимулировали бы авторов к пересмотру своих статей под влиянием изменений в статьях, которые служат для них основой для своего научного вывода (и поэтому цитируются).

Здесь цель - создание и техническая поддержка адаптирующейся сети взаимосвязанных научных результатов, составлющих текущий корпус результатов науки, а также механизма синхронизации связанных результатов.

По этой сети прокатываются волны изменений в ответ на определенные возмущения (новая статья или версия уже существующей статьи). Отдельный ученый в такой сети получает сигналы об изменениях в результатах-источниках, на которых базируются его научные результаты. Пересматривает свои (возможно меняя свои связи цитирования на другие научные результаты) и тем самым либо усиливает цепную реакцию связанных друг с другом пересмотров, либо ее ослабляет.

Фактически, это создает тенденцию к усилению взаимозависимости, связанности ученых, цитирующих работы друг друга, а также интесификацию кругооборота научного знания.

Мне кажется это было бы для научного сообщества явным прогрессом, ради которого стоит "усложнить" правила поддержания своих статей для ученых.
09.04.2009 11:21#
putnik
Онлайновая научная инфраструктура для Открытой Науки: поддержка "живых" статей
>>> Потенциальные проблемы - очередное редактирование "живого" документа может нарушить цитаты из этой статьи, уже сделанные учеными. С учетом возможно развитой сети связей цитирования между "живыми" документами, нарушение связей цитирования с одним документом, может поставить под сомнение содержание и множества других документов в данной сети цитирования.
Решение - онлайновая научная инфраструктура должна иметь сервис мониторинга связей цитирования, который будет уведомлять:
авторов исходной статьи - о том, что и кем процитировано из его статей, а также какие связи цитирования автор нарушает, когда вносит в свою статью изменения;
авторов статей, цитирующих другие статьи - о том, что цитируемая статья была изменена и сделанные цитаты требуют проверки (валидации);
читателей - о наличии или отсутствии обновления (валидации) цитат в читаемой статье, если цитируемые статьи изменялись уже после "выхода" читаемой статьи.
>> При цитировании, достаточно указать дату-время текущей версии цитируемой статьи. Интернет-ссылка также будет вести именно на цитируемую версию статьи...
Так что здесь нет проблемы.
> Так я другую проблему решаю: для меня важно создать условия, которые стимулировали бы авторов к пересмотру своих статей под влиянием изменений в статьях, которые служат для них основой для своего научного вывода (и поэтому цитируются).
Здесь цель - создание и техническая поддержка адаптирующейся сети взаимосвязанных научных результатов, составлющих текущий корпус результатов науки, а также механизма синхронизации связанных результатов.
По этой сети прокатываются волны изменений в ответ на определенные возмущения (новая статья или версия уже существующей статьи). Отдельный ученый в такой сети получает сигналы об изменениях в результатах-источниках, на которых базируются его научные результаты. Пересматривает свои (возможно меняя свои связи цитирования на другие научные результаты) и тем самым либо усиливает цепную реакцию связанных друг с другом пересмотров, либо ее ослабляет.
Фактически, это создает тенденцию к усилению взаимозависимости, связанности ученых, цитирующих работы друг друга, а также интесификацию кругооборота научного знания.
Мне кажется это было бы для научного сообщества явным прогрессом, ради которого стоит "усложнить" правила поддержания своих статей для ученых.


Ваша идея "живых" связей цитирования мне в целом нравится.
Она достаточно очевидная и... уже реализованная. :-)

К примеру - в правовых системах Консультант+ и Гарант.
Там тоже есть версии документов, которые постоянно появляются, обновляются и устаревают. И на которые есть многочисленные внутренние и внешние ссылки.
Решается она просто - рядом с ссылкой на документ имеется метка. К примеру если ссылка ведется на устареший документ (который изменен, отменен), то рядом с ней делается метка что-то типа "Документ утратил силу".
Т.е. ссылка есть, и документ на который ссылаются тоже есть (и по ней можно кликнуть и посмотреть сам документ), только он уже не действующий. И рядом дается ссылка на действующую редакцию этого же документа (если она есть).

Если к такой системе добавить обычное уведомление авторов по e-mail (это давно есть и здесь, на Элементах) и/или SMS, то получится ровно то, что вы описали... :-)

В отдельно взятом архиве такую вещь реализовать совсем не сложно.
Другое дело организовать все это между самыми разнообразными архивами, с их различной архитектурой и языками (английским, русским, китайским ...).
Помнится вы приводили ссылку на некий единый протокол, действующий в открытой сети. К сожалению времени познакомится с ним у меня пока не было. В этот протокол заложено какое-нибудь решение отслеживания межархивного цитирования?

PS: Консультант+ сейчас доступен и в on-line режиме. Правда работает он только под веб-обозревателем Microsoft Internet Explorer 5.0 и выше.
Обратите внимание там на строчку "Поиск по статусу".
Бродя по документам, четко видно, находишься ты в их действующих редакциях, или - нет.
09.04.2009 16:55#
Онлайновая научная инфраструктура для Открытой Науки: поддержка "живых" статей
>Решается она просто - рядом с ссылкой на документ имеется метка. К примеру если ссылка ведется на устареший документ (который изменен, отменен), то рядом с ней делается метка что-то типа "Документ утратил силу".

Да, такое было бы уже неплохо. Но реально требуется немного другое: часто ведь цитируют не статьи, а отдельные описанные в ней положения, научные результаты и т.п. Хорошо бы реализовать механизм мониторинга "живых" документов для таких отдельных блоков.

Т.е. мониторинг на устарелось нужно каким-то образом внести внутрь научных материалов и делать его на уровне смысловых блоков. Для этого надо формализовать описание научного результата. Но тогда зачем это делать в рамках статьи. Похоже придется разделить два жанра: 1)заполнение формализованных форм "депонирование научного результаты" и 2)написание научной статьи. Поскольку первый позволяет получить более точные данные о продуктивности ученого, то он и будет более мотивирован. Статьи тогда будут писать только фанаты этого дела. А ведь трудно представить науку без статей и журналов в их современном виде... :-)

>Если к такой системе добавить обычное уведомление авторов по e-mail (это давно есть и здесь, на Элементах) и/или SMS, то получится ровно то, что вы описали... :-)

Да, в этих моих предложениях нет ни чего экзотического. Все это дает новое качество, когда оно реализовано в комплексе.

>В отдельно взятом архиве такую вещь реализовать совсем не сложно.
Другое дело организовать все это между самыми разнообразными архивами, с их различной архитектурой и языками (английским, русским, китайским ...).

Для этого достаточно иметь: а)общую или совместимую систему идентификаторов (ID) для статей (и/или научных результатов); б)общее информационное пространство, чтобы авторы могли при создании цитирования находить нужные материалы (фиксировать их ID в метаданных своей статьи) в интегральном каталоге.

А давайте сделаем действующий пример такого между Соционет и вашим архивом ?

>Помнится вы приводили ссылку на некий единый протокол, действующий в открытой сети. К сожалению времени познакомится с ним у меня пока не было. В этот протокол заложено какое-нибудь решение отслеживания межархивного цитирования?

Вы наверное имеете в виду OAI-PMH (http://www.openarchives.org/OAI/2.0/openarchivesprotocol.htm). Пока нет там такого.
09.04.2009 18:41#
putnik
Онлайновая научная инфраструктура для Открытой Науки: поддержка "живых" статей
>> Решается она просто - рядом с ссылкой на документ имеется метка. К примеру если ссылка ведется на устареший документ (который изменен, отменен), то рядом с ней делается метка что-то типа "Документ утратил силу".
> Да, такое было бы уже неплохо. Но реально требуется немного другое: часто ведь цитируют не статьи, а отдельные описанные в ней положения, научные результаты и т.п. Хорошо бы реализовать механизм мониторинга "живых" документов для таких отдельных блоков.
Т.е. мониторинг на устарелось нужно каким-то образом внести внутрь научных материалов и делать его на уровне смысловых блоков. Для этого надо формализовать описание научного результата. Но тогда зачем это делать в рамках статьи. ...


Мониторинг документов "не прокатит". :-(
По целому ряду причин:
1. кроме текста, в документе много разных формул (в самых разных форматах), графиков, схем, картинок, фоток и т.д.
2. сами документы тоже в разных форматах (pdf, word, text, tex, ...).
3. на разных серверах используют разные SQL-базы, с разными кодировками, форматами (часть записей предварительно форматируется для правильного отображения в разных операционках клиентов) и т.д.
4. изменение смысла одного абзаца документа автором, может изменить смысл последующих абзацев (даже если в них, последующих, не было изменено ни одного символа).

Т.е. такой мониторинг будет надежно работать только при наличии искусственного интеллекта... :-) Чтобы машина понимала СМЫСЛ сканируемого документа. А его пока еще не создали.
Иначе получится хаос в ссылках и их обновлении... :-(

Я так думаю, единственно что на сегодня доступно, это опереться на формальную разбивку документа по обзацам, формулам, рисункам. Автора при этом формальностями напрягать не придется...
Правда п.4. (в вышеуказанном перечне) останется, но эти ошибки не фатальные. Автор получит уведомление, что в целом цитируемый им документ изменен (но цитируемый абзац остался прежним) и ему придется проверить, не изменился ли при этом смысл цитируемого им абзаца.
Эти "лишние" хлопоты наверное терпимы. По любому, сервер на сегодня сам с этим не справится...
Т.е. в силах самих авторов отследить этот момент, и поддерживать актуальность своих ссылок.

Конкретно, все это выглядело бы примерно так:
- автор создает статью и помещает ее в архив. Движок автоматом присваевает ей ID и автоматом же индексирует внутренние абзацы, формулы, рисунки.
- ссылки внешними читателями могут делаться не только на весь документ, но при желании и на конкретный его внутренний элемент.
- если автор изменяет ранее загруженный документ (создает новую его версию), движок сверяет эти версии, и индексирует внутренние элементы новой версии документа с учетом индексов прежней. Если абзац не изменен, ему присваивается тот же самый индекс. Для новых/измененных абзацев индексация новая.
- внешние ссылки на прежнюю версию документа автоматом корректируются/помечаются (типа документ/текст/формула/рисунок - изменен/удален).

Попробуйте реализовать этот принцип на архиве Соционет.
Не знаю, насколько сложен программный код вашего движка, может это будет и не сложно... :-)
09.04.2009 19:25#
putnik
Онлайновая научная инфраструктура для Открытой Науки: поддержка "живых" статей
>> В отдельно взятом архиве такую вещь реализовать совсем не сложно.
Другое дело организовать все это между самыми разнообразными архивами, с их различной архитектурой и языками (английским, русским, китайским ...).
> Для этого достаточно иметь: а)общую или совместимую систему идентификаторов (ID) для статей (и/или научных результатов); б)общее информационное пространство, чтобы авторы могли при создании цитирования находить нужные материалы (фиксировать их ID в метаданных своей статьи) в интегральном каталоге.
А давайте сделаем действующий пример такого между Соционет и вашим архивом ?


Архив пока не существует. :-)
Так что соединять пока еще не с чем...
В целом, я не против этой идеи. :-)
По мере готовности Архива.

Для стыковки архивов НЕобязательно иметь указанные вами п.а) и п.б).
По любому, иметь идентичные ID (или идентичную систему ID) неудобно. Иначе придется при необходимости в изменениях структуры своего архива, согласовывать свои действия со второй стороной.

Тут достаточно соблюсти несколько простых правил, и проблем по идее не должно быть:
1. Каждая статья в архиве должна иметь "твердый" (постоянный) адрес в инете. Внутренний адрес статьи в базе данных может при этом свободно меняться.
2. У пользователя архива не должно быть проблем с получением этого адреса при чтении любой статьи архива. К примеру, часто в новостных лентах сайтов можно видеть что-то вроде ссылки: "Постоянный адрес статьи в интернете".
3. Все выше сказанное относится не только к статье в целом, но и к любой ее части (абзацу, формуле, графику, рис. и т.д.).

Я так понимаю, что все это решаемо любым архивом. При любом их количестве и любой их архитектуре.
Если этим озадачиться... :-)

Проблему я пока вижу только в согласовании меж архивами процедуры обновления инф. о хранимых в них статьях.
Т.е. надо каким-либо образом всем заинтересованным партнерам оперативно дать инф. о внесенных изменениях в собственном архиве: какие статьи аннулированы, какие статьи изменены, и что именно в них изменено, какие новые статьи появились и какие их постоянные адреса.
Вопрос этот не столько тех., сколько организационный...
То бишь надо прийти в этом деле к некоторому общему соглашению: где хранится эта инф., в каком формате, как часто обновляется, каким путем (e-mail, папка через ftps/https и т.п.) уведомляется каждый из партнеров.
12.04.2009 10:38#
Онлайновая научная инфраструктура для Открытой Науки: поддержка "живых" статей
>1. Каждая статья в архиве должна иметь "твердый" (постоянный) адрес в инете. Внутренний адрес статьи в базе данных может при этом свободно меняться.

Для статьи, представленной в виде файла с ее полным текстом, этого, действительно, достаточно. Но в современных системах интеграции научных ресурсов участвуют НЕ полные тексты, а метаданные статей, представляющие собой отдельные информационные объекты и, как правило, отдельные файлы.

Вот пример типов метаданных, используемых в Социнет - http://swb.socionet.ru/datatype.htm Во всех из них есть поле File-URL, содержащее ссылку на полный текст, о которой вы пишете. Но есть и еще одно поле Handle, в котором хранится уникальный код метаданных каждого материала. Поскольку метаданные часто - объект виртуальный, для них гораздо лучше использовать именно специальный идентификатор, чем "твердый адрес в Инете".

>Проблему я пока вижу только в согласовании меж архивами процедуры обновления инф. о хранимых в них статьях.

Эта проблема, как раз давно решена и в организационном (есть работающие соглашения) и техническом аспектах. См. например http://socionet.ru/mechanism.htm
12.04.2009 11:41#
putnik
Онлайновая научная инфраструктура для Открытой Науки: поддержка "живых" статей
>> Проблему я пока вижу только в согласовании меж архивами процедуры обновления инф. о хранимых в них статьях.
> Эта проблема, как раз давно решена и в организационном (есть работающие соглашения) и техническом аспектах. См. например http://socionet.ru/mechanism.htm


Вы пишите о решении исключительно в рамках RePEc (и Соционет, в еще более частном случае).
Я же говорю обо ВСЕХ архивах. Насколько я понимаю, тот же arXiv.org далек от стандартов RePEc, и вообще - от модели "коллекций".

Проблема согласования архивов есть, и она далеко не решена. :-)

Не думаете же вы, что вам удастся загнать все архивы в рамки вашего стандарта? Насколько он удобен и админам и пользователям - я пока этого даже не затрагиваю...
Это было бы равносильно заявлению какой-либо полит. партии, что ВСЕ граждане станут ее членами... :-))) Такого не получилось даже во времена КПСС.
MicroSoft с их Windows подобное тоже не удалось, несмотря на все их титанические усилия... ;-)


Цитата, взятая по вашей ссылке:
"Практически на начало 2003 г. в мировом научно-образовательном сообществе действовало около 10 самостоятельных пространственно-образующих механизмов, большая часть которых пока связана с проектом RePEc."
То бишь далеко не все архивы связаны с этим стандартом. Интересно, какова динамика этого процесса на сегодня, 2009г.?
12.04.2009 12:06#
Онлайновая научная инфраструктура для Открытой Науки: поддержка "живых" статей
>Насколько я понимаю, тот же arXiv.org далек от стандартов RePEc, и вообще - от модели "коллекций".

Потому-что в нем другая концепция реализуется, в которой обуждаемый нами вопрос о согласовании архив даже не возникает. arXiv.orgпредставляет собой моно-архив, работающий по принципу "складывайте все сюда". Репек работает по принципу - "создавайте и депонируйте статьи где вам удобно, но позаботьтесь, чтобы ваш архив имел технический вход для автоматического сбора метаданных.

Ну и какая концепция симпатичнее? Уж скорее arXiv.org напоминает КПСС.

Для проблемы согласования архивов уже предложено несколько решений. В частности OAI-PMH как раз для этого и создавался. Вот примеры практических решений - RePEc (http://repec.org/), Соционет (http://socionet.ru/), ЕНИП РАН (http://enip.ras.ru/), OAIster (http://oaister.org/), DRIVER (http://www.driver-repository.eu/), OpenDOAR (http://www.opendoar.org/) и др.

>Не думаете же вы, что вам удастся загнать все архивы в рамки вашего стандарта? Насколько он удобен и админам и пользователям - я пока этого даже не затрагиваю...

Создатели архивов сами "голосуют ногами". В Соционет/Репеке уже участвуют (добровольно) около 1500 архивов и в них около 3 тыс. коллекций. Представлены практически все страны мира.

Это не с КПСС надо сравнивать, а с выбором людьми выгодного для них стандарта. Вот, например, выбрали почему-то очень многие страны стандарт 220 вольт и 50 гц. Так и тут.

Да и не стоит задача охватить всех одним стандартом. На 2009 г. удачно сосуществуют два стандарта информационных хабов (именно они создаются для "согласования архивов"): модель Репек и модель OAI-PMH. Репек (и Соционет) признает модель OAI-PMH более общей. Поэтому они создали в себе интерфейсы с использованием этого стандарта и протокола.

Если вы захотите свой arXiv.ru включить в эту систему, то достаточно сделать к нему OAI-PMH шлюз. Ссылки на возможно полезный бесплатный софт тут - http://www.openarchives.org/pmh/tools/tools.php
12.04.2009 19:57#
putnik
Онлайновая научная инфраструктура для Открытой Науки: поддержка "живых" статей
Если вы обратите внимание, то в прежнем своем посту я ни слова не сказал, что какая-то модель архива лучше... :-)
Я сказал только, что модели архивов существуют РАЗНЫЕ и никогда они не станут одного единственного формата. :-) Хотите вы этого или нет.

Со своей стороны я вовсе не против Соционет. И не против стыковки с ним каких-либо других архивов, в том числе и arxiv.su. Почему бы и нет, если пользователям это будет удобно. :-)

Но судя по всему, вы проповедуете путь распространения своего продукта аналогичный пути MicroSoft... То бишь - "только наш путь правильный". :-) "Все остальные программы могут и должны существовать только в рамках нашего формата"... :-))
Этот путь однозначно тупиковый.
26.03.2009 11:16#
voix
Онлайновая научная инфраструктура для Открытой Науки: поддержка "живых" статей
>Если ученый (или его представитель) депонирует в открытом архиве свою статью, то у него остается возможность постоянно (т.е. на протяжении всей своей профессиональной жизни) редактировать и изменять текст этой статьи

Для книг такое нормально, через какое-то время выпускаются исправленные издания.
Корректировка статей, думаю, только внесет путаницу.
Разве только, если статья не обзорная.
26.03.2009 11:56#
Онлайновая научная инфраструктура для Открытой Науки: поддержка "живых" статей
>Корректировка статей, думаю, только внесет путаницу.

Да, внесет, но это при существующей ситуации, т.е. без системы мониторинга изменений и информирования тех, кого эти изменения касаются. Я же рассуждаю о составных частях Открытой Науки.

Если описанная у меня система будет создана, она обеспечит превышение различных выгод по сравнению с проблемами, производимыми естественным процессом получения научными статьями статуса "живого" документа (в тот момент, когда они попадают в открытые архивы).
Вести дневник и оставлять комментарии могут только зарегистрированные пользователи
Логин:
Пароль:
Зарегистрироваться
Последние сообщения
Помощь
Всего дневников: 640

Пользователей
в системе: 2727

Всего записей
и комментариев: 48561

Записей и комментариев
за последние 24 часа: 18

АКТИВНЫЕ ДНЕВНИКИ


 
Энциклопедия | Новости | Блоги | Календарь | Право | Библиотека | Детские вопросы | ЖОБ При поддержке фонда Дмитрия Зимина - Династия