Многие метрики. Такие данные. Вот это да.

  1. Фон
  2. Зачем?
  3. Нет, правда, ПОЧЕМУ?
  4. Что теперь?
  5. Детали для гребных винтов
  6. Так что работает?
  7. Черт возьми, заткнись уже и скажи мне, как запрашивать вещи.

[ [   Crossref Labs любит быть последним, кто запустит интернет-тренд, что может быть лучше, чем объединить   Дож мем   с   altmetrics

Crossref Labs любит быть последним, кто запустит интернет-тренд, что может быть лучше, чем объединить Дож мем с altmetrics ?

Примечание. Вызовы API, приведенные ниже, были прерваны при разработке проекта Event Data. Увидеть новейшая документация по API для эквивалентной функциональности

Хотите знать, сколько раз Википедия цитирует DOI Crossref?

http://det.labs.crossref.org/works/doi/10.1371/journal.pone.0086859

Или сколько раз было упомянуто в Европе PubMed Central?

http://det.labs.crossref.org/works/doi/10.1016/j.neuropsychologia.2013.10.021

Или DataCite?

http://det.labs.crossref.org/works/doi/10.1111/jeb.12289

Фон

Назад в 2011 PLoS выпустила свое удивительное ALM система как программное обеспечение с открытым исходным кодом (ОСС). В Crossref Labs Мы подумали, что было бы интересно посмотреть, что произойдет, если мы запустим наш собственный экземпляр системы и загрузим его с помощью нескольких DOI Crossref. Так мы и сделали. И код упал. К сожалению. Почему-то не понравилось иметь дело с 10 миллионами DOI. Забавно это.

Но прелесть OSS в том, что мы смогли работать с PLOS, чтобы масштабировать код для обработки нашего объема данных. Crossref заключил контракт с Коттеджные лаборатории и мы оба работали с PLOS, чтобы внести изменения в систему. В конечном итоге они вернулись в основной Источник ALM на Github , Теперь все получают выгоду от нашей работы. Yay для OSS.

Так что если вы хотите узнать технические детали, перейдите к Детали для гребных винтов , Но если вы хотите знать, почему мы это сделали и что мы планируем с этим делать, читайте дальше.

Зачем?

Есть (кашель) некоторые проблемы в нашей отрасли, которые мы можем лучше всего решить с помощью общей инфраструктуры. Когда издатели впервые размещали научный контент в Интернете, они заключали двусторонние соглашения о ссылках на ссылки. Эти соглашения позволили им связывать цитаты, используя собственные API ссылок. Но эта система не масштабировалась. Было слишком много времени, чтобы договориться обо всех соглашениях, необходимых для связи с другими издателями. А связывание через многие проприетарные API цитирования было слишком сложным и слишком хрупким. Таким образом, отрасль основала Crossref для создания общего API-интерфейса для цитирования ссылок между издателями. С тех пор Crossref избавился от необходимости двусторонних связей.

Так называемый altmetrics похоже, они могут иметь схожие характеристики. У вас есть ~ 4000 издателей-членов Crossref и N источников (например, Twitter, Mendeley, Facebook, CiteULike и т. Д.), Где люди используют (например, обсуждения, закладки, аннотации и т. Д.) Научные публикации. Каждый из издателей мог, по-видимому, выбрать запуск собственной системы сбора этой информации. Но если они это сделают, они столкнутся со следующими проблемами:

  • Источники N будут нестабильными. Новые появятся. Старые исчезнут.
  • Каждому издателю необходимо будет иметь дело с различными API-интерфейсами каждого источника, ограничениями скорости, условиями и положениями, лицензиями на данные и т. Д. Это является головной болью как для издателей, так и для источников.
  • Если издатели используют разные системы, которые, в свою очередь, обращаются к разным источникам, будет сложно сравнивать результаты разных издателей.
  • Если журнал перемещается от одного издателя к другому, то как метрики для статей этого журнала будут следовать за журналом? Это не полный список, но он показывает, что у издателей может быть некоторое преимущество, разделяющее инфраструктуру для сбора этих данных. Но как насчет коммерческих провайдеров? Не могли бы они предоставить эти услуги ALM? Конечно - и некоторые из них в настоящее время делают. Но обычно они рассматривают фактический сбор этих данных как средство для достижения цели. Реальная ценность, которую они предоставляют, заключается в анализе, отчетности и инструментах, которые они создают на основе данных. Crossref не заинтересован в создании интерфейсов для этих данных. Если мы здесь играем какую-то роль, то это просто сбор и распространение данных.

Нет, правда, ПОЧЕМУ?

Разве это не альтметрика? непродуманная и дурацкая идея ? Предоставляя такую ​​информацию, разве Crossref не поощряет бездарность, неолиберальные администраторы университета ускорить скольжение академии в Стахановское антиутопия? Разве эти системы не могут быть задействованы?

ДЛЯ ЛЮБВИ FSM ПОЧЕМУ CROSSREF ВЗГЛЯД В ЧТО-ТО ТАКОГО ЗАПРОСИМОГО ЗНАЧЕНИЯ?

глубоко вздыхает вытирает слюну с бороды

Это все серьезные проблемы. Закон Гудхарта и все такое ... Если комитет по назначениям и продвижению университета в значительной степени склонен к Фактор воздействия , это ничего не улучшит, если они заменят или дополнят Фактор воздействия альтметрией. Эми Бранд неоднократно указывал, лучшие институты просто так не используют метрики (Презентация в PowerPoint). Они знают лучше.

Но да, вполне вероятно, что некоторые влиятельные люди придут к ленивым выводам, основанным на альтметрии. И после этого, другие ленивые, недобросовестные и оппортунистические люди будут пытаться играть в метрики. Мы можем даже увидеть, как появляется индустрия, чтобы использовать этот беспорядок и обеспечить научный эквивалент SEO , Фэ. Теперь я в депрессии и мне нужно выпить.

Итак, еще раз, почему Crossref делает это? Хотя мы сомневаемся в том, насколько эффективными будут альтметрики при оценке качества контента, мы считаем, что они являются полезным инструментом для понимания того, как научный контент используется и интерпретируется. Наиболее красноречивые аргументы против altmetrics для измерения качества, непреднамеренно приводят аргументы в пользу altmetrics как инструмента для мониторинга внимания.

Критики альтметрии отмечают, что большую часть внимания, которое исследования получают за пределами формальных каналов научной коммуникации, можно отнести к:

  • Рекламирование. Исследователи и / или университет / издатель « Пиар выигрывает »Чрезмерное продвижение результатов исследований.
  • Невинное неверное истолкование. Непрофессиональная аудитория просто не понимает результатов исследования.
  • Умышленное неправильное толкование. Идеологи искажают результаты исследований в поддержку своих программ.
  • Непристойность. Похоже, что исследование посвящено сексу, наркотикам, преступности, видеоиграм или другим популярным пристрастиям.
  • Neurobollocks. Категория для себя в эти дни ,

Короче говоря, научные исследования могут быть неверно истолкованы. Шок ужас. Запретить все метрики. Уф. Это больше не повторится.

Научные исследования всегда обсуждались вне официальных научных центров. И самими учеными, и заинтересованными мирянами. Иногда эти обсуждения продвигают научную причину. Иногда они это подрывают. Университет Юты не зависел от широкого доступа в Интернет или социальных сетей для продвижения еще не рецензируемые заявления о холодном синтезе , Это был просто старомодный аналог пуфери. И Интернет не играл никакой роли в Laetrile или ДМСО сходят с ума 1980-х годов , Видите ли, когда-то эти вещи назывались « газеты. И еще одна вещь называется телевизор. И изощренный meatspace социальная сеть называется « городская площадь «.

Но есть критические различия между тогда и сейчас. Как граждане получают больше доступа к научной литературе гораздо более вероятно, что исследования будут обсуждаться за пределами официальных научных центров. Теперь мы можем создавать инструменты, которые помогут исследователям отслеживать эти обсуждения. Теперь исследователи могут при необходимости участвовать в беседах. Можно подумать, что добросовестные исследователи считают своим долгом оставаться вовлеченным, знать, как используются их исследования. И особенно, чтобы знать, когда он используется не по назначению.

Это не значит, что мы ожидаем, что исследователи будут приветствовать эту задачу. Мы не Поллианны. Исследователи уже классно перегружены. Oни едва успеваю не отставать от официально опубликованной литературы , Кажется жестоким ожидать, что они будут идти в ногу с огненным рукавом Интернета.

Что возвращает нас к ценности инструментов альтметрии. Мы надеемся, что по мере развития инструментов альтметрии они предоставят издателям и исследователям эффективный механизм мониторинга использования их контента в нетрадиционных местах. Просто так, как цитаты использовались, прежде чем они были искажены в прокси для кредитования и репутации.

Мы не думаем, что альтметрики уже есть. Частично потому, что некоторые партии все еще страдают от перспективы узурпации одного показателя за другим. Но в основном потому, что все поле еще зарождается. Люди еще не знают, как информация может быть объединена и использована эффективно. Поэтому мы по-прежнему делаем наивные предположения, такие как «ссылка = нравится» и «больше = лучше». Конечно, в конечном итоге кому-то придет в голову, что вместо этого может быть связь между неоднократные заголовки исследований и академического мошенничества , Нейробиологу может быть интересен инструмент, который предупреждает их, если результаты сканирования МРТ в их исследовательской работе неверно истолковываются в сети для продвижения нейроблоков. Иммунолог, возможно, захочет узнать, не используется ли их исследование анти-вакцинационным движением. Возможно, реальная ценность в сборе этих данных будет видна, когда кто-то создаст инструменты, которые помогут исследователям ОБНАРУЖИТЬ наболевшие, интриги в социальных сетях и неверное толкование результатов исследований?

Но Crossref не будет создавать эти инструменты. То, что мы могли бы сделать, это помочь другим преодолеть еще одно препятствие, мешающее разработке более сложных инструментов; получение необходимых данных в первую очередь. Вот почему мы занимаемся альтметрикой.

Википедия уже является восьмым по величине реферером DOI Crossref. Обратите внимание, что это не просто означает, что Википедия ссылается на множество перекрестных DOI, это означает, что люди действительно нажимают и следуют за этими DOI в научной литературе. Поскольку научное общение выходит за рамки традиционных изданий, а аудитория научных исследований расширяется, мы считаем, что для издателей и исследователей будет важнее знать, как их исследования обсуждаются и используются. Возможно, им даже придется больше общаться с не-научной аудиторией. Для этого им нужно быть в курсе разговоров. Crossref предоставляет этот экспериментальный источник данных в надежде на то, что мы сможем ускорить разработку более сложных инструментов для обнаружения и анализа этих разговоров. К счастью, провести этот недорогой эксперимент - во многом благодаря решению PLOS открыть исходный код ALM.

Что теперь?

Пример Crossref в ALOS-коде PLOS - это эксперимент. Мы упоминали, что столкнулись с проблемами масштабируемости и что мы решили некоторые из них. Но есть все еще большие проблемы масштабируемости, которые нужно решить. Например, при условии, что время отклика составляет 1 секунду, и если мы хотим опросить англоязычную версию Википедии, чтобы увидеть, что цитировало каждый из 65 миллионов DOI, находящихся в Crossref, этот процесс может занять годы. Но так устроена система для работы на данный момент. Он опрашивает различные исходные API, чтобы определить, упоминается ли конкретный DOI. Распараллеливание запросов может сократить время, необходимое для опроса Википедии, но это не уменьшает работу. Другой очевидный способ улучшить масштабируемость системы - добавить механизм push для дополнения механизма pull. Вместо того, чтобы выходить на улицу и опрашивать Википедию 65 миллионов раз, мы могли бы создать LinkBack »Механизм, который позволил бы третьим сторонам предупреждать нас о ссылках на DOI и другие научные идентификаторы (например, цитируемые, добавленные в закладки, совместно используемые). Если бы Википедия использовала это, то даже в крайнем случае (т. Е. Все, что в Википедии ссылается как минимум на один Crossref DOI), это означало бы, что нам нужно обработать только ~ 4 миллиона трекбэков.

Другое существенное преимущество добавления push API заключается в том, что Crossref снимет бремя, чтобы узнать, какие источники мы хотим опросить. В настоящий момент, если новый источник появится в сети, нам нужно знать об этом и создать собственный плагин для опроса их данных. Это излишне ставит в невыгодное положение новые инструменты и сервисы, поскольку означает, что их данные не будут собираться, пока они не станут достаточно большими, чтобы мы могли на них обратить внимание. Если рассматриваемая служба затрагивает нишу научной экосистемы, они могут никогда не стать достаточно большими. Но если мы позволим источникам передавать нам данные, используя общую инфраструктуру, то новым источникам не нужно ждать, пока мы уведомим их, прежде чем они смогут участвовать в системе.

Поддержка (потенциально) многих новых источников вызовет еще одну техническую проблему - отслеживание и поддержание происхождения данных, которые мы собираем. Нынешняя система ALM неплохо справляется с хранением данных, но если мы хотим, чтобы третьи стороны могли полагаться на систему, нам, вероятно, нужно расширить информацию о происхождении, чтобы данные можно было легко и дешево проверять.

Возможно, самая важная вещь, которую мы хотим извлечь из работы с этим экспериментальным экземпляром ALM: что потребуется для запуска системы в качестве производственной службы? Какие технические ресурсы потребуются? Как их можно поддержать? Исходя из этого, мы надеемся получить достаточно информации, чтобы решить, стоит ли обслуживать службу и, если да, то кем. Crossref - это всего лишь одна из нескольких организаций, которая может запустить такой сервис, но неясно, будет ли он лучшим. Мы надеемся, что, работая с PLOS, нашими членами и остальным научным сообществом, мы получим лучшее представление о том, как такая служба должна управляться и поддерживаться.

Детали для гребных винтов

Предупреждение, предостережения и ласка слова

Экземпляр Crossref ALM является Crossref Labs проект. Он работает на оборудовании для исследований и разработок в непроизводственной среде, управляемой орангутангом на диете Redbulls и водки.

Так что работает?

Система была изначально загружена 317 500+ DOI Crossref, представляющими публикации с 2014 года. Мы будем загружать больше DOI в обратном хронологическом порядке, пока нам не надоест или пока система снова не упадет.

Мы активировали следующие источники:

  • PubMed
  • DataCite
  • Цитаты и использование PubMedCentral Europe
  • У нас есть данные из следующих источников, но нам потребуется некоторая работа для достижения стабильности:

  • facebook
  • Википедия
  • CiteULike
  • щебет
  • Reddit
  • Некоторые из них быстрее, чем другие. Некоторые из них более темпераментны, чем другие. Например, WordPress, похоже, обижается и отключается после примерно 1300 вызовов API.

    В любом случае, мы будем отслеживать и настраивать источники по мере сбора данных. Мы также добавим новые источники по мере получения запрошенных ключей API. Мы, вероятно, даже создадим один или два новых источника сами. Посмотрите этот блог, и мы будем обновлять вас по мере добавления / настройки источников.

    Черт возьми, заткнись уже и скажи мне, как запрашивать вещи.

    Вы можете войдите в систему Crossref ALM просто используя Mozilla Persona (да, в конечном итоге мы тоже хотели бы поддержать ORCID). После входа в систему, страница вашего аккаунта перечислит ключ API. Используя ключ API, вы можете делать такие вещи, как:

    http://det.labs.crossref.org/api/v5/articles?ids=10.1038/nature12990

    И вы увидите, что (на момент написания статьи) упомянутая статья о природе была процитирована здесь из статьи Википедии:

    http://en.wikipedia.org/wiki/HE0107-5240 </a>

    PLOS предоставил прекрасные подробные инструкции по использованию API - Так что, пожалуйста, поиграйте с API и посмотрите, что вы с ним делаете. Со своей стороны мы будем смотреть на то, как мы можем улучшить производительность и расширить охват. Мы не много обещаем - логистика здесь огромна. Как мы уже говорили выше, как только вы начинаете работать с миллионами документов, процесс опроса начинает быстро поражать стены API. Но это все часть эксперимента. Мы ценим вашу помощь и хотели бы получить ваши отзывы. С нами можно связаться по адресу:

    С нами можно связаться по адресу:

    Нет, правда, ПОЧЕМУ?
    Что теперь?
    Или сколько раз было упомянуто в Европе PubMed Central?
    Или DataCite?
    Зачем?
    Если журнал перемещается от одного издателя к другому, то как метрики для статей этого журнала будут следовать за журналом?
    Но как насчет коммерческих провайдеров?
    Не могли бы они предоставить эти услуги ALM?
    Нет, правда, ПОЧЕМУ?
    Разве это не альтметрика?