学术桥 >> 新闻资讯

与SCI之父工作30年是一个怎么样的感受？

2017-07-28 Editage意得辑科学网博客

David A. Pendlebury 从 1983 年就开始担任科睿唯安(Clarivate Analytics) 的引用分析师，科睿唯安前身为汤森路透知识产权与科技。David在完成古代历史的本科和研究所学业后，在美国科学情报所(Institute for Scientific Information, ISI)...

David A. Pendlebury 从 1983 年就开始担任科睿唯安(Clarivate Analytics) 的引用分析师，科睿唯安前身为汤森路透知识产权与科技。David在完成古代历史的本科和研究所学业后，在美国科学情报所(Institute for Scientific Information, ISI) 担任翻译员和索引人员，ISI 于 1992 并入汤森路透，他还与ISI 创始者也是 SCI 创始者 Eugene Gerfield 一同合作私人研究项目。1987 年，David 在《The Scientist》报纸上开设研究专栏，两年后加入公司的研究服务团队，帮助发行《Science Watch》报纸。身为研究团队的一员，他协助设计开发科睿唯安基本科学指标 (Claricate Analytics Essential ScienceIndicators)，基本科学指标是提供全球研究出版和引用数据表现与趋势的数据库。David 与全球中央单位、学术单位、企业和科学出版社都有丰富的工作经验。

此次与 David 的访谈聚焦在文献计量学及其使用，还有他在科睿唯安的工作。

您在科睿唯安的主要工作内容是什么？如果能谈谈您当初是怎么开发科睿唯安基本科学指标的话，那就再好不过了！

我专注在沟通信息检索、研究评价和科学监控引用分析的可能性与威力。基本科学指标 (Essential ScienceIndicators, ESI) 是 2000 年由研究部门的团队所开发的，（当时的）领导是汤姆森科技信息集团 (TomsonScientific) 的主任 HenrySmall，那时我们主要的目标是提供可以轻松取得十年间在22 个学科领域的出版和引用统计信息。ESI也有非常宝贵的研究数据，是通过过去五年的高引文章的共引文分析(co-citation analysis) 所找出的专门领域。共引文分析能找出发表文章间的相似度，因为他们经常被一起引用。Henry 在 70 和 80 年代率先进行研究领域的共引文集聚和科学测绘。ESI数据每两个月会更新一次，让这个数据库成为最能跟上主要研究活动的信息来源。ESI现在隶属 InCites 平台，是发表影响因子的期刊引证报告 (JournalCitation Reports) 其中的一份子。InCites 平台使用我们的 Web of Science 数据，提供用户不同维度的出版和引用数据研究评估和标杆。所以这些工具和数据是设计来提供研究架构和动态的观点，发现重要和成长的领域，找出表现杰出的人，还有帮助信息检索或信息发现。

您的工作中，有一些特殊项目，例如预测诺贝尔奖得主，您是怎么进行这方面的工作的？

从最早期 Eugene Garfield 的科学引文索引 (Science Citation Index, SCI) 工作中，我们的数据中的桂冠科学家，也就是大家一般认为的诺贝尔得主，他们和所谓的一般科学家间的区别很明显。Garfield在1965 年（当时只有几年的数据）就说过，诺贝尔奖得主的平均发表数是一般研究人员的五倍，平均引用数为30 到50 次，他也表示几乎每一位诺贝尔奖得主有一篇或多篇“引文经典”(CitationClassics)，引文经典是引用排名位于领域中前0.1% 的文献。我们科睿唯安的研究人员会在诺贝尔奖颁发的科学领域，也就是生理学或医学、物理学、化学和经济学中，搜索引用数特别高的论文（一般超过2 千次引用），检查找出这些文章的作者、这些文章中报告的研究发现本质以及这个研究和研究人与是否曾得过诺贝尔奖。在许多案例中，我们都发现确实如此，因此我们将重点放在有高引论文但还没有接到瑞典人打来这通令人兴奋的电话的科研人员。高引论文还有顶级奖项间的关系没有什么特别的秘密：这两个都反映出高度尊重，前者是数量，而后者是根据同僚所评价的质量。

是否可以请您为意得辑专家视点的读者说明文献计量学 (bibliometrics) 和科学计量学(scientometrics) 的差别？

文献计量学 (bibliometrics) 是从希腊文 biblios 和 metron而来，意思是书籍或卷轴，还有测量，因此文献计量学是各种出版的测量，不论是书籍或期刊。早期图书馆员用这来找出所谓的核心期刊，改善图书馆藏书，还有观察使用趋势，做为藏书决策的科学依据。科学计量学(scientometrics) 这个词大概是在 1960 年代晚期，由博学多闻的俄罗斯人 Vasily Nalimov 最先提出的，当时他谈到naukometriya，nauk 在俄文中是科学的意思，所以将文献计量学用在科学就是科学计量学。科学计量学研究比为图书馆员分析科学期刊来得更广，其中包含了研究表现、创新、科学沟通、领域结构与动态还有政策相关的项目，例如基金。

就您看来，使用文献计量学有什么优缺点？

你的问题或许可以看成“指标的用处是什么？”，还有“指标有什么危险？”。我们必须要知道指标可以是很有用的。开尔文格言说如果我们可以衡量事物，我们会知道我们对什么更感兴趣，没有衡量，我们的知识是浅薄的。我想要强调可能的“缺点”，其中包含：使用不完整或不精确的数据、采用没有办法回答问题的指标、只看单一或综合的指标（不足以测绘众多不同的研究活动和影响力）、没有使用相关或标准化的指标确保对等比较、相信数据自己会说话无需领域专家阐释就可以使用等。

您是否觉得科研圈里的人，例如决策人员和基金单位，误解了文献计量学，或是错误地使用文献计量学？常见的误用情况是什么？

是的，确实是，这非常令人痛心。落实简单单一的衡量体系（如 h 指数或平均影响因子）来进行评价还有决定基金，破坏了大众对公众业务的信心和文献计量分析的价值，而我很不幸地很常看到这个情况，它还改变了科研人员的行为，他们开始追求分数，而不是专注在研究上，这对科学有腐蚀性的影响。要防止这些误用的一个方法是确保引用分析是补充同行评审，而不是替代。人决定内容和质量，而文献计量指标是代表或迹象，不提供显著性或数值。

今天学术出版领域正经历快速的数字化转换，现在数据可以被许多人用不同形式储存在多个平台上，这样子的开放取得是否让信息检索复杂化？文献计量学在这个复杂的数字期刊出版中能如何帮助信息检索？

从印刷到数字媒体的进步是大家乐见的，已经而且将会继续对信息的散布、使用和分析带来革命性的改变。我喜欢手上拿着书本和期刊的感觉，我也觉得阅读印刷资料比在屏幕上阅读容易，但这也许是印刷本唯一的好处了，当然，要利用数字转换带来的可能性需要适应。作者和单位的独特识别码DOIs (Digital Object Identifiers) 是基本必备的，现在也越来越多地方采用。ResearcherID 或 ORCID 这类独特的作者识别码因为能解决作者的姓名问题，当其被全球广泛采用时，将会大大帮助科学计量分析，引用句子分析得以进行，解析出引用事件的背景和情感。区别引用的“质量”这个议题已经讨论了好几十年，但现在终于在技术上得以大规模进行。我所说的“质量”指的是看清参考内容是正面或支持、负面或批评还是单纯中立。为了加速这方面的发展，科睿唯安最近宣布资助ImpactStory 的 oaDO 服务，该服务通过免费快速开放的 API 提供开放获取全文版本的已发表文章(http://news.clarivate.com/2017-06-23-Clarivate-Analytics-announces-landmark-partnership-with-Impactstory-to-make-open-access-content-easier-for-researchers-to-use)我想我应该提一下“大数据”分析，但不同人对这个词的理解不同，而且有些过度宣传了，不过，全文论文还有与其相关的数据集应当要进行挖掘，解析出所有各种新的关联和连结。这个挖掘不仅限于文字，还可以用在引用上，这已经是正在发生的事了。

这里有一个比较个人的问题，Eugene Garfield 是科学计量学的先锋人员之一，而你跟他密切地工作了好几年，能跟我们分享与他一起工作的经验吗？

能够跟他一起工作超过三十年真的非常荣幸，他对我来说是 mentor 也是朋友。许多人认为他是商人或是创业家，设计贩卖Web of Science 和 Currentcontents 这类数据库商品，但我认为他是第一个也是最重要的研究人员，他对分析和了解数据的热爱远胜于其他事物，因此能创造出这些商品。他的学术贡献（不只发明科学的引文索引）成就了他和科学计量学之父 Derek de Solla Price。噢，我有说到他是个天才吗？他当然是，但他也是慷慨善良的人。我很想念他。