菜鸟学R语言:用R做文献分析、计量教程——以porn为例

April 28, 2014

Tags:菜鸟学R语言

三个月前,我发了篇博客菜鸟学R语言:结合文献数据库,分析学科发展概况,文中介绍了思路和初步结果,但没有贴出代码。最近,我已经开始着手将分析结果整理一下写篇论文了,也想借写博文的机会,重新梳理一下自己的思路。也借这个机会将我的方法分享给大家,共同学习交流。

如果读者你通过搜索看到我的这篇文章,那么你不是图书馆情报分析人员,就是和我一样的有这个想法的普通学生,这很好。我的方法或者思路只适用于以下这种情况,即,用户已经确定了要搜索的关键词,可以是一个,也可以是多个,这些关键词要能足够代表你想要研究的方向,而且尽可能的避免关键词的重复(跨学科)定义,或者无代表性的关键词,除非你有意想研究很大很广的方向,也未尝不可。在确定了关键词后,我们就可以开始第一步了。

用EndNote获取包含文献题录信息的XML文件

要用桌面版的EndNote。我注意到有位美籍华人科学家陈超美早就开发出一款基于Web of Science的文献计量分析软件,而且已经有很多发表的论文使用这款软件。我尝试使用过这款软件,我不知道是不是我没有完全看懂了说明书,它获取包含题录信息文件的方法是,登录WoS网页版,手动分批下载txt文件,因为网页版有每次只能提取500条题录的限制,在这种情况下,如果你需要获取上万条题录,那么这将是非常耗时的一项任务。鉴于我们普通屌丝暂时没有硕士生或本科生帮忙,我推荐大家看一下我的方法。

在桌面版EndNote中搜索你要的关键词,如果是多个关键词,没关系,EndNote自带去重功能(点击顶部菜单reference,选择find duplicate即可)。下面我以porn*(,代表匹配所有例如pornograph,pornography等单词,这种正则表达式要先验证唯一性和可代表性,porn尚未被验证)为例。

首先,我选择的是PubMed数据库,因为我的Web of Science数据库有问题,可以搜索,但是无法提取,会出现error reading record错误。如果你的网络允许,推荐用Web of Science Core Collection数据库搜索,因为这个最全。

porn-endnote1

我得到了1472条题录,然后我创建一个group,名为porn,把搜索到的题录全选拖进这个分组,左键点击这个分组,然后从顶部菜单选择file-export,在保存时,选择save as xml。

save as xml

好了,这就算是完成了第一步。接下来就都是代码了,大家按需汲取吧。

从XML文件中提取数据

为了更有目的的分析关于porn的已发表论文,下面的代码是为了得到一个图和一个表,图是每年的论文发表量的柱状图,表是top30的发表最多的国家排名。我预计日本和美国会居于首位,主要基于我对这两个国家porn数量和质量的了解,请不要email我关于porn的下载地址的问题。好了,开始吧。

好了,最重要的事情已经完成了,当然,根据需要,你可以添加其他变量,如times cited,isbn,language等,这取决于你得到的xml文件跟你所搜索的关键词。有了这三个变量,我们可以通过一些技巧(正则等)得到被引用次数,引文数,影响因子,期刊分类等,也可以根据affiliation里的国家名,对其进行提取匹配,得到每篇文章由哪些国家合作完成的。这些就是后话了,我会陆续将代码贴出来。

下面就先画第一幅图,每年发表的关于porn的文章数量。

fig1

然后是表1,

table1

出人意料的是,我们平时不太了解的泰国夺得桂冠,美国紧随其后,高出第二集团的法国三倍,而中国则有24篇,超过了日本的14篇。看来,日本在porn方面的学术研究很少,可能因为其研究早已成熟,并产业化。

好了,这就是所谓的文献计量。当然,我给出的例子是最简单的,尽管如此,也能得出较为有趣的结论。其实,当你得到了你想要的df之后,就可以很自由的用R进行很多数据挖掘工作。我想,这也是用R,而不用citespace之类的软件的原因,前者为使用者主动,后者使用者极其被动,而且做出的图的内容也极为相似。

除此之外,我还写了其他的functions,可以做关键词关系分析,关键词趋势分析,国际合作关系网等等。这些functions我会找机会分享出来。

说明:本文的R代码仅供参考,如有错误,烦请留言指正。

· The end ·