科技文本数据的采集是分析的基础,当前数据的采集主要是借助科技文献数据库,并采用成熟的文献检索策略进行.
对于科技文本数据而言,索引型数据库通常收录了除正文以外的所有文献信息,而且还增加了数据库本身对论文的分类标引.不同数据库的格式 有一定的差异性.WoS和Scopus的数据结构是最为完整的,Derwent和CSSCI次之,CNKI的完整性最小.CiteSpace分析的数据是以WoS数据为基础的,其他数据库收集的数据都要先经过转换,成为WoS的数据格式才能分析.通常用户收集的文献题录数据都会包含PT(文献类型),AU(作者),SO(期刊),DE(关键词),AB(摘要),CI(机构)以及CR(参考文献).
[注]:CNKI下载的数据没有参考文献信息.
一.中文数据采集
1.CNKI数据采集
(1)进入中国知网首页www.cnki.net。
(2)数据检索策略构建
点击首页右上角的”高级检索”,进入高级检索页面.例:选择”来源期刊检索”,在检索框来源期刊中输入”中国安全科学学报”,匹配方式选择”精确”,时间选择”2019”。
(3)得到检索结果并进行初步分析
CNKI检索的结果中包含新闻,会议通知等信息,因此需要在数据收集时删除(为方便手工删除,可以在下载时逐页检查)。点击”学科”、“发表年度”、“基金”、“研究层次”等,可以对数据的分布进行初步的分析。最后,选定记录。
(4)数据的下载和保存
选定需要下载的数据记录后,点击数据结果页面的“导出/参考文献”进入数据下载页面。
[注]:使用citespace进行分析的文献输出格式为“Refworks”;可输出“Refworks”和“Endnote”两种格式,前者可进行文献可视化分析,而后者可以在论文写作时使用或用于其他文献计量软件的分析。最后,点击“导出”,下载文献。下载时对文献命名为CiteSpace需要的格式“download_XXX”
2.CSSCI数据采集
(1)进入CSSCI首页
在浏览器中输入http://cssci.nju.edu.cn/,进入CSSCI数据库首页。
(2)数据检索和初步分析
选择“高级检索”后进入界面。例:来源期刊输入“管理科学学报”;检索字段选择“期刊名称”,匹配方式选择“精确”;时间选择“2019”,最后点击“检索”按钮,即可得到结果页面。
[注]:对于得到的结果可以进一步进行精炼,也可以作为基本的统计信息来使用。
(3)数据的下载
3.CSCD数据采集
(1)登录数据库
登录Web of Science数据库后,在数据库中选择“中国科学引文索引数据库”。
(2)数据检索条件的输入
在检索页面输入检索条件。
(3)检索结果及导出
在检索结果页面的左侧列出了检索结果更加详细的分布信息。在检索结果页面中,点击“保存为其他文件格式”。
在数据导出界面中,输入要导出的数据编号。记录内容选择“全记录与引用的参考文献”,文件格式选择纯文本。点击发送,将下载的txt文件保存在本地电脑的数据文件夹中。
二.外文数据采集
1.WoS数据采集
(1)登录WoS数据库首页
在IE中直接输入www.webofknowledge.com即可进入该数据库,或者从学校图书馆提供的电子资源列表中找到该数据库进入。
[注]:默认情况下检索的数据会是“All Databases”,此时需要点击并选择“Web of Science Core Collection”即WoS核心数据库。
(2)数据检索策略
例:使用简单检索的字段检索功能,检索字段选择Publications name=Safety Science;Document type=Article;时间选择最长跨度;来源数据库可以选择默认。
(3)结果及其基本分析
当参数设置结束后,点击“Search”进行结果检索。可以点击结果页面右上侧的“Analyze Results”对得到的论文的分布进行描述性统计分析,得到论文的年度分布、作者、机构、国家/地区、基金以及论文的科学分类等信息。通过“Save Analysis Data to File”可以将描述性统计结果导出为txt文档,并可进一步导入Excel中进行绘图分析。
[注]:该步骤可对作者、期刊、会议、领域、时间、发文国家/地区以及发文的语言等进行统计分析。
(4)数据的导出和保存
目前Web of Science仅仅支持每次导出500条数据。步骤:在导出功能区选择Save to Other File Formats(如果需要其他格式的文件,也可以在此选择),进入数据导出页面。在数据导出页面中需要对相关参数进行设置,如我们首先导出前500条记录。在Records中输入1和500,在Record Content中选择 Full Record and Cited References,在File Formats中选择Plain Text,点击send即可下载前500条数据,并按照citespace要求的格式保存为“download_XXX”。
2.Scopus数据采集
(1)登录Scopus数据库首页,并检索2014年发表在Safety Science上的文献题录数据。在检索框中输入“0975-7535”,检索字段选择“ISSN”,点击检索按钮。
(2)结果页面反馈得到2014年发表在Safety Science的论文。用户可在左侧的信息栏中对数据的基本分布进行描述性统计分析。
(3)选中要下载的数据后,在页面上点击导出。进入数据的导出页面,在页面上选择导出的数据格式为RIS格式,数据导出的信息为“所有可用信息”,点击导出。下载结束后会得到一个名为.ris的文件。
3.Derwent专利数据
(1)登录Derwent专利数据库
可通过登录Web of Science后,选择专利数据库Derwent Innovations Index。
(2)数据结果及下载
Derwent数据下载的位置和方法与Web of Science科技论文文献数据下载的一致。
4.OA数据采集
PubMed数据采集
PubMed搜索引擎是美国NCBI(国家生物技术信息中心)开发的免费生物医学信息检索系统,该引擎的数据库来源为MEDLINE,核心主题为医学,也包括其他与医学相关的领域,如护理学或者其他健康学科。
在CiteSpace的页面可以直接对来自PubMed的数据进行检索和分析。
第一步:在CiteSpace功能与参数页面,将分析的数据定位到PubMed。
第二步:与Web of Science的数据分析类似,设置好参数后点击“GO”即可。
[注]:
a.由于从PubMed数据库得到的文献题录中不包含论文的参考文献,因此使用PubMed进行文献的共被引分析时会出现错误。
b.CiteSpace提供的ADS(天文学—物理学),arXiv(天文学—物理学)和NSF(美国科学基金会数据库)为免费开放的数据库,因此可以直接通过CiteSpace嵌入的数据检索功能完成检索和转换。
来源:CSDN
作者:岳野
链接:https://blog.csdn.net/weixin_37938228/article/details/104533907