设为首页  |  加入收藏
研究生院
 首页 | 部门简介 | 招生信息 | 教学培养 | 学籍学位 | 学生工作 | 政策法规 | 下载中心 | 信息系统 | 党建工作 
  通知公告  
 
  站内搜索
 
站内搜索:
 
 
当前位置: 首页>>学生工作>>最新通知>>正文
 
抗“疫”不停研,导师助研系列之五:郭树龙--研究生做科研如何收集到质量好的数据
2020-03-20 09:42  

编者按:同学们好!今天我们推出《抗“疫”不停研,导师助研》系列第五期。这一期,我们有幸邀请到了商学院市场营销系的硕士生导师郭树龙博士,跟大家聊聊研究生做科研如何收集到质量好的数据。

 

如何看待数据在科研中的作用。俗话说巧妇难为无米之炊,数据对于实证研究来说是非常重要的,很多同学都会利用各种途径寻找数据。那么数据在科研中有多重要呢?这还要从利用数据做实证研究的思路说起。一般思路是从现实问题着手进行分析,根据研究需要去收集数据。当然,在某些特殊情况下,我们能够获得一些独特的数据,那会驱使我们围绕该数据开展研究。不管哪种思路,具备敏锐洞察现实问题的能力和扎实的理论功底,是利用数据开展研究工作的基础。其次,才是做好研究设计,收集整理数据,进行行实证分析。因此,数据仅仅是进行研究的重要文献资料,数据收集也只是开展研究工作的一个重要环节,我们绝不能舍本逐末。

数据的主要类型。按照数据所体现的主体层次可以将数据划分为微观数据和宏观数据。微观数据是按照统计或调查的基本单位进行统计的数据,如中国工业企业数据、中国海关数据、中国家庭金融调查数据(CHFS)、中国家庭追踪调查数据(CFPS)、中国综合社会调查(CGSS。宏观数据主要涉及国家或地区年度、季度的经济增长、投资、财政税收、物价、金融、国际贸易等宏观经济运行的数据,如中国统计年鉴中的数据等。按照数据来源可分为调查数据和行政机构提供的数据。调查数据主要由各类社会机构、个人进行调查研究,形成的数据库,如中国家庭金融调查数据(CHFS)、中国家庭追踪调查数据(CFPS)等。行政机构提供的数据由政府相关部门提供的数据,该类数据样本量比较大、可信度比较高,如中国工业企业数据、中国经济普查数据中国人口普查数据等。

数据使用的趋势。数据使用的趋势在某种程度上折射出了研究趋势,可以概括为四个方面:一是从宏观数据转向微观数据宏观经济、区域经济以及产业分析研究不满足使用宏观层面、地区层面和行业层面数据,逐渐拓展到利用企业、产品、家庭及消费者微观层面数据进行分析能够细致揭示宏观效应的微观机制以及个体微观异质性的影响。二是从调查数据(Survey Data)转向行政机构提供的数据(Administration Data行政机构提供的数据具有一定的权威性和相对公开性,并且收集的样本量比较如中国工业企业数据、中国海关数据库等。三是文本数据逐渐兴起近年来利用文本数据进行研究在经济学、管理学、社会学等学科领域逐渐增多,得益于互联网的广泛应用和计算机技术的快速进步。四是,多数库联合使用成为一种主流趋势多数据联合使用有助于拓展研究领域以及研究深度,提升数据库使用的潜力。

高质量数据的标准。高质量数据应该具备以下几个标准:从数据结构来看,面板数据要好于截面数据、时间序列数据。面板数据兼顾了个体差异与时间动态变化趋势,能够构建更为复杂的行为模型,也可以降低或消除因遗漏变量而导致的内生性问题。从数据来源看,官方行政机构提供的数据要好于调研数据。官方行政机构提供数据准确性和可靠性更高。从数据样本量来看,数据样本量以及指标维度越多越好。这种数据显著提高模型估计的精度,也能进一步丰富研究内容。

当前常用的数据库。当前,学术界认可度、使用频率比较高的数据,包括中国工业企业数据中国海关数据世界银行企业营商环境调查数据等。如果综合评估各种数据库价值的话,中国工业企业数据库肯定能排在第一位,关键在于其包含的样本量大、时间跨度长,且能与中国海关数据库、中国专利数据库进行匹配,可拓展的研究主题比较广。此外,如中国专利数据库在研究创新方面具有比较的高价值,且其能够与中国工业企业数据库进行匹配。

利用数据开展研究所做的准备工作。在利用数据做研究之前要做好准备工作,这关系利用数据进行实证分析的质量。首先,要阅读相关主题研究的文献,掌握该主题研究都使用了哪些数据库,这些数据库囊括的样本量、数据指标如何,是否能满足开展研究的需要。其次,要明确这些数据是否能公开获得,或者学校是否已购买,或者导师、周围同学是否拥有该数据。当然,不乏权威的经济研究机构、重要期刊公开了学者研究数据,如美国比较权威的经济研究机构NBER自建公开学者数据库,中国工业经济于201711月也开始公开所刊文的数据,在其网站可以下载。此外,部分文献是作者自建数据库,我们要考量能否通过复制该文献搜集数据的方式搜集数据。特别是,文本数据往往都是网络爬虫获得。我们要权衡个人能否短时间内按照该方法收集到数据,或者也可以利用第三方进行收集。

学会清洗数据。清洗数据是利用数据进行实证分析非常关键的一步,这与厨师做菜是一个道理。厨艺在高明的厨师如果使用了未择净的菜,也做不出来美味佳肴。那么如何进行数清洗呢?清洗数据通俗讲就是将数据中那些“杂质”数据剔除或者修正?很多研究生急于找到数据马上跑模型,殊不知垃圾的数据出来肯定是垃圾的结果。进行数据清洗要严格按照步骤来:第一步是了解各数据指标的定义及取值范围。第二步是运用各种方法辨识数据库中的“杂质”。可以通过计算数据的各种主要统计量辨识有问题的样本,包括均值、最大值、最小值、标准差和变量之间关系,重点观察是否存在不可能、不现实的值。此外,也可以通过画散点图,观察数据之间的关系以及数据取值是否合理。

    学好数据分析工具。工欲善其事必先利其器,进行数据整理清洗的前提条件是要学好数据分析工具。目前,很多数据样本量越来越大,如1998-2013年工业企业数据库拥有435余万个样本,并且通常要与其他多个数据库匹配联合使用。这要求我们必要熟练掌握一种主流的数据分析软件,对数据进行相应的处理分析。目前,应用比较广泛的数据分析软件包括StataRSas等。相对R软件,Stata更容易入门。总之,我们要熟悉掌握一种能够有效处理数据以及进行实证分析的软件。此外,我们也可以学习当前比较流行的Python等软件,可以帮助我们搜集整理大量文本数据,有助于我们拓展研究主题。

郭树龙老师简介


郭树龙,经济学博士,天津财经大学商学院市场营销系教师硕士研究生导师,主要研究领域为产业组织理论与政策、产业发展与产业政策、环境规制与企业行为,专长于微观计量方法在产业经济领域的应用和公共政策量化评估等。主持国家社会科学基金一般项目1项、教育部人文社会科学基金青年项目1项。近年来在《中国工业经济》、《财经研究》、《世界经济研究》等期刊发表论文20余篇,多篇被人大复印资料全文转载。作为主要成员参与国家社会科学基金重大项目、国家社会科学基金重点项目、国家自然科学基金青年项目多项;获得教育部第七届高等学校科学研究优秀成果奖二等奖。


关闭窗口
 
校内导航
 
友情链接  
站内搜索 无标题文档
 
 

研究生院        版权所有