在社会科学中如何使用数据？

独爱72H 2018-12-27 2923

电子说

1.2w人已加入

描述

随着计算机、智能手机和其他电子技术的发展，网络数据急剧增加，进而促使社会科学家发现新问题，或利用新方法解决老问题。经济学家、政治学家、社会学家可以使用谷歌、推特、脸书、网络博客等在线数据研究舆情、信息流动、疾病传播等问题。网络大数据的使用在社会研究中有三个基本优点（Johnson and Smith， 2017）。首先，与传统问卷数据相比，收集网络数据花费的时间和经费更少。传统问卷需要时间和经费培训调查员并对样本人群进行提问，但大数据方法避免了上述时间和经费的开销。第二，大数据具有即时性。时刻更新的大数据提供了第一时间研究突发事件的可能。第三，大数据具有完整性。问卷研究者总是面临低回馈率、项目无反应（item non-response）等问题，但每个人对网络大数据的贡献却逐年增加。虽然网络大数据有很多优点，社会科学家在使用网络大数据时需要考虑到其存在的局限性。本文将讨论在社会科学中使用网络数据的挑战：缺乏代表性、测量误差、更易出现第一型错误。此外，本文还将列举出缺乏代表性问题的几种解决办法，包括通过真实统计数据校准网络数据、通过双重差分模型推测数据变化的趋势、对网络数据加权、以及将网络数据视作面板数据。

1. 缺乏代表性

很多学者都指出，网络数据存在选择偏差，且研究者不能控制数据的代表性。由于老龄及贫困人口更少接触互联网，网络数据倾向于排除这些人群。例如，Scarborough （2018）抓取了2017年父亲节、母亲节期间包含女性主义关键词的推特数据。通过对这些推文进行朴素贝叶斯情感分析（Naïve Bayes sentimental analysis），作者得出了不同地区推文对女性主义的态度。为了研究推特数据的代表性程度，作者测试了推特情感指数与综合社会调查（General Social Survey）中性别态度指数的相关性。此外，作者还研究了不同种族、性别、受教育程度的个人的推特情感指数是否可以通过他们的性别态度进行预测。结果表明，针对女性主义的推特情感指数与综合社会调查中的性别态度指数高度相关。但推特情感指数与性别态度指数的相关性在不同种族和受教育程度的人群中存在差异：非白人人口和受教育程度低的人口使用推特较少，推特情感指数与性别态度指数的相关性也较低。上述结果表示，虽然推特是了解舆论的重要途径，它对总体人口并不具有代表性。

2. 测量误差

除代表性问题外，研究者还发现网络数据存在测量误差问题。一个经典案例就是谷歌流感趋势的失效。Lazer等人（2014）发现，谷歌搜索中的流感频率与现实中的流感爆发并不具有相关性。这就表示谷歌搜索热度也许并不是一种可靠的测量方法。除谷歌搜索外，测量误差还出现在社交媒体中。例如，通过脸书的“外籍墨西哥人（Expats Mexico）”分类，研究者可以研究住在美国年满18周岁的墨西哥移民情况（Zagheni et al. 2017）。脸书的“外籍人士”并无明确定义，一般基于两个因素：个人在资料栏填写的“居住城市”和“故乡”，及好友的社交网络结构。作者指出这样的定义存在潜在的测量误差：这种定义下的“外籍人士”并不一定出生在国外，且用户填写的个人资料未必是真实信息。这样的测量误差很难解决。基于此类数据的模型要经常重新校准（re-calibrate）。

3. 更易出现第一型错误

当两个变量间出现的显著关系是出于偶然，而非真实存在的关系时，第一型错误就发生了（Barocas and Selbst 2016）。这类问题在研究者把大量变量加入模型时更容易发生：加入的变量越多，越有可能发现出于偶然的显著关系。鉴于大数据包括大量的数据和变量，相比于传统的理论主导（theoretically driven）的研究方法，研究者在数据主导（data driven）的研究方法中更容易出现第一型错误（Boyd and Crawford 2012）。

解决办法

1. 通过真实统计数据校准

当面对网络数据缺乏代表性的问题时，研究者可以通过用真实统计数据校准的方法估计研究对象的数值。此方法需要对研究对象数值与他们在网上呈现的数据间的关系，及互联网渗透（internet penetration）与社会人口学变量间的关系做出函数假设。例如，Zagheni和Weber （2012）通过观察电子邮件的IP地址，研究不同年龄的人口迁出率。他们根据年龄和不同国家的互联网渗透率建立函数，估计迁出人口的误差值，再根据欧洲国家的人口统计数据对模型进行校准，通过对误差的估计，修正最初观察电子邮件得到的数据，得出真实的迁出人口数量。

但这种方法仅适用于统计数据完善的国家和地区。Zagheni和Weber （2012）发现，一些非洲国家网民数量少、互联网渗透率低，且缺乏完善的人口统计数据，此方法并不适用。

2. 双重差分模型

当缺乏完善的统计数据时，研究者还可以通过双重差分模型估计变化趋势（Zagheni and Weber 2012）。如果社交媒体的用户呈现出某种相似的变化趋势，那么研究者就可以比较某个特定群体或地区这段时间的变化与总体用户变化的区别，从而得到这个群体的相对变化趋势。

3. 对网络数据加权

另一个降低缺乏代表性造成的误差的方法是对网络数据进行加权。类似社交媒体用户组成的样本或总体样本都可以用来计算网络数据的权重（Diaz et al. 2015）。对数据加权便于比较不同用户群体。例如，女性发送推特的数量总体少于男性，但更热衷于针对政治问题发送推文。如果我们对女性用户的数据进行加权，就可以得出更具有代表性的结果。上文提到，非白人和受教育程度低的人群在推特上缺乏代表性。对这些群体加权可以增加他们在推特上的比重，一定程度上提高代表性。

4. 将网络数据视作面板数据

最后，面对缺乏代表性问题，与其将网络数据看作总体样本的代表，我们还可以将其视作面板数据，从而观察个人或群体在一定时间内的变化。例如，Diaz等（2015）观察了大选期间推特用户最近一次讨论选举的推文和当天任何一条推文之间的时间差，多数人的时间差在一周左右。但竞选辩论当天，研究者发现该时间差有显著增加，这意味着很多之前并不热衷于讨论竞选的用户在关键日期加入了讨论。此外，这些面板数据还可以用来研究某些事件发生前后的行为和态度变化，尤其适用于研究对某些群体有特定影响的事件。研究者可以选择来自不同群体的社交媒体用户，观察他们在事件前后的变化，并发现群体间的差异。

结论

本文列举了在社会科学中使用网络数据的几种挑战：缺乏代表性、测量误差、更易出现第一型错误。本文随后列举了缺乏代表性问题的几种解决办法，包括通过真实统计数据校准网络数据、通过双重差分模型推测数据变化的趋势、对网络数据加权、以及将网络数据视作面板数据。虽然网络数据为社会科学提供了更多研究资源，研究者在使用网络数据时要考虑到网络的特殊性，发现数据的不足，并尽可能缩小网络数据与现实数据的差异。

打开APP阅读更多精彩内容