时空统计模型(一):空间统计

接触空间统计学已有近3年了,从毕设开始,得知R在空间统计方面的优势后,毅然扎进”Spatial”和”R”的世界里,Spatial-R的名称应运而生。我从不夸大空间统计学和R软件在我研究生时候的贡献,但自己对于这两样宝贝的热爱,却也不是其他东西能够比拟的。书呆子的生活自是如此,乐此不疲。

还是进入正题,这次主要讨论的主题是空间统计学和时空数据模型等,当然,全部是基于R来实现。因篇幅有限,在此只给大概思路,感兴趣的朋友可以进一步探讨(邮箱:zhangbing4502431@outlook.com)。


国际上已广泛建立了传染病的早期预警平台,但主要是针对症状监测,相比于传统的病例监测,症状监测可以更早期地探测到特定传染病的发生和发展趋势。我国已经建立较为完善的传染病病例监测系统(如传染病疫情信息网络直报系统,俗称“大疫情系统”),通过病例数据探索传染病传播过程中的异常,并及时采取相应的应对措施,可以有效降低传染病所带来的危害。


空间统计

空间统计其实是个很宽泛的概念,世间万物都有其空间属性,但并不代表都能用空间统计学去诠释。当然,也有很多原本不存在明显空间熟悉的事物,我们可以将其转换成或者理解成具有空间属性。这里所强调的,也就是不仅仅只有带有经纬度属性的事物才具备空间数据。

目前在公共卫生领域比较常见的两类是:点数据和面数据。点数据比如传染病的发病地点;面数据比如各个区县的发病总人数。针对点数据,主要是来探讨空间点格局分布进而探讨可能的热点区域;而面数据更多是建立空间回归模型,如空间滞后模型,空间杜宾模型等。当然,空间点数据也可以建立空间回归模型,空间权重的选择往往成为头疼的话题(多大的带宽或者阈值距离最合适)。面数据也可以用以探讨热点,但其揭示的热点往往有点泛(如整个区县是热点,公共卫生的意义并不大)。


热点探测

地方病、传染病及环境污染所致疾病均可表现出空间聚集性,而传染病在传播途径、流行机制等方面的特殊性决定了其病例的分布特征与其他疾病存在较大差异,其空间属性主要体现在空间自相关(空间依赖性)和空间异质性。空间自相关性表现为目标地区与邻近地区发病水平及特征较强,与距离远的地区差异大,空间异质性表现为不同地区因为其”位置”原因而存在差异。

公共卫生(Public Health)中较为常见的是病例个案(也就是点数据),记录着病例个案详细的地址信息。因而在热点探测时,需将详细地址信息转换成经纬度信息。因Google地图API被封,我们可以借助百度地图API,具体操作的方式可参考我的博文(点点)。

获取经纬度信息后,则可利用R中的DCluster程序包和Spatsta程序包分别进行热点探测(Cluster Dectecting)和点格局分析(Pattern Analysis)。热点探测也叫聚集性分析,主要包括全局检验和局部检验。顾名思义,全局检验是看疾病在整体或者全局水平上是否具有聚集性,而不管聚集点分布在何处;而局部检验则从底层去探讨和发现可能存在的局部热点。全局聚集性探测可采用KnoxRogerson 等方法,局部聚集性探测则可采用TurnbullBesag-Newell时空扫描 等方法。


全局性热点探测


Knox

Knox,最早也最为经典的全局检验方法(1964由统计学家E.G.Knox提出来,用以检验疾病的时空交互作用),能充分利用病例的时空信息,不需要人口学数据,计算简便。基本原理如下:

    病例两两配对,然后设定时间和空间临界值,以此标准来判断病例对间距离是"近"还是"远"。
    若时间和空间距离均为"近"的病例对与期望值的差异具有统计意义,则该区域内该病存在时空聚集性。

假设n个病例,则可配成N=n*(n-1)/2个病例对子,如果知道了每个个案的发病时间和发病位置,则可计算每个病例对之间的空间距离和时间距离。在定义了时间界值(t)和空间界值(s)后,Nt则为时间距离为近的病例对子总数,Ns则为空间距离较近的病例对子总数,X是时间距离和空间距离均为近的病例对子总数,也就是Knox方法的统计检验量,可得到如下的四格表:

时间距离 <s >s 合计
<t X b Nt
>t c d Nt1
合计 Ns NS1 n

统计推断方法包括

  • 卡方检验:样本量较大时,可采用卡方检验,对Knox方法而言,其本身要求设定的空间临界值足够小,因而X样本量偏小的情况较常见。
  • Possion估计法:当Nt和Ns相对于N来说较小时,X的方差接近于它的均数,此时可采用Possion估计法。但当Nt和Ns较大时,使用该方法进行推断时会有偏性。
  • 基于Possion分布的估计法:与Possion估计法相似,其以正态分布代替Possion分布,一般当u>20时,Possion分布近似正态分布。
  • Barton-David: 仍假设X服从正态分布,但当Ns和Nt较大时,仍能进行无偏推断。
  • 蒙特卡罗法:一种无偏的估计方法,目前较好地能够进行Knox检验。

时间、空间临界值的确定

  • 已知疾病信息,时间界值可按照设为其潜伏期天数,空间界值可设定为相邻农场的距离。
  • 未知疾病信息,可设置一系列时间界值和空间界值,分别对各个组合进行检验。需注意时间界值和空间界值的设定不能超过其所有病例对子的平均时间距离或平均空间距离(平均时间距离=所有病例对子的时间间隔之和/病例对子总数,平均空间距离=所有病例对子的空间距离之和/病例对子总和)

Rogerson

Rogerson,能对传染病的时空进行动态监测,可利用历史数据和不同传染病的危害程度来调整参数和报警界值,有效降低漏报和误报。基本原理如下:

    在Tango方法的基础上,将样本按n个单位进行分割,使得Zi呈正态或者接近正态。  

未完待续

Previous     Next Spatial-R /
Published under (CC) BY-NC-SA in categories 统计  tagged with 空间统计  时空模型  R