-
摘要:
目的 利用时间序列特征提取方法对中国25个省级行政区的百日咳发病数据进行聚类, 根据聚类结果分析出各地区百日咳不同的发病模式, 为中国实施百日咳疾病防控统一规划提供科学依据。 方法 提取全国25个省级行政区百日咳时间序列的9个全局特征, 利用主成分分析将9个指标转化为3个主成分组成的特征矩阵进行层次聚类分析。选择最佳聚类数划分百日咳时间序列不同的发病模式。 结果 层次聚类最佳聚类数为3类, 即对应百日咳的3种发病模式, 分别为无周期性有季节性无趋势性模式(共9个省级行政区)、无周期性有季节性有趋势性模式(共10个省级行政区)和有周期性有季节性有趋势性模式(共6个省级行政区)。 结论 时间序列特征提取的层次聚类能够很好地将相似模式紧密的分在一组, 并准确的划分出中国25个省级行政区百日咳疫情的发病模式, 聚类结果可为相关部门制定不同省份百日咳的防控措施提供理论依据。 Abstract:Objective The data on the incidence of pertussis in 25 provincial administrative regions in China were clustered using a time-series feature extraction method.Based on the clustering results, the different incidence patterns of pertussis in various regions are analyzed to provide a scientific basis for the unified planning and implementation of pertussis disease prevention and control in China. Methods The nine global features of pertussis time series from 25 provincial administrative regions in China were extracted, and the nine indicators were transformed into a feature matrix consisting of three principal components using principal component analysis for hierarchical clustering analysis.The optimal number of clusters was selected to classify the different incidence patterns of pertussis time series. Results The optimal cluster number of hierarchical clustering was three categories, i.e.corresponding to the three incidence patterns of pertussis: acyclic, seasonal and non-trend pattern (9 provincial administrative regions in total), acyclic, seasonal and trend pattern (10 provincial administrative regions in total) and cyclic, seasonal and trend pattern (6 provincial administrative regions in total). Conclusion The hierarchical clustering by time series feature extraction can well group similar patterns closely together and accurately delineate the incidence patterns of pertussis in 25 provincial administrative regions of China.The clustering results can provide a theoretical basis for relevant departments to formulate prevention and control measures for pertussis in different Provinces. -
表 1 2011―2018年31个省级行政区百日咳发病总数
Table 1. Total incidence of pertussis in 31 provincial administrative regions from 2011 to 2018
省级行政区 发病数(例) 省级行政区 发病数(例) 西藏自治区 8 湖北省 757 辽宁省 23 山西省 793 青海省 24 甘肃省 793 海南省 31 贵州省 983 宁夏回族自治区 37 河南省 1 086 吉林省 55 浙江省 1 784 内蒙古自治区 103 湖南省 2 448 福建省 195 天津市 2 777 广西壮族自治区 202 河北省 3 123 上海市 216 四川省 3 439 黑龙江省 290 新疆维吾尔自治区 4 089 云南省 347 重庆市 4 473 江苏省 444 陕西省 4 860 江西省 544 广东省 5 327 安徽省 599 山东省 14 049 北京市 610 表 2 时间序列全局特征
Table 2. Global characteristics of time series
特征 表现指标 计算方法 基本统计特征 偏度 偏度 $S=\left(n \sigma^3\right)^{-1} \sum\limits_{t=1}^{\mathrm{n}}\left(y_t-y\right)^3$ 峰度 峰度 $K=\left(n \sigma^4\right)^{-1} \sum\limits_{t=1}^n\left(y_t-y\right)^4$ 时域特征 趋势 T趋势项 对滑动平均值进行回归 季节波动 S季节项 不同周期内同相位的观测值取平均数 自相关 Box-Pierc指数 $Q_h=n \sum\limits_{k=1}^h \widehat{\rho}_k^2$ Hurst指数 重极差(R/S)方法,回归求H
log((R/S)n)=log(K)+H log(n)非线性 BDS统计量 $W(N, m, r)=\sqrt{N} \frac{C(N, m, r)-C(N, 1, r)^m}{\widehat{\sigma}(N, m, r)}$ 混沌 李雅普诺夫指数 $L E=e^{N^{-1}} \sum\limits_{t=1}^N \lambda\left(Y_t, Y_t^*\right) /\left(1+e^{N^{-1}} \sum\limits_{t=1}^N \lambda\left(Y_t, Y_t^*\right)\right)$ 频域特征 周期强度 傅里叶变换系数 $P(j / n)=\left(\frac{2}{n} \sum\limits_{t=1}^n x_t \cos (2 \pi t j / n)\right)^2+\left(\frac{2}{n} \sum\limits_{t=1}^n x_t \sin (2 \pi t j / n)\right)^2$ 注:yt表示t时刻的观测值,t=1,2,...n,y表示yt的平均值;σ表示yt的标准差; $\widehat{\rho}_k$表示序列yt的k滞后自相关系数;R表示极差;S表示标准差;K为常数;H表示Hurst指数;n表示时间窗长度;m是嵌入区间,r为区间大小;$C(N, m, r)=\frac{2}{N(N-1)} \sum_{t<s} H\left(r-\left\|y_t{ }^m-y_s{ }^m\right\|\right)$为相关积分;yt和ys是序列{yt }在s,t时刻的观测值;$H(z)=\left\{\begin{array}{ll}0 & z \leqslant 0 \\ 1 & z>0\end{array} ; \widehat{\sigma}(N, m, r)\right.$(N, m, r)为C(N, m, r)-C(N, 1, r)m的渐进标准差的估计;Yt表示t时刻的观测值;Yt*则是与Yt最接近的点;N表示观测点总数;λ为常数;j表示n个数据点的j次循环;P(j/n)表示频率为j/n下的周期强度。 表 3 相关性分析表
Table 3. Correlation analysis table
指标 周期强度 趋势性 季节波动 Box-Pierce指数 BDS统计量 偏度 峰度 Hurst指数 李雅普诺夫指数 周期强度 1.000 趋势性 -0.167 1.000 季节波动 0.835 a -0.066 1.000 Box-Pierc指数 0.245 0.639 a 0.147 1.000 BDS统计量 0.099 0.156 0.004 0.295 1.000 偏度 0.001 -0.092 -0.049 0.136 0.667 a 1.000 峰度 0.035 -0.183 0.001 -0.005 0.297 0.775 a 1.000 Hurst指数 0.271 0.443 b 0.181 0.774 a 0.345 0.443 b 0.312 1.000 李雅普诺夫指数 -0.744 a 0.160 -0.746 a -0.010 -0.028 0.132 0.026 -0.003 1.000 注:a P<0.01; bP<0.05。 表 4 主成分的特征值和方差贡献率
Table 4. Eigenvalues and the variance contribution rate of principal components
主成分 初始特征值方差 旋转平方和载入方差 特征值 方差贡献率(%) 累积方差贡献率(%) 特征值 方差贡献率(%) 累积方差贡献率(%) 1 2.885 32.054 32.054 2.628 29.204 29.204 2 2.527 28.081 60.135 2.380 26.446 55.650 3 1.881 20.903 81.038 2.285 25.388 81.038 4 0.700 7.778 88.815 5 0.413 4.584 93.399 6 0.243 2.705 96.104 7 0.166 1.842 97.946 8 0.111 1.235 99.181 9 0.074 0.819 100.000 表 5 旋转后的因子载荷矩阵
Table 5. Factor load matrix after rotation
指标 主成分 1 2 3 周期强度 0.941 0.072 0.092 趋势性 -0.192 -0.168 0.851 季节波动 0.927 -0.017 0.066 Box-Pierc指数 0.137 0.115 0.923 BDS统计量 0.029 0.679 0.284 偏度 -0.068 0.968 0.051 峰度 0.006 0.857 -0.133 Hurst指数 0.167 0.442 0.766 李雅普诺夫指数 -0.892 0.064 0.091 -
[1] 汪丙松, 李振, 徐济宝. 百日咳再现及其原因研究进展[J]. 中华实用儿科临床杂志, 2021, 36(4): 311-315. DOI: 10.3760/cma.j.cn101070-20191106-01100.Wang BS, Li Z, Xu JB. Research progress on the recurrence and causes of pertussis[J]. Chin J Appl Clin Pediatr, 2021, 36(4): 311-315. DOI: 10.3760/cma.j.cn101070-20191106-01100. [2] 王增国, 马超锋, 闫永平. 全球百日咳重现及中国百日咳相关研究现状[J]. 中国疫苗和免疫, 2016, 22(3): 345-349. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGJM201603024.htmWang ZG, Ma CF, Yan YP. Global recurrence of pertussis and research status of pertussis in China[J]. Chinese Journal of Vaccines and Immunization, 2016, 22(3): 345-349. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGJM201603024.htm [3] Domenech de Cellès M, King AA, Rohani P. Commentary: resolving pertussis resurgence and vaccine immunity using mathematical transmission models[J]. Hum Vaccin Immunother, 2019, 15(3): 683-686. DOI: 10.1080/21645515.2018.1549432. [4] 疾病预防控制局. 2018年全国法定传染病疫情概况[EB/OL]. (2019-04-24) [2022-02-20]. http://www.nhc.gov.cn/jkj/s3578/201904/050427ff32704a5db64f4ae1f6d57c6c.shtml.Bureau of Disease Prevention and Control. Overview of national legal infectious diseases in 2018 [EB/OL]. (2019-04-24) [2022-02-20]. http://www.nhc.gov.cn/jkj/s3578/201904/050427ff32704a5db64f4ae1f6d57c6c.shtml. [5] 疾病预防控制局. 2019年全国法定传染病疫情概况[EB/OL]. (2020-04-20)[2022-02-20]. http://www.nhc.gov.cn/jkj/s3578/202004/b1519e1bc1a944fc8ec176db600f68d1.shtml.Bureau of Disease Prevention and Control. Overview of national legal infectious diseases in 2019 [EB/OL]. (2020-04-20)[2022-02-20]. http://www.nhc.gov.cn/jkj/s3578/202004/b1519e1bc1a944fc8ec176db600f68d1.shtml. [6] 谭慧仪, 李纯颖, 肖岚, 等. 湖南省2009-2018年百日咳流行特征分析与发病趋势预测[J]. 中华疾病控制杂志, 2020, 24(11): 29-34, 47. DOI: 10.16462/j.cnki.zhjbkz.2020.11.005.Tan HY, Li CY, Xiao L, et al. Analysis of epidemic characteristics and prediction of incidence trend of pertussis in Hunan Province from 2009 to 2018[J]. Chin J Dis Control Prev, 2020, 24(11): 29-34, 47. DOI: 10.16462/j.cnki.zhjbkz.2020.11.005. [7] 宋辞, 裴韬. 基于特征的时间序列聚类方法研究进展[J]. 地理科学进展, 2012, 31(10): 1307-1317. doi: 10.11820/dlkxjz.2012.10.008Song C, Pei T. Research progress of feature-based time series clustering method[J]. Progress in Geography, 2012, 31(10): 1307-1317. doi: 10.11820/dlkxjz.2012.10.008 [8] Wang X, Smith K, Hyndman R. Characteristic-based clustering for time series data[J]. Data Min Knowl Discov, 2006, 13(3): 335-364. DOI: 10.1007/s10618-005-0039-x. [9] Kabacoff RI. R语言实战[M]. 北京: 人民邮电出版社, 2013: 343-347.Kabacoff RI. R language practice[J]. Beijing: People's Posts and Telecommunications Press, 2013: 343-347. [10] 刘铁诚, 何寒青, 周洋, 等. 2005-2017年浙江省百日咳流行病学分析[J]. 中国疫苗和免疫, 2019, 25(1): 54-58. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGJM201901013.htmLiu TC, He HQ, Zhou Y, et al. Epidemiological analysis of pertussis in Zhejiang Province from 2005 to 2017[J]. Chinese Journal of Vaccines and Immunization, 2019, 25(1): 54-58. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGJM201901013.htm [11] 张晓宇, 张进保, 王锐泽, 等. 1954-2019年陕西省宝鸡市百日咳流行病学特征分析[J]. 疾病监测, 2020, 35(8): 753-756. DOI: 10.3784/j.issn.1003-9961.2020.08.016.Zhang XY, Zhang JB, Wang RZ, et al. Epidemiological characteristics of pertussis in Baoji City, Shaanxi Province from 1954 to 2019[J]. Disease surveillance, 2020, 35(8): 753-756 DOI: 10.3784/j.issn.1003-9961.2020.08.016. [12] 孙喜望, 边长玲. 枣庄市2013-2018年百日咳流行病学特征分析[J]. 中国公共卫生, 2021, 37(6): 1008-1011. DOI: 10.11847/zgggws1128075.Sun XW, Bian CL Epidemiological characteristics of pertussis in Zaozhuang City from 2013 to 2018[J]. Chin J Public Health, 2021, 37(6): 1008-1011 DOI: 10.11847/zgggws1128075. [13] 谭慧仪, 李纯颖, 肖岚, 等. 湖南省2009-2018年百日咳流行特征分析与发病趋势预测[J]. 中华疾病控制杂志, 2020, 24(11): 1263-1268, 1281. DOI: 10.16462/j.cnki.zhjbkz.2020.11.005.Tan HY, Li CY, Xiao L, et al. Analysis of epidemic characteristics and prediction of incidence trend of pertussis in Hunan Province from 2009 to 2018[J]. Chin J Dis Control Prev, 2020, 24(11): 1263-1268, 1281. DOI: 10.16462/j.cnki.zhjbkz.2020.11.005.zhjbkz.2020.11.005. [14] 孙印旗, 王乐雨, 曹玉雯, 等. 河北省2012-2018年百日咳病例医疗机构报告分析[J]. 中国疫苗和免疫, 2019, 24(11): 1263-1268. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGJM201906010.htmSun YQ, Wang LY, Cao YW, et al Analysis of reports from medical institutions of pertussis cases in Hebei Province from 2012 to 2018[J]. Chinese Journal of Vaccines and Immunization, 2019, 24(11): 1263-1268. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGJM201906010.htm [15] 裴亚楠. 2010-2017年天津市滨海新区百日咳流行病学特征分析[D]. 天津: 天津医科大学, 2020.Pei YN. Epidemiological characteristics of pertussis in Binhai New Area of Tianjin from 2010 to 2017[D]. Tianjin: Tianjin Medical University, 2020. [16] 郑琳琳, 徐东雨, 娄岩. 我国各省主要呼吸道传染病发病率的聚类分析[J]. 预防医学情报杂志, 2017, 33(10): 969-972. https://www.cnki.com.cn/Article/CJFDTOTAL-YFYX201710004.htmZheng LL, Xu DY, Lou Y. Cluster analysis of the incidence rate of major respiratory infectious diseases in various provinces of China[J]. J Pre Med Inf, 2017, 33(10): 969-972. https://www.cnki.com.cn/Article/CJFDTOTAL-YFYX201710004.htm [17] 陈佳, 谢娜, 吴秀峰, 等. 基于ARIMA乘积季节模型的新疆喀什百日咳流行趋势分析[J]. 新疆医科大学学报, 2017, 40(3): 380-384. DOI: 10.3969/j.issn.1009-5551.2017.03.028.Chen J, Xie N, Wu XF, et al. Analysis of epidemic trend of pertussis in Kashgar, Xinjiang based on ARIMA product seasonal model[J]. Journal of Xinjiang Medical University, 2017, 40(3): 380-384. DOI: 10.3969/j.issn.1009-5551.2017.03.028. -