Design and Implementation of Sina Weibo Earthquake Public Opinion Database
-
摘要: 社交媒体地震舆情数据可实时反映灾区现状,为震后应急提供较好的地震灾情舆情研判服务。选取新浪微博作为数据源,对接EQIM,采用新浪微博开放平台API与分布式网络爬虫相结合的方式获取地震舆情数据。在数据清洗和基于fastText地震相关性分类模型进行数据预处理的基础上,应用MySQL关系型数据库,设计并实现我国大陆地区准实时新浪微博地震舆情数据库及管理平台。现阶段,该数据库收集了2021年1月1日至2022年3月31日我国大陆地区3.0级及以上地震447次、地震舆情数据732 949条,实现数据下载、快速查询及精确查询,方便数据查询与管理,有助于震后舆情监控与灾情快速获取。Abstract: Social media earthquake public opinion data reflect the current situation of the disaster area in real time, and provide a better service of earthquake disaster public opinion evaluation for post-earthquake emergency response.In this paper, selecting Sina Weibo as the data source and connecting EQIM, the combination of Weibo API interface and distributed web crawler is used to obtain earthquake public opinion data.On the basis of data cleaning and data preprocessing based on fastText seismic correlation classification model, using MySQL relational database,we design and achieve the quasi real-time Sina Weibo earthquake public opinion database and database management platform in mainland China area.At present, the database has collected 447 earthquakes with MS3.0 or above in mainland China from January 1, 2021 to March 31, 2022, and 732 949 earthquake public opinion data. It lays a foundation for social media earthquake public opinion data mining and analysis research.
-
Key words:
- Database /
- Earthquake emergency /
- Network public opinion /
- Social media /
- Sina Weibo
-
引言
随着国家地震烈度速报与预警项目工程的实施,将在全国建设大量烈度计观测台站,弥补现有地震台网能力的不足,有效提高减灾和社会服务能力。其中,天津地区已在京津冀简易烈度计预警示范工程中先行建设了80个简易烈度计台站,与天津行政区内具备实时传输能力的测震台站和强震动台站共同组建天津地震预警观测系统(许可等,2019)。现有观测系统中缺少台站设备状态监控,台站各种设备基本处于未知状态,台网中心设备维护人员对台站设备状态的判断仅限于烈度计信号通断与否,台站出现故障后(如市电故障、电压不稳、网络故障、设备死机等),运维人员无法远程判断故障原因并进行有效处理,须到现场进行排查及维修,增加了运维成本,且效率较低。针对上述问题,设计烈度计台站远程监控系统,使台网和台站值班人员可在线实时查看仪器运行状态,及时发现各类设备故障,并对故障进行远程处理,提高台网管理与维护能力。
1. 监控系统的构成
烈度计台站远程监控系统物理架构如图 1所示,分为硬件设备和软件平台。硬件设备主要包括信息采集设备、服务器、PC和手机,其中,信息采集设备部署在烈度计台站,是整个监控系统的数据支撑,也是逻辑架构中的数据采集层。软件平台部署在监控中心,涉及业务层的使能平台和大数据页面、数据仓库层中的数据库、服务器中的MQTT中间件、手机APP等。
信息采集设备采集台站供电、网络、仪器状态等信息,将采集到的原始数据上传至使能平台进行存储,将原始数据传至解析器,解析器对电源数据、专业仪器数据、网络数据等进行类型分析,同时判断数据是否正常,并进行数据分类存储与统计分析,大数据界面通过GIS地图显示台站状态,对异常数据台站进行报警。运维人员查看报警台站实时数据信息,通过使能平台或手机APP向信息采集设备发送控制指令,对观测仪器等设备进行远程维护。
2. 信息采集设备
2.1 设备功能
烈度计台站信息采集设备通过对台站设备运行状态、供电状态、网络状态等进行全方位监测,及时发现并处理存在的问题,最大程度地减小设备离线率和故障率,确保台站设备安全可靠地运行。根据实际需求,本系统具有以下功能:
(1)基于NB-iot通信具有功耗低和费用低的特点,信息采集设备上行数据接口采用单独的NB-iot通信链路,信息采集设备采集台站监控信息,并通过NB-iot网络回传至台网监控中心的监控平台。
(2)信息采集设备可通过以太网口对台站现有连接网络设备(路由器和烈度计)进行网络通讯,发现问题及时报警。设备可通过以太网读取烈度计状态信息及实时数据信息,进而对专业设备状态进行监控(王建国等,2010)。
(3)信息采集设备支持接入、接出市电,并对市电电压、电流、功率、功率因数、频率、用电量等参数进行监测。同时信息采集设备不影响其他设备供电,即使信息采集设备出现故障,也不会影响其他设备的正常供电。
(4)设备具有多路I/O输入及1路RS485输入接口,支持其他设备接口接入,对设备运行状态进行监测,从而判断设备是否正常运行。
(5)信息采集设备设有1路继电器输出,将需控制设备的供电线路接入继电器常闭端,即可通过终端发送特定指令完成相应设备的关闭、打开和重启(陈吉锋等,2012)。
(6)信息采集设备内置电容,能保证台站在断电情况下短时间工作,将故障信息回传。
2.2 功能实现
设备核心功能模块主要包括核心嵌入式控制器(MCU)模块、NB通信模组模块、能耗测量模块、网络通讯模块。信息采集设备功能模块逻辑图如图 2所示,其中,主控模块是设备的核心,通过C语言和汇编语言实现设备核心算法与逻辑控制,完成对外围硬件的控制功能;电源模块为控制电路提供电源;数据采集模块实现不同通讯协议设备的接入,包括电能计量模块、I/O接口输入、RS485通讯接口等;以太网模块实现与本地路由器之间的通讯,通过TCP传输协议查询台站设备间的网络连通情况,包括烈度计、路由器等网络联通信息(宁晓青等,2019);控制模块通过接收主控模块的指令实现设备断电、重启等操作;NB模块为通信模块,可使用3家运营商的NB服务,实现监控信息及控制指令的传输。
2.3 设备配置
上位机设备配置软件通过RS485接口与设备进行通信,实现NB-iot网络、以太网、测量量、烈度计等参数的配置,上位机配置软件界面如图 3所示。NB-iot网络参数配置实现设备与监控中心接收数据服务器的通信,需配置的主要参数包括MQTT服务器地址和端口、登陆ID及订阅主题;以太网参数配置实现设备与烈度计和路由器间的通信,需配置的主要参数包括设备网卡IP地址、网关地址和掩码地址;测量量参数配置实现台站网络与供电的监控测量,需配置的主要参数包括台站设备IP地址、环境参数(如电压、功率、温度等);地震烈度计监测参数配置实现烈度计状态信息的监控测量,需配置的参数主要包括烈度计类型和IP地址。
3. 监控平台
监控平台是基于物联网侧设备接入使能的云化平台系统,能有效监控烈度计台站设备数据的采集、存储、分析、数据展现及发布、智能管控等,平台具备丰富的对外数据接口,可简单灵活地通过插件编程实现不停机对接收数据保存、解析、加解密、格式转换等。
3.1 逻辑架构
监控平台逻辑架构从功能层上分为数据仓库层、功能层和业务层(图 4)。
数据仓库层实现对数据存储表的管理,包括信息采集设备上传的原始数据表、解析数据表、用户管理表、业务报表、系统监控表、参数设备表。功能层包括监控平台实现的功能,如身份认证、数据解析、数据查询和报表分析等。业务层包括使能平台和大数据页面,使能平台主要完成数据查询统计和下行,大数据页面完成数据统计分析及展示。
3.2 功能模块
监控平台从使用上分为用户模块、设备模块、应用模块和解析器模块,其中,用户模块为基础,设备模块为纽带,应用模块为主干,解析器模块为重点,各模块功能见表 1。
表 1 监控平台各模块功能Table 1. Functions of monitoring platform modules模块 功能 用户模块 存储用户的基本信息,按登录用户信息显示不同的平台信息 设备模块 对上行数据进行分类,将数据与设备对应,对设备基本信息进行查询与维护 应用模块 作为设备与解析器的依托,控制设备离线监测、数据解析、设备报警等功能是否开启 解析器模块 将所有上行数据解析后展现在监控平台的大数据界面上 4. 系统应用
烈度计台站信息采集设备已在80个简易烈度计台站安装部署,监控平台在台网中心服务器进行部署,监控平台基于B/S架构进行设计,方便用户操作。值班人员通过监控平台大数据界面(图 5)查看台站运行状态,发现报警及时远程维护。监控系统在实际运行过程中多次监测到台站供电中断、网络故障和烈度计数据异常。当监测到台站供电中断时,运维人员第一时间给烈度计台站看护人员打电话确认供电故障的具体原因,确保供电故障及时修复;当监测到台站网络中断时,通过远程控制路由器重启解决由于路由器死机导致的网络故障;当监测到烈度计数据异常时,通过远程控制烈度计重启解决由于烈度计死机导致的数据异常问题。
监控平台还具有大数据统计分析功能,如可对台站报警类型及报警次数日排名、台站通信流量排名、台站电压日统计报表、报警次数月统计报表、台站报警类型占比、台站报警状态占比进行展示。运维人员可根据相关统计报表有针对性地对台站各类设备进行定向优化升级,保证观测数据的稳定可靠。
5. 结语
烈度计台站远程监控系统可实时监控烈度计台站各设备运行状态,设备如果出现故障可判断具体故障原因,并及时进行远程维护,减少运维成本,有效提高运维人员工作效率和监测数据的连续率,具有应用与推广价值。
-
表 1 微博数据获取方法
Table 1. Data acquisition methods of Weibo
方法名称 原理与功能 优点 缺点 备注 微博开放平台API 作为1组预先定义的函数,微博运营商将开放的微博产品服务封装为一系列计算机易识别的数据接口,供第三方开发者使用。第三方向固定的网络地址提交参数后,返回数据供使用(杨飞等,2016) 调用简单,无须访问源码及了解内部工作机制等细节,相比网络爬虫等方式,使用更简洁高效 抓取次数有限制,抓取数据不全面,数据获取有一定的成本与难度。运营商对API的权限设置及访问次数进行限制,大部分接口需付费使用(廉捷等,2011) 返回数据格式通常情况下为JSON 和 XML 网络爬虫 作为1段计算机程序, 按照一定的逻辑和算法从互联网上抓取和下载网页,得到网页上的数据。具体操作流程为:设定爬行策略,从预定的1个或多个节点开始爬取网页,获取网页数据及其URL链接,再通过URL链接爬取网络中的其他节点,满足爬行条件后终止爬虫程序,并以文本形式保存(袁浩,2009;廉捷等,2011;游翔等,2014) 数据格式可定制,微博数据的获取一般均适用,且不受微博运营商权限开放范围的限制 稳定性差,时间、人力成本高。微博运营商会不定期调整HTTP请求参数及返回HTML页面格式,导致无法获取和解析微博数据,需定期监测爬虫运行情况(刘晓娟等,2013) 数据源镜像 微博运营商为所需数据的用户提供数据服务(游翔等,2014) 数据质量高 一般不向大众开放,只在政府机关传召时提供 开放数据平台 机构或个人将自己获取的数据集、语料库等以开放平台的形式公开(刘晓娟等,2013) 数据已完成预处理,可直接使用,提高研究效率 常规数据获取类型与范围受限;定制化数据获取收费较高 国内外较著名的数据开放平台有Data mo、Get The Data、SNAP、中国爬萌和数据堂等(刘晓娟等,2013) 表 2 新浪微博地震舆情数据库字段属性
Table 2. Field attribute table of Weibo earthquake public opinion database
序号 字段名称 中文含义 数据类型 备注 1 eqid 地震唯一标识码 字符串 — 2 longitude 微博发布位置经度 数值型 — 3 latitude 微博发布位置纬度 数值型 — 4 mid 微博唯一标识 字符串 — 5 Pub time 微博发布时间 字符串 YYYY:MM:DD HH:mm:ss 6 content 微博内容 字符串 — 7 city 微博用户所在城市 字符串 — 8 uid 微博用户ID 字符串 — 9 nick_name 微博用户昵称 字符串 — 10 user_createtime 微博创建时间 字符串 YYYY:MM:DD HH:mm:ss 11 heading 评论人头像 字符串 — 12 belong_to_mid 评论属于的微博 数值型 — 13 pics 发布的图片 字符串 — 14 belong_to_orzid 评论ID 数值型 — 表 3 部分地震舆情数据(2021年1月1日至2022年3月31日)
Table 3. List of earthquake public opinion data catalogue (From January 1, 2021 to March 31, 2022)
序号 发震时间 纬度/(°) 经度/(°) 深度/km 震级MS 发震地点 数据量/条 1 2021-01-01 6:07:08 26.24 101.27 16 3.0 云南楚雄州大姚县 75 2 2021-01-02 4:24:34 36.86 94.62 9 3.5 青海海西州格尔木市 37 3 2021-01-03 2:40:25 25.63 99.92 11 3.2 云南大理州漾濞县 436 4 2021-01-03 8:34:37 24.69 117.70 28 3.0 福建漳州市长泰县 2 115 5 2021-01-03 16:16:30 43.86 91.48 10 3.6 新疆昌吉州木垒县 18 6 2021-01-04 0:34:11 29.43 104.52 10 3.2 四川自贡市荣县 422 7 2021-01-04 10:58:29 29.41 104.02 13 4.2 四川乐山市犍为县 1 788 8 2021-01-04 21:49:35 31.08 119.51 6 3.3 安徽宣城市广德县 960 9 2021-01-05 8:45:31 35.78 82.49 10 3.1 新疆和田地区于田县 19 10 2021-01-05 11:49:26 42.31 81.13 10 3.1 新疆伊犁州昭苏县 25 …… …… …… …… …… …… …… …… 437 2022-03-25 15:09:42 36.09 77.89 9 3.1 新疆和田地区皮山县 3 621 438 2022-03-26 0:21:02 38.5 97.33 10 6.0 青海海西州德令哈市 3 591 439 2022-03-28 6:21:47 42.88 87.68 14 3.0 新疆吐鲁番市托克逊县 1 071 440 2022-03-28 22:10:00 40.44 83.49 10 3.2 新疆阿克苏地区沙雅县 1 805 441 2022-03-29 5:25:09 30.03 103.41 10 4.3 四川眉山市丹棱县 1 662 442 2022-03-29 9:44:15 42.18 83.51 10 3.2 新疆阿克苏地区库车市 1 175 443 2022-03-29 9:59:33 36.12 77.95 10 3.7 新疆和田地区皮山县 1 141 444 2022-03-30 11:52:28 27.00 103.26 10 3.7 云南昭通市巧家县 1 064 445 2022-03-31 5:59:09 28.35 104.87 10 3.0 四川宜宾市长宁县 1 657 446 2022-03-31 18:05:22 33.77 91.67 9 3.4 青海海西州唐古拉地区 1 922 447 2022-03-31 18:16:02 29.29 105.49 10 3.2 重庆荣昌区 1 892 -
薄涛, 2018. 基于社交媒体的地震灾情数据挖掘与烈度快速评估应用. 哈尔滨: 中国地震局工程力学研究所.Bo T. , 2018. Earthquake disadter data mining and application of rapid intensity assessment based on social media. Harbin: Institute of Engineering Mechanics, China Earthquake Administration. (in Chinese) 薄涛, 李小军, 陈苏等, 2018. 基于社交媒体数据的地震烈度快速评估方法. 地震工程与工程振动, 38(5): 206—215Bo T. , Li X. J. , Chen S. , et al. , 2018. Research of seismic intensity rapid assessment based on social media data. Earthquake Engineering and Engineering Dynamics, 38(5): 206—215. (in Chinese) 曹彦波, 吴艳梅, 许瑞杰等, 2017 a. 基于微博舆情数据的震后有感范围提取研究. 地震研究, 40(2): 303—310Cao Y. B. , Wu Y. M. , Xu R. J. , et al. , 2017 a. Research about the perceptible area extracted after the earthquake based on the microblog public opinion. Journal of Seismological Research, 40(2): 303—310. (in Chinese) 曹彦波, 毛振江, 2017 b. 基于微博数据挖掘的九寨沟7.0级地震灾情时空特征分析. 中国地震, 33(4): 613—625Cao Y. B. , Mao Z. J. , 2017 b. Analysis of the spatial and temporal characteristics of disaster-information about the Jiuzhaigou, Sichuan MS7.0 earthquake based on data mining of Sina Weibo. Earthquake Research in China, 33(4): 613—625. (in Chinese) 曹彦波, 2018. 基于新浪微博的2018年云南通海5.0级地震舆情时空特征分析. 地震研究, 41(4): 525—533Cao Y. B. , 2018. Analysis of the spatial and temporal characteristics of public opinion about Yunnan Tonghai MS5.0 Earthquake in 2018 Based on Sina Micro-blog. Journal of Seismological Research, 41(4): 525—533. (in Chinese) 褚俊秀, 徐敬海, 2016. 地震灾情位置微博抓取与展示. 地理空间信息, 14(5): 38—40 doi: 10.3969/j.issn.1672-4623.2016.05.012Chu J. X. , Xu J. H. , 2016. Capture and display of earthquake disaster information based on geotagged microblog. Geospatial Information, 14(5): 38—40. (in Chinese) doi: 10.3969/j.issn.1672-4623.2016.05.012 何晶, 2012. 新媒体时代的应急响应模式变革. 中国行政管理, (4): 20—24He J. , 2012. The reform of emergency response model in the new media age. Chinese Public Administration, (4): 20—24. (in Chinese) 李亚芳, 王新刚, 梁庆云, 2020. 基于新浪微博大数据的新疆伽师6.4级地震舆情分析及可视化研究. 内陆地震, 34(1): 103—110Li Y. F. , Wang X. G. , Liang Q. Y. , 2020. Public opinion analysis and visualization of Xinjiang Jiashi MS6.4 earthquake based on Sina Weibo big data. Inland Earthquake, 34(1): 103—110. (in Chinese) 廉捷, 周欣, 曹伟等, 2011. 新浪微博数据挖掘方案. 清华大学学报(自然科学版), 51(10): 1300—1305Lian J. , Zhou X. , Cao W. , et al. , 2011. SINA microblog data retrieval. Journal of Tsinghua University (Science and Technology), 51(10): 1300—1305. (in Chinese) 刘婉婷, 杨新月, 刘耀辉等, 2021. 基于微博数据的西藏那曲比如县地震舆情分析. 震灾防御技术, 16(4): 771—780Liu W. T. , Yang X. Y. , Liu Y. H. , et al. , 2021. Public opinion analysis of the earthquake in Biru County, Naqu City, Tibet Based on Webo Data. Technology for Earthquake Disaster Prevention, 16(4): 771—780. (in Chinese) 刘晓娟, 尤斌, 张爱芸, 2013. 基于微博数据的应用研究综述. 情报杂志, 32(9): 39—45Liu X. J. , You B. , Zhang A. Y. , 2013. Review on the data used in researches of microblogs. Journal of Intelligence, 32(9): 39—45. (in Chinese) 刘耀辉, 刘婉婷, 张文焯等, 2022. 基于新浪微博数据的云南漾濞6.4级地震舆情时空特征及情感分析. 自然灾害学报, 31(1): 168—178Liu Y. H. , Liu Y. T. , Zhang W. Z. , et al. , 2022. Spatiotemporal characteristics of public opinion and emotion analysis of MS 6.4 Yunnan Yangbi earthquake based on Sina Weibo data. Journal of Natural Disasters, 31(1): 168—178. (in Chinese) 聂高众, 安基文, 邓砚, 2012. 地震应急灾情服务进展. 地震地质, 34(4): 782—791 doi: 10.3969/j.issn.0253-4967.2012.04.020Nie G. Z. , An J. W. , Deng Y. , 2012. Advances in earthquake emergency disaster service. Seismology and Geology, 34(4): 782—791. (in Chinese) doi: 10.3969/j.issn.0253-4967.2012.04.020 闪淳昌, 薛澜, 2012. 应急管理概论: 理论与实践. 北京: 高等教育出版社.Shan C. C., Xue L., 2012. Introduction to emergency management: theory and practice. Beijing: Higher Education Press. (in Chinese) 王艳东, 李昊, 王腾等, 2016. 基于社交媒体的突发事件应急信息挖掘与分析. 武汉大学学报·信息科学版, 41(3): 290—297Wang Y. D. , Li H. , Wang T. , et al. , 2016. The mining and analysis of emergency information in sudden events based on social media. Geomatics and Information Science of Wuhan University, 41(3): 290—297. (in Chinese) 徐敬海, 褚俊秀, 聂高众等, 2015. 基于位置微博的地震灾情提取. 自然灾害学报, 24(5): 12—18Xu J. H. , Chu J. X. , Nie G. Z. , et al. , 2015. Earthquake disaster information extraction based on location microblog. Journal of Natural Disasters, 24(5): 12—18. (in Chinese) 杨飞, 江南, 李响等, 2016. 基于多策略的微博位置数据获取方法研究. 测绘科学技术学报, 33(2): 201—207Yang F. , Jiang N. , Li X. , et al. , 2016. Research on the method of microblog location data acquisition based on multi-strategy. Journal of Geomatics Science and Technology, 33(2): 201—207. (in Chinese) 杨菁, 杨梦婷, 申小蓉, 2014. 突发事件后微博舆情结构及应急反应特征研究——以雅安地震为例. 理论与改革, (3): 114—118. 游翔, 葛卫丽, 2014. 微博数据获取技术及展望. 电子科技, 27(10): 123—126, 132You X. , Ge W. L. , 2014. Techniques and forecasts on information retrieval in microblog. Electronic Science & Technology, 27(10): 123—126, 132. (in Chinese) 郁璟贻, 张海涛, 罗桂纯等, 2018. 地震应急视频会议系统的建设与应用. 中国应急救援, (5): 31—34Yu J. Y. , Zhang H. T. , Luo G. C. , et al. , 2018. Construction and application of earthquake emergency video conference system. China Emergency Rescue, 13(5): 31—34. (in Chinese) 袁浩, 2009. 主题爬虫搜索Web页面策略的研究. 长沙: 中南大学.Yuan H. , 2009. The research of topical crawler search strategy in Web page. Changsha: Central South University. (in Chinese) -