Design and Implementation of Sina Weibo Earthquake Public Opinion Database
-
摘要: 社交媒体地震舆情数据可实时反映灾区现状,为震后应急提供较好的地震灾情舆情研判服务。选取新浪微博作为数据源,对接EQIM,采用新浪微博开放平台API与分布式网络爬虫相结合的方式获取地震舆情数据。在数据清洗和基于fastText地震相关性分类模型进行数据预处理的基础上,应用MySQL关系型数据库,设计并实现我国大陆地区准实时新浪微博地震舆情数据库及管理平台。现阶段,该数据库收集了2021年1月1日至2022年3月31日我国大陆地区3.0级及以上地震447次、地震舆情数据732 949条,实现数据下载、快速查询及精确查询,方便数据查询与管理,有助于震后舆情监控与灾情快速获取。Abstract: Social media earthquake public opinion data reflect the current situation of the disaster area in real time, and provide a better service of earthquake disaster public opinion evaluation for post-earthquake emergency response.In this paper, selecting Sina Weibo as the data source and connecting EQIM, the combination of Weibo API interface and distributed web crawler is used to obtain earthquake public opinion data.On the basis of data cleaning and data preprocessing based on fastText seismic correlation classification model, using MySQL relational database,we design and achieve the quasi real-time Sina Weibo earthquake public opinion database and database management platform in mainland China area.At present, the database has collected 447 earthquakes with MS3.0 or above in mainland China from January 1, 2021 to March 31, 2022, and 732 949 earthquake public opinion data. It lays a foundation for social media earthquake public opinion data mining and analysis research.
-
Key words:
- Database /
- Earthquake emergency /
- Network public opinion /
- Social media /
- Sina Weibo
-
表 1 微博数据获取方法
Table 1. Data acquisition methods of Weibo
方法名称 原理与功能 优点 缺点 备注 微博开放平台API 作为1组预先定义的函数,微博运营商将开放的微博产品服务封装为一系列计算机易识别的数据接口,供第三方开发者使用。第三方向固定的网络地址提交参数后,返回数据供使用(杨飞等,2016) 调用简单,无须访问源码及了解内部工作机制等细节,相比网络爬虫等方式,使用更简洁高效 抓取次数有限制,抓取数据不全面,数据获取有一定的成本与难度。运营商对API的权限设置及访问次数进行限制,大部分接口需付费使用(廉捷等,2011) 返回数据格式通常情况下为JSON 和 XML 网络爬虫 作为1段计算机程序, 按照一定的逻辑和算法从互联网上抓取和下载网页,得到网页上的数据。具体操作流程为:设定爬行策略,从预定的1个或多个节点开始爬取网页,获取网页数据及其URL链接,再通过URL链接爬取网络中的其他节点,满足爬行条件后终止爬虫程序,并以文本形式保存(袁浩,2009;廉捷等,2011;游翔等,2014) 数据格式可定制,微博数据的获取一般均适用,且不受微博运营商权限开放范围的限制 稳定性差,时间、人力成本高。微博运营商会不定期调整HTTP请求参数及返回HTML页面格式,导致无法获取和解析微博数据,需定期监测爬虫运行情况(刘晓娟等,2013) 数据源镜像 微博运营商为所需数据的用户提供数据服务(游翔等,2014) 数据质量高 一般不向大众开放,只在政府机关传召时提供 开放数据平台 机构或个人将自己获取的数据集、语料库等以开放平台的形式公开(刘晓娟等,2013) 数据已完成预处理,可直接使用,提高研究效率 常规数据获取类型与范围受限;定制化数据获取收费较高 国内外较著名的数据开放平台有Data mo、Get The Data、SNAP、中国爬萌和数据堂等(刘晓娟等,2013) 表 2 新浪微博地震舆情数据库字段属性
Table 2. Field attribute table of Weibo earthquake public opinion database
序号 字段名称 中文含义 数据类型 备注 1 eqid 地震唯一标识码 字符串 — 2 longitude 微博发布位置经度 数值型 — 3 latitude 微博发布位置纬度 数值型 — 4 mid 微博唯一标识 字符串 — 5 Pub time 微博发布时间 字符串 YYYY:MM:DD HH:mm:ss 6 content 微博内容 字符串 — 7 city 微博用户所在城市 字符串 — 8 uid 微博用户ID 字符串 — 9 nick_name 微博用户昵称 字符串 — 10 user_createtime 微博创建时间 字符串 YYYY:MM:DD HH:mm:ss 11 heading 评论人头像 字符串 — 12 belong_to_mid 评论属于的微博 数值型 — 13 pics 发布的图片 字符串 — 14 belong_to_orzid 评论ID 数值型 — 表 3 部分地震舆情数据(2021年1月1日至2022年3月31日)
Table 3. List of earthquake public opinion data catalogue (From January 1, 2021 to March 31, 2022)
序号 发震时间 纬度/(°) 经度/(°) 深度/km 震级MS 发震地点 数据量/条 1 2021-01-01 6:07:08 26.24 101.27 16 3.0 云南楚雄州大姚县 75 2 2021-01-02 4:24:34 36.86 94.62 9 3.5 青海海西州格尔木市 37 3 2021-01-03 2:40:25 25.63 99.92 11 3.2 云南大理州漾濞县 436 4 2021-01-03 8:34:37 24.69 117.70 28 3.0 福建漳州市长泰县 2 115 5 2021-01-03 16:16:30 43.86 91.48 10 3.6 新疆昌吉州木垒县 18 6 2021-01-04 0:34:11 29.43 104.52 10 3.2 四川自贡市荣县 422 7 2021-01-04 10:58:29 29.41 104.02 13 4.2 四川乐山市犍为县 1 788 8 2021-01-04 21:49:35 31.08 119.51 6 3.3 安徽宣城市广德县 960 9 2021-01-05 8:45:31 35.78 82.49 10 3.1 新疆和田地区于田县 19 10 2021-01-05 11:49:26 42.31 81.13 10 3.1 新疆伊犁州昭苏县 25 …… …… …… …… …… …… …… …… 437 2022-03-25 15:09:42 36.09 77.89 9 3.1 新疆和田地区皮山县 3 621 438 2022-03-26 0:21:02 38.5 97.33 10 6.0 青海海西州德令哈市 3 591 439 2022-03-28 6:21:47 42.88 87.68 14 3.0 新疆吐鲁番市托克逊县 1 071 440 2022-03-28 22:10:00 40.44 83.49 10 3.2 新疆阿克苏地区沙雅县 1 805 441 2022-03-29 5:25:09 30.03 103.41 10 4.3 四川眉山市丹棱县 1 662 442 2022-03-29 9:44:15 42.18 83.51 10 3.2 新疆阿克苏地区库车市 1 175 443 2022-03-29 9:59:33 36.12 77.95 10 3.7 新疆和田地区皮山县 1 141 444 2022-03-30 11:52:28 27.00 103.26 10 3.7 云南昭通市巧家县 1 064 445 2022-03-31 5:59:09 28.35 104.87 10 3.0 四川宜宾市长宁县 1 657 446 2022-03-31 18:05:22 33.77 91.67 9 3.4 青海海西州唐古拉地区 1 922 447 2022-03-31 18:16:02 29.29 105.49 10 3.2 重庆荣昌区 1 892 -
薄涛, 2018. 基于社交媒体的地震灾情数据挖掘与烈度快速评估应用. 哈尔滨: 中国地震局工程力学研究所.Bo T. , 2018. Earthquake disadter data mining and application of rapid intensity assessment based on social media. Harbin: Institute of Engineering Mechanics, China Earthquake Administration. (in Chinese) 薄涛, 李小军, 陈苏等, 2018. 基于社交媒体数据的地震烈度快速评估方法. 地震工程与工程振动, 38(5): 206—215Bo T. , Li X. J. , Chen S. , et al. , 2018. Research of seismic intensity rapid assessment based on social media data. Earthquake Engineering and Engineering Dynamics, 38(5): 206—215. (in Chinese) 曹彦波, 吴艳梅, 许瑞杰等, 2017 a. 基于微博舆情数据的震后有感范围提取研究. 地震研究, 40(2): 303—310Cao Y. B. , Wu Y. M. , Xu R. J. , et al. , 2017 a. Research about the perceptible area extracted after the earthquake based on the microblog public opinion. Journal of Seismological Research, 40(2): 303—310. (in Chinese) 曹彦波, 毛振江, 2017 b. 基于微博数据挖掘的九寨沟7.0级地震灾情时空特征分析. 中国地震, 33(4): 613—625Cao Y. B. , Mao Z. J. , 2017 b. Analysis of the spatial and temporal characteristics of disaster-information about the Jiuzhaigou, Sichuan MS7.0 earthquake based on data mining of Sina Weibo. Earthquake Research in China, 33(4): 613—625. (in Chinese) 曹彦波, 2018. 基于新浪微博的2018年云南通海5.0级地震舆情时空特征分析. 地震研究, 41(4): 525—533Cao Y. B. , 2018. Analysis of the spatial and temporal characteristics of public opinion about Yunnan Tonghai MS5.0 Earthquake in 2018 Based on Sina Micro-blog. Journal of Seismological Research, 41(4): 525—533. (in Chinese) 褚俊秀, 徐敬海, 2016. 地震灾情位置微博抓取与展示. 地理空间信息, 14(5): 38—40 doi: 10.3969/j.issn.1672-4623.2016.05.012Chu J. X. , Xu J. H. , 2016. Capture and display of earthquake disaster information based on geotagged microblog. Geospatial Information, 14(5): 38—40. (in Chinese) doi: 10.3969/j.issn.1672-4623.2016.05.012 何晶, 2012. 新媒体时代的应急响应模式变革. 中国行政管理, (4): 20—24He J. , 2012. The reform of emergency response model in the new media age. Chinese Public Administration, (4): 20—24. (in Chinese) 李亚芳, 王新刚, 梁庆云, 2020. 基于新浪微博大数据的新疆伽师6.4级地震舆情分析及可视化研究. 内陆地震, 34(1): 103—110Li Y. F. , Wang X. G. , Liang Q. Y. , 2020. Public opinion analysis and visualization of Xinjiang Jiashi MS6.4 earthquake based on Sina Weibo big data. Inland Earthquake, 34(1): 103—110. (in Chinese) 廉捷, 周欣, 曹伟等, 2011. 新浪微博数据挖掘方案. 清华大学学报(自然科学版), 51(10): 1300—1305Lian J. , Zhou X. , Cao W. , et al. , 2011. SINA microblog data retrieval. Journal of Tsinghua University (Science and Technology), 51(10): 1300—1305. (in Chinese) 刘婉婷, 杨新月, 刘耀辉等, 2021. 基于微博数据的西藏那曲比如县地震舆情分析. 震灾防御技术, 16(4): 771—780Liu W. T. , Yang X. Y. , Liu Y. H. , et al. , 2021. Public opinion analysis of the earthquake in Biru County, Naqu City, Tibet Based on Webo Data. Technology for Earthquake Disaster Prevention, 16(4): 771—780. (in Chinese) 刘晓娟, 尤斌, 张爱芸, 2013. 基于微博数据的应用研究综述. 情报杂志, 32(9): 39—45Liu X. J. , You B. , Zhang A. Y. , 2013. Review on the data used in researches of microblogs. Journal of Intelligence, 32(9): 39—45. (in Chinese) 刘耀辉, 刘婉婷, 张文焯等, 2022. 基于新浪微博数据的云南漾濞6.4级地震舆情时空特征及情感分析. 自然灾害学报, 31(1): 168—178Liu Y. H. , Liu Y. T. , Zhang W. Z. , et al. , 2022. Spatiotemporal characteristics of public opinion and emotion analysis of MS 6.4 Yunnan Yangbi earthquake based on Sina Weibo data. Journal of Natural Disasters, 31(1): 168—178. (in Chinese) 聂高众, 安基文, 邓砚, 2012. 地震应急灾情服务进展. 地震地质, 34(4): 782—791 doi: 10.3969/j.issn.0253-4967.2012.04.020Nie G. Z. , An J. W. , Deng Y. , 2012. Advances in earthquake emergency disaster service. Seismology and Geology, 34(4): 782—791. (in Chinese) doi: 10.3969/j.issn.0253-4967.2012.04.020 闪淳昌, 薛澜, 2012. 应急管理概论: 理论与实践. 北京: 高等教育出版社.Shan C. C., Xue L., 2012. Introduction to emergency management: theory and practice. Beijing: Higher Education Press. (in Chinese) 王艳东, 李昊, 王腾等, 2016. 基于社交媒体的突发事件应急信息挖掘与分析. 武汉大学学报·信息科学版, 41(3): 290—297Wang Y. D. , Li H. , Wang T. , et al. , 2016. The mining and analysis of emergency information in sudden events based on social media. Geomatics and Information Science of Wuhan University, 41(3): 290—297. (in Chinese) 徐敬海, 褚俊秀, 聂高众等, 2015. 基于位置微博的地震灾情提取. 自然灾害学报, 24(5): 12—18Xu J. H. , Chu J. X. , Nie G. Z. , et al. , 2015. Earthquake disaster information extraction based on location microblog. Journal of Natural Disasters, 24(5): 12—18. (in Chinese) 杨飞, 江南, 李响等, 2016. 基于多策略的微博位置数据获取方法研究. 测绘科学技术学报, 33(2): 201—207Yang F. , Jiang N. , Li X. , et al. , 2016. Research on the method of microblog location data acquisition based on multi-strategy. Journal of Geomatics Science and Technology, 33(2): 201—207. (in Chinese) 杨菁, 杨梦婷, 申小蓉, 2014. 突发事件后微博舆情结构及应急反应特征研究——以雅安地震为例. 理论与改革, (3): 114—118. 游翔, 葛卫丽, 2014. 微博数据获取技术及展望. 电子科技, 27(10): 123—126, 132You X. , Ge W. L. , 2014. Techniques and forecasts on information retrieval in microblog. Electronic Science & Technology, 27(10): 123—126, 132. (in Chinese) 郁璟贻, 张海涛, 罗桂纯等, 2018. 地震应急视频会议系统的建设与应用. 中国应急救援, (5): 31—34Yu J. Y. , Zhang H. T. , Luo G. C. , et al. , 2018. Construction and application of earthquake emergency video conference system. China Emergency Rescue, 13(5): 31—34. (in Chinese) 袁浩, 2009. 主题爬虫搜索Web页面策略的研究. 长沙: 中南大学.Yuan H. , 2009. The research of topical crawler search strategy in Web page. Changsha: Central South University. (in Chinese)