• ISSN 1673-5722
  • CN 11-5429/P

新浪微博地震舆情数据库的设计与实现

陈亚男 薄涛 王洋 王喆 高爽 熊政辉

陈亚男,薄涛,王洋,王喆,高爽,熊政辉,2023. 新浪微博地震舆情数据库的设计与实现. 震灾防御技术,18(4):873−882. doi:10.11899/zzfy20230421. doi: 10.11899/zzfy20230421
引用本文: 陈亚男,薄涛,王洋,王喆,高爽,熊政辉,2023. 新浪微博地震舆情数据库的设计与实现. 震灾防御技术,18(4):873−882. doi:10.11899/zzfy20230421. doi: 10.11899/zzfy20230421
Chen Yanan, Bo Tao, Wang Yang, Wang Zhe, Gao Shuang, Xiong Zhenghui. Design and Implementation of Sina Weibo Earthquake Public Opinion Database[J]. Technology for Earthquake Disaster Prevention, 2023, 18(4): 873-882. doi: 10.11899/zzfy20230421
Citation: Chen Yanan, Bo Tao, Wang Yang, Wang Zhe, Gao Shuang, Xiong Zhenghui. Design and Implementation of Sina Weibo Earthquake Public Opinion Database[J]. Technology for Earthquake Disaster Prevention, 2023, 18(4): 873-882. doi: 10.11899/zzfy20230421

新浪微博地震舆情数据库的设计与实现

doi: 10.11899/zzfy20230421
基金项目: 国家重点研发计划(2019YFC1509402);地震科技星火计划攻关项目(XH19002);北京市地震局面上项目(BJMS-2022005);北京市地震局技术微创新项目(BJWC-2022008)
详细信息
    作者简介:

    陈亚男,女,生于1989年。硕士,工程师。主要从事地震应急和自然灾害风险分析方面的研究。E-mail:chenyanan@bjseis.gov.cn

    通讯作者:

    薄涛,女,生于1984年。博士,高级工程师。主要从事灾害管理与信息系统,震害快速评估,城市减灾等方面的研究。E-mail:botao@bjseis.gov.cn

Design and Implementation of Sina Weibo Earthquake Public Opinion Database

  • 摘要: 社交媒体地震舆情数据可实时反映灾区现状,为震后应急提供较好的地震灾情舆情研判服务。选取新浪微博作为数据源,对接EQIM,采用新浪微博开放平台API与分布式网络爬虫相结合的方式获取地震舆情数据。在数据清洗和基于fastText地震相关性分类模型进行数据预处理的基础上,应用MySQL关系型数据库,设计并实现我国大陆地区准实时新浪微博地震舆情数据库及管理平台。现阶段,该数据库收集了2021年1月1日至2022年3月31日我国大陆地区3.0级及以上地震447次、地震舆情数据732 949条,实现数据下载、快速查询及精确查询,方便数据查询与管理,有助于震后舆情监控与灾情快速获取。
  • 图  1  新浪微博地震舆情数据获取流程

    Figure  1.  Weibo earthquake public opinion data acquisition flowchart

    图  2  数据清洗与预处理流程

    Figure  2.  Flow chart of data cleaning and preprocessing

    图  3  基于fastText的地震相关性二分类学习模型

    Figure  3.  Seismic correlation dichotomous learning model based on fastText

    图  4  迭代优化流程

    Figure  4.  Flow chart of iterative optimization

    图  5  微博文本数据预处理前后结果对比

    Figure  5.  Comparison of results before and after processing of Weibo text data

    图  6  新浪微博地震舆情数据库建设逻辑

    Figure  6.  Concrete construction logic diagram of Weibo earthquake public opinion database

    图  7  Web端新浪微博地震舆情数据库管理平台设计架构

    Figure  7.  Design framework of Weibo earthquake public opinion database management platform on Web

    图  8  新浪微博地震舆情数据库快速查询界面

    Figure  8.  Quick query interface of Weibo earthquake public opinion database

    图  9  新浪微博地震舆情数据库精准查询界面

    Figure  9.  Accurate query interface of Weibo earthquake public opinion database

    图  10  单次地震新浪微博地震舆情示例

    Figure  10.  Weibo earthquake public opinion case excel display chart for a single earthquake

    图  11  地震舆情时间特征分布示例

    Figure  11.  Example of time feature distribution of earthquake public opinion

    图  12  云南、四川地区震级与地震频次及单次地震微博发布量关系

    Figure  12.  Relationship between magnitude,frequency of earthquakes and Weibo release of single earthquake in Yunnan and Sichuan

    表  1  微博数据获取方法

    Table  1.   Data acquisition methods of Weibo

    方法名称原理与功能优点缺点备注
    微博开放平台API作为1组预先定义的函数,微博运营商将开放的微博产品服务封装为一系列计算机易识别的数据接口,供第三方开发者使用。第三方向固定的网络地址提交参数后,返回数据供使用(杨飞等,2016调用简单,无须访问源码及了解内部工作机制等细节,相比网络爬虫等方式,使用更简洁高效抓取次数有限制,抓取数据不全面,数据获取有一定的成本与难度。运营商对API的权限设置及访问次数进行限制,大部分接口需付费使用(廉捷等,2011返回数据格式通常情况下为JSON 和 XML
    网络爬虫作为1段计算机程序, 按照一定的逻辑和算法从互联网上抓取和下载网页,得到网页上的数据。具体操作流程为:设定爬行策略,从预定的1个或多个节点开始爬取网页,获取网页数据及其URL链接,再通过URL链接爬取网络中的其他节点,满足爬行条件后终止爬虫程序,并以文本形式保存(袁浩,2009廉捷等,2011游翔等,2014数据格式可定制,微博数据的获取一般均适用,且不受微博运营商权限开放范围的限制稳定性差,时间、人力成本高。微博运营商会不定期调整HTTP请求参数及返回HTML页面格式,导致无法获取和解析微博数据,需定期监测爬虫运行情况(刘晓娟等,2013
    数据源镜像微博运营商为所需数据的用户提供数据服务(游翔等,2014数据质量高一般不向大众开放,只在政府机关传召时提供
    开放数据平台机构或个人将自己获取的数据集、语料库等以开放平台的形式公开(刘晓娟等,2013数据已完成预处理,可直接使用,提高研究效率常规数据获取类型与范围受限;定制化数据获取收费较高国内外较著名的数据开放平台有Data mo、Get The Data、SNAP、中国爬萌和数据堂等(刘晓娟等,2013
    下载: 导出CSV

    表  2  新浪微博地震舆情数据库字段属性

    Table  2.   Field attribute table of Weibo earthquake public opinion database

    序号字段名称中文含义数据类型备注
    1eqid地震唯一标识码字符串
    2longitude微博发布位置经度数值型
    3latitude微博发布位置纬度数值型
    4mid微博唯一标识字符串
    5Pub time微博发布时间字符串YYYY:MM:DD HH:mm:ss
    6content微博内容字符串
    7city微博用户所在城市字符串
    8uid微博用户ID字符串
    9nick_name微博用户昵称字符串
    10user_createtime微博创建时间字符串YYYY:MM:DD HH:mm:ss
    11heading评论人头像字符串
    12belong_to_mid评论属于的微博数值型
    13pics发布的图片字符串
    14belong_to_orzid评论ID数值型
    下载: 导出CSV

    表  3  部分地震舆情数据(2021年1月1日至2022年3月31日)

    Table  3.   List of earthquake public opinion data catalogue (From January 1, 2021 to March 31, 2022)

    序号发震时间纬度/(°)经度/(°)深度/km震级MS发震地点数据量/条
    12021-01-01 6:07:0826.24101.27163.0云南楚雄州大姚县75
    22021-01-02 4:24:3436.8694.6293.5青海海西州格尔木市37
    32021-01-03 2:40:2525.6399.92113.2云南大理州漾濞县436
    42021-01-03 8:34:3724.69117.70283.0福建漳州市长泰县2 115
    52021-01-03 16:16:3043.8691.48103.6新疆昌吉州木垒县18
    62021-01-04 0:34:1129.43104.52103.2四川自贡市荣县422
    72021-01-04 10:58:2929.41104.02134.2四川乐山市犍为县1 788
    82021-01-04 21:49:3531.08119.5163.3安徽宣城市广德县960
    92021-01-05 8:45:3135.7882.49103.1新疆和田地区于田县19
    102021-01-05 11:49:2642.3181.13103.1新疆伊犁州昭苏县25
    …………………………………………
    4372022-03-25 15:09:4236.0977.8993.1新疆和田地区皮山县3 621
    4382022-03-26 0:21:0238.597.33106.0青海海西州德令哈市3 591
    4392022-03-28 6:21:4742.8887.68143.0新疆吐鲁番市托克逊县1 071
    4402022-03-28 22:10:0040.4483.49103.2新疆阿克苏地区沙雅县1 805
    4412022-03-29 5:25:0930.03103.41104.3四川眉山市丹棱县1 662
    4422022-03-29 9:44:1542.1883.51103.2新疆阿克苏地区库车市1 175
    4432022-03-29 9:59:3336.1277.95103.7新疆和田地区皮山县1 141
    4442022-03-30 11:52:2827.00103.26103.7云南昭通市巧家县1 064
    4452022-03-31 5:59:0928.35104.87103.0四川宜宾市长宁县1 657
    4462022-03-31 18:05:2233.7791.6793.4青海海西州唐古拉地区1 922
    4472022-03-31 18:16:0229.29105.49103.2重庆荣昌区1 892
    下载: 导出CSV
  • 薄涛, 2018. 基于社交媒体的地震灾情数据挖掘与烈度快速评估应用. 哈尔滨: 中国地震局工程力学研究所.

    Bo T. , 2018. Earthquake disadter data mining and application of rapid intensity assessment based on social media. Harbin: Institute of Engineering Mechanics, China Earthquake Administration. (in Chinese)
    薄涛, 李小军, 陈苏等, 2018. 基于社交媒体数据的地震烈度快速评估方法. 地震工程与工程振动, 38(5): 206—215

    Bo T. , Li X. J. , Chen S. , et al. , 2018. Research of seismic intensity rapid assessment based on social media data. Earthquake Engineering and Engineering Dynamics, 38(5): 206—215. (in Chinese)
    曹彦波, 吴艳梅, 许瑞杰等, 2017 a. 基于微博舆情数据的震后有感范围提取研究. 地震研究, 40(2): 303—310

    Cao Y. B. , Wu Y. M. , Xu R. J. , et al. , 2017 a. Research about the perceptible area extracted after the earthquake based on the microblog public opinion. Journal of Seismological Research, 40(2): 303—310. (in Chinese)
    曹彦波, 毛振江, 2017 b. 基于微博数据挖掘的九寨沟7.0级地震灾情时空特征分析. 中国地震, 33(4): 613—625

    Cao Y. B. , Mao Z. J. , 2017 b. Analysis of the spatial and temporal characteristics of disaster-information about the Jiuzhaigou, Sichuan MS7.0 earthquake based on data mining of Sina Weibo. Earthquake Research in China, 33(4): 613—625. (in Chinese)
    曹彦波, 2018. 基于新浪微博的2018年云南通海5.0级地震舆情时空特征分析. 地震研究, 41(4): 525—533

    Cao Y. B. , 2018. Analysis of the spatial and temporal characteristics of public opinion about Yunnan Tonghai MS5.0 Earthquake in 2018 Based on Sina Micro-blog. Journal of Seismological Research, 41(4): 525—533. (in Chinese)
    褚俊秀, 徐敬海, 2016. 地震灾情位置微博抓取与展示. 地理空间信息, 14(5): 38—40 doi: 10.3969/j.issn.1672-4623.2016.05.012

    Chu J. X. , Xu J. H. , 2016. Capture and display of earthquake disaster information based on geotagged microblog. Geospatial Information, 14(5): 38—40. (in Chinese) doi: 10.3969/j.issn.1672-4623.2016.05.012
    何晶, 2012. 新媒体时代的应急响应模式变革. 中国行政管理, (4): 20—24

    He J. , 2012. The reform of emergency response model in the new media age. Chinese Public Administration, (4): 20—24. (in Chinese)
    李亚芳, 王新刚, 梁庆云, 2020. 基于新浪微博大数据的新疆伽师6.4级地震舆情分析及可视化研究. 内陆地震, 34(1): 103—110

    Li Y. F. , Wang X. G. , Liang Q. Y. , 2020. Public opinion analysis and visualization of Xinjiang Jiashi MS6.4 earthquake based on Sina Weibo big data. Inland Earthquake, 34(1): 103—110. (in Chinese)
    廉捷, 周欣, 曹伟等, 2011. 新浪微博数据挖掘方案. 清华大学学报(自然科学版), 51(10): 1300—1305

    Lian J. , Zhou X. , Cao W. , et al. , 2011. SINA microblog data retrieval. Journal of Tsinghua University (Science and Technology), 51(10): 1300—1305. (in Chinese)
    刘婉婷, 杨新月, 刘耀辉等, 2021. 基于微博数据的西藏那曲比如县地震舆情分析. 震灾防御技术, 16(4): 771—780

    Liu W. T. , Yang X. Y. , Liu Y. H. , et al. , 2021. Public opinion analysis of the earthquake in Biru County, Naqu City, Tibet Based on Webo Data. Technology for Earthquake Disaster Prevention, 16(4): 771—780. (in Chinese)
    刘晓娟, 尤斌, 张爱芸, 2013. 基于微博数据的应用研究综述. 情报杂志, 32(9): 39—45

    Liu X. J. , You B. , Zhang A. Y. , 2013. Review on the data used in researches of microblogs. Journal of Intelligence, 32(9): 39—45. (in Chinese)
    刘耀辉, 刘婉婷, 张文焯等, 2022. 基于新浪微博数据的云南漾濞6.4级地震舆情时空特征及情感分析. 自然灾害学报, 31(1): 168—178

    Liu Y. H. , Liu Y. T. , Zhang W. Z. , et al. , 2022. Spatiotemporal characteristics of public opinion and emotion analysis of MS 6.4 Yunnan Yangbi earthquake based on Sina Weibo data. Journal of Natural Disasters, 31(1): 168—178. (in Chinese)
    聂高众, 安基文, 邓砚, 2012. 地震应急灾情服务进展. 地震地质, 34(4): 782—791 doi: 10.3969/j.issn.0253-4967.2012.04.020

    Nie G. Z. , An J. W. , Deng Y. , 2012. Advances in earthquake emergency disaster service. Seismology and Geology, 34(4): 782—791. (in Chinese) doi: 10.3969/j.issn.0253-4967.2012.04.020
    闪淳昌, 薛澜, 2012. 应急管理概论: 理论与实践. 北京: 高等教育出版社.

    Shan C. C., Xue L., 2012. Introduction to emergency management: theory and practice. Beijing: Higher Education Press. (in Chinese)
    王艳东, 李昊, 王腾等, 2016. 基于社交媒体的突发事件应急信息挖掘与分析. 武汉大学学报·信息科学版, 41(3): 290—297

    Wang Y. D. , Li H. , Wang T. , et al. , 2016. The mining and analysis of emergency information in sudden events based on social media. Geomatics and Information Science of Wuhan University, 41(3): 290—297. (in Chinese)
    徐敬海, 褚俊秀, 聂高众等, 2015. 基于位置微博的地震灾情提取. 自然灾害学报, 24(5): 12—18

    Xu J. H. , Chu J. X. , Nie G. Z. , et al. , 2015. Earthquake disaster information extraction based on location microblog. Journal of Natural Disasters, 24(5): 12—18. (in Chinese)
    杨飞, 江南, 李响等, 2016. 基于多策略的微博位置数据获取方法研究. 测绘科学技术学报, 33(2): 201—207

    Yang F. , Jiang N. , Li X. , et al. , 2016. Research on the method of microblog location data acquisition based on multi-strategy. Journal of Geomatics Science and Technology, 33(2): 201—207. (in Chinese)
    杨菁, 杨梦婷, 申小蓉, 2014. 突发事件后微博舆情结构及应急反应特征研究——以雅安地震为例. 理论与改革, (3): 114—118.
    游翔, 葛卫丽, 2014. 微博数据获取技术及展望. 电子科技, 27(10): 123—126, 132

    You X. , Ge W. L. , 2014. Techniques and forecasts on information retrieval in microblog. Electronic Science & Technology, 27(10): 123—126, 132. (in Chinese)
    郁璟贻, 张海涛, 罗桂纯等, 2018. 地震应急视频会议系统的建设与应用. 中国应急救援, (5): 31—34

    Yu J. Y. , Zhang H. T. , Luo G. C. , et al. , 2018. Construction and application of earthquake emergency video conference system. China Emergency Rescue, 13(5): 31—34. (in Chinese)
    袁浩, 2009. 主题爬虫搜索Web页面策略的研究. 长沙: 中南大学.

    Yuan H. , 2009. The research of topical crawler search strategy in Web page. Changsha: Central South University. (in Chinese)
  • 加载中
图(12) / 表(3)
计量
  • 文章访问数:  203
  • HTML全文浏览量:  49
  • PDF下载量:  27
  • 被引次数: 0
出版历程
  • 收稿日期:  2022-09-26
  • 刊出日期:  2023-12-01

目录

    /

    返回文章
    返回