一种气象海洋格点数据综合处理方法及系统与流程-尊龙凯时官方app下载

文档序号:36175582发布日期:2023-11-25 00:48阅读:75来源:国知局
1.本发明涉及气象格点数据处理
技术领域
:,尤其涉及一种气象海洋格点数据综合处理方法及系统。
背景技术
::2.气象海洋格点数据具有规模大、维度多和复杂性高等特点,同时气象海洋业务随着保障对象、保障区域、保障样式的不断变化,对气象海洋格点数据的访问速度、访问内容、访问方式提出了“数据要全、速度要快、内容要丰富”的业务要求,如何高效组织、存储、应用气象海洋数据是气象海洋数据处理及存储所面临的首要任务,针对这些特点和要求,如何存储气象海洋数据、如何高效访问气象海洋数据,是一直存在的难点和问题,但气象海洋数据存储和查询,不是其存在的主要意义,重点在于如何在实际业务应用中,用好气象海洋数据,使其发挥更大的价值,能够辅助各领域用户完成实际业务工作。3.公开号为cn112214472a的中国专利公开了气象格点数据的存储及查询方法、装置及存储介质,该专利主要侧重于气象格点数据的存储,目的是提高查询速度,然而,其存在的问题是没有结合实际业务应用数据访问需求。技术实现要素:4.本发明意在提供一种气象海洋格点数据综合处理方法及系统,以解决现有技术中存在的不足,本发明要解决的技术问题通过以下技术方案来实现。5.本发明提供的气象海洋格点数据综合处理方法,包括:根据业务需求从提供的不同来源的气象海洋格点数据中进行数据抽取;对抽取出的气象海洋格点数据进行包括数据转换、数据清洗、数据对齐、数据合并以及一致性检查的数据整合处理;对经过数据整合处理的气象海洋格点数据按照时间维度、空间维度或层次维度切分为小块,将每个小块表示为一个格点,根据切分为小块的气象海洋格点数据的位置信息、时间信息或层次信息确定切分为小块的气象海洋格点数据对应的格点在hbase表中的行号和列号,并根据格点在hbase表中的行号和列号确定切分为小块的气象海洋格点数据对应的格点的索引,采用hbase表来存储格点数据;设计查询接口,根据用户指定的时间范围和空间范围来获取存储在hbase中的气象海洋格点数据,得到满足需要的查询结果;使用并行计算框架对满足需要的查询结果来进一步地处理和分析数据,得到统计分析结果;将满足需要的查询结果或统计分析结果以列表或柱状图形式进行展示,辅助用户进行决策。6.在上述的方案中,根据切分为小块的气象海洋格点数据的位置信息确定切分为小块的气象海洋格点数据对应的格点在hbase表中的行号和列号采用以下公式:r=int((y0-y)/sizey)c=int((x-x0)/sizex)其中,int()表示取整操作,y0表示切分为小块的气象海洋格点数据中左上角格点对应的纬度,x0表示切分为小块的气象海洋格点数据中左上格点对应的经度,y表示切分为小块的气象海洋格点数据中某一格点的纬度,x表示切分为小块的气象海洋格点数据中某一格点的经度,sizey表示切分为小块的气象海洋格点数据在纬度上的格网间距大小,sizex表示切分为小块的气象海洋格点数据中某一格点在经度上的格网间距大小。7.在上述的方案中,根据格点在hbase表中的行号和列号确定切分为小块的气象海洋格点数据对应的格点的索引,采用以下公式:id=r×col c其中,r表示某一格点的行号,col表示hbase表中的总列数,c表示某一格点的列号,id为某一格点的索引。8.在上述的方案中,采用hbase表来存储格点数据时,将每个格点的数据存储为hbase表中的一行,使用时间维度、空间维度或层次维度作为hbase表的行键,并将不同气象海洋要素及多个统计分析指标存储在hbase表的不同的列中。9.在上述的方案中,设计查询接口,根据用户指定的时间范围和空间范围来获取存储在hbase中的气象海洋格点数据,得到满足需要的查询结果包括:用户在用户终端输入起始时间、结束时间和空间范围坐标,并通过用户终端向所述查询接口发起查询请求,所述查询接口解析所述查询请求,并将所述查询请求转化为对应的格点在hbase表中的索引,以检索所需的气象海洋格点数据,得到满足需要的查询结果。10.在上述的方案中,所述查询接口在检索所需的气象海洋格点数据的过程中,采用时间范围过滤器和空间维度过滤器来缩小查询范围,只读取符合条件的数据,采用列投影功能来选择只需要的列。11.在上述的方案中,在进行数据转换时,将抽取出的气象海洋格点数据转换为netcdf格式的气象海洋格点数据,且确保转换得到的netcdf格式的数据与其对应的转换前的气象海洋格点数据具有相同的变量名称、维度和时间分辨率。12.在上述的方案中,在进行数据清洗时,对经过数据转换的气象海洋格点数据中的异常值进行修正或剔除,对经过数据转换的气象海洋格点数据中的缺失值进行填补,其中,按照数据质量规范及业务需求确定阈值,将超出阈值的数值作为经过数据转换处理的气象海洋格点数据中的异常值,对异常值进行修正或剔除,并采用数据插值方法对经过数据转换处理的气象海洋格点数据中的缺失值进行填补。13.在上述的方案中,在进行数据对齐时,对经过数据清洗处理的气象海洋格点数据分别从时间维度和空间维度上进行对齐,将从时间维度进行对齐得到的气象海洋格点数据作为第一组数据,将从空间维度上进行对齐得到的气象海洋格点数据作为第二组数据,并采用数据插值方法将第一组数据插值到第二组数据的时间网格上,采用数据插值方法将第二组数据插值到第一组数据的空间网格上。14.本发明提供的气象海洋格点数据综合处理系统,采用如上所述的气象海洋格点数据综合处理方法进行气象海洋格点数据综合处理,所述系统包括:数据抽取模块,用于根据业务需求从提供的不同来源的气象海洋格点数据中进行数据抽取;数据整合模块,用于对抽取出的气象海洋格点数据进行包括数据转换、数据清洗、数据对齐、数据合并以及一致性检查的数据整合处理;数据存储模块,用于对经过数据整合处理的气象海洋格点数据按照时间维度、空间维度或层次维度切分为小块,将每个小块表示为一个格点,根据切分为小块的气象海洋格点数据的位置信息、时间信息或层次信息确定切分为小块的气象海洋格点数据对应的格点在hbase表中的行号和列号,并根据格点在hbase表中的行号和列号确定切分为小块的气象海洋格点数据对应的格点的索引,采用hbase表来存储格点数据;数据查询模块,用于设计查询接口,根据用户指定的时间范围和空间范围来获取存储在hbase中的气象海洋格点数据,得到满足需要的查询结果;统计分析模块,用于使用并行计算框架对满足需要的查询结果来进一步地处理和分析数据,得到统计分析结果;结果展示模块,用于将满足需要的查询结果或统计分析结果以列表或柱状图形式进行展示,辅助用户进行决策。15.本发明实施例包括以下优点:本发明实施例提供的气象海洋格点数据综合处理方法及系统,基于实际业务需求,抽取业务应用中较为共性的气象海洋格点数据,并对抽取出的气象海洋格点数据进行包括数据转换、数据清洗、数据对齐、数据合并以及一致性检查的数据整合处理,并将经过数据整合处理的气象海洋格点数据采用hbase表来存储格点,可实现数据高效存储、一键检索,并可以提供快速处理和灵活查询能力,以满足气象海洋数据分析和应用需求。附图说明16.图1是本发明的一个实施例中一种气象海洋格点数据综合处理方法的流程图;图2是本发明的一个实施例中数据整合处理的流程图;图3是本发明的一个实施例中一种气象海洋格点数据综合处理系统的组成示意图;图4是本发明的一个实施例中数据整合模块的组成示意图。具体实施方式17.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。18.如图1所示,本发明提供一种气象海洋格点数据综合处理方法,该方法包括以下步骤:步骤s1:根据业务需求从提供的海量的不同来源的气象海洋格点数据中抽取出特定时间范围、特定区域范围、特定层次以及特定要素的气象海洋格点数据。19.步骤s2:对抽取出的气象海洋格点数据通过并行计算框架进行数据整合处理,通过并行计算框架进行数据整合处理可提高处理效率,其中,数据整合处理包括以下过程,具体可参阅图2:对抽取出的气象海洋格点数据进行数据转换处理,将其转换为netcdf格式的气象海洋格点数据,且确保转换得到的netcdf格式的数据与其对应的转换前的气象海洋格点数据具有相同的变量名称、维度和时间分辨率,其中,将抽取出的气象海洋格点数据转换为netcdf格式的气象海洋格点数据可以提高数据的可用性、可读性和可操作性,方便数据的存储、交换、共享和分析,同时netcdf格式的气象海洋格点数据还可以提供更好的数据管理和优化效果,此外netcdf格式作为一种应用广泛数据格式,在数据处理及分析领域运用非常广泛的python中提供了多个关于netcdf数据操作的库,并且后续还在不断完善,使得后续数据处理及数据分析变得非常方便;对经过数据转换处理的气象海洋格点数据进行数据清洗处理,对经过数据转换处理的气象海洋格点数据中的异常值进行修正或剔除,对经过数据转换处理的气象海洋格点数据中的缺失值进行填补,其中,按照数据质量规范及业务需求确定阈值,将超出阈值的数值作为经过数据转换处理的气象海洋格点数据中的异常值,对异常值进行修正或剔除,此外,采用数据插值方法对经过数据转换处理的气象海洋格点数据中的缺失值进行填补;具体地,转换为netcdf格式的气象海洋格点数据通常用-9999、nan、999等数值来表示缺失值,在处理经过数据转换处理的气象海洋格点数据中的缺失值时采用的数据插值方法为双线性插值法,其中,双线性插值法是基于四个最近邻数据点的数值进行插值的方法,具体步骤如下:找到气象海洋格点数据中的缺失值周围的四个最近邻数据点,其中,四个最近邻数据点可以是距离最近的四个点或者是时间最近的四个点;计算缺失值点与四个最近邻数据点的距离,通常可以使用欧氏距离或曼哈顿距离;根据距离计算权重,距离越近的数据点权重越大;使用权重对四个最近邻数据点的值进行加权平均,得到缺失值的估计值;上述具体步骤对应的计算过程如下:假设要估计的缺失值为p,四个最近邻数据点的坐标分别为(x1,y1)、(x1,y2)、(x2,y1)、(x2,y2),对应的数值分别为f1、f2、f3、f4;首先,计算缺失值所在位置相对于四个最近邻数据点的相对位置比例:dx=(x2ꢀ‑ꢀp.x)/(x2ꢀ‑ꢀx1)dy=(y2ꢀ‑ꢀp.y)/(y2ꢀ‑ꢀy1)然后,根据相对位置比例计算四个最近邻数据点的权重:w1=(1ꢀ‑ꢀdx)*(1ꢀ‑ꢀdy)w2=dx*(1ꢀ‑ꢀdy)w3=(1ꢀ‑ꢀdx)*dyw4=dx*dy最后,使用权重对四个最近邻数据点的值进行加权平均,得到缺失值的估计值:p.value=w1*f1 w2*f2 w3*f3 w4*f4。20.对经过数据清洗处理的气象海洋格点数据进行数据对齐处理,在时间维度上进行对齐时需要确定时间范围和时间间隔,以及需要对齐的时间步长,对于不同数据源时间分辨率不一致的情况,使用线性插值方法将数据插值到目标时间步长上,在空间维度上进行对齐时需要确定空间范围和空间分辨率,对不同数据源空间分辨率不一致的情况,采用线性插值方法将数据插值到目标空间网格上,具体地,将从时间维度进行对齐得到的气象海洋格点数据作为第一组数据,将从空间维度上进行对齐得到的气象海洋格点数据作为第二组数据,使用数据插值方法将第一组数据插值到第二组数据的时间网格上,用数据插值方法将第二组数据插值到第一组数据的空间网格上;对经过数据对齐处理的气象海洋格点数据进行数据合并处理,具体地,按照时间顺序对经过数据插值处理的第一组数据和经过数据插值处理的第二组数据逐个进行时间合并,并对经过数据插值处理的第一组数据和经过数据插值处理的第二组数据按照业务需求,自定义合并两组数据的空间优先级;具体地,自定义合并两组数据的空间优先级指根据实际使用场景,选取相应精度的时空分辨率对数据进行合并,合并两组数据的空间优先级具体可以考虑以下几个因素:业务需求对于数据精度的要求;数据实时性要求对于数据精度的限制,其中,精度越高,处理时间越长;计算及存储资源对于数据精度的限制,其中,精度越高,计算及存储资源消耗越大;待合并的目标大小对于时空分辨率的影响,其中,目标区较大,选择较低的空间分辨率,目标区较小,选择较高的空间分辨率;对经过数据合并处理的气象海洋格点数据进行一致性检查,确保合并后的数据在变量范围、单位等方面一致,在检查中对气象海洋格点数据不一致的地方需进行数据修正或调整。21.步骤s3:对经过数据整合处理的气象海洋格点数据按照时间维度、空间维度或层次维度切分为小块,每个小块代表一个格点,并使用hbase表来存储格点数据,将每个格点的数据存储为hbase表中的一行,使用时间维度、空间维度或层次维度作为hbase表的行键,并将不同气象海洋要素及包括最大值、最小值等的统计分析指标存储在hbase表的不同的列中,具体地,根据切分为小块的气象海洋格点数据的位置信息确定切分为小块的气象海洋格点数据对应的格点在hbase表中的行号和列号,以及根据格点在hbase表中的行号和列号确定切分为小块的气象海洋格点数据对应的格点的索引;具体地,确定切分为小块的气象海洋格点数据对应的某一格点的行号r和列号c采用以下公式:r=int((y0-y)/sizey)c=int((x-x0)/sizex)其中,int()表示取整操作,y0表示切分为小块的气象海洋格点数据中左上角格点对应的纬度;x0表示切分为小块的气象海洋格点数据中左上格点对应的经度;y表示切分为小块的气象海洋格点数据中某一格点的纬度;x表示切分为小块的气象海洋格点数据中某一格点的经度;sizey表示切分为小块的气象海洋格点数据在纬度上的格网间距大小;sizex表示切分为小块的气象海洋格点数据中某一格点在经度上的格网间距大小。22.根据格点在hbase表中的行号和列号确定切分为小块的气象海洋格点数据对应的格点的索引,采用以下公式:id=r×col c其中,r表示某一格点的行号,col表示hbase表中的总列数,c表示某一格点的列号,id为某一格点的索引;此外,除了位置信息之外,切分为小块的气象海洋格点数据中的每个格点还会对应时间信息以及层次信息,在这种情况下一个格点对应的索引可以根据该格点对应的时间信息、基于时间信息得到的行号以及列号决定,或一个格点对应的索引可以根据该格点对应的层次信息、基于层次信息得到的行号以及列号决定。23.在本发明的一个实施例中,还可采用云上分布式nosql数据存储服务tablestore对经过数据整合处理的气象海洋格点数据进行存储,使用索引进行高效访问。24.步骤s4:设计查询接口,使得可根据用户指定的时间范围和空间范围来获取存储在hbase中的气象海洋格点数据,具体地,用户在用户终端输入起始时间、结束时间和空间范围坐标,并通过用户终端向所述查询接口发起查询请求,所述查询接口解析所述查询请求,并将所述查询请求转化为对应的格点在hbase表中的索引,以检索所需的气象海洋格点数据,得到满足需要的查询结果,其中,在检索过程中,使用时间范围过滤器和空间维度过滤器来缩小查询范围,只读取符合条件的数据,使用列投影功能来选择只需要的列,避免读取整行数据。25.步骤s5:使用并行计算框架对满足需要的查询结果来进一步地处理和分析数据,得到统计分析结果,其中,统计分析结果包括极值、均值、历史某天气出现概率、超阈值累年出现概率等,采用的并行计算框架为apachespark或hadoopmapreduce,采用apachespark或hadoopmapreduce来对查询到的满足需要的气象海洋格点数据进行分布式并行计算,可加速数据处理和分析过程。26.步骤s6:对满足需要的查询结果或统计分析结果以列表或柱状图等形式进行展示,辅助用户进行决策。27.如图3所示,本发明提供一种气象海洋格点数据综合处理系统,采用如上所述的气象海洋格点数据综合处理方法进行气象海洋格点数据综合处理,该系统包括:数据抽取模块,用于根据业务需求从提供的海量的不同来源的气象海洋格点数据中抽取出特定时间范围、特定区域范围、特定层次以及特定要素的气象海洋格点数据;数据整合模块,用于对抽取出的气象海洋格点数据通过并行计算框架进行数据整合处理,通过并行计算框架进行数据整合处理可提高处理效率;数据存储模块,用于对经过数据整合处理的气象海洋格点数据按照时间维度、空间维度或层次维度切分为小块,每个小块代表一个格点,并使用hbase表来存储格点数据,将每个格点的数据存储为hbase表中的一行,使用时间维度、空间维度或层次维度作为hbase表的行键,并将不同气象海洋要素及包括最大值、最小值等的统计分析指标存储在hbase表的不同的列中,具体地,根据切分为小块的气象海洋格点数据的位置信息确定切分为小块的气象海洋格点数据对应的格点在hbase表中的行号和列号,以及根据格点在hbase表中的行号和列号确定切分为小块的气象海洋格点数据对应的格点的索引,此外,还可以根据该格点对应的时间信息、基于时间信息得到的行号以及列号决定格点的索引,或根据格点对应的层次信息、基于层次信息得到的行号以及列号决定格点的索引。28.数据查询模块,用于设计查询接口,使得可根据用户指定的时间范围和空间范围来获取存储在hbase中的气象海洋格点数据,具体地,用户在用户终端输入起始时间、结束时间和空间范围坐标,并通过用户终端向所述查询接口发起查询请求,所述查询接口解析所述查询请求,并将所述查询请求转化为对应的格点在hbase表中的索引,以检索所需的气象海洋格点数据,得到满足需要的查询结果,其中,在检索过程中,使用时间范围过滤器和空间维度过滤器来缩小查询范围,只读取符合条件的数据,使用列投影功能来选择只需要的列,避免读取整行数据。29.统计分析模块,用于使用并行计算框架对满足需要的查询结果来进一步地处理和分析数据,得到统计分析结果,其中,统计分析结果包括极值、均值、历史某天气出现概率、超阈值累年出现概率等,采用的并行计算框架为apachespark或hadoopmapreduce,采用apachespark或hadoopmapreduce来对查询到的满足需要的气象海洋格点数据进行分布式并行计算,可加速数据处理和分析过程。30.结果展示模块,用于对满足需要的查询结果或统计分析结果以列表或柱状图等形式进行展示,辅助用户进行决策。31.具体地,如图4所示,数据整合模块包括数据转换单元、数据清洗单元、数据对齐单元、数据合并单元和一致性检查单元,其中:所述数据转换单元用于对抽取出的气象海洋格点数据进行数据转换处理,将其转换为netcdf格式的气象海洋格点数据,且确保转换得到的netcdf格式的数据与其对应的转换前的气象海洋格点数据具有相同的变量名称、维度和时间分辨率;所述数据清洗单元用于对经过数据转换处理的气象海洋格点数据进行数据清洗处理,对经过数据转换处理的气象海洋格点数据中的异常值进行修正或剔除,对经过数据转换处理的气象海洋格点数据中的缺失值进行填补,其中,按照数据质量规范及业务需求确定阈值,将超出阈值的数值作为经过数据转换处理的气象海洋格点数据中的异常值,对异常值进行修正或剔除,此外,采用数据插值方法对经过数据转换处理的气象海洋格点数据中的缺失值进行填补;所述数据对齐单元用于对经过数据清洗处理的气象海洋格点数据进行数据对齐处理,在时间维度上进行对齐时需要确定时间范围和时间间隔,以及需要对齐的时间步长,对于不同数据源时间分辨率不一致的情况,使用线性插值方法将数据插值到目标时间步长上,在空间维度上进行对齐时需要确定空间范围和空间分辨率,对不同数据源空间分辨率不一致的情况,采用线性插值方法将数据插值到目标空间网格上,具体地,将从时间维度进行对齐得到的气象海洋格点数据作为第一组数据,将从空间维度上进行对齐得到的气象海洋格点数据作为第二组数据,使用数据插值方法将第一组数据插值到第二组数据的时间网格上,用数据插值方法将第二组数据插值到第一组数据的空间网格上;所述数据合并单元用于对经过数据对齐处理的气象海洋格点数据进行数据合并处理,具体地,按照时间顺序对经过数据插值处理的第一组数据和经过数据插值处理的第二组数据逐个进行时间合并,并对经过数据插值处理的第一组数据和经过数据插值处理的第二组数据按照业务需求,自定义合并两组数据的空间优先级;所述一致性检查单元用于对经过数据合并处理的气象海洋格点数据进行一致性检查,确保合并后的数据在变量范围、单位等方面一致,在检查中对气象海洋格点数据不一致的地方需进行数据修正或调整。32.应该指出,上述详细说明都是示例性的,旨在对本技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语均具有与本技术所属
技术领域
:的普通技术人员的通常理解所相同的含义。33.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式。此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。34.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便这里描述的本技术的实施方式能够以除了在这里图示或描述的那些以外的顺序实施。35.此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。36.为了便于描述,在这里可以使用空间相对术语,如“在……之上”、“在……上方”、“在……上表面”、“上面的”等,用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是,空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如,如果附图中的器件被倒置,则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其他器件或构造之下”。因而,示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位,如旋转90度或处于其他方位,并且对这里所使用的空间相对描述作出相应解释。37.在上面详细的说明中,参考了附图,附图形成本文的一部分。在附图中,类似的符号典型地确定类似的部件,除非上下文以其他方式指明。在详细的说明书、附图及权利要求书中所描述的图示说明的实施方案不意味是限制性的。在不脱离本文所呈现的主题的精神或范围下,其他实施方案可以被使用,并且可以作其他改变。38.以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页12当前第1页12
当前第1页1  
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
网站地图