智能电网大数据云计算技术研究
上QQ阅读APP看书,第一时间看更新

1.2 云计算与大数据

大数据可以通俗地理解为无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。根据国际数据公司(International Data Corporation, IDC)的监测统计,即使在遭遇金融危机的2009年,全球信息量也比2008年增长了62%,达到80万PB(1PB=220 GB),到2011年全球数据总量已经达到1.8ZB(1ZB=240 GB),并且以每两年翻一番的速度飞速增长,预计到2020年全球数据量总量将达到40ZB。在数据规模急剧增长的同时,数据类型也越来越复杂,包括结构化数据、半结构化数据、非结构化数据等多种类型,其中采用传统数据处理手段难以处理的非结构化数据已接近数据总量的75%。

鉴于大数据分析技术在经济、社会的应用和潜在的巨大影响,很多国家都将大数据视作战略资源,并将大数据应用提升为国家战略。2012年3月,美国奥巴马政府宣布推出“大数据的研究和发展计划”。2012年9月,日本总务省发布2013年行动计划,提出以复苏日本为目的推进“活跃在ICT领域的日本”ICT综合战,明确提出“通过大数据和开放数据开创新市场”。2013年2月,法国政府发布了《数字化路线图》,列出了5项将会大力支持的战略性高新技术,“大数据”就是其中一项。2013年1月,中国国家能源局下发了《关于数据中心建设布局的指导意见》,国家发展和改革委员会与中科院正式启动基础研究“大数据服务平台应用示范”项目;2013年3月,中国电机工程学会发布了《中国电力大数据发展白皮书》;2013年年初,贵州省发布《贵州“云计算”战略规划》;2013年10月,中国国内领先水平的大规模云计算数据中心、云计算研发应用示范基地——中国电信云计算贵州信息园在贵阳正式开工建设。这些实例进一步说明了大数据应用的重要性,未来大数据可能成为国家创新能力和竞争力的重要体现。

仅2009年,谷歌公司通过大数据业务对美国经济的贡献就为540亿美元,而这只是大数据所蕴含的巨大经济效益的冰山一角。淘宝公司通过对大量交易数据变化分析,可以提前6个月预测全球经济发展趋势。2011年5月,麦肯锡公司发布了关于大数据的调研报告《大数据:下一个前沿,竞争力、创新力和生产力》,文中充分阐明了大数据研究的地位以及将会给社会带来的价值,大数据研究已成为社会发展和技术进步的迫切需要。

目前,大数据应用已在社会经济活动方面展示出巨大的价值和潜力,在电力行业也有成功的应用范例。丹麦的维斯塔斯风力技术集团(Vestas Wind System A/S),通过在世界上最大的超级计算机上部署国际商业机器公司(International Business Machines Corporation, IBM)大数据解决方案,得以通过分析包括PB量级气象报告、潮汐相位、地理空间、卫星图像等结构化及非结构化的海量数据,从而优化风力涡轮机布局,提高风电发电效率。这些以前需要数周时间完成的分析工作现在只需不到1小时即可完成。美国的Space-Time公司2011年利用大数据可视化技术为美国加州独立系统运营商设计了一套实时监控电力传输系统能源基础设施的可视化软件Space-Time Insight,该系统可实时监测25000km的输电线路状况,可根据发生问题的严重性和临近地区的反应及时做出决策,保障电网的安全运行。中国国家电网所属的国家冀北电力有限公司,正在使用智慧风能解决方案来整合可再生能源并入所属电网,通过使用IBM风力预测技术,张北项目的第一阶段目标,旨在增加10%的可再生能源的整合发电量。通过分析提供所需的信息,将使能源电力公司得以减少风能并网的限制,进而更有效地使用已产出的能源,强化电网的运行。这种大数据的应用实践对中国电力大数据分析展示乃至整个能源相关行业都具有巨大的参考价值。应对大数据处理分析的有效技术方式是云计算技术。

云计算(Cloud Computing)是基于互联网的计算存储服务的增加、使用和交付模式,通常涉及通过互联网提供动态易扩展且通常是虚拟化的资源,是应对当前大数据挑战的有效方式。云是对网络或互联网的一种比喻说法。过去在图中往往用云表示电信网,后来也用于表示互联网和底层基础设施的抽象。云计算可以让用户体验每秒10万亿次的运算能力,拥有这么强大的计算能力可以模拟核爆炸、预测气候变化和市场发展趋势。用户通过计算机、笔记本、手机等方式接入数据中心,按自己的需求进行运算。

现阶段广为接受的云计算定义是美国国家标准与技术研究院(National Institute of Standards and Technology, NIST)提出的:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络、服务器、存储、应用软件、服务等),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。

当前,被普遍接受的云计算特点如下所述。

(1)超大规模

“云”具有相当的规模,Google云计算已经拥有100多万台服务器,Amazon、IBM、微软、Yahoo等的“云”均拥有几十万台服务器。企业私有云一般拥有数百上千台服务器。“云”能赋予用户前所未有的计算能力。

(2)虚拟化

云计算支持用户在任意位置、使用各种终端获取应用服务。所请求的资源来自“云”,而不是固定的有形的实体。应用在“云”中某处运行,但实际上用户无须了解、也不用担心应用运行的具体位置。只需要一台笔记本或者一个手机,就可以通过网络服务实现我们需要的一切,甚至包括超级计算这样的任务。

(3)高可靠性

“云”使用了数据多副本容错、计算节点同构可互换等措施保障服务的高可靠性,使用云计算比使用本地计算机可靠。

(4)通用性

云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一个“云”可以同时支撑不同的应用运行。

(5)高可扩展性

“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。

(6)按需服务

“云”是一个庞大的资源池,你按需购买;云可以像自来水、电、煤气那样计费。

(7)极其廉价

由于“云”的特殊容错措施,可以采用极其廉价的节点构成云,“云”的自动化集中式管理使大量企业无须负担日益高昂的数据中心管理成本,“云”的通用性使资源的利用率较之传统系统大幅提升,因此用户可以充分享受“云”的低成本优势,经常只要花费几百美元、几天时间就能完成以前需要数万美元、数月时间才能完成的任务。云计算可以彻底改变人们未来的生活,但同时也要重视环境问题,这样才能真正为人类进步做贡献,而不是简单的技术提升。

(8)潜在的危险性

云计算服务除了提供计算服务外,还必然提供了存储服务。但是云计算服务当前垄断在私人机构(企业)手中,而他们仅能够提供商业信用。对于政府机构、商业机构(特别像银行这样持有敏感数据的商业机构)选择云计算服务应保持足够的警惕。一旦商业用户大规模使用私人机构提供的云计算服务,无论其技术优势有多强,都不可避免地让这些私人机构以“数据(信息)”的重要性挟制整个社会。对于信息社会而言,“信息”是至关重要的。另一方面,云计算中的数据对于数据所有者以外的其他用户云计算用户是保密的,但是对于提供云计算的商业机构而言确实毫无秘密可言。所有这些潜在的危险,是商业机构和政府机构选择云计算服务、特别是国外机构提供的云计算服务时,不得不考虑的一个重要前提。

在智能电网运行过程中,大数据产生于整个系统的各个环节。比如在用电侧,随着大量智能电表及智能终端的安装部署,电力公司和用户之间的交互行为迅猛增长,电力公司可以每隔一段时间获取用户的用电信息,从而收集了比以往粒度更细的海量电力消费数据,构成智能电网中用户侧大数据。通过对数据分析可以更好地理解电力客户的用电行为、合理地设计电力需求响应系统和进行短期负荷预测等,从而有利于电网的规划和运行。

在智能电网中,随着高压、特高压电网及配电自动化建设的不断推进,智能化设备及系统应用数量不断增长,电网设备的部署结构与产生的数据日益复杂庞大。一方面,设备的自身状态和外部环境都会影响系统的运行,迫切需要对输变电设备负载能力、运行状态进行动态评估,以降低故障发生概率及相关风险,减少设备运行维护成本,提高设备净资产收益率;另一方面,由于智能输变电设备数量的不断增长,电网中获取与传输的各类数据也在发生几何级数的增长。这些数据不仅包括设备异常时出现的各类故障信号,运行过程中设备的各类状态信息,同时还包含了大量的相关数据,如地理信息、气象、视频图像、设备台账、实验数据与文档等。如何将这些多源异构高维的数据资源进行统一的收集、过滤与处理,并对现有的设备状态检测方案进行优化成为新的挑战。此外,基于因果关系的传统设备状态评价方法着眼点为单一设备和少量异常数据,难以实现对大量“数据资产”的综合有效利用以及面向整个电网的准确状态评估和风险预测。

鉴于大数据在电力系统中出现的场合越来越多,有必要对目前的应用现状和将来的挑战进行总结,为大数据技术在智能电网建设中的应用提供有益的参考。本节试图将智能电网中大数据的研究和应用现状及挑战进行综述,并给出了智能电网大数据存储与分析系统的一种可选的框架。