一、企業簡介
智擎信息技術(北京)有限公司專注于工業大數據,利用物聯網和機器學習技術為工業企業提供設備數據采集、智能監控、故障預警、 自診斷、產線效能優化、運維管理分析、大部件庫存優化分析、銷量預測等產品和服務。產品能夠提供基于公有云及私有云的落地實施。
智擎信息提供針對工業領域深度定制的分析模型軟件套件產品,涵蓋了設備預測性運維、自診斷、設備性能優化、成本分析、供應鏈分析等,并具有機器學習自建模等一系列功能和服務。為企業管理者提供戰略性的決策支持。智擎信息致力于成為中國乃至全球領先的工業設備及生產線智能分析平臺和預測服務提供商。
我們工業APP產品是基于Hadoop和 Spark開源生態建立而來。在機器學習建模和分析方面,我們將深度學習和機器學習同行業知識圖譜相融合形成了針對工業領域的動態閾值深度學習算法。我們優化了深度神經網絡(例如:LSTM 模型),并將故障樹、故障診斷機理等信息植入到深度神經網絡的增量、增強學習之中。我們獨創了工業領域的自動化建模方法。此自動化建模機制針對工業領域中的溫度、振動、 壓力、轉速,以及大部件的失效進行了優化,實現了高準確 率的自動化調參和建模機制。
二、工業APP簡介
(一)、問題定位
近些年隨著國內工業制造業飛速的發展對設備管理提出了更高的要求。在設備管理和生產線優化方面,隨著設備老化程度的持續提高和對生產效率的新要求,很多客戶需要一套完整的工業大數據平臺來支撐他們從設備運行監控管理、預測分析和運營決策支撐。
本產品覆蓋了數據的采集、數據的機器學習建模訓練、預測分析模型運行環境、模型庫管理、設備健康度分析功能、故障預測模型創建和分析功能、故障樹分析、處理措施推薦及窗口期功能等主要解決了如下問題:降低故障頻次及非計劃性停機時間、提升設備產能、對設備進行全生命周期的管理。
(二)、創新點
本產品可以通過公有云、私有化部署和混合云的方式部署實現。同時,可以通過移動端的方式為用戶提供服務。產品特性涵蓋了歷史數據的機器學習自動化建模(故障預測模型、關聯性故障模型、大部件生存分析模型)、SaaS化的設備故障預測APP應用落地等。主要優勢如下:
1、針對故障和診斷的自動化建模和調優機制。產品內置了針對行業具體應用場景而優化的自動化建模和模型調優機制,融合了經過行業認可的模型參數庫和知識圖譜機制,可以根據更新的參數和知識圖譜進行自動化優化從而創建新模型。讓設備專家針對模型的創建和優化時間縮短到數小時內。
2、可以針對不同的設備進行多樣性模型的部署和管理。也可以針對位于不同工況下的同類設備部署不同版本的模型,便于更好的模型適配和預測準確度。
3、可靠性:考慮到同工業互聯網平臺的適配,在整個數據倉庫的架構設計中,引入Hadoop生態系統的多個組件,對于整個Hadoop集群,以及每個生態組件,都設計的故障轉移機制或者集群。最大程度的保證服務的連續性,以及出現故障的自動轉移。
4、可擴展性:在 Hadoop 生態系統中各個組件自身均支持分布式部署,在可擴展性方面每個組件均支持在線的擴展性,非常容易進行新的節點和資源的增加,對于集群的管理引入Apache Ambari進行管理,可以方便地部署組件以及進行節點的擴展。在負載和主節點的冗余機制中引入 Apache Zookeeper,更易于管理主節點的可靠性。
5、部署靈活性:在設計方案中可采用云服務及私有化部署的方式,在Hadoop集群的搭建時采用Hadoop以及各個開源組件。
6、易用性:在易用性的設計上面,針對用戶可見的操作均設計為簡單操作使用,用戶可以按照操作手冊簡單的學習后即可操作。數據模型的創建也都是通過可視化的配置來完 成的。
7、安全性:在數據展示端的B/S架構系統中采用 Apache Shiro 安全框架進行安全和身份認證的管理,對于不同角色的人員進行功能使用的控制,對于數據的訪問按照區域進行數據隔離。
(三)、功能介紹
產品功能包含了數據接入、數據管理、模型管理、故障 預測、儀表盤管理、模型調度、診斷和自動化等功能。
數據接入:通過數據采集終端從設備上把傳感器的數據采集出來,或者從客戶方已經采集出來的數據進行數據轉發,最終進行大數據平臺的數據接入,其中傳輸的過程包含了數據的壓縮和加密。
圖1 數據接入界面
數據管理:針對實時接入的設備傳感器數據、批量導入的歷史數據、以及用戶自由上傳的文件數據進行統一接入、處理和存儲等一體化的管理。
圖2 數據管理界面
模型管理:包含模型的建模過程管理、模型測試、模型評估、模型上線部署、模型調度運行等,從模型的創建、訓練、測試、部署、上線全鏈路流程功能的覆蓋。
圖3 模型管理界面
故障預測:通過特定故障場景進行模型的建模訓練,完成訓練后的模型上線部署,可以針對該故障進行故障發生的提前預測,在預測到故障的發生,即生成故障的預警,針對故障的預警可以由專業的人員進行審核并 下發到現場進行故障預警的排查與檢修。
圖4 故障預測界面
儀表盤管理:針對數據的可視化,儀表盤是數據最終呈現的方法,可以支持歷史數據、實時數據、上傳的文本數據,以及故障數據,主數據、故障預警數據等進行可視化展示,操作方便,支持多種類型的圖標構建。
圖5 儀表盤管理界面
模型調度:模型調度是針對不同設備的實時數據,針對不同的模型進行定時調度執行的管理功能。
圖6 模型調度界面
診斷和自動化:故障預測模型針對不同的故障場景或者不同的設備部件進行預測后,生成的預警會關聯到特定的設備和部件上,并且針對不同模型的排查與診斷提供方案。 針對模型的自動化包括自動化建模和模型上線后的增量自動化優化。
圖7 故障診斷及運維指導界面
(四)、功能和技術指標優勢
1、提升模型分析和預測的準確率:通過自動化參數調整和增量/增強學習將預測準確度指標提升5%。同時,對遷移學習的應用,在未進行預訓練狀況下,也可以達到較為準確的預測值;
2、統一數據總線層:統一設計數據接入及數據存儲層,并形成統一的接口總線,從而建立標準化的數據管理流程。
3、統一業務分析層:實現統一的針對業務的機器學習算法/模型調用層,最終實現從數據接入和處理、模型算法分析預測到展示的集中管理。
4、產品提供多種編程語言接口:Java/Scala/Python/R 等。支持基于分布式 R 和 Python 等主流數據分析軟件。
三、技術方案說明
(一)、工業APP架構
本產品基于Hadoop大數據平臺基礎之上,利用Hadoop構建分布式集群,進行數據的分布式存儲,利用spark構建分布式計算框架,進行數據和模型的分布式計算,利用Hive和HBase搭建數據倉庫,自研發數據處理和管理組件。
機器學習算法模型利用tensorflow構建深度學習模型訓練框架,自研發自組織自動化數據標記算法,自研發分布式模型執行運算調度框架,自研發自動化故障建??蚣?。產品架構設計如下:
圖8 工業設備故障預測分析系統APP架構圖
智能終端做為智擎工業設備數據采集運算終端,可以與設備PLC 通信,把傳感器的實時數據,錄波數據采集出來,并且作為端的運算終端,針對實時的數據進行初步的運算,然后進行大數據平臺的數據接入,可以支持數據的斷點續傳。WYSEngine SDK Apollo 作為產品數據接口的 SDK 組件,運行與 Hadoop 大數據平臺執行,按照工業設備的數據應用場景進行功能組件的封裝,實現從數據的接入、數據處理、數據存儲、數據運算、模型管理和任務調度等功能,為上層應用提供平臺級的支撐。
此外,APP 產品功能覆蓋了針對數據的管理,模型管理,模型庫,應用儀表盤,模型評估和模型調度,并且封裝一系列針對工業場景優化的算法和業務場景。
圖9 工業設備故障預測分析系統APP組件圖
HDFS 作為實時數據和歷史數據的存儲平臺,使用服務器集群進行部署,HDFS中的文件存儲采用Apache Parquet的存儲格式進行存儲,最大程度上進行數據的壓縮存儲,并且保證數據使用時真實性。 Apache Hadoop Yarn作為整個Hadoop集群的資源管理器, 對所有計算任務所需要的資源進行調度管理,并針對集群資源進行管理。
Apache Zookeeper 是一個分布式的分布式應用程序協調服務,可以為分布式應用提供一致性服務,作為 HDFS的NameNode主備的管理,針對Kafka集群的協調管理,針對Spark集群的協調管理。
數據倉庫的實時數據采集部分由 Flume 完成,Flume 對外提供 API,由外部程序調用 API 進行數據的傳輸,Flume接收到的數據放入 Apache Kafka 的消息隊列中進行緩存,以同步數據采集與數據處理存儲的速度不一致性;
文件日志數據的采集方位為開放 FTP共享文件夾,由外10部程序進行日志數據的寫入,Flume監控文件夾,對新寫入的數據進行處理并存入HDFS中。
數據處理 ETL部分的內容由 Spark Streaming 進行處理,處理完成后將數據存儲到 HDFS中,另外,處理完成的數據進行后續的計算。
分析部分在數據 ETL 清洗之后進行特征選擇、知識圖譜特征的融合、機器學習模型訓練、模型評估、模型保存和基于效果機制的增量增強學習,最終開放成為 API 供調用。
整個運算部分的內容由 Spark 集群進行處理,處理后的結果數據寫入 MySql 數據庫,以供展示系統抽取數據并進行展示。展示端的直接短接 MySql 數據庫,需要確保 MySql 數據庫中的數據保持的是小量級,匯總或者處理后的數據,以確保最終的展示端應用的響應速度。對于數據的查詢和使用主要提供 Spark SQL、Hive 組件 支持類傳統 SQL 的數據查詢。
實時數據指從設備現場的工業設備中采集的實時數據, 按照點位進行采集,每個點位包含點位的名稱、內容、時間 戳等字段,不同機型的工業設備采用的點位配置表不同,不 同的風場的工業設備,或者相同機型的不同的工業設備所使 用的點位配置表也不同。
(二)、工業APP關鍵技術
在關鍵技術路線方面,主要引入了在線、離線相融合的復雜調度方式。這種方式將比較高效的解決數據接入、建模計算和實時預測各個方面的資源調度難題。尤其是針對深度學習的建模和自學習過程,將有效的避免波峰波谷過于明顯的問題。
在模型創建和分析預測方面,我們使用了深度學習、機器學習、知識圖譜相結合的方式。在深度學習方面,我們使 用 LSTM 等算法,以及使用了增量和增強學習用于自動化建模和調優。
對于準確率的判別方面,我們利用了混淆矩陣來進行,主要技術方面利用內存技術、MPP 存儲共同優化大數據平臺的瓶頸問題。
此外,冷熱數據存儲和對機器學習自學習方面都提供強有力的支撐,尤其是對增量學習和遷移學習方面, 平臺可以存儲相關的可變參數模板來提升算法模型準確率。
四、應用情況描述
(一)、應用場景描述
開展設備運行現場精益運維管理,對現場運維期的業務進行細化,將數據分析、資產管理、故障預測和診斷、設備KPI管理、物資保障和作業窗口等集中在一起,作為基礎數據,結合現場運維策略,將現場工作任務進行綜合管理,降低設備運維成本(減小備品備件損失和更換頻次)、降低設備故障頻次和停機時間,提高設備可利用率及收益。其中,重點實現機組故障自診斷分析,推送合適作業窗口、備件位置、數量信息及故障解決方案;實現對現場KPI的管理,給現場運維計劃提供數據支撐。以上信息均以工單的形式下發至設備現場,解決了現有的工單不能自動創建、備件位置和數量查詢繁瑣等問題,改善了故障處理效率,降低了設備損失及運維成本。
(二)商業化情況
本產品主要應用在發電行業和石化領域,在發電行業的客戶有金風、明陽、上海電氣,在石化領域的客戶有中海油。
本產品幫助用戶降低故障頻次及非計劃性停機時間、提升設備產能、對設備進行全生命周期的管理。幫助用戶降低非計劃性停機時間達到19%(平均),降低故障頻次達到21%(平均)。降低直接成本消耗。此外,促進客戶的信息化平臺的統一性,數據管理的一致性都起到非常重要的作用。
本產品幫助公司針對不同客戶的服務投入減小40%,并且可以提升運算和模型自優化準確度。針對不同行業客戶的項目交付成本將減少40%,利潤增加15%以上。
圖10 工業設備故障預測分析系統APP效果圖