lv

基于Hadoop的中醫藥大數據平臺基礎架構的設計與研究

發布時間 2018年09月07日 06:58    編輯:fashion    來源:中國醫藥導報

基于Hadoop的大數據平臺實施記 整體架構設計

王麗 王蘋 沈俊輝

[摘要] 大數據技術在當下被廣泛關注,構建中醫藥大數據平臺是未來強化中醫藥行業競爭力的有力武器。本文通過解析中醫藥大數據特性,設計和研究中醫藥大數據平臺的基礎架構,通過合理設計和部署集群、網絡和服務器等環境,力求提供穩定可靠的中醫藥大數據基礎平臺環境。

[關鍵字] Hadoop;大數據平臺;中醫藥;基礎架構

[中圖分類號] R2-05 [文獻標識碼] A [文章編號] 1673-7210(2018)02(c)-0158-05

Design and research of traditional Chinese medicine big data platform infrastructure based on Hadoop

WANG Li WANG Ping SHEN Junhui

Information Center, Beijing University of Chinese Medicine, Beijing 100029, China

[Abstract] Big data technology has been widely concerned in the present and building a big data platform for traditional Chinese medicine is a powerful weapon to strengthen the competitiveness of traditional Chinese medicine in the future. In this paper, through the analysis of traditional Chinese medicine data characteristics, architecture design and research of traditional Chinese medicine data platform, through reasonable design and deployment of cluster, server and network environment, so as to provide a stable and reliable traditional Chinese medicine data base platform.

[Key words] Hadoop; Big data; Traditional Chinese medicine; Infrastructure

在當今社會,信息技術與經濟社會的交匯融合已近引發了數據迅猛增長,數據已成為國家基礎性戰略資源。2015年8月31日,國務院印發《促進大數據發展行動綱要》(以下簡稱《綱要》),系統部署大數據發展工作[1]?!毒V要》明確指出,推動大數據發展和應用,在未來5~10年打造精準治理、多方協作的社會治理新模式,建立運行平穩、安全高效的經濟運行新機制,構建以人為本、惠及全民的民生服務新體系,開啟大眾創業、萬眾創新的創新驅動新格局,培育高端智能、新興繁榮的產業發展新生態。堅持創新驅動發展,加快大數據部署,深化大數據應用,已成為穩增長、促改革、調結構、惠民生和推動政府治理能力現代化的內在需要和必然選擇。

近幾年,中醫藥醫療行業的數據增長迅猛,中醫藥醫療行業也應抓住契機緊跟時代的步伐,大力發展信息化建設。2015年,國務院公布的《中醫藥健康服務發展規劃(2015-2020)》,特別提到了運用云計算、移動互聯網、物聯網等信息技術開發智能化中醫健康服務產品[2]。2016年2月22日,國務院發布了《中醫藥發展戰略規劃綱要(2016-2030年)》,其中明確了未來十五年我國中醫藥發展方向和工作重點,以及今后一個時期中醫藥發展的重點任務?!吨嗅t藥健康服務發展規劃(2015-2020)》中明確指出推動“互聯網+”中醫醫療作為重點任務之一,將推進中醫藥信息化建設作為完成重點任務的保障舉措[3]。在推進中醫藥信息化建設的保障舉措中要求按照健康醫療大數據應用工作部署,在健康中國云服務計劃中,加強中醫藥大數據應用。在若干政策的大力支持下,大數據技術與中醫藥醫療行業相結合,必將產生巨大的經濟和社會效益。

1 行業背景

目前在學術界和產業界對于大數據(Big data)并沒有一個嚴格的定義[4]。研究機構Gartner定義“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。麥肯錫全球研究所對大數據給出的定義是一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征[5]。而對于大數據的特征也是眾說紛紜,基本上容量、種類和速度是大數據公認的3個基本特征[6-8]。

在中醫藥醫療行業領域中,中醫藥信息具有非常典型的大數據特征。首先從數據量上看,北京的一所三甲中醫醫院平均1 d的門診量可達1萬人次,每年住院患者可達5萬以上,如果將這些患者的診療過程全部數據化,每人次就診產生的醫學數據以10 M計,那么每年產生的數據量將高達70 TB,如果把全國中醫院的臨床數據都匯聚起來,其規模之大可想而知。其次,數據類型復雜。在中醫醫院,每個患者不但要經過辨證論治的個體化診療,還會經過各種檢查檢測進行疾病及其預后診斷,所以不光有病歷資料中包含的信息,還包括檢查、多種影像或病理切片檢查的生物學信息。這些眾多類別的數據通過分析處理可以產生多種多樣的數據存儲形式。再者,在數據的時效性方面,醫療數據每時每刻都在產生,例如臨床診斷等都具有實時處理的需求,具有時效性。

但是目前絕大多數中醫藥醫療行業數據均處于歸檔狀態,使用傳統關系型數據庫技術使得數據的存儲、數據結構擴展、數據分析和檢索都無法發揮數據的真正的價值,數據的價值和利用率受到了嚴重制約,大數據技術的引入將很好的解決這些問題,并為使用者帶來超乎預期的數據服務。

而在技術層面,在大數據技術發展的初期,大數據基礎平臺是一個單獨的大集群,雖然在資源分配和數據共享方面具有靈活易用的優勢,但問題也逐漸凸顯[9-12]。一方面隨著平臺上越來越多業務應用系統共同使用基礎資源,不同保障級別和重要性的業務應用無法分級維護,經常出現一般應用對資源的占用過高影響其他重要應用的情況;另一方面隨著業務應用系統占用資源的增加,基礎平臺規模也將突破管理上限,需要規劃多個集群,便于合理分級管理。另外,由于大數據平臺與其他業務應用混合組網,不便于網絡流量管控,需要規劃單獨的大數據平臺機房模塊,按其特點進行網絡規劃,構建適應大數據基礎平臺發展的基礎架構。

2 平臺基礎架構設計

2.1 功能需求分析

隨著醫療衛生行業信息化的建設和發展,醫療數據的來源非常廣泛,既包括大型醫院、社區醫院的臨床診療數據,也包括醫保數據和健康數據。這些數據占據了大量的存儲資源,但是還沒有發揮它們真正的作用[13-16]。中醫藥大數據基礎平臺根據中醫藥大數據的特征,應該具有以下功能:①能夠管理大量復雜數據,這些數據不僅包含結構化數據,還包含大量的非結構化數據;②良好的中醫藥大數據分析和處理能力,通過對大數據的分析和處理挖掘其中蘊含的價值,為發現中醫藥知識和規律提供幫助;③具有靈活性和可擴展性,對于某些業務應用的調整既不會影響原有業務應用,也不會對整個平臺造成大的負擔。

2.2 技術選型

Hadoop框架具備可靠、高效、可伸縮的特點,這是中醫藥大數據基礎平臺設計與實現的基礎前提。Hadoop實現了一個分布式文件系統。HDFS是Google File System的開源實現,HDFS有高容錯性的特點,并且設計用來部署在通用硬件上(通常是X86服務器)。它提供高傳輸能力來訪問應用程序的數據,適合那些有著超大數據集的應用程序。MapReduce是Google MapReduce的開源實現。這個分布式框架有極大的擴展性,滿足系統高吞吐量的需求。HDFS和MapReduce是Hadoop框架最核心的設計。HDFS為大數據提供了存儲能力,而MapReduce為大數據提供了計算能力。

Hadoop生態將持續向前迭代并蓬勃發展,這是中醫藥大數據基礎平臺架構可持續優化的重要保障。Hadoop已經成為大數據技術事實上的標準架構,多個因素共同造就了其在短短十年間取得的統治性地位[17-19]。

2.3 基礎平臺架構設計

2.3.1 總體架構 中醫藥大數據基礎平臺設計由3個層次組成,分別是業務層、功能層和平臺層。業務層為用戶提供基于大數據分析與處理的一系列操作和相關接口,同時可以進行用戶信息管理;功能層提供對大數據的存儲和挖掘的功能;平臺層則是為整個大數據基礎平臺提供基礎的分布式環境支持。見圖1。

2.3.2 硬件架構 中醫藥大數據基礎平臺是基于Hadoop分布式處理環境,所以需要在多個分布式的節點上部署Linux系統并安裝Hadoop環境。中醫藥大數據平臺建設是一個長期的循序漸進的過程,也是一個不斷創新和完善的過程,其伴隨著醫療系統的發展而不斷完善。中醫藥大數據集群設計結合中醫藥醫療行業自身的業務特點、系統建設現狀和未來發展藍圖來進行,并依據數據類型對應用場景進行合理地分類,打造一個可擴展、高可用、安全、高效的海量數據處理和挖掘的中醫藥大數據集群環境[20-21]。

結合中醫藥醫療行業自身的實際情況,根據以下3個基本原則來建設大數據集群。一是根據中醫藥行業應用場景進行分類:批量計算、在線計算和流式計算。這種模式的劃分同時考慮到不同應用場景對于資源占用、系統響應時間和基礎平臺架構的實際需求。批量計算場景下的響應時間一般要求不高,且對計算資源的使用可以通過YARN總體管控;在線計算場景下的響應時間要求高,對資源占用度高,獨立構建集群也避免了與其他集群形成資源搶占,降低了不同類型應用互相干擾的風險;流式計算的基礎平臺架構使用的是Kafka和Storm組件,根據技術架構獨立構建集群。二是根據可靠性級別進行區分:高保障級別和低保障級別。高保障級別集群承載的是核心應用系統以及需要最高級別可靠性保障的應用系統,這部分業務應用系統保障要求高,保障方式也有別于其他集群,采用訂閱服務模式提供保障服務。低保障級別承載的是除核心業務應用系統以外的其他應用系統,是規模最大的集群。三是根據集群節點數量上限進行拆分:由于集群內部的數據可以共享使用,數據的使用效率最高,從這個優勢來看,單個集群規模越大越好。但從Hadoop架構的設計原理來看,單個集群內數據節點的增多將導致元數據節點內存計算和元數據存儲的需求相應增加,而元數據節點的資源有限,限制了集群內節點數不能過多。另外,從可管理性的角度看,集群內節點數量過多也給統一管理帶來了額外的復雜性。因此結和基礎平臺的技術能力,確??煽氐募盒阅芘c管理水平,一般控制在每個集群內20~30個節點數量為宜。見圖2。

在集群設計和平臺架構中,必須清晰地認識到沒有萬能的軟件架構能解決所有問題,不同的場景、需求、限制下需要有針對性的架構模式才能滿足大數據項目需求。根據大數據集群設計原則,為了保障中醫藥大數據基礎平臺高可靠性,平臺劃分為如下幾個集群。見圖3。

無論是Hadoop架構還是流處理架構,均被設計為運行在標準X 86服務器硬件上,但是這并不意味著可以隨意選擇服務器配置。Hadoop集群能夠充分發揮作用,需要足夠好的硬件,以及足夠好的軟件。實際部署中根據應用系統隔離、資源隔離、利舊、成本、負載以及差異化組件對服務器硬件的要求(HDFS、MapReduce等不同組件對服務器硬件要求不同)不同,會使用不同節點甚至部署不同的集群??紤]到各種因素,中醫藥大數據基礎平臺的服務器有兩種類型:A型服務器主要用于Hadoop架構中的NameNode節點(元數據節點)、Kafka和Storm服務;B型服務器主要用于Hadoop架構中的DataNode節點(數據節點)。配置見表1。

通過對這兩類服務器在測試環境中進行的性能分析,在一般業務壓力下,A型與B型服務器的平均可用內存和CPU空閑率均衡,均在50%以上。雖然以上服務器選型能最大化發揮其計算與存儲能力。但是需要說明的是,隨著業務系統的變化和工作負載的改變,中醫藥大數據基礎平臺的服務器硬件選型將需要不斷調整和優化。而無論服務器配置如何變化,都需要結合完善的資源分配和管控手段來充分發揮基礎硬件的作用。

2.3.3 網絡架構設計 中醫藥大數據基礎平臺的物理服務器網絡架構分為3層:接入層、匯聚層和核心層??紤]物理服務器的網絡冗余、帶寬等問題,大數據服務器內部之間采用雙鏈路萬兆網絡連接到接入層的交換機。接入層到匯聚層使用雙路的40 Gb帶寬的網絡,這樣可以確保大數據集群內部節點之間數據交換和數據移動的高帶寬需求。匯聚層到核心層使用雙路的10 Gb帶寬的網絡,這部分帶寬主要用于業務系統和大數據集群環境之間的數據導入導出和管理需求。大數據集群環境和其他業務系統間通過核心層的交換機互相訪問。見圖4。中醫藥大數據基礎平臺因其各種應用系統規模,適合獨立機房模塊部署。大數據服務器間的網絡架構見圖5。

在這種網絡架構中,使用EOR列頭接入模式。這種部署模式使得接入交換機的數量最小,接入交換機與匯聚交換機之間的線纜數量也最小。另外,服務器內部網絡采用鏈路聚合模式,相比于一般的主備網卡模式能夠增加1倍的帶寬。

2.3.4 軟件環境 本文中設計的中醫藥大數據基礎平臺是基于Cloudera的CDH 5構建的,是大數據解決方案的商用Hadoop版本,具有良好的易用性。該平臺支持全文檢索與切面導航;支持實時數據索引;支持友好的多用戶交互;支持批處理、實時索引;支持多類型、多格式數據源;原生與Hadoop生態系統相結合;提供豐富的API與完善的生態系統;100%開源,具有成熟的代碼,活躍的社區。

Cloudera Manager可集成Hadoop生態圈的相關組件,以交互式的方式,進行配置的更新,任務及運行情況的監控等。通過Cloudera Manager可以自動化完成Hadoop的安裝過程,大幅縮短部署時間。Cloudera Manager提供實時的集群概況,提供了集中的中央控制臺對集群的配置進行更改。Cloudera Manager還提供了全面的報告和診斷工具,幫助優化性能和利用率。此外,良好的API、活躍的開源社區也為個性化的開發定制提供可能。

在基礎平臺層面上,本文的核心基礎平臺采用的是Hadoop等開源技術架構。Hadoop是一個能夠對大量數據進行分布式處理的軟件框架。Hadoop依賴于通用服務器設備和專用的硬件和軟件投入相比,中醫藥大數據系統的建設成本相對較低。但是Hadoop也有自身的局限。由于Hadoop的控制節點把文件的元數據存儲在內存中,所以大量的小文件會產生大量的元數據。百萬級別的文件數目還可行,如果小文件數據過多就會無法處理。不過對于中醫藥大數據來說,這個顯然不是問題。Hadoop適用的場景更加傾向于一次寫入多次讀取的情況。這很符合中醫藥大數據的特點。

3 小結

中醫藥大數據研究是未來中醫藥研究一個重要方向,通過大數據平臺可以實現醫療衛生數據的匯聚、存儲、管理和挖掘等應用。而在大數據基礎平臺方面通過集群、服務器和網絡等基礎環境的部署方式,可以將大數據環境與其他業務應用環境按功能進行獨立劃分,避免了數據流之間的互相干擾,降低了接入、匯聚、核心層數據交換模式的設計復雜度,且可以針對大數據自身的設計網絡收斂比,使用適配的網絡交換設備,容易利用其規模效應大幅降低建設成本。由于中醫藥行業的業務應用系統情況各異,基礎環境還需要根據應用系統實際運行情況不斷調整和優化,以適配不同類型的作業負載。雖然從不同原則出發設計了多個集群,便于分級保障、分類維護、安全可控,但多個集群卻給數據共享帶來了不便,在必要的情況下需通過數據導入導出的方式進行集群間的數據共享。

目前面向中醫藥的大數據基礎平臺主要為用戶提供存儲和高性能計算服務,對中醫藥大數據的處理研究還有待完善。如何為用戶提供其實可行的大數據處理方法將是下一步的研究任務。

[參考文獻]

[1] 國務院.促進大數據發展行動綱要[M].北京:人民出版社,2015.

[2] 國務院.中醫藥健康服務發展規劃(2015-2020年)[EB/OL].(2015-5-7)http://www.gov.cn/zhengce/content/2015-05/07/content_9704.htm.

[3] 國務院.中醫藥發展戰略規劃綱要(2016-2030年)[EB/OL].(2016-2-26)http://www.gov.cn/zhengce/content/2016-02/26/content_5046678.htm.

[4] 維克托·邁爾·舍恩伯格.大數據時代[M].杭州:浙江人民出版社,2012.

[5] 董曉婷.大數據的定義特征及其應用分析[J].硅谷,2013(11):120.

[6] Marx V. The big challenges of big data [J]. Nature,2013, 498(7453):255-260.

[7] Trelles O,Prins P,Snir M,et al.Big Data,But Are We Re?鄄ady? [J]. Nature Rev Genet,2011,12(3):224.

[8] Murdoch TB,Detsky AS. The inevitable application of big data to health care [J]. JAMA,2013,309(13):1351-1352.

[9] 于琦,崔蒙,李海燕,等.從大數據角度探討中醫藥信息學特征[J].中國數字醫學,2014,9(4):33-34.

[10] 崔蒙,李海燕,雷蕾,等.“大數據”時代與中醫藥“知識密集型”數據[J].中國中醫藥圖書情報雜志,2013,37(3):1-3.

[11] 芮益芳.大數據醫療:下一個產業“風口”[J].商學院,2015,12(4):100-103.

[12] 張振,周毅.醫療大數據及其面臨的機遇與挑戰[J].醫學信息學雜志,2014,35(6):1-8.

[13] 周雪晴,羅亞玲.信息化建設中醫療大數據現狀[J].中華醫學圖書情報雜志,2015,24(11):48-51.

[14] 李國杰.大數據研究的科學價值[J].中國計算機學會通訊,2012,8(9):8-15.

[15] 鄭傳峰等.企業大數據系統構建實戰[M].北京:機械工業出版社,2017.

[16] 周光華,辛英,張雅潔,等.醫療衛生領域大數據應用探討[J].中國衛生信息管理雜志,2013,10(4):296-300, 304.

[17] 崔文斌,牟少敏,王云誠,等.Hadoop大數據平臺的搭建與測試[J].山東農業大學學報:自然科學版,2013,44(4):550-555.

[18] 劉昱圻,陳韻岱.探討臨床大數據庫對臨床醫生在科研和臨床實踐中的應用[J].科學時代,2015(12):25-27.

[19] 吳朝暉,姜曉紅,陳華鈞.知識服務:大數據時代下的中醫藥信息化發展趨勢[J].中國中醫藥圖書情報雜志,2013, 37(2):4-5.

[20] 孟永偉,黃建強,曹騰飛,等.Hadoop集群部署實驗的設計與實現[J].實驗技術與管理,2015,32(1):145-149.

[21] 許禮捷.基于CentOS 的Hadoop分布式集群的構建方法研究[J].沙洲職業工學院學報,2016,19(1):23-28.

(收稿日期:2017-10-27 本文編輯:王 娟)

數據 中醫藥 集群
FASHION GUIDE
  • McQueen: 表象之下 “McQueen: 表象之下” 沉浸式展覽于上海揭幕
    McQueen: 表象之下 “McQueen: 表象之下” 沉浸式展覽于上海揭幕
    中國上海McQueen于上海Fotografiska 影像藝術中心呈現沉浸式展覽McQueen:表象之下,深入探尋品牌獨特藝術表達的起源與靈感。本..
  • MICHAEL KORS北京國貿商城旗艦店盛大啟幕 呈現首家餐飲概念JET SET LOUNGE (MK旅行吧)
    MICHAEL KORS北京國貿商城旗艦店盛大啟幕 呈現首家餐飲概念JET SET LOUNGE (MK旅行吧)
    [2026年3月27日] MICHAEL KORS欣然宣布,位于北京國貿商城的全新旗艦店正式啟幕,以品牌最新零售設計理念打造,呈現精致而富有..
  • 2026 鋁面限量版瑞士軍刀:專注鑄就精準
    2026 鋁面限量版瑞士軍刀:專注鑄就精準
    Victorinox 維氏隆重推出 2026 鋁面限量版瑞士軍刀,這是備受贊譽的年度鋁面限量系列的第十二款作品。今年,該系列采用冰川藍..
  • 最新

    lv