數(shù)據(jù)庫(kù)可以根據(jù)其存儲(chǔ)結(jié)構(gòu)、存儲(chǔ)內(nèi)容的類型和應(yīng)用方向等多種方式進(jìn)行分類。最常見(jiàn)的按存儲(chǔ)結(jié)構(gòu)進(jìn)行分類,大致可分為關(guān)系型、非關(guān)系型和多模數(shù)據(jù)庫(kù)。當(dāng)然有的數(shù)據(jù)庫(kù)公司可能有多種類型的數(shù)據(jù)庫(kù)產(chǎn)品,如Oracle、Microsoft等,在此按他們最主流的產(chǎn)品進(jìn)行劃分。
部分典型數(shù)據(jù)庫(kù)按存儲(chǔ)結(jié)構(gòu)分類
關(guān)系型數(shù)據(jù)庫(kù):也是大家最熟悉的數(shù)據(jù)庫(kù)之一,包含如Oracle、MySQL、IBM DB2、SQL Server等傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù),也包含通常用于做數(shù)據(jù)分析的MPP數(shù)據(jù)庫(kù)(Massively Parallel Processing,大規(guī)模并行處理)如Greenplum、Vertica、Teradata等,當(dāng)然這些MPP數(shù)據(jù)庫(kù)也往往被大家稱之為數(shù)據(jù)倉(cāng)庫(kù)。另外一些NewSQL數(shù)據(jù)也依然保持了關(guān)系型數(shù)據(jù)庫(kù)的這一特點(diǎn)。
非關(guān)系型數(shù)據(jù)庫(kù):近年來(lái)發(fā)展迅速的非關(guān)系型數(shù)據(jù)也越來(lái)越多樣,如幾乎每一家互聯(lián)網(wǎng)公司都會(huì)用到的Key-Value(鍵值對(duì))數(shù)據(jù)庫(kù)Redis,用于高并發(fā)情形下進(jìn)行緩存處理;擅長(zhǎng)于存儲(chǔ)樹(shù)形結(jié)構(gòu)的文檔數(shù)據(jù)庫(kù)MongoDB;近年來(lái)AI發(fā)展帶來(lái)的用于處理和存儲(chǔ)知識(shí)圖譜的圖數(shù)據(jù)庫(kù)Neo4j、GraphDB;用于大數(shù)據(jù)批量數(shù)據(jù)處理和即時(shí)查詢的列式存儲(chǔ);針對(duì)物聯(lián)網(wǎng)時(shí)序場(chǎng)景的時(shí)間序列數(shù)據(jù)庫(kù)InfluxDB等。
多模數(shù)據(jù)庫(kù):由于數(shù)據(jù)本身形態(tài)多樣,兼容不同數(shù)據(jù)格式的多模數(shù)據(jù)庫(kù)也越來(lái)越被大家重視。一些傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)或者NoSQL數(shù)據(jù)也開(kāi)始支持多種數(shù)據(jù)結(jié)構(gòu)的存儲(chǔ),如Oracle和Redis都支持文檔結(jié)構(gòu)的存儲(chǔ)方式。
前面也提到數(shù)據(jù)倉(cāng)庫(kù)的概念,其實(shí)關(guān)于數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)有一個(gè)更好的定義區(qū)分就是大家經(jīng)常聽(tīng)到的OLTP(聯(lián)機(jī)事務(wù)處理,On-Line Transaction Processing)和OLAP(聯(lián)機(jī)分析處理,On-Line Analytical Processing)。OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)的主要應(yīng)用,主要面向日常的高可用的事務(wù)處理,增刪改查,例如銀行交易。OLAP是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的主要應(yīng)用場(chǎng)景,以查詢?yōu)橹,支持?fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。數(shù)據(jù)倉(cāng)庫(kù)本身除了傳統(tǒng)的如Teradata、Greenplum等MPP架構(gòu),也有近年來(lái)比較火熱的基于Hadoop架構(gòu)/HDFS文件系統(tǒng)的上層查詢引擎。另外,新一代基于文件的分布式搜索和分析引擎Elastic Search也成為數(shù)據(jù)分析的標(biāo)配。
數(shù)據(jù)庫(kù)并不平坦的商業(yè)化之路
提到商業(yè)化數(shù)據(jù)庫(kù)就不得提傳統(tǒng)四大廠商Oracle、IBM、Microsoft、SAP,他們的關(guān)系型數(shù)據(jù)庫(kù)曾經(jīng)一度占據(jù)了商業(yè)數(shù)據(jù)庫(kù)市場(chǎng)超90%的市場(chǎng)規(guī)模(來(lái)源:Gartner2016年數(shù)據(jù))。但近年來(lái)數(shù)據(jù)類型的多樣性發(fā)展,也催生了一系列其他類型的數(shù)據(jù)庫(kù),對(duì)傳統(tǒng)商業(yè)數(shù)據(jù)進(jìn)行替代或者部分替代,比如在銀行領(lǐng)域開(kāi)始嘗試對(duì)一些非核心業(yè)務(wù)使用開(kāi)源或者國(guó)產(chǎn)解決方案。這些都一定程度上搶占了國(guó)外傳統(tǒng)數(shù)據(jù)庫(kù)廠商的份額,使得其市場(chǎng)規(guī)模呈現(xiàn)不增反降的趨勢(shì)。
同樣在OLAP領(lǐng)域,傳統(tǒng)分析型數(shù)據(jù)庫(kù)市場(chǎng)規(guī)模也面臨挑戰(zhàn)。近年來(lái)以Hadoop技術(shù)來(lái)構(gòu)建的數(shù)據(jù)倉(cāng)庫(kù)解決方案也蠶食了不少傳統(tǒng)如TeraData(目前市值超50億美金)等基于MPP架構(gòu)的市場(chǎng)規(guī)模。
再來(lái)看新型數(shù)據(jù)庫(kù)的變現(xiàn)能力:成立于2007年的文檔數(shù)據(jù)庫(kù)MongoDB于2017年在納斯達(dá)克上市(目前市值約80億美金),近幾年收入增長(zhǎng)迅速,每年收入增長(zhǎng)率均超過(guò)50%。但公司整體收入?yún)s不高,其2018年收入為2.67億美金,這本身也和其商業(yè)模式相關(guān)。MongoDB以開(kāi)源方式進(jìn)入市場(chǎng),迅速積累了大量用戶,并于2013年推出自己的商業(yè)化版本,用更好的工具和服務(wù)來(lái)進(jìn)行商業(yè)化變現(xiàn),但依然有絕大多數(shù)客戶使用其社區(qū)版本。由于其數(shù)據(jù)庫(kù)最初的定位和設(shè)計(jì)也讓它暫時(shí)無(wú)法撼動(dòng)傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的地位。
DB-Engines網(wǎng)站根據(jù)不同數(shù)據(jù)庫(kù)在網(wǎng)頁(yè)、Google Query、技術(shù)社區(qū)、人員招聘等被提到的頻次對(duì)其進(jìn)行綜合打分做了現(xiàn)有數(shù)據(jù)庫(kù)系統(tǒng)的受歡迎度排名。可以看出來(lái)傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)如Oracle、MySQL、SQL Server等依然保持較高的搜索頻度,而新型數(shù)據(jù)庫(kù)/搜索引擎如Redis、MongoDB、ElasticSearch、Hive等則越來(lái)越被大家關(guān)注。而這其中如PostgreSQL、Redis、ES、Hive等大量的開(kāi)源數(shù)據(jù)庫(kù)/引擎近年來(lái)快速增長(zhǎng)對(duì)商業(yè)化數(shù)據(jù)庫(kù)的沖擊也是影響商業(yè)數(shù)據(jù)庫(kù)收入增長(zhǎng)的重要原因之一。
除了獨(dú)立上市,在海外軟件和數(shù)據(jù)庫(kù)企業(yè)被收購(gòu)也是常見(jiàn)的一種退出方式。在數(shù)據(jù)庫(kù)領(lǐng)域,歷史上發(fā)生的數(shù)據(jù)庫(kù)收購(gòu)案例超過(guò)35次,而單筆最大的要數(shù)SAP以58億美金收購(gòu)美國(guó)的關(guān)系型數(shù)據(jù)庫(kù)Sybase了。
上文提到的絕大多數(shù)數(shù)據(jù)庫(kù)都是由國(guó)外廠商甚至國(guó)外個(gè)人開(kāi)發(fā)出來(lái),能稱上優(yōu)秀的國(guó)產(chǎn)數(shù)據(jù)庫(kù)寥寥無(wú)幾,這其中一方面是基礎(chǔ)軟件人才的缺失導(dǎo)致企業(yè)技術(shù)和產(chǎn)品的研發(fā)能力不足,另一方面缺乏優(yōu)質(zhì)客戶的早期陪跑也讓國(guó)產(chǎn)數(shù)據(jù)庫(kù)的升級(jí)迭代舉步維艱。
1978年Oracle推出第一版數(shù)據(jù)庫(kù)時(shí),我國(guó)才剛剛恢復(fù)高考。而計(jì)算機(jī)在國(guó)內(nèi)開(kāi)始被大家大規(guī)模熟知也是在上世紀(jì)90年代,到現(xiàn)在才短短幾十年的歷史。近年來(lái)由于互聯(lián)網(wǎng)的興起帶動(dòng)國(guó)內(nèi)IT從業(yè)人員的大幅增長(zhǎng),但主要的開(kāi)發(fā)者還是集中在上層應(yīng)用和功能性軟件的開(kāi)發(fā)。對(duì)于底層軟件的研發(fā)難度也讓大多IT企業(yè)和從業(yè)人員望而卻步。
產(chǎn)品研發(fā)周期長(zhǎng)
數(shù)據(jù)庫(kù)是基礎(chǔ)性軟件,好比汽車的引擎一樣,是系統(tǒng)的關(guān)鍵部件,具有“牽一發(fā)而動(dòng)全身“的特性。這要求數(shù)據(jù)庫(kù)本身有高穩(wěn)定性、強(qiáng)容錯(cuò)性和高安全性,因此數(shù)據(jù)庫(kù)的開(kāi)發(fā)不僅僅需要大量研發(fā)人員的長(zhǎng)期投入,往往還需要配套的嚴(yán)格的測(cè)試體系和優(yōu)秀的頂層產(chǎn)品設(shè)計(jì)。不僅如此,數(shù)據(jù)庫(kù)本身服務(wù)于行業(yè)應(yīng)用,因此一款成熟的數(shù)據(jù)庫(kù)還需要在實(shí)際場(chǎng)景中不斷的歷練打磨。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)中,例如Oracle、IBM DB2等,都?xì)v經(jīng)幾十年才達(dá)到現(xiàn)在的版本。
客戶數(shù)據(jù)庫(kù)替換成本高
雖然有基礎(chǔ)軟件“國(guó)產(chǎn)自主可控”的政策推動(dòng),但國(guó)內(nèi)大型銀行、運(yùn)營(yíng)商等核心交易、計(jì)費(fèi)系統(tǒng)長(zhǎng)期依賴于Oracle、IBM等數(shù)據(jù)庫(kù)系統(tǒng)。對(duì)于大型企業(yè)而言,核心系統(tǒng)是其業(yè)務(wù)的命脈,而數(shù)據(jù)庫(kù)又是其中的基石,數(shù)據(jù)庫(kù)本身的穩(wěn)定性和安全性優(yōu)先于一切,因此對(duì)他們而言,核心系統(tǒng)的完全替代并非易事。
雖然數(shù)據(jù)庫(kù)國(guó)產(chǎn)化舉步維艱,但并非沒(méi)有機(jī)會(huì),隨著這些年的技術(shù)積累,國(guó)內(nèi)也出現(xiàn)了一些優(yōu)秀的數(shù)據(jù)庫(kù)企業(yè)。
如達(dá)夢(mèng)數(shù)據(jù)庫(kù)已經(jīng)在國(guó)家電網(wǎng)、中鐵建等一大批的央企的核心系統(tǒng)中獲得了大規(guī)模的應(yīng)用,南大通用在中國(guó)銀行、中國(guó)聯(lián)通等大型企業(yè)也都有不錯(cuò)的商業(yè)落地。創(chuàng)業(yè)公司中如PingCap、Kyligence、柏睿、巨杉數(shù)據(jù)庫(kù)、偶數(shù)科技、濤思數(shù)據(jù)等國(guó)產(chǎn)數(shù)據(jù)庫(kù)廠商也取得了可喜的成績(jī)。另外國(guó)內(nèi)有技術(shù)實(shí)力的互聯(lián)網(wǎng)巨頭如阿里巴巴等也投入了大量人力在底層數(shù)據(jù)庫(kù)上,研發(fā)了如OceanBase等優(yōu)秀的數(shù)據(jù)庫(kù)。
無(wú)論未來(lái)國(guó)產(chǎn)數(shù)據(jù)庫(kù)走向如何,這些投入在底層基礎(chǔ)軟件研發(fā)的公司永遠(yuǎn)值得大家尊敬。
新的挑戰(zhàn)帶來(lái)新的機(jī)遇
縱觀數(shù)據(jù)庫(kù)和企業(yè)信息化軟件的發(fā)展史,往往都是需求驅(qū)動(dòng)技術(shù)的更新迭代。近年來(lái)隨著云計(jì)算、大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等場(chǎng)景的提出和落地,對(duì)數(shù)據(jù)庫(kù)的要求也越來(lái)越高,隨之也帶來(lái)數(shù)據(jù)庫(kù)技術(shù)本身的發(fā)展。
云計(jì)算的發(fā)展讓所有IT基礎(chǔ)設(shè)施都有云化的可能,在數(shù)據(jù)庫(kù)領(lǐng)域也有DBaaS(Database as a Service)數(shù)據(jù)庫(kù)被提出,而其中比較有代表性的如AWS的RedShift,獨(dú)角獸企業(yè)Snowflake等。
DBaaS部分?jǐn)?shù)據(jù)庫(kù)系統(tǒng)舉例
在大數(shù)據(jù)生態(tài)下,圍繞Hadoop和新的流式計(jì)算等大數(shù)據(jù)框架有一系列新型的數(shù)據(jù)倉(cāng)庫(kù)方案被提出;隨著人工智能領(lǐng)域的蓬勃發(fā)展,在需要邏輯推理的應(yīng)用場(chǎng)景中,如風(fēng)控&反欺詐、ChatBot等,知識(shí)圖譜是其核心模塊。加米谷大數(shù)據(jù)培訓(xùn),6月大數(shù)據(jù)開(kāi)發(fā)0基礎(chǔ)班、提高班,成都小班面授,預(yù)報(bào)名中。而知識(shí)圖譜本身的存儲(chǔ)可以利用圖數(shù)據(jù)庫(kù)如Neo4j、GraphDB等來(lái)構(gòu)建和存儲(chǔ);另外垂直行業(yè)的場(chǎng)景下,由于其數(shù)據(jù)本身的行業(yè)特點(diǎn)也可能需要特殊的數(shù)據(jù)庫(kù)才能更好的支持,如剛剛完成D輪融資的InfluxDB就是應(yīng)用于物聯(lián)網(wǎng)場(chǎng)景的數(shù)據(jù)庫(kù)。另外一些新的需求如OLAP和OLTP的同時(shí)支持;對(duì)非結(jié)構(gòu)化文本甚至圖片的支持,未來(lái)也可能是大家關(guān)注的方向。
在當(dāng)前數(shù)據(jù)大爆炸的時(shí)代,對(duì)數(shù)據(jù)的存儲(chǔ)和處理要求也越來(lái)越高,也將驅(qū)動(dòng)新一輪的數(shù)據(jù)庫(kù)系統(tǒng)的研發(fā)。在去國(guó)產(chǎn)自主可控的背景下,隨著底層技術(shù)積累越來(lái)越深,國(guó)產(chǎn)數(shù)據(jù)庫(kù)也存在著巨大的商業(yè)機(jī)會(huì)。
本公司出品的研究報(bào)告首先介紹了中國(guó)數(shù)據(jù)庫(kù)行業(yè)市場(chǎng)發(fā)展環(huán)境、數(shù)據(jù)庫(kù)行業(yè)整體運(yùn)行態(tài)勢(shì)等,接著分析了中國(guó)數(shù)據(jù)庫(kù)行業(yè)市場(chǎng)運(yùn)行的現(xiàn)狀,然后介紹了數(shù)據(jù)庫(kù)行業(yè)市場(chǎng)競(jìng)爭(zhēng)格局。隨后,報(bào)告對(duì)數(shù)據(jù)庫(kù)行業(yè)做了重點(diǎn)企業(yè)經(jīng)營(yíng)狀況分析,最后分析了中國(guó)數(shù)據(jù)庫(kù)行業(yè)發(fā)展趨勢(shì)與投資預(yù)測(cè)。您若想對(duì)數(shù)據(jù)庫(kù)行業(yè)產(chǎn)業(yè)有個(gè)系統(tǒng)的了解或者想投資中國(guó)數(shù)據(jù)庫(kù)行業(yè),本報(bào)告是您不可或缺的重要工具。
本研究報(bào)告數(shù)據(jù)主要采用國(guó)家統(tǒng)計(jì)數(shù)據(jù),海關(guān)總署,問(wèn)卷調(diào)查數(shù)據(jù),商務(wù)部采集數(shù)據(jù)等數(shù)據(jù)庫(kù)。其中宏觀經(jīng)濟(jì)數(shù)據(jù)主要來(lái)自國(guó)家統(tǒng)計(jì)局,部分行業(yè)統(tǒng)計(jì)數(shù)據(jù)主要來(lái)自國(guó)家統(tǒng)計(jì)局及市場(chǎng)調(diào)研數(shù)據(jù),企業(yè)數(shù)據(jù)主要來(lái)自于國(guó)統(tǒng)計(jì)局規(guī)模企業(yè)統(tǒng)計(jì)數(shù)據(jù)庫(kù)及證券交易所等,價(jià)格數(shù)據(jù)主要來(lái)自于各類市場(chǎng)監(jiān)測(cè)數(shù)據(jù)庫(kù)。