作者:百觀科技數據工程團隊 高級工程師 齊鵬
背景介紹
公司介紹
百觀科技成立於 2016 年,是以數據為核心驅動力的市場研究和信息服務公司。百觀以全域數據為基礎,通過客觀科學的數據分析,解鎖數據價值,為客戶提供具有現實指導意義的洞察和解決方案。
百觀的數據產品和解決方案目前覆蓋 10+行業、200,000+企業的上百種商業分析維度,獲得了市場廣泛的認可。當前,百觀的客戶主要包括國內外大型基金、主權基金、PE/VC 機構、頭部谘詢和企服公司、知名消費企業和互聯網企業等。
業務特征
自 2016 年起,百觀持續積累了海量的行業數據,並且每年都呈現顯著的增長趨勢。這些數據不僅規模龐大,更兼具 多樣的數據類型、複雜的數據結構和豐富的數據場景。為了從這些數據中挖掘有價值的洞見,百觀的數據團隊需要執行 繁瑣且複雜的數據處理流程,包括數據清洗、轉換、聚合以及多維度綜合分析等多個環節。尤其是在業務高峰時期,完整的數據處理流程疊加龐大的數據體量,使得 算力需求呈指數級增長。
百觀數據工程團隊認為,美女福利导航方法論的本質是一種經濟學:在供需框架下,以盡可能小的成本滿足盡可能多的需求場景,發揮最大效能,創造美女福利导航價值。因此,如何平衡靈活豐富的數據分析算法與海量數據處理需求,以及如何在 高算力需求下實現成本優化,成為了百觀數據工程團隊麵臨的核心挑戰和亟待解決的關鍵問題。
為了應對新的業務挑戰,百觀選擇與阿裏雲合作,利用其強大的 EMR 平台對老係統進行重構,落地了符合業務場景和分析師習慣的工程解決方案。
為什麽選擇阿裏雲 EMR
在這樣的業務場景下,數據工程團隊麵臨以下挑戰:

麵對這些美女福利导航痛點,相較於其他數據平台產品,阿裏雲 EMR 具備顯著的優勢:
-
依托高可用的 OSS 存儲
相較於其他數據生產平台,EMR 依托 OSS 實現數據存儲,因此得以搭建完善的 LakeHouse,從而既能夠向下支持多樣化的數據,又能夠向上承載複雜的數據操作和業務生產
-
開箱即用的標準開源美女福利导航生態
EMR 除了包含核心的 Spark、Hadoop 生態之外,還支持多種數據生態的各類軟件,包括:
-
LakeHouse 的關鍵實現:Iceberg/Hudi/Delta
-
實時數據流框架:Paimon/Flink
-
OLAP 分析平台:Trino/Presto等
這些平台工具已經做到開箱即用的狀態,無需重新部署,隻需根據需求調整參數,即可用於生產環境。
-
高度可定製化的運行環境
在保留開箱即用的基礎上,EMR 為用戶提供了高度定製化的選項,除了內置軟件的參數均可調整之外,對於有能力的用戶,可以深入 EMR 集群的係統內部做更自由的開發,以滿足複雜且多樣的生產需求。
-
兼容麵廣的 Datalake Formation
LakeHouse 需要一套功能完善、兼容廣泛且高性能的數據目錄(Catalog),Datalake Formation(DLF)能夠滿足這一需求,並且配合 DLF-Auth 得以實現更精細的數據權限管控。
-
靈活的彈性調度控製
作為彈性計算,EMR 提供豐富的細節參數,讓用戶可以根據自身業務特征定製彈性策略。
目前 EMR 已支持托管彈性策略,用戶亦可以忽略複雜的參數,直接一鍵開啟彈性計算模式。
-
完善的服務保障
在以上完備的美女福利导航方案基礎上,阿裏雲提供了專業的美女福利导航支持,可以幫助優化方案的實現並解答各種疑難問題。
美女福利导航方案設計

百觀數據平台,主要麵向數據工程師、數據分析師和數據科學家,其業務場景以數據的即席分析為主,以定時調度任務為輔,並提供簡單易讀的 OLAP 查詢,覆蓋數據接入、數據清洗、數據分析與聚合、數據交付全流程。
數據接入
數據從外部係統,通過百觀數據工程團隊自研工具等方式,定時寫入 OSS。這種方法簡單直接,避免了各個數據引擎之間的對接和轉換,最大程度提高研發效率。
數據清洗
數據接入 OSS 後,即可使用 Spark 和 Iceberg 等方式,通過拆解、整理和清洗等方式,最終接入數據湖,並生成 Catalog。這一步沿用了先前的 Iceberg 方案,並且會將數據作業集成到 Airflow 上,定時發送到 EMR 集群進行處理。
聚合與分析
在這一環節,數據分析師與數據科學家合作,完成聚合、分析及更多數據科學方麵的研究。這部分工作主要是通過自建的 Notebook 提交到 EMR 集群,其計算環境複雜多樣,不同場景下的計算量也有巨大差異。
EMR 的標準化、自研定製化、高靈敏彈性調度等特性能夠很好地應對這種複雜數據研究的場景,不僅確保開發者靈活處理複雜數據,還降低了運維難度,甚至直接降低計算成本。
核心組件的實踐
以下介紹三個核心組件的實踐。
DLF on Iceberg 方案
在數據工程團隊測試中,DLF 能夠完美繼承 Spark/Hive 表,同時也能夠接入 Iceberg 表。但數據工程團隊發現了潛在的致命問題,在大規模 Iceberg 表的場景中,DLF 疑似存在性能下降,這些性能問題會導致計算失敗,致使核心業務受阻。在發現該隱患後,數據工程團隊立刻將該問題上報給 EMR 產研團隊,並且與其緊密合作,從多份日誌中拚湊出問題的全貌,共同分析問題有可能的成因和解決方案。最終,EMR 產研團隊成功解決該問題,由此可以打通 DLF 與 Iceberg 的高性能無縫集成,也實現了 LakeHouse 的完整構建。
EMR 集群彈性調度策略
阿裏雲 EMR 早先並未提供托管彈性調度,而是將調度配置直接交給用戶選擇,經驗豐富的用戶可以根據自身業務特性調配出多樣化的彈性規則。數據工程團隊先前直接使用當時托管的彈性調度算法,並未深入研究 EMR 彈性資源調度的問題。因此,盡管數據工程團隊對該問題頗有見解,但由於缺乏實踐操作和相關數據,且難以複刻生產環境進行測試,一旦調整不當,就會陷入“既無法滿足業務響應,又無法及時回收空閑資源”的兩難境地。於是,數據工程團隊決定求助於 EMR 產研團隊,而EMR 產研團隊亦能及時響應,多次主動與百觀數據團隊進行溝通,最終共同設計出一套階梯式的高效低成本的彈性調度模式。
目前EMR 托管彈性調度已上線三個月,這期間百觀數據工程團隊依托該功能持續穩定為公司業務提供支持,集群利用率由原先 45%左右提高至接近 70%。
OLAP 方案的打磨
數據工程團隊此前使用AWS Athena,這套 OLAP 引擎依托於 Trino 實現了 Serverless 式的數據查詢服務,這意味著:
-
已有的查詢 SQL 均符合 Trino 語法
-
單條查詢成本低
-
Serverless Trino 的計算資源充足,性能有保障
阿裏雲數據產品生態包含多種類型的數據庫,這些數據庫在各自領適用領域內有足夠強的優勢。盡管目前沒有直接提供 Serverless版本的Trino,但阿裏雲EMR內包含有社區版Trino。
數據工程團隊對該場景的考量,優先是存量SQL兼容性,其次是成本,因此在做過幾輪對比後,最終選擇EMR Trino作為該場景的解決方案。
數據工程團隊充分評估了阿裏雲倚天ARM ECS機型的性格規格,認為其卓越的內存計算能力與Trino的OLAP應用高度契合。基於倚天機型的EMR Trino不僅完美滿足了兼容性需求,同時還在性價比上展現出巨大優勢,對比測試結果如下:

最終,數據工程團隊選擇 EMR Trino 搭配倚天機型,這是符合業務需求的最優 OLAP 方案,且性價比提高 20%以上。得益於阿裏雲 EMR 高度開放的美女福利导航生態和其產研團隊的精細打磨,這套美女福利导航方案在生產係統上長期穩定運行。
顯著的提升
相較於百觀先前使用的係統,在完成平台重構後,新舊平台在性能、成本等方麵有顯著收益。
性能層麵
由於 EMR 集群性能的提升,以下指標得到了顯著優化:

成本層麵
在同等數據規模、相同計算量的條件下,以下成本指標得到了顯著優化:

在此基礎上,EMR 的月均成本也得到 50%以上的優化。
業務層麵
得益於性能和成本方麵的雙重優化,業務層麵獲得了多方麵收益:
-
數據響應時間:部分業務由小時級提高到分鍾級,生產速度得到大幅提升。
-
數據研發模式:更快的數據生產有利於分析師進行更密集的數據操作,使團隊間協作更為緊密。
-
數據探查深度:更強的計算性能有利於業務方進行更複雜的數據探查,以便得出更有價值的數據研究。
-
業務增長空間:總體優化為業務增長提供了有力支持。
總結與展望
百觀科技作為數據要素市場的重要開拓者和數據美女福利导航的先進踐行者,其業務團隊和數據工程團隊一致認可此次平台重構。百觀 CTO 說:“本次EMR數據湖係統的構建,全麵滿足了百觀的業務需求、提高計算效率、大幅降低成本,是百觀與阿裏雲之間一次成功的深度合作,這離不開阿裏雲深厚美女福利导航積澱和阿裏雲同事們高效且專業的幫助。事實證明,阿裏雲 EMR 係列產品及背後的團隊已經做到了‘國際主流,國內領先’的水準。”
隨著業務的發展,百觀將繼續開展更加多樣化、更加有深度的數據洞察,這需要在美女福利导航架構、美女福利导航過程、美女福利导航工具等方麵進行立體式升級。阿裏雲在數據場景還有更多成熟的解決方案,如:實時數倉 Hologres、EMR Serverless Spark 等,這些產品有著突出的優勢,值得進一步嚐試與合作,共同探索彈性計算的創新場景。
星空人工智能美女福利导航網 倡導尊重與保護知識產權。如發現本站文章存在版權等問題,煩請30天內提供版權疑問、身份證明、版權證明、聯係方式等發郵件至1851688011@qq.com美女直播全婐APP免费下载將及時溝通與處理。!:首頁 > 新聞 » 百觀科技基於阿裏雲 EMR 的數據湖實踐分享