產經情報

Google資料分析服務Dataflow整合BigQuery新API,提供更高的資料處理效能

日期:2022-03-02

Google改進資料工作管線服務Dataflow,以及無伺服器資料倉儲服務BigQuery間的整合,使得Dataflow能夠利用BigQuery的Storage Write API,在同一個高效能API中,執行資料串流和批次寫入操作。

Dataflow是可用於大規模資料處理的無伺服器可擴展工作管線服務,Google提到,不少用戶會將Dataflow和BigQuery結合使用,對企業所生成的大量資料進行即時分析。Google持續改進BigQuery和Dataflow的整合,包括Dataflow之前支援BigQueryIO連接器自動分片功能,將串流工作管線吞吐量提高到3倍。

而新發布的整合功能,也能夠提高Dataflow到BigQuery的資料操作效能,BigQuery開發團隊所發布新的Storage Write API,為一個適用於BigQuery的統一資料擷取API,而將該API用在Dataflow,代表用戶可以將資料串流傳輸至BigQuery,或是利用單一操作來將大量的資料批次儲存到BigQuery中。

新的API提供比之前的table.insertAll() API更高的吞吐量,而且其較低的串流成本優勢,每月提供2 TB的免費使用量。用戶現在已經可以從Java和Python客戶端函式庫用到新的API,或是使用任何支援gRPC的程式語言來使用該API。

用戶要使用Storage Write API,必須要先更新支援該API的Beam SDK版本,官方建議使用2.36.0或是更新版本,並且設定在創建BigQueryIO寫入轉換時,使用新方法STORAGE_WRITE_API,此外用戶還需要設定串流數以及觸發頻率兩參數。

串流數會影響BigQueryIO寫入轉換的平行處理程度,而觸發頻率則決定資料在BigQuery中,多快可查詢到時間,Google建議用戶應該先在自家具有代表性的儲存磁碟中測試這兩個數值,以尋找最佳參數配置,官方提到,之後將會提供自動分片支援,可在執行時決定和調整這些參數。