資料接入層
資料接入層是資料平台的進站工廠。
它的任務不是做策略邏輯,而是把來源資料轉成可治理、可追蹤、可回放的內部事件流。
核心責任
1. 每個來源獨立 connector
建議每個 connector 單獨部署,例如:
polygon_trades_connectoribkr_order_events_connectorbinance_book_connectordatabento_flatfile_loader
2. 記錄原始 payload
至少保留:
- raw message bytes 或 raw json
- source receive timestamp
- parse status
- sequence number 或 request id
- connector metadata
3. 打時間戳
至少區分:
event_time: 市場事件真正發生的時間source_publish_time: source 發出這筆資料的時間ingest_time: connector 收到的時間process_time: downstream 處理時間
4. 做基礎驗證
適合放在 ingestion 的檢查:
- schema validation
- 必填欄位檢查
- sequence gap 檢查
- 基本 dedupe
- 明顯錯誤值攔截
不適合放在 ingestion 的事情:
- indicator 計算
- factor 計算
- 策略判斷
- 過多業務邏輯
雙軌輸出
原始不可變日誌
用途:
- audit
- replay
- 事故調查
- parser 重跑
- vendor 問題追查
特性:
- append-only
- immutable
- 保留原始 payload
標準化事件流
用途:
- 給 aggregation、indicator、strategy、risk、execution 使用
特性:
- schema 穩定
- 跨 source 統一
- 適合 live / replay 共用