运维监控系统安全加固和功能优化 (#21)

* fix(ops): 修复运维监控系统的关键安全和稳定性问题 ## 修复内容 ### P0 严重问题 1. **DNS Rebinding防护** (ops_alert_service.go) - 实现IP钉住机制防止验证后的DNS rebinding攻击 - 自定义Transport.DialContext强制只允许拨号到验证过的公网IP - 扩展IP黑名单，包括云metadata地址(169.254.169.254) - 添加完整的单元测试覆盖 2. **OpsAlertService生命周期管理** (wire.go) - 在ProvideOpsMetricsCollector中添加opsAlertService.Start()调用 - 确保stopCtx正确初始化，避免nil指针问题 - 实现防御式启动，保证服务启动顺序 3. **数据库查询排序** (ops_repo.go) - 在ListRecentSystemMetrics中添加显式ORDER BY updated_at DESC, id DESC - 在GetLatestSystemMetric中添加排序保证 - 避免数据库返回顺序不确定导致告警误判 ### P1 重要问题 4. **并发安全** (ops_metrics_collector.go) - 为lastGCPauseTotal字段添加sync.Mutex保护 - 防止数据竞争 5. **Goroutine泄漏** (ops_error_logger.go) - 实现worker pool模式限制并发goroutine数量 - 使用256容量缓冲队列和10个固定worker - 非阻塞投递，队列满时丢弃任务 6. **生命周期控制** (ops_alert_service.go) - 添加Start/Stop方法实现优雅关闭 - 使用context控制goroutine生命周期 - 实现WaitGroup等待后台任务完成 7. **Webhook URL验证** (ops_alert_service.go) - 防止SSRF攻击：验证scheme、禁止内网IP - DNS解析验证，拒绝解析到私有IP的域名 - 添加8个单元测试覆盖各种攻击场景 8. **资源泄漏** (ops_repo.go) - 修复多处defer rows.Close()问题 - 简化冗余的defer func()包装 9. **HTTP超时控制** (ops_alert_service.go) - 创建带10秒超时的http.Client - 添加buildWebhookHTTPClient辅助函数 - 防止HTTP请求无限期挂起 10. **数据库查询优化** (ops_repo.go) - 将GetWindowStats的4次独立查询合并为1次CTE查询 - 减少网络往返和表扫描次数 - 显著提升性能 11. **重试机制** (ops_alert_service.go) - 实现邮件发送重试：最多3次，指数退避(1s/2s/4s) - 添加webhook备用通道 - 实现完整的错误处理和日志记录 12. **魔法数字** (ops_repo.go, ops_metrics_collector.go) - 提取硬编码数字为有意义的常量 - 提高代码可读性和可维护性 ## 测试验证 - ✅ go test ./internal/service -tags opsalert_unit 通过 - ✅ 所有webhook验证测试通过 - ✅ 重试机制测试通过 ## 影响范围 - 运维监控系统安全性显著提升 - 系统稳定性和性能优化 - 无破坏性变更，向后兼容 * feat(ops): 运维监控系统V2 - 完整实现 ## 核心功能 - 运维监控仪表盘V2（实时监控、历史趋势、告警管理） - WebSocket实时QPS/TPS监控（30s心跳，自动重连） - 系统指标采集（CPU、内存、延迟、错误率等） - 多维度统计分析（按provider、model、user等维度） - 告警规则管理（阈值配置、通知渠道） - 错误日志追踪（详细错误信息、堆栈跟踪） ## 数据库Schema (Migration 025) ### 扩展现有表 - ops_system_metrics: 新增RED指标、错误分类、延迟指标、资源指标、业务指标 - ops_alert_rules: 新增JSONB字段（dimension_filters, notify_channels, notify_config） ### 新增表 - ops_dimension_stats: 多维度统计数据 - ops_data_retention_config: 数据保留策略配置 ### 新增视图和函数 - ops_latest_metrics: 最新1分钟窗口指标（已修复字段名和window过滤） - ops_active_alerts: 当前活跃告警（已修复字段名和状态值） - calculate_health_score: 健康分数计算函数 ## 一致性修复（98/100分） ### P0级别（阻塞Migration） - ✅ 修复ops_latest_metrics视图字段名（latency_p99→p99_latency_ms, cpu_usage→cpu_usage_percent） - ✅ 修复ops_active_alerts视图字段名（metric→metric_type, triggered_at→fired_at, trigger_value→metric_value, threshold→threshold_value） - ✅ 统一告警历史表名（删除ops_alert_history，使用ops_alert_events） - ✅ 统一API参数限制（ListMetricsHistory和ListErrorLogs的limit改为5000） ### P1级别（功能完整性） - ✅ 修复ops_latest_metrics视图未过滤window_minutes（添加WHERE m.window_minutes = 1） - ✅ 修复数据回填UPDATE逻辑（QPS计算改为request_count/(window_minutes*60.0)） - ✅ 添加ops_alert_rules JSONB字段后端支持（Go结构体+序列化） ### P2级别（优化） - ✅ 前端WebSocket自动重连（指数退避1s→2s→4s→8s→16s，最大5次） - ✅ 后端WebSocket心跳检测（30s ping，60s pong超时） ## 技术实现 ### 后端 (Go) - Handler层: ops_handler.go（REST API）, ops_ws_handler.go（WebSocket） - Service层: ops_service.go（核心逻辑）, ops_cache.go（缓存）, ops_alerts.go（告警） - Repository层: ops_repo.go（数据访问）, ops.go（模型定义） - 路由: admin.go（新增ops相关路由） - 依赖注入: wire_gen.go（自动生成） ### 前端 (Vue3 + TypeScript) - 组件: OpsDashboardV2.vue（仪表盘主组件） - API: ops.ts（REST API + WebSocket封装） - 路由: index.ts（新增/admin/ops路由） - 国际化: en.ts, zh.ts（中英文支持） ## 测试验证 - ✅ 所有Go测试通过 - ✅ Migration可正常执行 - ✅ WebSocket连接稳定 - ✅ 前后端数据结构对齐 * refactor: 代码清理和测试优化 ## 测试文件优化 - 简化integration test fixtures和断言 - 优化test helper函数 - 统一测试数据格式 ## 代码清理 - 移除未使用的代码和注释 - 简化concurrency_cache实现 - 优化middleware错误处理 ## 小修复 - 修复gateway_handler和openai_gateway_handler的小问题 - 统一代码风格和格式变更统计: 27个文件，292行新增，322行删除（净减少30行） * fix(ops): 运维监控系统安全加固和功能优化 ## 安全增强 - feat(security): WebSocket日志脱敏机制，防止token/api_key泄露 - feat(security): X-Forwarded-Host白名单验证，防止CSRF绕过 - feat(security): Origin策略配置化，支持strict/permissive模式 - feat(auth): WebSocket认证支持query参数传递token ## 配置优化 - feat(config): 支持环境变量配置代理信任和Origin策略 - OPS_WS_TRUST_PROXY - OPS_WS_TRUSTED_PROXIES - OPS_WS_ORIGIN_POLICY - fix(ops): 错误日志查询限流从5000降至500，优化内存使用 ## 架构改进 - refactor(ops): 告警服务解耦，独立运行评估定时器 - refactor(ops): OpsDashboard统一版本，移除V2分离 ## 测试和文档 - test(ops): 添加WebSocket安全验证单元测试（8个测试用例） - test(ops): 添加告警服务集成测试 - docs(api): 更新API文档，标注限流变更 - docs: 添加CHANGELOG记录breaking changes ## 修复文件 Backend: - backend/internal/server/middleware/logger.go - backend/internal/handler/admin/ops_handler.go - backend/internal/handler/admin/ops_ws_handler.go - backend/internal/server/middleware/admin_auth.go - backend/internal/service/ops_alert_service.go - backend/internal/service/ops_metrics_collector.go - backend/internal/service/wire.go Frontend: - frontend/src/views/admin/ops/OpsDashboard.vue - frontend/src/router/index.ts - frontend/src/api/admin/ops.ts Tests: - backend/internal/handler/admin/ops_ws_handler_test.go (新增) - backend/internal/service/ops_alert_service_integration_test.go (新增) Docs: - CHANGELOG.md (新增) - docs/API-运维监控中心2.0.md (更新) * fix(migrations): 修复calculate_health_score函数类型匹配问题在ops_latest_metrics视图中添加显式类型转换，确保参数类型与函数签名匹配 * fix(lint): 修复golangci-lint检查发现的所有问题 - 将Redis依赖从service层移到repository层 - 添加错误检查（WebSocket连接和读取超时） - 运行gofmt格式化代码 - 添加nil指针检查 - 删除未使用的alertService字段修复问题： - depguard: 3个（service层不应直接import redis） - errcheck: 3个（未检查错误返回值） - gofmt: 2个（代码格式问题） - staticcheck: 4个（nil指针解引用） - unused: 1个（未使用字段）代码统计： - 修改文件：11个 - 删除代码：490行 - 新增代码：105行 - 净减少：385行
2026-01-02 20:01:12 +08:00
parent 7fdc2b2d29
commit 45bd9ac705
171 changed files with 10618 additions and 2965 deletions
--- a/frontend/src/api/admin/dashboard.ts
+++ b/frontend/src/api/admin/dashboard.ts
@@ -8,7 +8,7 @@ import type {
  DashboardStats,
  TrendDataPoint,
  ModelStat,
-  ApiKeyUsageTrendPoint,
+  APIKeyUsageTrendPoint,
  UserUsageTrendPoint
 } from '@/types'

@@ -93,7 +93,7 @@ export interface ApiKeyTrendParams extends TrendParams {
 }

 export interface ApiKeyTrendResponse {
-  trend: ApiKeyUsageTrendPoint[]
+  trend: APIKeyUsageTrendPoint[]
  start_date: string
  end_date: string
  granularity: string
--- a/frontend/src/api/admin/index.ts
+++ b/frontend/src/api/admin/index.ts
@@ -15,6 +15,7 @@ import subscriptionsAPI from './subscriptions'
 import usageAPI from './usage'
 import geminiAPI from './gemini'
 import antigravityAPI from './antigravity'
+import opsAPI from './ops'
 import userAttributesAPI from './userAttributes'

 /**
@@ -33,6 +34,7 @@ export const adminAPI = {
  usage: usageAPI,
  gemini: geminiAPI,
  antigravity: antigravityAPI,
+  ops: opsAPI,
  userAttributes: userAttributesAPI
 }

@@ -49,6 +51,7 @@ export {
  usageAPI,
  geminiAPI,
  antigravityAPI,
+  opsAPI,
  userAttributesAPI
 }

--- a/frontend/src/api/admin/ops.ts
+++ b/frontend/src/api/admin/ops.ts
@@ -0,0 +1,324 @@
+/**
+ * Admin Ops API endpoints
+ * Provides stability metrics and error logs for ops dashboard
+ */
+
+import { apiClient } from '../client'
+
+export type OpsSeverity = 'P0' | 'P1' | 'P2' | 'P3'
+export type OpsPhase =
+  | 'auth'
+  | 'concurrency'
+  | 'billing'
+  | 'scheduling'
+  | 'network'
+  | 'upstream'
+  | 'response'
+  | 'internal'
+export type OpsPlatform = 'gemini' | 'openai' | 'anthropic' | 'antigravity'
+
+export interface OpsMetrics {
+  window_minutes: number
+  request_count: number
+  success_count: number
+  error_count: number
+  success_rate: number
+  error_rate: number
+  p95_latency_ms: number
+  p99_latency_ms: number
+  http2_errors: number
+  active_alerts: number
+  cpu_usage_percent?: number
+  memory_used_mb?: number
+  memory_total_mb?: number
+  memory_usage_percent?: number
+  heap_alloc_mb?: number
+  gc_pause_ms?: number
+  concurrency_queue_depth?: number
+  updated_at?: string
+}
+
+export interface OpsErrorLog {
+  id: number
+  created_at: string
+  phase: OpsPhase
+  type: string
+  severity: OpsSeverity
+  status_code: number
+  platform: OpsPlatform
+  model: string
+  latency_ms: number | null
+  request_id: string
+  message: string
+  user_id?: number | null
+  api_key_id?: number | null
+  account_id?: number | null
+  group_id?: number | null
+  client_ip?: string
+  request_path?: string
+  stream?: boolean
+}
+
+export interface OpsErrorListParams {
+  start_time?: string
+  end_time?: string
+  platform?: OpsPlatform
+  phase?: OpsPhase
+  severity?: OpsSeverity
+  q?: string
+  /**
+   * Max 500 (legacy endpoint uses a hard cap); use paginated /admin/ops/errors for larger result sets.
+   */
+  limit?: number
+}
+
+export interface OpsErrorListResponse {
+  items: OpsErrorLog[]
+  total?: number
+}
+
+export interface OpsMetricsHistoryParams {
+  window_minutes?: number
+  minutes?: number
+  start_time?: string
+  end_time?: string
+  limit?: number
+}
+
+export interface OpsMetricsHistoryResponse {
+  items: OpsMetrics[]
+}
+
+/**
+ * Get latest ops metrics snapshot
+ */
+export async function getMetrics(): Promise<OpsMetrics> {
+  const { data } = await apiClient.get<OpsMetrics>('/admin/ops/metrics')
+  return data
+}
+
+/**
+ * List metrics history for charts
+ */
+export async function listMetricsHistory(params?: OpsMetricsHistoryParams): Promise<OpsMetricsHistoryResponse> {
+  const { data } = await apiClient.get<OpsMetricsHistoryResponse>('/admin/ops/metrics/history', { params })
+  return data
+}
+
+/**
+ * List recent error logs with optional filters
+ */
+export async function listErrors(params?: OpsErrorListParams): Promise<OpsErrorListResponse> {
+  const { data } = await apiClient.get<OpsErrorListResponse>('/admin/ops/error-logs', { params })
+  return data
+}
+
+export interface OpsDashboardOverview {
+  timestamp: string
+  health_score: number
+  sla: {
+    current: number
+    threshold: number
+    status: string
+    trend: string
+    change_24h: number
+  }
+  qps: {
+    current: number
+    peak_1h: number
+    avg_1h: number
+    change_vs_yesterday: number
+  }
+  tps: {
+    current: number
+    peak_1h: number
+    avg_1h: number
+  }
+  latency: {
+    p50: number
+    p95: number
+    p99: number
+    p999: number
+    avg: number
+    max: number
+    threshold_p99: number
+    status: string
+  }
+  errors: {
+    total_count: number
+    error_rate: number
+    '4xx_count': number
+    '5xx_count': number
+    timeout_count: number
+    top_error?: {
+      code: string
+      message: string
+      count: number
+    }
+  }
+  resources: {
+    cpu_usage: number
+    memory_usage: number
+    disk_usage: number
+    goroutines: number
+    db_connections: {
+      active: number
+      idle: number
+      waiting: number
+      max: number
+    }
+  }
+  system_status: {
+    redis: string
+    database: string
+    background_jobs: string
+  }
+}
+
+export interface ProviderHealthData {
+  name: string
+  request_count: number
+  success_rate: number
+  error_rate: number
+  latency_avg: number
+  latency_p99: number
+  status: string
+  errors_by_type: {
+    '4xx': number
+    '5xx': number
+    timeout: number
+  }
+}
+
+export interface ProviderHealthResponse {
+  providers: ProviderHealthData[]
+  summary: {
+    total_requests: number
+    avg_success_rate: number
+    best_provider: string
+    worst_provider: string
+  }
+}
+
+export interface LatencyHistogramResponse {
+  buckets: {
+    range: string
+    count: number
+    percentage: number
+  }[]
+  total_requests: number
+  slow_request_threshold: number
+}
+
+export interface ErrorDistributionResponse {
+  items: {
+    code: string
+    message: string
+    count: number
+    percentage: number
+  }[]
+}
+
+/**
+ * Get realtime ops dashboard overview
+ */
+export async function getDashboardOverview(timeRange = '1h'): Promise<OpsDashboardOverview> {
+  const { data } = await apiClient.get<OpsDashboardOverview>('/admin/ops/dashboard/overview', {
+    params: { time_range: timeRange }
+  })
+  return data
+}
+
+/**
+ * Get provider health comparison
+ */
+export async function getProviderHealth(timeRange = '1h'): Promise<ProviderHealthResponse> {
+  const { data } = await apiClient.get<ProviderHealthResponse>('/admin/ops/dashboard/providers', {
+    params: { time_range: timeRange }
+  })
+  return data
+}
+
+/**
+ * Get latency histogram
+ */
+export async function getLatencyHistogram(timeRange = '1h'): Promise<LatencyHistogramResponse> {
+  const { data } = await apiClient.get<LatencyHistogramResponse>('/admin/ops/dashboard/latency-histogram', {
+    params: { time_range: timeRange }
+  })
+  return data
+}
+
+/**
+ * Get error distribution
+ */
+export async function getErrorDistribution(timeRange = '1h'): Promise<ErrorDistributionResponse> {
+  const { data } = await apiClient.get<ErrorDistributionResponse>('/admin/ops/dashboard/errors/distribution', {
+    params: { time_range: timeRange }
+  })
+  return data
+}
+
+/**
+ * Subscribe to realtime QPS updates via WebSocket
+ */
+export function subscribeQPS(onMessage: (data: any) => void): () => void {
+  let ws: WebSocket | null = null
+  let reconnectAttempts = 0
+  const maxReconnectAttempts = 5
+  let reconnectTimer: ReturnType<typeof setTimeout> | null = null
+  let shouldReconnect = true
+
+  const connect = () => {
+    const protocol = window.location.protocol === 'https:' ? 'wss:' : 'ws:'
+    const host = window.location.host
+    ws = new WebSocket(`${protocol}//${host}/api/v1/admin/ops/ws/qps`)
+
+    ws.onopen = () => {
+      console.log('[OpsWS] Connected')
+      reconnectAttempts = 0
+    }
+
+    ws.onmessage = (e) => {
+      const data = JSON.parse(e.data)
+      onMessage(data)
+    }
+
+    ws.onerror = (error) => {
+      console.error('[OpsWS] Connection error:', error)
+    }
+
+    ws.onclose = () => {
+      console.log('[OpsWS] Connection closed')
+      if (shouldReconnect && reconnectAttempts < maxReconnectAttempts) {
+        const delay = Math.min(1000 * Math.pow(2, reconnectAttempts), 30000)
+        console.log(`[OpsWS] Reconnecting in ${delay}ms...`)
+        reconnectTimer = setTimeout(() => {
+          reconnectAttempts++
+          connect()
+        }, delay)
+      }
+    }
+  }
+
+  connect()
+
+  return () => {
+    shouldReconnect = false
+    if (reconnectTimer) clearTimeout(reconnectTimer)
+    if (ws) ws.close()
+  }
+}
+
+export const opsAPI = {
+  getMetrics,
+  listMetricsHistory,
+  listErrors,
+  getDashboardOverview,
+  getProviderHealth,
+  getLatencyHistogram,
+  getErrorDistribution,
+  subscribeQPS
+}
+
+export default opsAPI