跳到主要内容

额外 ✦

在这个阶段,我们将深入研究后端开发和 DevOps 领域的高级主题,这些主题将帮助您加深在构建可靠且可扩展的 AI 代理系统方面的知识和技能。这些概念对于那些渴望在 AI 项目中担任系统架构师或技术负责人角色的人尤其有用。

Ask AI 指南
指南

由于这些主题不会随时间变化,因此最好通过个人导师 - ChatGPT 来学习它们。

学习过程应如下:

  • 您为 ChatGPT 编写一个系统提示词(模板),在其中描述您的背景、偏好、解释的详细程度等。
  • 从列表中复制主题(三击),并要求 ChatGPT 向您解释该主题
  • 如果想深入研究,请提出澄清问题

目前,这是学习基础知识最方便的方法。除了概念之外,您还可以在 Gold、Silver、Extra 部分学习其他材料。

  1. Gold - 在与 ChatGPT 交流之前一定要学习
  2. Ask AI - 询问每个不熟悉的主题
  3. Silver - 次要材料
  4. Extra - 深入主题

Golden

10 个 Sysdes 模式
为什么 Kubernetes 如此受欢迎
Sysdes
更多 Sysdes
Ansible
Terraform

Ask AI

Ask ChatGPT

DevOps 和基础设施

  1. Nginx 用于 AI 系统:负载均衡和请求代理
  2. Kubernetes:在生产环境中编排 ML 工作流(实践案例)
  3. Kubernetes Operators:自动化重复性任务(概述)
  4. GitOps 入门:基本原则和 ArgoCD 设置
  5. Kubernetes 监控:Prometheus + Grafana(AI 模板)
  6. Service Mesh:Istio/Linkerd 的基本概念(简述)
  7. Helm:应用程序模板化(AI 开发人员实践)
  8. Canary Deployments:安全更新模型(分步指南)
  9. Infrastructure as Code:Terraform 和 Pulumi 的比较(概念)
  10. CI/CD 管道:自动化模型训练(端到端示例)

高负载系统

  1. 数据库分片:初学者的基本策略
  2. CQRS + Event Sourcing:架构模式(概述)
  3. 消息队列:Kafka vs RabbitMQ(AI 比较)
  4. Backpressure:保护系统免受过载(实践示例)
  5. 数据一致性:分布式系统的基本模式
  6. 延迟优化:诊断 AI 推理中的问题
  7. 缓存:多层策略(实践案例)
  8. Observability:监控 AI 管道(OpenTelemetry)
  9. 大数据处理:Spark 入门(基本概念)
  10. Rate Limiting:保护 API(现成解决方案和库)

安全性和可靠性

  1. OAuth 2.0:AI 系统的实践实现
  2. 模型保护:针对提示词注入的基本方法
  3. Zero Trust:基本原则(简要概述)
  4. Secrets Management:使用 HashiCorp Vault(指南)
  5. Fault Tolerance:初学者模板(概述)
  6. gRPC:优化微服务之间的通信
  7. Blue-Green Deployments:AI 模型的基本场景
  8. SLA/SLO/SLI:质量指标(实践示例)
  9. 安全审计:主要阶段(检查表)
  10. 冗余:AI 推理策略(简述)

云技术和财务优化

  1. 多云策略:降低 AI 系统对提供商的依赖
  2. FinOps:优化 AI 项目的云 GPU 和 TPU 成本
  3. Spot Instances:有效用于模型训练
  4. Serverless for AI:架构模式和反模式
  5. Cloud Native AI:有效使用云 ML/AI 服务
  6. Data Lake 和 Data Warehouse:AI 数据架构
  7. Edge Computing:将 AI 推理转移到更靠近数据源的位置
  8. 云提供商基准测试:AI 工作流方法
  9. Pay-as-you-go vs Reserved Instances:AI 初创公司策略
  10. 云自动化:用于监控和优化成本的机器人

AI 数据库和存储

  1. 向量数据库:优化 RAG 系统的查询和索引
  2. Time Series DB:存储和分析时间序列以进行 AI 监控
  3. NewSQL:具有 ACID 保证的现代分布式数据库
  4. Data Lakehouse:AI 初创公司架构(Delta Lake、Iceberg)
  5. Column Store vs Row Store:分析型 AI 系统的选择
  6. Embedded DB:Edge AI 的本地解决方案(SQLite、DuckDB)
  7. 事务性 Outbox:服务之间可靠的事件传输
  8. 全文搜索:用于 AI 混合搜索的 Elasticsearch
  9. Database Federation:统一异构数据源
  10. Graph DB:用于 LLM 知识图谱和推荐

Silver

  1. AI 工程师的 DevOps 路线图
  2. 现代云应用程序架构模式
  3. Ansible vs Puppet vs Chef:比较分析
  4. 分布式系统测试:方法和工具

Extra

  1. 为 AI 工作流开发自定义 Kubernetes 运算符
  2. EventMesh:微服务 AI 系统的全局事件总线
  3. WebAssembly 作为轻量级 AI 模型的运行时环境
  4. eBPF:用于高负载 AI 系统的内核级监控和调试
  5. unikernels:用于 AI 推理的极简专用操作系统
  6. 后端开发中的函数式编程:AI 系统的优势
  7. AI 系统的 SRE:Google 的实践和流程
  8. AI 的量子计算:现代状态和前景
  9. 零停机数据库迁移:持续运行策略
  10. Data Sovereignty:符合 AI 数据的区域要求