AI
AI
1 概述
零基础,可以先按照如下步骤入门:
- 部署 dify,详见dify。
- 通过 ollama 本地部署
deepseek-r1:1.5b
,或者注册豆包大模型,免费账号个人学习也够用,详见dify。 - 快速开始使用 Agent,详见dify 快速开始。
可以直接使用 腾讯元宝应用广场,它里面有很多直接生成图片等的智能体样例。
2 深度学习
AI 学习路线如下
- 环境
- GPU
- driver 驱动,安装 cuda 时自动安装的
- CUDA 版本
- MODEL
- vLLM(基础包,兼容性差)
- conda
- pytorch(NLP)
- transformer
- SGLang
- openai api
- ollama
- xinference
- AGENT
- dify
- coze
- hiagent
- RAG
- mcp
- Senario
- prompt-engineering
- GPU
- 其他
- cursor
- trae
- claude code
2.1 环境安装
软件说明
Cuda、C++ 版、llm 基础包兼容性差,一定要注意版本,外面以如下兼容版本示例。
软件名 | 组件名 | 版本 | 下载链接 | 备注 |
---|---|---|---|---|
Windows | 11 | |||
VSCode | 最新版 | 安装见前端 web 开发环境 | ||
Visual Studio Community | 2022 | 官网下载 | 2025.08 下载的最新版本 | |
cuda | 12.8 | |||
python | 3.12 | 见Python | ||
python/pytorch | 2.7.1+cu126 | |||
python/transformers | 4.51.3 | |||
vllm | 0.9.1 | |||
sglang | v0.4.9 post2 |
安装 Visual Studio Community
官网下载默认最新安装程序安装,安装版本目前是 2022。注意安装下可选插件。
- 使用 C++ 的桌面开发,大的组件,可能包含后续 3 个组件。
- Windows 11 SDK。
- C++ MFC for latest v143 build tools。
- C++/CLI support。
安装好后,开始菜单可以找到以下两个程序入口。
- Visual Studio 2022:主 IDE。
- Visual Studio Installer:安装可选插件。
配置环境变量,VSCode 使用 nvcc 需要 cl.exe。
- Path 新增 D:\devProgram\Microsoft Visual Studio\2022\Community\VC\Tools\MSVC\14.44.35207\bin\Hostx64\x64。
Cuda 安装
下载链接如下,选择 Windows -> 11 -> exe(local)。下载完成后双击按步骤安装即可。
安装好后,输入 nvcc -V
验证。 查询显卡信息命令如下。
nvidia-smi
: 查询显卡详细信息。nvidia-smi -q
:查询 GPU 详细信息。nvidia-smi -q -i 0
:查询特定 GPU 详细信息,0 是第几个 GPU。nvidia-smi -q -i 0 -d MEMORY
:查询 GPU 特定信息。
3 快速入门
3.1 Cuda
Cuda Hello 示例执行
代码如下。
#include <stdio.h>
__global__ void hello_from_gpu()
{
printf("Hello World from the the GPU\n");
}
int main(void)
{
hello_from_gpu<<<4, 4>>>();
cudaDeviceSynchronize();
return 0;
}
输入以下命令编译执行。
# 编译
nvcc .\test.cu -o test
# 执行
./test
Cuda 编程基础入门系列核心内容
这里简单了解下,如需深入再另外探索:
Cuda 编程基础入门系列-课件PPT
,见阿里云盘(备份文件/5-AI/Cuda课件)。1 概念。
- 1.1 Cuda 简介。
- 1.2 Cuda 下载、安装及测试。
- 1.3 nvidia-smi 工具及 CPU 状态参数说明。
2 编程。
- 2.1 从 C++ 编程到 Cuda 编程。
- 2.2 核函数。注意核函数命名、内存、变量、异步性、不支持 C++ iostream 相关特性。
- 2.3 线程模型。
- 2.3.1 重要概念。
- grid、block。
- 线程分块是逻辑上的划分,物理上不分块。
- 配置线程。
- 最大允许线程块大小 1024;最大允许网格块大小 2^32-1(针对一维网格)。
- 2.3.2 一维网格模型。
- 2.3.3 推广到多维线程。
- 2.3.1 重要概念。
- 2.4 线程全局索引计算方式。
- 2.5 nvcc 编译流程与 GPU 计算能力。
- 2.5.1 编译时,可以指定虚拟架构、真实架构的计算能力。
- 2.5.2 每个版本号对应不同的计算能力。
- 2.6 Cuda 程序兼容性问题。
- 2.6.1 指定虚拟架构计算能力。
- 2.6.2 指定真实架构计算能力。
- 2.6.3 指定多个 GPU 版本编译。
- 2.6.4 nvcc 即时编译。
- 2.6.5 nvcc 编译默认计算能力。
3 运行时。
- 3.1 Cuda 矩阵加法运算程序。
- 3.1.1 设置 CPU 设备。
- 3.1.2 内存管理。
- 3.1.3 内存分配。
- 3.1.4 数据拷贝。
- 3.1.5 内存初始化。
- 3.1.6 内存释放。
- 3.1.7 加法运算示例,包含上述知识点。
- 3.2 Cuda 错误检查。
- 3.2.1 运行时 API 错误代码。
- 3.2.2 错误检查函数。
- 3.2.3 检查核函数。
- 3.3 Cuda 计时。
- 3.3.1 事件计时。
- 3.4 运行时 CPU 信息查询。
- 3.4.1 运行时 API 查询 GPU 信息。
- 3.4.2 查询 GPU 计算核心数量。
- 3.5 组织线程模型。
- 3.5.1 模型。
- 二维网格二维线程块。
- 二维网格一维线程块。
- 一维网格一维线程块。
- 3.5.2 数据存储方式。
- 3.5.1 模型。
- 4 硬件资源。
- 4.1 GPU 硬件资源。
- 4.2 Cuda 内存模型概述。
- 4.3 寄存器和本地内存。
- 4.4 全局内存。
- 4.5 共享内存。
- 4.6 常量内存。
- 4.7 GPU 缓存。
- 4.8 计算资源分配。
- 4.9 延迟隐藏。
- 4.10 避免线程束分化。
- 3.1 Cuda 矩阵加法运算程序。