AI

felix.shao2025-08-02

AI

1 概述

零基础，可以先按照如下步骤入门：

部署 dify，详见dify。
通过 ollama 本地部署 deepseek-r1:1.5b，或者注册豆包大模型，免费账号个人学习也够用，详见dify。
快速开始使用 Agent，详见dify 快速开始。

可以直接使用腾讯元宝应用广场open in new window，它里面有很多直接生成图片等的智能体样例。

2 深度学习

AI 学习路线如下

环境
- GPU
  - driver 驱动，安装 cuda 时自动安装的
  - CUDA 版本
- MODEL
  - vLLM(基础包，兼容性差)
  - conda
    - pytorch(NLP)
    - transformer
    - SGLang
  - openai api
  - ollama
  - xinference
- AGENT
  - dify
  - coze
  - hiagent
  - RAG
  - mcp
- Senario
  - prompt-engineering
其他
- cursor
- trae
- claude code

2.1 环境安装

软件说明

Cuda、C++ 版、llm 基础包兼容性差，一定要注意版本，外面以如下兼容版本示例。

软件名	版本	下载链接	备注
Windows	11
VSCode	最新版		安装见前端 web 开发环境
Visual Studio Community	2022	官网下载open in new window	2025.08 下载的最新版本
cuda	12.8
python	3.12		见Python
python/pytorch	2.7.1+cu126
python/transformers	4.51.3
vllm	0.9.1
sglang	v0.4.9 post2

安装 Visual Studio Community

官网下载默认最新安装程序安装，安装版本目前是 2022。注意安装下可选插件。

使用 C++ 的桌面开发，大的组件，可能包含后续 3 个组件。
Windows 11 SDK。
C++ MFC for latest v143 build tools。
C++/CLI support。

安装好后，开始菜单可以找到以下两个程序入口。

Visual Studio 2022：主 IDE。
Visual Studio Installer：安装可选插件。

配置环境变量,VSCode 使用 nvcc 需要 cl.exe。

Path 新增 D:\devProgram\Microsoft Visual Studio\2022\Community\VC\Tools\MSVC\14.44.35207\bin\Hostx64\x64。

Cuda 安装

下载链接如下，选择 Windows -> 11 -> exe(local)。下载完成后双击按步骤安装即可。

Cuda 12.8open in new window。

安装好后，输入 nvcc -V 验证。查询显卡信息命令如下。

nvidia-smi：查询显卡详细信息。
nvidia-smi -q：查询 GPU 详细信息。
nvidia-smi -q -i 0：查询特定 GPU 详细信息，0 是第几个 GPU。
nvidia-smi -q -i 0 -d MEMORY：查询 GPU 特定信息。

3 快速入门

3.1 Cuda

Cuda Hello 示例执行

代码如下。

#include <stdio.h>

__global__ void hello_from_gpu()
{
    printf("Hello World from the the GPU\n");
}


int main(void)
{
    hello_from_gpu<<<4, 4>>>();
    cudaDeviceSynchronize();

    return 0;
}

输入以下命令编译执行。

# 编译
nvcc .\test.cu -o test
# 执行
./test

Cuda 编程基础入门系列核心内容

这里简单了解下，如需深入再另外探索：

Cuda 编程基础入门系列open in new window。
Cuda 编程基础入门系列-资料及代码open in new window。
Cuda 编程基础入门系列-课件PPT，见阿里云盘(备份文件/5-AI/Cuda课件)。
1 概念。
- 1.1 Cuda 简介。
- 1.2 Cuda 下载、安装及测试。
- 1.3 nvidia-smi 工具及 CPU 状态参数说明。
2 编程。
- 2.1 从 C++ 编程到 Cuda 编程。
- 2.2 核函数。注意核函数命名、内存、变量、异步性、不支持 C++ iostream 相关特性。
- 2.3 线程模型。
  - 2.3.1 重要概念。
    - grid、block。
    - 线程分块是逻辑上的划分，物理上不分块。
    - 配置线程。
    - 最大允许线程块大小 1024；最大允许网格块大小 2^32-1(针对一维网格)。
  - 2.3.2 一维网格模型。
  - 2.3.3 推广到多维线程。
- 2.4 线程全局索引计算方式。
- 2.5 nvcc 编译流程与 GPU 计算能力。
  - 2.5.1 编译时，可以指定虚拟架构、真实架构的计算能力。
  - 2.5.2 每个版本号对应不同的计算能力。
- 2.6 Cuda 程序兼容性问题。
  - 2.6.1 指定虚拟架构计算能力。
  - 2.6.2 指定真实架构计算能力。
  - 2.6.3 指定多个 GPU 版本编译。
  - 2.6.4 nvcc 即时编译。
  - 2.6.5 nvcc 编译默认计算能力。
3 运行时。
- 3.1 Cuda 矩阵加法运算程序。
  - 3.1.1 设置 CPU 设备。
  - 3.1.2 内存管理。
  - 3.1.3 内存分配。
  - 3.1.4 数据拷贝。
  - 3.1.5 内存初始化。
  - 3.1.6 内存释放。
  - 3.1.7 加法运算示例，包含上述知识点。
- 3.2 Cuda 错误检查。
  - 3.2.1 运行时 API 错误代码。
  - 3.2.2 错误检查函数。
  - 3.2.3 检查核函数。
- 3.3 Cuda 计时。
  - 3.3.1 事件计时。
- 3.4 运行时 CPU 信息查询。
  - 3.4.1 运行时 API 查询 GPU 信息。
  - 3.4.2 查询 GPU 计算核心数量。
- 3.5 组织线程模型。
  - 3.5.1 模型。
    - 二维网格二维线程块。
    - 二维网格一维线程块。
    - 一维网格一维线程块。
  - 3.5.2 数据存储方式。
- 4 硬件资源。
  - 4.1 GPU 硬件资源。
  - 4.2 Cuda 内存模型概述。
  - 4.3 寄存器和本地内存。
  - 4.4 全局内存。
  - 4.5 共享内存。
  - 4.6 常量内存。
  - 4.7 GPU 缓存。
  - 4.8 计算资源分配。
  - 4.9 延迟隐藏。
  - 4.10 避免线程束分化。

AI

AI

1 概述

2 深度学习

2.1 环境安装

3 快速入门

3.1 Cuda

附录一、参考文献

ON THIS PAGE