AI

felix.shao2025-08-02

AI

1 概述

 零基础,可以先按照如下步骤入门:

  1. 部署 dify,详见dify
  2. 通过 ollama 本地部署 deepseek-r1:1.5b,或者注册豆包大模型,免费账号个人学习也够用,详见dify
  3. 快速开始使用 Agent,详见dify 快速开始

 可以直接使用 腾讯元宝应用广场open in new window,它里面有很多直接生成图片等的智能体样例。

2 深度学习

AI 学习路线如下
  • 环境
    • GPU
      • driver 驱动,安装 cuda 时自动安装的
      • CUDA 版本
    • MODEL
      • vLLM(基础包,兼容性差)
      • conda
        • pytorch(NLP)
        • transformer
        • SGLang
      • openai api
      • ollama
      • xinference
    • AGENT
      • dify
      • coze
      • hiagent
      • RAG
      • mcp
    • Senario
      • prompt-engineering
  • 其他
    • cursor
    • trae
    • claude code

2.1 环境安装

软件说明

 Cuda、C++ 版、llm 基础包兼容性差,一定要注意版本,外面以如下兼容版本示例。

软件名组件名版本下载链接备注
Windows11
VSCode最新版安装见前端 web 开发环境
Visual Studio Community2022官网下载open in new window2025.08 下载的最新版本
cuda12.8
python3.12Python
python/pytorch2.7.1+cu126
python/transformers4.51.3
vllm0.9.1
sglangv0.4.9 post2
安装 Visual Studio Community

 官网下载默认最新安装程序安装,安装版本目前是 2022。注意安装下可选插件。

  • 使用 C++ 的桌面开发,大的组件,可能包含后续 3 个组件。
  • Windows 11 SDK。
  • C++ MFC for latest v143 build tools。
  • C++/CLI support。

 安装好后,开始菜单可以找到以下两个程序入口。

  • Visual Studio 2022:主 IDE。
  • Visual Studio Installer:安装可选插件。

 配置环境变量,VSCode 使用 nvcc 需要 cl.exe。

  • Path 新增 D:\devProgram\Microsoft Visual Studio\2022\Community\VC\Tools\MSVC\14.44.35207\bin\Hostx64\x64。
Cuda 安装

 下载链接如下,选择 Windows -> 11 -> exe(local)。下载完成后双击按步骤安装即可。

 安装好后,输入 nvcc -V 验证。 查询显卡信息命令如下。

  • nvidia-smi: 查询显卡详细信息。
  • nvidia-smi -q:查询 GPU 详细信息。
  • nvidia-smi -q -i 0:查询特定 GPU 详细信息,0 是第几个 GPU。
  • nvidia-smi -q -i 0 -d MEMORY:查询 GPU 特定信息。

3 快速入门

3.1 Cuda

Cuda Hello 示例执行

 代码如下。

#include <stdio.h>

__global__ void hello_from_gpu()
{
    printf("Hello World from the the GPU\n");
}


int main(void)
{
    hello_from_gpu<<<4, 4>>>();
    cudaDeviceSynchronize();

    return 0;
}

 输入以下命令编译执行。

# 编译
nvcc .\test.cu -o test
# 执行
./test
Cuda 编程基础入门系列核心内容

 这里简单了解下,如需深入再另外探索:

  • Cuda 编程基础入门系列open in new window

  • Cuda 编程基础入门系列-资料及代码open in new window

  • Cuda 编程基础入门系列-课件PPT,见阿里云盘(备份文件/5-AI/Cuda课件)。

  • 1 概念。

    • 1.1 Cuda 简介。
    • 1.2 Cuda 下载、安装及测试。
    • 1.3 nvidia-smi 工具及 CPU 状态参数说明。
  • 2 编程。

    • 2.1 从 C++ 编程到 Cuda 编程。
    • 2.2 核函数。注意核函数命名、内存、变量、异步性、不支持 C++ iostream 相关特性。
    • 2.3 线程模型。
      • 2.3.1 重要概念。
        • grid、block。
        • 线程分块是逻辑上的划分,物理上不分块。
        • 配置线程。
        • 最大允许线程块大小 1024;最大允许网格块大小 2^32-1(针对一维网格)。
      • 2.3.2 一维网格模型。
      • 2.3.3 推广到多维线程。
    • 2.4 线程全局索引计算方式。
    • 2.5 nvcc 编译流程与 GPU 计算能力。
      • 2.5.1 编译时,可以指定虚拟架构、真实架构的计算能力。
      • 2.5.2 每个版本号对应不同的计算能力。
    • 2.6 Cuda 程序兼容性问题。
      • 2.6.1 指定虚拟架构计算能力。
      • 2.6.2 指定真实架构计算能力。
      • 2.6.3 指定多个 GPU 版本编译。
      • 2.6.4 nvcc 即时编译。
      • 2.6.5 nvcc 编译默认计算能力。
  • 3 运行时。

    • 3.1 Cuda 矩阵加法运算程序。
      • 3.1.1 设置 CPU 设备。
      • 3.1.2 内存管理。
      • 3.1.3 内存分配。
      • 3.1.4 数据拷贝。
      • 3.1.5 内存初始化。
      • 3.1.6 内存释放。
      • 3.1.7 加法运算示例,包含上述知识点。
    • 3.2 Cuda 错误检查。
      • 3.2.1 运行时 API 错误代码。
      • 3.2.2 错误检查函数。
      • 3.2.3 检查核函数。
    • 3.3 Cuda 计时。
      • 3.3.1 事件计时。
    • 3.4 运行时 CPU 信息查询。
      • 3.4.1 运行时 API 查询 GPU 信息。
      • 3.4.2 查询 GPU 计算核心数量。
    • 3.5 组织线程模型。
      • 3.5.1 模型。
        • 二维网格二维线程块。
        • 二维网格一维线程块。
        • 一维网格一维线程块。
      • 3.5.2 数据存储方式。
    • 4 硬件资源。
      • 4.1 GPU 硬件资源。
      • 4.2 Cuda 内存模型概述。
      • 4.3 寄存器和本地内存。
      • 4.4 全局内存。
      • 4.5 共享内存。
      • 4.6 常量内存。
      • 4.7 GPU 缓存。
      • 4.8 计算资源分配。
      • 4.9 延迟隐藏。
      • 4.10 避免线程束分化。

附录一、参考文献

Last Updated 9/27/2025, 9:23:01 PM