当前位置：首页 > news >正文

网站的建设成本的账务处理seo服务工程

news 2026/4/15 2:52:20

网站的建设成本的账务处理,seo服务工程,wordpress 有没有漏洞,wordpress不写标题发布1. 简介深度学习#xff08;Deep Learning#xff09;因其计算复杂度或参数冗余#xff0c;在一些场景和设备上限制了相应的模型部署#xff0c;需要借助模型压缩、系统优化加速、异构计算等方法突破瓶颈#xff0c;即分别在算法模型、计算图或算子优化以及硬件加速等层…1. 简介深度学习Deep Learning因其计算复杂度或参数冗余在一些场景和设备上限制了相应的模型部署需要借助模型压缩、系统优化加速、异构计算等方法突破瓶颈即分别在算法模型、计算图或算子优化以及硬件加速等层面采取必要的手段模型压缩算法能够有效降低参数冗余从而减少存储占用、通信带宽和计算复杂度有助于深度学习的应用部署具体可划分为如下几种方法量化、剪枝与NAS是主流方向线性或非线性量化1/2bits, INT4, INT8, FP16和BF16等结构或非结构剪枝Sparse Pruning, Channel pruning和Layer drop等网络结构搜索 (NAS: Network Architecture Search)ENAS、Evolved Transformer、NAS FCOS、NetAdapt等离散搜索DARTS、AdaBert、Proxyless NAS、FBNet等可微分搜索SPOS、FairNAS、BigNAS、HAT、DynaBert与AutoFormer等One-shot搜索其他权重矩阵的低秩分解、知识蒸馏与网络结构精简设计Mobile-net, SE-net, Shuffle-net, PeleeNet, VoVNet, MobileBert, Lite-Transformer, SAN-M等系统优化是指在特定系统平台上通过Runtime层面性能优化以提升AI模型的计算效率具体包括 Op-level的算子优化FFT Conv2d (7×7, 9×9), Winograd Conv2d (3×3, 5×5) 等Layer-level的快速算法Sparse-block net [1] 等Graph-level的图优化BN fold、Constant fold、Op fusion和计算图等价变换等优化工具与库手工库、自动编译TensorRT (Nvidia), MNN (Alibaba), TVM (Tensor Virtual Machine), Tensor Comprehension (Facebook) 和OpenVINO (Intel) 等异构计算方法借助协处理硬件引擎通常是PCIE加速卡、ASIC加速芯片或加速器IP完成深度学习模型在数据中心或边缘计算领域的实际部署包括GPU、FPGA或DSA (Domain Specific Architecture) ASIC等。异构加速硬件可以选择定制方案通常能效、性能会更高目前市面上流行的AI芯片或加速器可参考 [2]。显然硬件性能提升带来的加速效果非常直观例如2080ti与1080ti的比较以复杂的PyramidBox人脸检测算法为例由于2080ti引入了Tensor Core加速单元FP16计算约提速36%另外针对数据中心部署应用通常会选择通用方案以构建计算平台标准化、规模化支持业务逻辑计算需要考虑是否有完善的生态支持例如NVIDIA的CUDA或者Xilinx的xDNN 此外从模型优化与系统优化的角度分析领域算法建模与模型压缩通常紧密相关推理优化手段的选择通常也与基础设施或硬件平台相关联而要想达到极致的模型压缩与推理优化效果更需要硬件感知的反馈Hardware-aware Compression 2. 基于Roofline Model评估理论性能基于计算平台的峰值算力与最高带宽约束以及AI模型的理论计算强度前向推理的计算量与内存交换量的比值Roofline model为AI模型区分了两个性能评估区间即Memory-bound区间与Compute-bound区间 Memory-bound表示模型的计算强度相对较低理论性能受限于存储访问。此时平台带宽越高AI模型的访存开销越低。MobileNet、DenseNet属于典型的Memory-bound型模型Compute-bound表示模型的计算强度超过了平台限制Imax能够100%利用平台算力。此时平台算力越高AI模型推理耗时越低。VGG属于典型的Compute-bound型模型 3. 高性能推理引擎——TensorRT/TVM/MNN基础 TensorRT是NVIDIA推出的面向GPU应用部署的深度学习优化加速工具即是推理优化引擎、亦是运行时执行引擎。TensorRT采用的原理如下图所示可分别在图优化、算子优化、Memory优化与INT8 Calibration等层面提供推理优化支持具体可参考[3] [4] TensorRT能够优化重构由不同深度学习框架训练的深度学习模型全图自动优化首先对于Caffe、TensorFlow、MXNet或PyTorch训练的模型若包含的操作都是TensorRT支持的则可以直接通过TensorRT生成推理优化引擎并且对于PyTorch模型亦可采用Trtorch执行推理优化此外亦可借助ONNX中间格式通过(TF, PyTorch) - ONNX - TensorRT方式执行优化转换 [27]等等全图手工优化对于MXnet, PyTorch或其他框架训练的模型若包含的操作都是TensorRT支持的可以采用TensorRT API重建网络结构并间接实现推理优化手工/自动分图若训练的网络模型包含TensorRT不支持的Op 手工分图将深度网络手工划分为两个部分一部分包含的操作都是TensorRT支持的可以转换为TensorRT计算图。另一部分可采用其他框架实现如MXnet或PyTorch并建议使用C API实现以确保更高效的Runtime执行 Custom Plugin不支持的Op可通过Plugin API实现自定义并添加进TensorRT计算图以支持算子的Auto-tuning从而丰富TensorRT的Op-set完备性例如Faster Transformer的自定义扩展 [26]Faster Transformer是较为完善的系统工程能够实现标准Bert/Transformer的高性能计算 TFTRT自动分图TensorFlow模型可通过tf.contrib.tensorrt转换其中不支持的操作会保留为TensorFlow计算节点FP32 TF TRT优化流程如下 from tensorflow.contrib import tensorrt as trtdef transfer_trt_graph(pb_graph_def, outputs, precision_mode, max_batch_size):trt_graph_def trt.create_inference_graph(input_graph_def pb_graph_def,outputs outputs,max_batch_size max_batch_size,max_workspace_size_bytes 1 25,precision_mode precision_mode,minimum_segment_size 2)return trt_graph_deftrt_gdef transfer_trt_graph(graph_def, output_name_list,FP32, batch_size) input_node, output_node tf.import_graph_def(trt_gdef, return_elements[input_name, output_name])with tf.Session(configconfig) as sess:out sess.run(output_node, feed_dict{input_node: batch_data}) 复制 PyTorch自动分图基于Torchscript执行自动分图避免custom plugin或手工分图的低效率支持提升模型优化的支持效率并降低用户使用TensorRT的门槛自动完成计算图转换与优化tuning对于不支持的Op或Sub-graph采用Libtorch作为Runtime兜底参考NVIDIA官方提供的优化加速工具Torch-TensorRT可作为PyTorch编程范式的扩展 INT8 CalibrationTensorRT的INT8量化需要校准Calibration数据集能够反映真实应用场景样本数量少则3~5个即可满足校准需求且要求GPU的计算功能集sm 6.1 在1080ti平台上基于TensorRT4.0.1Resnet101-v2的优化加速效果如下 Network Precision Framework / GPU: 1080ti (P) Avg. Time (Batch8, unit: ms) Top1 Val. Acc. (ImageNet-1k) Resnet101 FP32 TensorFlow 36.7 0.7612 Resnet101 FP32 MXnet 25.8 0.7612 Resnet101 FP32 TRT4.0.1 19.3 0.7612 Resnet101 INT8 TRT4.0.1 9 0.7574 在1080ti/2080ti平台上基于TensorRT5.1.5Resnet101-v1d的FP16加速效果如下由于2080ti包含Tensor Core因此FP16加速效果较为明显网络平台数值精度 Batch8 Batch4 Batch2 Batch1 Resnet101-v1d 1080ti FP32 19.4ms 12.4ms 8.4ms 7.4ms FP16 28.2ms 16.9ms 10.9ms 8.1ms INT8 8.1ms 6.7ms 4.6ms 4ms 2080ti FP32 16.6ms 10.8ms 8.0ms 7.2ms FP16 14.6ms 9.6ms 5.5ms 4.3ms INT8 7.2ms 3.8ms 3.0ms 2.6ms 相比于自动编译优化以TVM为例TensorRT的Kernel auto-tuning主要在一些手工优化的Op-set上执行Auto-tuning而TVM则是基于Relay IR、计算表达与Schedule定义的搜索空间通过EA、XGBoost或Grid search等搜索策略执行自动编译优化、生成lower Graph IR包含计算密集算子的优化op、以及基本的图优化最终通过后端编译器LLVM、nvcc等生成指定硬件平台的优化执行代码。TVM的优化流程如下图所示具体而言TVM提供了AutoTVM与AutoScheduler两种自动优化方式。AutoScheduler又称之为TVM Ansor能够基于Cost model性能预估和进化算法执行自动寻优搜索获得最佳的Schedule设置tiling、op fusion、buffer与inline等。以Intel CPU应用部署为例基于TVM Ansor tuning通过设置SIMD指令如AVX512、VNNI和多线程加速能取得、甚至超过OpenVINO的加速效果。有关TVM的details具体参考官网Getting Started With TVM — tvm 0.8.dev0 documentation 有关TVM Ansor的具体介绍可参考深度学习编译系列之 ANSOR 技术分享 – 知乎针对移动端应用部署TVM自动编译优化也能取得理想的优化加速效果但是由于移动端需要适配多种OS、与多种设备因此TVM的tuning成本限制了其在移动端的应用推广。MNN是阿里淘系技术部推出的面向移动端推理部署的轻量型计算引擎能够为多种深度学习模型的计算实现提供高效率的算子支持包括FP32、FP16与INT8算子并通过半自动方式提供优化tuning支持。并且用户通过自定义的量化表或稀疏表可以为MNN传递模型量化参数或稀疏率等信息以支持计算图的量化优化或稀疏化。以量化训练QAT: Quantization-aware Training与MNN量化转换为例可以构建从ASR模型的大规模预训练、到量化训练微调、再到MNN量化优化的工具链路 4. 网络剪枝深度学习模型因其稀疏性或过拟合倾向可以被裁剪为结构精简的网络模型具体包括结构性剪枝与非结构性剪枝非结构剪枝通常是连接级、细粒度的剪枝方法精度相对较高但依赖于特定算法库或硬件平台的支持如Deep Compression [5], Sparse-Winograd [6] 算法等结构剪枝是filter级或layer级、粗粒度的剪枝方法精度相对较低但剪枝策略更为有效不需要特定算法库或硬件平台的支持能够直接在成熟深度学习框架上运行: 如局部方式的、通过Layer by Layer方式的、最小化输出FM重建误差的Channel Pruning [7], ThiNet [8], Discrimination-aware Channel Pruning [9]全局方式的、通过训练期间对BN层Gamma系数施加L1正则约束的Network Slimming [10]全局方式的、按Taylor准则对Filter作重要性排序的Neuron Pruning [11]全局方式的、可动态重新更新Pruned filters参数的剪枝方法 [12]基于GAN思想的GAL方法 [24]可裁剪包括Channel, Branch或Block等在内的异质结构借助Geometric Median确定卷积滤波器冗余性的剪枝策略 [28]基于搜索策略的自动剪枝基于Reinforcement Learning (RL)实现每一层剪枝率的连续、精细控制并可结合资源约束完成自动模型压缩 (AMC) [31]以及NetAdapt在满足平台资源约束的条件下精简化预训练模型结构同时确保识别精度最大化以Channel Pruning为例结构剪枝的规整操作如下图所示可兼容现有的、成熟的深度学习框架和推理优化框架 5. 模型量化模型量化是指权重或激活输出可以被聚类到一些离散、低精度Reduced precision的数值点上通常依赖于特定算法库或硬件平台的支持二值化网络XNORnet [13], ABCnet with Multiple Binary Bases [14], Bin-net with High-Order Residual Quantization [15], Bi-Real Net [16]三值化网络Ternary weight networks [17], Trained Ternary Quantization [18]W1-A8 或 W2-A8量化 Learning Symmetric Quantization [19]INT8量化TensorFlow-lite [20], TensorRT [21], Quantization Interval Learning [25]INT4量化NVIDIA Iterative Online Calibration [29], LSQ [30];其他非线性Intel INQ [22], log-net, CNNPack [23] 等PTQ策略Post-Training Quantization针对预训练模型通过适当调整kernel参数分布、或补偿量化误差可有效提升量化效果另外也可以通过权重不变的训练基于Calibration-set按优化方式实现量化参数的Refine如AdaRound、AdaQuant [32]与BRECQ关于量化的比较系统性的概念论述参考论文Quantizing deep convolutional networks for efficient inference: A whitepaper 若模型压缩之后推理精度存在较大损失可通过Fine-tuning予以恢复并在训练过程中结合适当的Tricks例如针对ImageNet分类模型的剪枝后微调可结合Label Smoothing、Mix-up、Knowledge Distillation、Focal Loss等。此外模型压缩、优化加速策略可以联合使用进而可获得更为极致的压缩比与加速比。例如结合Network Slimming与TensorRT INT8优化在1080ti Pascal平台上Resnet101-v1d在压缩比为1.4倍时Size170MB-121MBFLOPS16.14G-11.01G经TensorRT int8量化之后推理耗时仅为7.4msBatch size8

查看全文

http://www.hkea.cn/news/14269106/