当前位置：首页 > news >正文

谷歌找网站后台让别人做网站的话术

news 2026/4/21 16:40:49

谷歌找网站后台,让别人做网站的话术,网站特效漂亮的网站,电子商务专业网页设计文章目录 Stable Diffusion 推理优化背景技术讲解#xff1a;异步优化方案思路#xff1a;异步推理优化原理OpenVINO异步推理Python API同步和异步实现方式对比 oneflow分布式调度优化优势#xff1a;实现思路总结#xff1a; Stable Diffusion 推理优化背景 2022年异步优化方案思路异步推理优化原理OpenVINO异步推理Python API同步和异步实现方式对比 oneflow分布式调度优化优势实现思路总结 Stable Diffusion 推理优化背景 2022年Stable Diffusion模型横空出世其成为AI行业从传统深度学习时代走向AIGC时代的标志性模型之一并为工业界投资界学术界以及竞赛界都注入了新的AI想象空间让AI再次性感。 Stable Diffusion是计算机视觉领域的一个生成式大模型能够进行文生图txt2img和图生图img2img等图像生成任务。与Midjourney不同的是Stable Diffusion是一个完全开源的项目模型代码训练数据论文等这使得其快速构建了强大繁荣的上下游生态AI绘画社区基于SD的自训练模型丰富的辅助AI绘画工具与插件等并且吸引了越来越多的AI绘画爱好者也加入其中与AI行业从业者一起不断推动AIGC行业的发展与普惠。也正是Stable Diffusion的开源属性繁荣的上下游生态以及各行各业AI绘画爱好者的参与使得AI绘画火爆出圈让大部分人都能非常容易地进行AI绘画。可以说本次AI科技浪潮的ToC普惠在AIGC时代的早期就已经显现这是之前的传统深度学习时代从未有过的。而这也是最让Rocky振奋的AIGC属性让Rocky相信未来的十年会是像移动互联网时代那样充满科技变革与机会的时代。 Stable Diffusion 本质是基于扩散模型的高质量图像生成技术可根据文本输入生成图像广泛应用于CG、插画和高分辨率壁纸等领域。然而由于其计算过程较为复杂Stable Diffusion 的图像生成速度常常成为遏制其发展的限制因素。优化AI生图模型在端侧设备上的 Pipeline性能在保证生图效果的情况下降低pipeline端到端延迟降低pipeline峰值内存占用也成了当下迫在眉前的大难题。契合本次大赛要求我们团队计划在目标英特尔硬件上完成部署优化及指定的图片生成工作利用 OpenVINO 的异步推理功能实现了预处理、推理和后处理阶段的并行执行从而提高了整体图像生成 Pipeline 的并行性。技术讲解 Stable DiffusionSD模型是由Stability AI和LAION等公司共同开发的生成式模型总共有1B左右的参数量可以用于文生图图生图图像inpaintingControlNet控制生成图像超分等丰富的任务本节中我们以**文生图txt2img和图生图img2img**任务展开对Stable Diffusion模型的工作流程进行通俗的讲解。文生图任务是指将一段文本输入到SD模型中经过一定的迭代次数SD模型输出一张符合输入文本描述的图片。比如按照赛题要求输入关键字 Prompt输入“a photo of an astronaut riding a horse on mars”Negative Prompt输入“low resolution, blurry” 其本质就是给SD模型一个文本信息与机器数据信息之间互相转换的“桥梁”——CLIP Text Encoder模型。如下图所示我们使用CLIP Text Encoder模型作为SD模型的前置模块将输入的人类文本信息进行编码输出特征矩阵这个特征矩阵与文本信息相匹配并且能够使得SD模型理解完成对文本信息的编码后就会输入到SD模型的“图像优化模块”中对图像的优化进行“控制”。 “图像优化模块”作为SD模型中最为重要的模块其工作流程是什么样的呢首先“图像优化模块”是由一个U-Net网络和一个Schedule算法共同组成U-Net网络负责预测噪声不断优化生成过程在预测噪声的同时不断注入文本语义信息。而schedule算法对每次U-Net预测的噪声进行优化处理动态调整预测的噪声控制U-Net预测噪声的强度从而统筹生成过程的进度。在SD中U-Net的迭代优化步数大概是50或者100次在这个过程中Latent Feature的质量不断的变好纯噪声减少图像语义信息增加文本语义信息增加。整个过程如下图所示 U-Net网络和Schedule算法的工作完成以后SD模型会将优化迭代后的Latent Feature输入到图像解码器VAE Decoder中将Latent Feature重建成像素级图像、迭代去噪。异步优化方案思路我们是通过利用 OpenVINO 的异步推理功能实现了预处理、推理和后处理阶段的并行执行从而提高了整体图像生成 Pipeline 的并行性。具体使用 OpenVINO 异步推理功能创建独立的推理请求将每个图像处理阶段异步化使其在硬件上并行执行最大程度发挥多核心处理器的优势显著提升了整体性能。在提升SD文生图推理程序的性能前先要理解评估AI推理程序性能的指标是什么。我们常用时延(Latency)和吞吐量(Throughput)来衡量AI推理程序的性能。时延具体指讲数据输入AI模型后多长时间可以从AI模型拿到输出结果吞吐量具体指在单位时间能完成多少数据的AI推理计算对于图像处理吞吐量可以用单位时间内能完成多少张图片的AI推理计算来衡量即FPS(Frame Per Second)如下图所示。 OpenVINO自带的性能评测工具的benchmark_app主要用于单纯评价AI模型推理性能的场景。这种优化方式主要有这几种优点在保证生图效果的情况下降低pipeline端到端延迟降低pipeline峰值内存占用使得预处理、推理和后处理能够在硬件上并行执行最大化利用多核心处理器的优势提高整体 Pipeline 的效率。减少等待时间异步化图像输入和输出处理减少了数据传输的等待时间降低了整体端到端的延迟尤其在大规模推理任务中具有显著优势。资源充分利用通过异步推理和异步化处理确保硬件资源充分利用提高了整个图像生成任务的吞吐量。保持图像生成效果该优化方案在提高性能的同时确保了生成图像的质量和一致性异步推理优化原理 OpenVINO异步推理Python API 在对SD模型优化中异步运行多个推理请求对于提高常规应用的效率而言很重要。每个设备都会在内部实施一个队列充当缓冲区存储推理请求等待设备以固有速度检索。设备实际上可能会并行处理多个推理请求以提高设备利用率和总吞吐量。外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 OpenVINOTM Runtime提供了推理请求(Infer Request)机制来实现在指定的推理设备上以同步或异步方式运行AI模型。在openvino.runtime.CompiledModel类里面定义了create_infer_request()方法用于创建openvino.runtime.InferRequest对象。 infer_request compiled_model.create_infer_request() 当infer_request对象创建好后可以用 set_tensor(input_node, input_tensor)将数据传入模型的指定输入节点start_async()通过**非阻塞(non-blocking)**的方式启动推理计算。wait()等待推理计算结束get_tensor(output_node)从模型的指定输出节点获取推理结果同步和异步实现方式对比同步实现方式伪代码异步实现方式伪代码创建一个负责处理当前文生图的推理请求即可… …While True:文生图预处理调用infer()以阻塞方式启动推理计算对推理结果做后处理显示推理结果生成图片结果创建一个推理请求负责处理当前文生图请求创建一个推理请求负责处理下一请求模块… …采集当前图像关键字对当前图像做预处理调用start_async()以非阻塞方式启动当前模型推理计算While True采集下一次对下一步模型推算做预处理调用start_async()以非阻塞方式启动下一帧推理计算调用wait()****等待当前请求推理计算结束对当前推理结果做后处理交换当前推理请求和下一帧推理请求 # 创建一个负责处理当前文生图的推理请求 def process_inference_request(image):# 文生图预处理processed_image preprocess_image(image)# 调用infer()以阻塞方式启动推理计算inference_result infer(processed_image)# 对推理结果做后处理postprocessed_result postprocess_result(inference_result)# 显示推理结果生成图片结果show_result(postprocessed_result)# 创建一个推理请求类负责处理当前文生图请求 class InferenceRequest:def __init__(self, image):self.image imageself.result Nonedef process(self):# 对当前文生图做预处理调用start_async()以非阻塞方式启动当前模型推理计算processed_image preprocess_image(self.image)start_async_inference(processed_image, self)# 创建一个推理请求队列 inference_queue []# 创建一个推理请求负责处理下一请求模块 class NextInferenceRequest:def __init__(self):self.next_image Nonedef process(self):# 采集下一次文生图self.next_image capture_image()# 创建一个推理请求并加入推理请求队列inference_request InferenceRequest(self.next_image)inference_queue.append(inference_request)# 对下一次模型推算做预处理调用start_async()以非阻塞方式启动下一帧推理计算processed_image preprocess_image(self.next_image)start_async_inference(processed_image, inference_request)# 创建一个下一请求模块 next_request NextInferenceRequest()oneflow分布式调度优化 oneflow一种基于异步并行计算的深度学习框架可以实现分布式训练和推理使用类似 PyTorch 的 API对模型进行编程使用全局张量将模型扩展到 n 维并行执行优势采用去中心化的流水架构而非 master 与 worker 架构最大程度优化节点网络通信效率提供 consistent view 整个节点网络中只需要逻辑上唯一的输入与输出提供兼容其它框架的mirrored view熟悉其它框架分布式训练的用户可直接上手极简配置由单一节点的训练程序转变为分布式训练程序只需要几行配置代码实现思路首先需要准备训练和测试数据集并定义一个适合该任务的神经网络结构可以采用卷积神经网络CNN和循环神经网络RNN等结构。在OneFlow中使用Parallelizer API配置分布式训练自动处理任务调度、资源并行等问题。同时为了进一步优化训练过程在OneFlow中可以使用AutoMixedPrecision API自动进行混合精度训练减少显存的使用量提高训练速度。最后使用Accuracy API计算模型在测试集上的准确率和Top-K准确率等指标。使用OneFlow框架可以简单、高效地实现Stable Diffusion模型文生图推理效率优化提高训练速度和效果加快模型迭代速度从而更好地服务于实际业务需求。通过 OneFlow 提供的分布式配置的接口只需要简单的几行配置(指定分布式计算的节点 ip 以及每个节点使用 gpu 的数量)即可实现分布式的训练网络。例如下面这个例子直接改写为分布式作业调度来并行处理针对于SD模型优化代码展示请看模型压缩包 import numpy as np import oneflow as flow import oneflow.typing as tpBATCH_SIZE 100def mlp(data):#构建网络...flow.global_function(typetrain) def train_job(images: tp.Numpy.Placeholder((BATCH_SIZE, 1, 28, 28), dtypeflow.float),labels: tp.Numpy.Placeholder((BATCH_SIZE,), dtypeflow.int32), ) - tp.Numpy:#作业函数实现...#配置训练优化方法和参数if __name__ __main__:#调用作业函数开始训练...loss train_job(images, labels)#...总结预测推理性能很困难需要进行直接测量实验才能找到最佳执行参数。我们在此次大赛的硬件支持下和开发范围内进行了多次的性能测试来确保验证应用的整体端到端性能。针对于不同的参数和优化逻辑设备的表现根据批次大小而异。总结任务最佳批次大小取决于模型、推理精度等因素。同样在某些情况下可能需要将流和批处理结合起来才能尽力提高吞吐量。还有一种可能的吞吐量优化策略是设置延迟上限然后增加批次大小和/或流数直到出现长尾延迟问题即吞吐量不再增加为止。这个我们会在之后对模型的推理优化继续深究。总之使用OpenVINO Runtime的异步推理API将SD推理程序改造为异步推理的实现方式可以看到明显的提升SD推理程序的吞吐量。由于本次的时间有限优化效果并不大我们之后时间充裕的情况下还有下面几种优化方向会一一尝试达到最大效率使用 NNCF 应用对训练时间压缩模型压缩通过过滤器剪枝逐步减小模型参数并使用混合精度量化技术减小模型存储需求。这次大赛给我带来了许多的收获包括技术学习和实践机会英特尔技术和AI组件的深入学习了解更多的是对自己能力的查漏补缺认知到自己还有许多的不足会加倍努力自我锻炼期待与大赛的下一次交手我也会”王者归来“ 的吞吐量。由于本次的时间有限优化效果并不大我们之后时间充裕的情况下还有下面几种优化方向会一一尝试达到最大效率使用 NNCF 应用对训练时间压缩模型压缩通过过滤器剪枝逐步减小模型参数并使用混合精度量化技术减小模型存储需求。这次大赛给我带来了许多的收获包括技术学习和实践机会英特尔技术和AI组件的深入学习了解更多的是对自己能力的查漏补缺认知到自己还有许多的不足会加倍努力自我锻炼期待与大赛的下一次交手我也会”王者归来“

查看全文

http://www.hkea.cn/news/14356918/