UPGRADE YOUR BROWSER

We have detected your current browser version is not the latest one. Xilinx.com uses the latest web technologies to bring you the best online experience possible. Please upgrade to a Xilinx.com supported browser:Chrome, Firefox, Internet Explorer 11, Safari. Thank you!

深鉴科技

深度学习技术

dnndk-01

概述

深鉴科技是公认的深度学习加速领导者。他们利用独特的深度压缩和可配置的深度学习平台提供端到端解决方案。

深鉴通过神经网络和 FPGA 的协同优化,为嵌入式端和服务器端提供更高效、更便捷、更经济的推断平台,包括但不限于数据中心和监控。

深鉴研究团队由著名的研究人员和经验丰富的专业人士组成,他们以其在深度学习领域的开创性工作而闻名。就优化图像和语音识别的神经网络而言,他们的工作在深度学习领域是公认的。

深鉴科技于 2018 年 7 月被 Xilinx 收购。

DNNDK™(深度神经网络开发套件)

DeePhi™ 深度学习 SDK 设计成一个集成型框架,旨在简化和加速深度学习 (DL) 应用在 DeePhi DPU™(深度学习处理单元)平台上的开发和部署。(点击 DNNDK,了解更多详情。)

dnndk-02

主要特性

  • 业界领先的技术以及在中国首次公开发布的深度学习 SDK
  • 全面堆栈的创新解决方案适用于深度学习开发
  • 一系列完整的可靠优化工具链,包括压缩、编译和运行时
  • 轻量级标准 C/C++ 编程 API
  • 易于使用的、平坦/柔和的学习曲线

DNNDK 包括

  • DEep ComprEssioN 工具 (DECENT)
  • 深度神经网络编译器 (DNNC)
  • 深度神经网络汇编器 (DNNC)
  • 神经网络运行时 (N2Cube)
  • DPU 仿真器和分析器

DNNDK 组件

说明  框图 

Aristotle ArchitectureDECENT(DEep ComprEssioN 工具)

深度神经网络 (DNN) 中有大量的冗余信息,包括参数的数量和精度,可为我们提供大量的优化机会。凭借我们在神经网络模型压缩方面世界领先的研究,深鉴开发了 DECENT(DEep ComprEssioN 工具)。它引入了修剪、量化、重量共享以及 Huffman 编码,可将模型尺寸从 5x 锐降至 50x,没有任何精确度损失。因此,它显著提高了 DPU 平台的计算效率,提高了能效,降低了系统对内存带宽的要求。


点击放大

DNNDK 混合编译模型

DeePhi 专利的混合编译技术在异构 AI 计算环境下初步解决了 DL 应用的编程复杂性及部署难题。用户开发的 C/C++ 应用源代码以及由 DNNC 为神经网络生成的 DPU 指令代码可编译并链接在一起,为 DPU 平台提供快速全方位部署解决方案。


点击放大

深度神经网络编译器 (DNNC)

DNNC 是通过将神经网络有效地映射到高性能 DPU 指令中,使 DPU 计算能力最大化的关键。对输入训练及压缩神经网络的拓扑结构进行分析后,它可构建 DAG 格式的内部计算图 IR,包括相应的控制流和数据流信息。它可实现多种编译器优化及转换技术,包括计算节点融合、高效指令调度、DPU 片上特征图及加权的全部数据重复使用等。DNNC 在低系统内存带宽及功耗要求的约束下,可显著提高 DPU 计算资源的利用率。


点击放大

硬件架构

 框图  说明 应用

点击放大

Aristotle 架构

为了计算卷积神经网络 (CNN), 深鉴从零开始设计了 Aristotle 架构。该架构虽然目前用于视频及图像识别任务,但对于服务器和便携式设备而言,不仅很灵活,而且还可扩展。

视频及图形识别

点击放大

Descartes 架构

深鉴的 Descartes 架构针对包括 LSTM 在内的压缩递归神经网络 (RNN) 设计。利用稀疏度,DeePhi Descartes 架构可在 300Mhz 下,在 KU060 FPGA 上实现超过 2.5 的 TOPS,可实现瞬间语音识别、自然语言处理以及大量其它识别任务。

基于 Descartes 架构,为语音识别提出了 DDESE(DeePhi Descartes 高效语音识别引擎)。我们已经在 AWS 市场上发布了该解决方案,您可以使用 AWS F1 实例测试我们的解决方案。(点击 DDESE ,了解更多信息。)

压缩递归神经网络 (RNN)

语音识别

DeePhi Descartes 高效语音识别引擎 (DDESE)

DDESE 是一款深鉴推出的高效自动端到端语音识别 (ASR) 引擎,支持算法及软硬件协同设计的深度学习加速解决方案(包含修剪、量化、编译和 FPGA 推断)。我们使用百度 DeepSpeech2 框架和 LibriSpeech 1000h 数据集进行模型训练和压缩。用户可运行测试脚本进行 CPU/FPGA 性能比较和单句识别。

特性

声音语音识别深度学习的全面堆栈创新加速解决方案(ESE:FPGA2017 的最佳文献

  • 在 FPGA 上支持单双向 LSTM 加速,适用于模型推断
  • 支持 CNN 层、全面连接 (FC) 层,批量正规化层和各种激活函数,如 Sigmoid、Tanh 和 HardTanh 等
  • 可针对 CPU/FPGA 性能比较和单句识别进行测试。
  • 支持用户自己的测试音频识别(英文、16kHz 采样率、不超过 3 秒)
的页面