中文字幕无码一区二区免费 ,日韩精品一区二区三区中文字幕,99re热这里只有精品视频中文字幕

你的位置：首頁 > 互連技術 > 正文

瑞薩黑科技——高性能AI加速模塊DRP－AI

發布時間：2024-06-25 責任編輯：lina

【導讀】現代社會的各個方面都需要先進的人工智能（AI）來處理，例如對周圍環境的識別、行動決策和運動控制，這包括工廠、物流、醫療、城市中的服務機器人以及安全攝像頭等應用場景。然而，要在邊緣端實現人工智能，我們需要克服兩大挑戰：功耗和靈活性。

現代社會的各個方面都需要先進的人工智能（AI）來處理，例如對周圍環境的識別、行動決策和運動控制，這包括工廠、物流、醫療、城市中的服務機器人以及安全攝像頭等應用場景。然而，要在邊緣端實現人工智能，我們需要克服兩大挑戰：功耗和靈活性。

在云端，我們可以配備足夠的電源和冷卻機制來支持復雜的AI模型，但邊緣端的設備往往限制了功耗，這可能導致運行時間的縮短和成本的增加。此外，隨著AI模型不斷發展，專用的AI加速硬件很快就會過時，這意味著我們需要一種更靈活的解決方案來支持新開發的AI模型。因此，嵌入式端的AI加速成為一個重要的解決方案，它可以在邊緣設備上實現AI任務的高效執行，并為新的AI模型提供靈活性和支持。

為了滿足市場需求，瑞薩自主研發了用于AI加速的處理器DRP-AI（Dynamically Reconfigurable Processor for AI人工智能動態可配置處理器），該處理器集成與RZ/V系列芯片中。

DRP-AI處理器具備邊緣端設備所需的低功耗和靈活性，經過多年技術迭代已發展到第三代，實現了比上一代高約10倍的能效。DRP-AI3（集成與RZ/V2H）能夠適應AI的進一步發展和高性能機器人等應用的復雜要求。

DRP-AI3解決了低功耗挑戰，并實現了高實時處理。它為具有AI能力的產品提供了更高性能和更低功耗。接下來，我們將深入了解DRP-AI3是如何實現這些目標的。

軟、硬結合系統性地實現AI模型的高速和低功耗

量化

從傳統的16位浮點運算更改為8位整數運算（INT8）。該方法也是現在比較流行的一種運算處理方式。

瑞薩黑科技——高性能AI加速模塊DRP－AI

修剪

采用靈活的N:M修剪方法

瑞薩黑科技——高性能AI加速模塊DRP－AI
N:M技術的基本概念是將原始權重矩陣劃分為M行的權重矩陣組，并將其重構為較小的N行權重矩陣組。在每組中，只提取有效權重，然后對新的權重矩陣組進行并行運算。DRP-AI3引入了一個新功能，它可以通過自由切換每個權重矩陣組的N值來調整運算周期的數量，從而可以在實際的AI模型中對局部變化的修剪率執行最優的運算處理。這種精細改變N的能力還允許詳細設置整個權重矩陣的修剪率，根據用戶對功耗、操作速度和識別精度的要求進行最佳的修剪處理。

瑞薩黑科技——高性能AI加速模塊DRP－AI
AI系統架構實現高功效

通過數據重用技術減少外部存儲器通信

DRP-AI采用了一種有效地重用一次輸入到AI-MAC的技術。例如，在3x3濾波器的卷積運算中，一個數據像素用于九個濾波器運算。im2col被廣泛用作GPU中的高度并行運算方法，它以矩陣運算的順序擴展所有圖像數據作為輸入到GPU的預處理步驟。然而，這會導致一個像素的數據信息出現九次，數據的數量增加了九倍，進而增加了功耗和通信帶寬的消耗。相比之下，AI-MAC可以通過將取入與MAC算術單元相對應的寄存器中的數據移位到相鄰寄存器來重用數據，從而避免了重復存儲和傳輸數據，減少了功耗和通信帶寬的消耗。

通過采用如下圖所示的配置，與GPU相比，從外部存儲器和內部緩沖器到AI-MAC的數據加載的數量可以減少多達九倍。這種優化方案顯著降低了數據移動所需的功率和通信帶寬消耗。此外，AI-MAC不僅可以對輸入數據進行重用，還可以對輸出和權重信息進行重用，從而將對外部存儲器的訪問減少了一個數量級以上。

瑞薩黑科技——高性能AI加速模塊DRP－AI
使用輸入的零數據控制功耗

人工智能模型計算的一個特點是每一層的權重數據和輸入/輸出數據中“零”值的比例很高，這被稱為稀疏化。例如，在圖像識別模型中，所有層50%以上的輸入和輸出數據平均為零值。這主要是因為許多人工智能模型使用激活函數（如ReLU），該函數會將乘積和運算的所有負結果替換為零。在DRP-AI中，通過引入切換技術來減少不必要的計算能力。該切換技術預先檢測何時在操作的每個元素輸入中輸入零，并防止不必要的操作。

操作調度流程

除了數據重用技術之外，優化外部數據訪問或MAC處理等操作的順序和定時對于有效的AI執行至關重要。換句話說，調度操作流程可以最大化DRP-AI的性能。

例如，通過調度外部存儲器訪問定時，可以在AI-MAC操作期間提前讀取下一操作的權重信息并將其存儲在緩沖器中，從而防止和減少外部存儲器訪問延遲。這種方式也可應用于內部存儲器訪問和任何內部算術處理的定時中，調度可以避免每個處理之間不必要的等待時間和功耗的產生。由于DRP-AI工具自動生成這種優化的調度，用戶能夠輕松應對。

瑞薩黑科技——高性能AI加速模塊DRP－AI
瑞薩開發的DRP-AI3（人工智能動態可重構處理器）是一種獨特的AI加速器。它將嵌入式端所需的低功耗和靈活性與人工智能模型輕量級的處理能力相結合，相較于以前的模型，DRP-AI3的能效提高了10倍（10 TOPS/W）。

瑞薩將繼續擴大研發RZ/V系列，以提供更多配備這種卓越AI加速器的MPU產品。

免責聲明：本文為轉載文章，轉載此文目的在于傳遞更多信息，版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問題，請聯系小編進行處理。

瑞薩黑科技——高性能AI加速模塊DRP－AI

友情鏈接(QQ：317243736)