skip to main content

大數據與神經網絡

半導體產業新驅動力

By David Lammers

過去十年來,隨著數據流開始成倍激增,“大數據”一詞變得司空見慣,人們不免擔心如此大量的原始數據如何能轉化為有用信息。

如今,一個強有力的答案以機器學習的形式出現了:神經網絡,或人工智能 (AI),在攝取語音、圖像和其他形式數據並轉化為有價值信息方面的能力日益增強。神經網絡和人工智能應用將是下一代半導體器件的主要驅動力,並將進入半導體制造廠部署的數據分析技術庫。

盡管目前處理器和算法設計團隊在努力整理出神經網絡的最佳技術途徑,但顯然:我們正處於一場變革的開端,這場變革將以尚有待充分理解的方式影響半導體產業(見圖 1)。


圖 1:用於神經網絡的處理器領域的競爭正在升溫,而器件功耗是主要擔憂。(資料來源:Embedded Vision Alliance, 2017)

國際半導體產業協會 (SEMI) 美洲分會會長 Dave Anderson 認為,機器學習是未來提高半導體器件速度的主要驅動力。語音識別、語言翻譯、輔助駕駛和醫療診斷隻是機器學習改變格局的幾個例子。

先前曾在半導體制造技術戰略聯盟 (SEMATECH) 擔任高級經理的 Anderson 談到: “視覺分析系統背后都需要神經網絡,這需要大量運算力”。

半導體產業的增長一直以來受個人電腦、游戲和智能手機的推動,而未來的增長將源於快速分析大量數據的需求,其利用的是在雲端和用戶設備上運行的神經網絡。“我們正進入數據時代,芯片產業將迎來新的快速增長期,”Anderson 說。

有什麼好處?有什麼壞處?

《微處理器報告》(Microprocessor Report) 首席分析師 Linley Gwennap 認為:“我們正處於神經網絡這一整個形態的肇始之時。”早期的神經網絡業已証明,能夠以比人類更高的成功率來解決一些問題。

迄今許多網絡訓練過程都在英偉達的改良版圖形處理器上完成,但 Gwennap 說這一格局可能會改變,因為現有處理器供應商以及新創公司的處理器設計團隊都在“從零開始設計神經網絡處理器”。 Gwennap 指出,英特爾公司已經完成了數宗與人工智能相關的關鍵收購,其中包括著名的新創公司 Nervana, Inc.,其高管已立誓要成為人工智能領域的領導者。他說用於訓練神經網絡的高性能硅如今在數據中心的處理器開支中隻佔很小的百分比,但可能升至 10-20%,而這如今是一個大約 100 億美元的市場。

在推理引擎(用於無人機、機械手、汽車、智能手機和其他終端用戶系統的人工智能處理器)方面,Gwennap 認為半導體供應商需要注意功耗。

Gwennap 深信,神經網絡會對數據分析方式產生重大影響。目前,軟件工程師要使用 C 語言代碼來編寫復雜應用程序,然后花大量時間來微調其程序。與之形成對比的,神經網絡“會自行編程。它們會查看一大堆數據,並理出頭緒。它們會觀察圖形樣式,分辨出什麼是好的,什麼是壞的,”他說。

這是一條狗嗎?

新思科技 (Synopsys) 的嵌入式視覺產品經理 Gordon Cooper 認為:神經網絡“堪比大腦突觸”。該公司的嵌入式視覺產品以可合成的 ARC 處理核為基礎而打造。卷積神經網絡 (CNN) 代表目前視覺處理的一流技術,它通過在節點之間調整權值,訓練神經網絡層的識別能力。“例如,看到一幅圖像,它必須確定‘是或否:這是一條狗嗎?’根據答案的不同,隨著權值調整,你就在不斷訓練這個網絡。”

很多高級駕駛輔助系統 (ADAS) 的驚奇表現都是基於這樣一種能力:利用高性能計算系統訓練神經網絡,然后將圖樣識別能力部署在車輛的大容量推理引擎上。有些推理引擎是向處理器添加的小型核,還有的推理引擎是高性能集成電路,這會佔用制造廠大量的產能。

Cooper 認為 ADAS 的推理引擎需要強大的多核片上系統 (SoC) 解決方案。ADAS 供應商會嚴守它們用於訓練其神經網絡識別行人和其他障礙的特殊方法。但所有供應商都需要快速響應的硅對車輛接收的圖像做推理處理。

嵌入式視覺系統逐幀處理視頻流中的各幅圖像。“這是未壓縮的完整幀數據。根據攝像頭像素解析度的不同,會產生巨量像素,”Cooper 談到。有些客戶使用運行速度高達 800 MHz 的四核 SoC,在配備 ADAS 的車輛中執行圖樣識別。“ADAS 系統需要強大的處理能力才能作出一個決定,” 他說。

在 ADAS 應用程序能檢查來自汽車攝像頭的圖像並決定是否迫使汽車停下之前,推理引擎硅必須 “分辨出圖像的感興趣區,評估不同的候選對象以識別是否可能為行人,並報告:‘是或否:這是一個行人’,”Cooper 說。

而這並非遙遠的未來景象:特斯拉如今提供的增強版駕駛功能,使汽車的視覺系統能識別前方兩三輛車,並在必要時迫停車輛,以防發生追尾。

“谷歌和 Facebook 網羅了大量懂神經網絡的人,以至於汽車客戶發現難以招到這個領域的人才。這需要努力去爭取人才,”Cooper 談到。

並非所有推理引擎都需要這種多核專用處理能力。例如,當神經網絡接受訓練來偵測信用卡詐騙時,其結果可用常規的 CPU 部署,CPU 就成了推理引擎,Real World Technologies 首席分析師 David Kanter 說。

“機器學習將在汽車、醫院和安全系統中以各種方式運用,或用於偵測互聯網上的垃圾信息。有些情況下,機器學習並沒有那麼繁重的運算任務,不足以需要專門的硬件,”他說。

在很多情況下,機器學習可通過向主處理器添加一個小型的協同處理器而部署於終端用戶系統中, Kanter 說,“不同應用所需的硬件將有所不同。”

提高芯片制造廠良率

這些技術也能提升半導體制造廠的良率或為芯片設計師提供指導嗎?

Chris Rowen 在 Tensilica(鏗騰電子設計 (Cadence Design) 旗下企業)任職時曾是可合成微處理器領域的開拓者,如今領導一家創投公司 Cognite Ventures,以人工智能新創企業為投資對象。“制造業總體上正在逐漸認識到機器學習的潛力,”Rowen 說(見圖 2)。


圖 2:為消費市場提供語音接口支持的自動化語音識別 (ASR) 技術的背后是神經網絡。(資料來源:Cognite Ventures)

當然,像半導體這樣的高價值產業“有著優越的條件來利用它。實現真正的工藝控制,其益處太大了,而且機器學習可為制造業帶來可預測性。”(見圖 3。)


圖 3:電子設計向認知運算應用演變的驅動因素圖示。認知運算[1]一般指模仿人類大腦運轉的計算機硬件/軟件,往往利用神經網絡和人工智能技術。(資料來源:Cognite Ventures)

密歇根大學工程系助理研究員 James Moyne 談到,他相信人工智能技術如果與人類專家結合,就能最好地服務於半導體行業。

“像‘深度學習’這樣針對大數據的神經網絡和人工智能技術,將影響半導體制造,但它遠非萬能。所有人都在為這些預測式分析尋找一種萬能的技術。不過,深度學習在專業領域知識上還有所欠缺,因此總體上不適用於像故障檢測、預測式維護和虛擬度量等事情,”他說。

神經網絡可很好地作為“頂層”功能來發揮作用,找出“奇特的異常”,然后提醒專家進行調查研究。

“我們希望促使人們思考如何利用大數據技術,但我們也希望幫助他們理解這些技術並不取代人工配置工作,也不能替代專業領域知識。最終我們需要精確劃出問題空間,辨別在哪些領域深度學習可能成為最佳技術,在哪些領域中並不是,”他說。

應用材料公司全球服務事業部 (AGS) 服務產品開發副總裁 Kirk Hasserjian 認為,“監督”模式既納入了設備公司的專業技術,也囊括了半導體企業精湛的工藝知識。Hasserjian 今年早些時候在中國國際半導體技術展上與技術設計論壇 (Tech Design Forum) 的通訊員 Paul Dempsey 交談時說,這些監督模式目前能更好地分離信號與噪音。

純機器學習依賴非標記數據的“無監督”模式,“本質上是在尋找組群和趨勢,識別所有異常現象,”Hasserjian 說,“我們的工藝和設備產生了相當數量的數據,可以利用這一模式。”[2]

監督模式和無監督模式都屬於一個更大的數據分析框架,即應用材料公司開發的運算工藝控制 (CPC),該框架既影響制造工藝,也影響設計流程。

Hasserjian 在 2016 年先進工藝控制大會上發言時說,CPC(在一個更大的運算數據分析框架中包含規范式和預測式能力)是從統計工藝控制 (SPC) 和先進工藝控制 (APC) 大轉變過程的一部分(見圖 4)。


圖 4:在運算工藝控制時代,機器學習將對晶圓制造廠和設備工程師的專業領域知識形成補充。(資料來源:應用材料公司)

明導國際公司 (Mentor Graphics Corporation) 高級工程總監 Juan Rey 談到:“我們知道這些神經網絡算法並不關心它們具體識別的是什麼。它們需要經過訓練才能區別貓和狗,因此我們知道,它們也能被訓練出區分通孔與溝槽的能力,或識別雙鑲嵌工藝中刻蝕的能力。這點毫無疑問。”

明導國際的人工智能研究剛剛啟動,但建立好了團隊。“我們在嘗試研究這些算法,”Rey 補充說他希望看到他擔任顧問委員會成員的半導體研究機構 (SRC) 能將該合作團體的一些研究基金撥放到人工智能技術上。

數據質量需要改進

截至目前,大多數神經網絡在處理帶有標記的圖樣化數據組(例如,金毛犬對比臘腸犬,或癌性腫瘤對比健康組織)時表現優良。但 Rowen 說神經網絡正變得越來越擅長處理原始的非標記數據,並發展出富有意義的多種解決方案。

對很多組織而言,神經網絡就像“一把閃光的新錘子”,企業仍在努力搞清楚如何使用它, Rowen 說。但這項技術很可能在半導體產業中得到廣泛利用。在這個產業,即使良率提高 1%,其價值也會達數十億。“神經網絡可用於處理清楚結果但不確定原因情況下的大量數據。這種能力可用於處理晶圓制造廠的良率問題,而手動技術往往較難深入挖掘根本原因,”Rowen 說。

神經網絡能弄明白“復雜的因果模式;即在這個特定的點是什麼導致了缺陷。如果掌握足夠多的良率例子,就可開發出基於故障類型和原因且具有很高統計精確度的極佳預測模型,並可確定如何防止產生缺陷。這用手動方法或者先前的統計方法來做會很困難,”Rowen 說。

Moyne 認為半導體產業面臨的一項核心挑戰是創建更高質量的數據組,將當前晶圓制造廠捕捉的多種數據納入其中。

“我們行業在數據質量方面存在許多問題,我們需要進行數據篩選和特征提取來增強我們的數據技術。神經網絡對於大型數據組很有用,是一種自由式方法,能找出人工所不了解的圖樣。當你並非在尋找一個完美的解決方案,即不需要始終正確時,神經網絡會做得非常出色,例如幫助界定人們的偏好來恰當放置谷歌廣告。

“神經網絡在這些方面大有可為,但它並不了解很多專業領域的知識,因此不會是一個萬能的解決方案,”Moyne 說。

英偉達首席執行官黃仁勛認為大變革正在發生。他在公司博客中寫道:“我們站在下個時代的開端,人工智能運算的時代……在這個時代,軟件會自己編寫程序,機器會學習。很快,數千億台設備裝置將充滿智能。人工智能將在每個行業掀起革命。”

卡內基梅隆大學計算科學兼任副教授 Raul Valdes-Perez 對機器學習與機器發現做了區分。機器學習可以找出數據中的共同模式,並在無需明確編程的情況下利用它們來學習和調適。機器發現則是通向另一個層面,Valdes-Perez 說,其算法將輔助人類“從數據中發現的共同模式中提取出可能有用的新知識”。

Moyne 設想的場景,即由專業領域的專家來利用神經網絡,幾乎肯定是人工智能最初應用於半導體制造這樣復雜領域的方式。

但是,神經網絡比人類專家遠遠更快、更低廉,使得大量岗位都受到了威胁,这样的例子越来越多。例如,在高盛的证券交易厅,证券交易员正在快速被计算机科学家替代。而据 2011 年普利策奖获奖书籍《众病之王:癌症传》的作者,肿瘤医生 Siddhartha Mukherjee 介绍,放射科医生经过大量训练,花几十年学习如何看 X 光、核磁共振和其他成像片,但就个体而言,在癌性肿瘤识别的精度或速度上却已经比不上接受多专家累积知识训练的人工智能系统。

Moyne 指出,对于半导体制造业的有些应用而言,诸如偏最小二乘回归 (PLS) 这样的统计技术比神经网络更合适。

“最终将是各种技术的结合。没有一种技术能解决所有问题。数据质量和是否需要专业领域知识,将在很大程度上决定技术选择。这些技术我们全都需要,”Moyne 说。

欲知詳情,請聯系nanochip_editor@amat.com.

[1] https://en.wikipedia.org/wiki/Cognitive_computing

[2] http://www.techdesignforums.com/practice/technique/computational-process...