skip to main content

大数据与神经网络

半导 体产业 新 驱动

By David Lammers

过去十年来,随着数据流开始成倍激增,“大数据”一词变得司空见惯,人们不免担心如此大量的原始数据如何能转化为有用信息。

如今,一个强有力的答案以机器学习的形式出现了:神经网络,或人工智能 (AI),在摄取语音、图像和其他形式数据并转化为有价值信息方面的能力日益增强。神经网络和人工智能应用将是下一代半导体器件的主要驱动力,并将进入半导体制造厂部署的数据分析技术库。

尽管目前处理器和算法设计团队在努力整理出神经网络的最佳技术途径,但显然:我们正处于一场变革的开端,这场变革将以尚有待充分理解的方式影响半导体产业(见图 1)。


图 1:用于神经网络的处理器领域的竞争正在升温,而器件功耗是主要担忧。(资料来源:Embedded Vision Alliance, 2017)

国际半导体产业协会 (SEMI) 美洲分会会长 DaveAnderson 认为,机器学习是未来提高半导体器件速度的主要驱动力。语音识别、语言翻译、辅助驾驶和医疗诊断只是机器学习改变格局的几个例子。

先前曾在半导体制造技术战略联盟 (SEMATECH) 担任高级经理的 Anderson 谈到: “视觉分析系统背后都需要神经网络,这需要大量运算力”。

半导体产业的增长一直以来受个人电脑、游戏和智能手机的推动,而未来的增长将源于快速分析大量数据的需求,其利用的是在云端和用户设备上运行的神经网络。“我们正进入数据时代,芯片产业将迎来新的快速增长期,”Anderson 说。

有什么好处?有什么坏处?

微处理器报告》(Microprocessor Report) 首席分析师 Linley Gwennap 认为:“我们正处于神经网络这一整个形态的肇始之时。”早期的神经网络业已证明,能够以比人类更高的成功率来解决一些问题。

迄今许多网络训练过程都在英伟达的改良版图形处理器上完成,但 Gwennap 说这一格局可能会改变,因为现有处理器供应商以及新创公司的处理器设计团队都在“从零开始设计神经网络处理器”。 Gwennap 指出,英特尔公司已经完成了数宗与人工智能相关的关键收购,其中包括著名的新创公司 Nervana, Inc.,其高管已立誓要成为人工智能领域的领导者。他说用于训练神经网络的高性能硅如今在数据中心的处理器开支中只占很小的百分比,但可能升至 10-20%,而这如今是一个大约 100 亿美元的市场。

在推理引擎(用于无人机、机械手、汽车、智能手机和其他终端用户系统的人工智能处理器)方面,Gwennap 认为半导体供应商需要注意功耗。

Gwennap 深信,神经网络会对数据分析方式产生重大影响。目前,软件工程师要使用 C 语言代码来编写复杂应用程序,然后花大量时间来微调其程序。与之形成对比的,神经网络“会自行编程。它们会查看一大堆数据,并理出头绪。它们会观察图形样式,分辨出什么是好的,什么是坏的,”他说。

这是一条狗吗?

新思科技 (Synopsys) 的嵌入式视觉产品经理 Gordon Cooper 认为:神经网络“堪比大脑突触”。该公司的嵌入式视觉产品以可合成的 ARC 处理核为基础而打造。卷积神经网络 (CNN) 代表目前视觉处理的一流技术,它通过在节点之间调整权值,训练神经网络层的识别能力。“例如,看到一幅图像,它必须确定‘是或否:这是一条狗吗?’根据答案的不同,随着权值调整,你就在不断训练这个网络。”

很多高级驾驶辅助系统 (ADAS) 的惊奇表现都是基于这样一种能力:利用高性能计算系统训练神经网络,然后将图样识别能力部署在车辆的大容量推理引擎上。有些推理引擎是向处理器添加的小型核,还有的推理引擎是高性能集成电路,这会占用制造厂大量的产能。

Cooper 认为 ADAS 的推理引擎需要强大的多核片上系统 (SoC) 解决方案。ADAS 供应商会严守它们用于训练其神经网络识别行人和其他障碍的特殊方法。但所有供应商都需要快速响应的硅对车辆接收的图像做推理处理。

嵌入式视觉系统逐帧处理视频流中的各幅图像。“这是未压缩的完整帧数据。根据摄像头像素解析度的不同,会产生巨量像素,”Cooper 谈到。有些客户使用运行速度高达 800 MHz 的四核 SoC,在配备 ADAS 的车辆中执行图样识别。“ADAS 系统需要强大的处理能力才能作出一个决定,” 他说。

在 ADAS 应用程序能检查来自汽车摄像头的图像并决定是否迫使汽车停下之前,推理引擎硅必须 “分辨出图像的感兴趣区,评估不同的候选对象以识别是否可能为行人,并报告:‘是或否:这是一个行人’,”Cooper 说。

而这并非遥远的未来景象:特斯拉如今提供的增强版驾驶功能,使汽车的视觉系统能识别前方两三辆车,并在必要时迫停车辆,以防发生追尾。

“谷歌和 Facebook 网罗了大量懂神经网络的人,以至于汽车客户发现难以招到这个领域的人才。这需要努力去争取人才,”Cooper 谈到。

并非所有推理引擎都需要这种多核专用处理能力。例如,当神经网络接受训练来侦测信用卡诈骗时,其结果可用常规的 CPU 部署,CPU 就成了推理引擎,Real World Technologies 首席分析师 David Kanter 说。

“机器学习将在汽车、医院和安全系统中以各种方式运用,或用于侦测互联网上的垃圾信息。有些情况下,机器学习并没有那么繁重的运算任务,不足以需要专门的硬件,”他说。

在很多情况下,机器学习可通过向主处理器添加一个小型的协同处理器而部署于终端用户系统中, Kanter 说,“不同应用所需的硬件将有所不同。”

提高芯片制造厂良率

这些技术也能提升半导体制造厂的良率或为芯片设计师提供指导吗?

Chris Rowen 在 Tensilica(铿腾电子设计 (Cadence Design) 旗下企业)任职时曾是可合成微处理器领域的开拓者,如今领导一家创投公司 Cognite Ventures,以人工智能新创企业为投资对象。“制造业总体上正在逐渐认识到机器学习的潜力,”Rowen 说(见图 2)。


图 2:为消费市场提供语音接口支持的自动化语音识别 (ASR) 技术的背后是神经网络。(资料来源:Cognite Ventures)

当然,像半导体这样的高价值产业“有着优越的条件来利用它。实现真正的工艺控制,其益处太大了,而且机器学习可为制造业带来可预测性。”(见图 3。)


图 3:电子设计向认知运算应用演变的驱动因素图示。认知运算[1]一般指模仿人类大脑运转的计算机硬件/软件,往往利用神经网络和人工智能技术。(资料来源:Cognite Ventures)

密歇根大学工程系助理研究员 James Moyne 谈到,他相信人工智能技术如果与人类专家结合,就能最好地服务于半导体行业。

“像‘深度学习’这样针对大数据的神经网络和人工智能技术,将影响半导体制造,但它远非万能。所有人都在为这些预测式分析寻找一种万能的技术。不过,深度学习在专业领域知识上还有所欠缺,因此总体上不适用于像故障检测、预测式维护和虚拟度量等事情,”他说。

神经网络可很好地作为“顶层”功能来发挥作用,找出“奇特的异常”,然后提醒专家进行调查研究。

“我们希望促使人们思考如何利用大数据技术,但我们也希望帮助他们理解这些技术并不取代人工配置工作,也不能替代专业领域知识。最终我们需要精确划出问题空间,辨别在哪些领域深度学习可能成为最佳技术,在哪些领域中并不是,”他说。

应用材料公司全球服务事业部 (AGS) 服务产品开发副总裁 Kirk Hasserjian 认为,“监督”模式既纳入了设备公司的专业技术,也囊括了半导体企业精湛的工艺知识。Hasserjian 今年早些时候在中国国际半导体技术展上与技术设计论坛 (Tech Design Forum) 的通讯员 Paul Dempsey 交谈时说,这些监督模式目前能更好地分离信号与噪音。

纯机器学习依赖非标记数据的“无监督”模式,“本质上是在寻找组群和趋势,识别所有异常现象,”Hasserjian 说,“我们的工艺和设备产生了相当数量的数据,可以利用这一模式。”[2]

监督模式和无监督模式都属于一个更大的数据分析框架,即应用材料公司开发的运算工艺控制 (CPC),该框架既影响制造工艺,也影响设计流程。

Hasserjian 在 2016 年先进工艺控制大会上发言时说,CPC(在一个更大的运算数据分析框架中包含规范式和预测式能力)是从统计工艺控制 (SPC) 和先进工艺控制 (APC) 大转变过程的一部分(见图 4)。


图 4:在运算工艺控制时代,机器学习将对晶圆制造厂和设备工程师的专业领域知识形成补充。(资料来源:应用材料公司)

明导国际公司 (Mentor Graphics Corporation) 高级工程总监 Juan Rey 谈到:“我们知道这些神经网络算法并不关心它们具体识别的是什么。它们需要经过训练才能区别猫和狗,因此我们知道,它们也能被训练出区分通孔与沟槽的能力,或识别双镶嵌工艺中刻蚀的能力。这点毫无疑问。”

明导国际的人工智能研究刚刚启动,但建立好了团队。“我们在尝试研究这些算法,”Rey 补充说他希望看到他担任顾问委员会成员的半导体研究机构(SRC) 能将该合作团体的一些研究基金拨放到人工智能技术上。

数据质量需要改进

截至目前,大多数神经网络在处理带有标记的图样化数据组(例如,金毛犬对比腊肠犬,或癌性肿瘤对比健康组织)时表现优良。但 Rowen 说神经网络正变得越来越擅长处理原始的非标记数据,并发展出富有意义的多种解决方案。

对很多组织而言,神经网络就像“一把闪光的新锤子”,企业仍在努力搞清楚如何使用它, Rowen 说。但这项技术很可能在半导体产业中得到广泛利用。在这个产业,即使良率提高 1%,其价值也会达数十亿。“神经网络可用于处理清楚结果但不确定原因情况下的大量数据。这种能力可用于处理晶圆制造厂的良率问题,而手动技术往往较难深入挖掘根本原因,”Rowen 说。

神经网络能弄明白“复杂的因果模式;即在这个特定的点是什么导致了缺陷。如果掌握足够多的良率例子,就可开发出基于故障类型和原因且具有很高统计精确度的极佳预测模型,并可确定如何防止产生缺陷。这用手动方法或者先前的统计方法来做会很困难,”Rowen 说。

Moyne 认为半导体产业面临的一项核心挑战是创建更高质量的数据组,将当前晶圆制造厂捕捉的多种数据纳入其中。

“我们行业在数据质量方面存在许多问题,我们需要进行数据筛选和特征提取来增强我们的数据技术。神经网络对于大型数据组很有用,是一种自由式方法,能找出人工所不了解的图样。当你并非在寻找一个完美的解决方案,即不需要始终正确时,神经网络会做得非常出色,例如帮助界定人们的偏好来恰当放置谷歌广告。

“神经网络在这些方面大有可为,但它并不了解很多专业领域的知识,因此不会是一个万能的解决方案,”Moyne 说。

英伟达首席执行官黄仁勋认为大变革正在发生。他在公司博客中写道:“我们站在下个时代的开端,人工智能运算的时代……在这个时代,软件会自己编写程序,机器会学习。很快,数千亿台设备装置将充满智能。人工智能将在每个行业掀起革命。”

卡内基梅隆大学计算科学兼任副教授 Raul Valdes-Perez 对机器学习与机器发现做了区分。机器学习可以找出数据中的共同模式,并在无需明确编程的情况下利用它们来学习和调适。机器发现则是通向另一个层面,Valdes-Perez 说,其算法将辅助人类“从数据中发现的共同模式中提取出可能有用的新知识”。

Moyne 设想的场景,即由专业领域的专家来利用神经网络,几乎肯定是人工智能最初应用于半导体制造这样复杂领域的方式。

但是,神经网络比人类专家远远更快、更低廉,使得大量岗位都受到了威胁,这样的例子越来越多。例如,在高盛的证券交易厅,证券交易员正在快速被计算机科学家替代。而据 2011 年普利策奖获奖书籍《众病之王:癌症传》的作者,肿瘤医生 Siddhartha Mukherjee 介绍,放射科医生经过大量训练,花几十年学习如何看 X 光、核磁共振和其他成像片,但就个体而言,在癌性肿瘤识别的精度或速度上却已经比不上接受多专家累积知识训练的人工智能系统。

Moyne 指出,对于半导体制造业的有些应用而言,诸如偏最小二乘回归 (PLS) 这样的统计技术比神经网络更合适。

“最终将是各种技术的结合。没有一种技术能解决所有问题。数据质量和是否需要专业领域知识,将在很大程度上决定技术选择。这些技术我们全都需要,”Moyne 说。

欲知详情,请联系 nanochip_editor@amat.com

[1] https://en.wikipedia.org/wiki/Cognitive_computing

[2] http://www.techdesignforums.com/practice/technique/computational-process...