“人工智能二重唱”:商汤科技和英伟达如何做到万里寻一?

2017年05月11日10:51  来源:人民网-IT频道
 

  在近期举办的GTC 2017第八届GPU技术大会上, NVIDIA(英伟达)与专注于计算机视觉和深度学习的企业商汤科技(SenseTime),上演了一场“人工智能二重唱”,为人工智能技术的进步带来了更多新思路。

  英伟达GPU:通往人工智能的计算大脑

  GPU,即图形处理单元,它赋予了计算机强大的图形处理能力,推动着游戏、影视、工业设计等行业发展。10年前,CUDA的问世将GPU应用提升到了全新高度,凭借卓越的并行计算能力,使其在高性能计算、物理模拟等领域发挥出更大价值。而在随后的几年时间里,不论是新建的超级计算机,大型数据中心,GPU都起到了至关重要的作用。

  2012年,基于GPU的AlexNet在ImageNet大规模视觉识别竞赛中获胜,将准确率大幅提高,这是近年来人工智能迅速发展的里程碑事件,而这,也引爆了GPU在深度学习领域的大规模应用。

  在现代人工智能崛起的这几年当中,NVIDIA先后推出了TITAN X、Tesla P100等等用于深度学习的GPU产品,其每一代都实现了两倍甚至更高的深度学习性能提升,本次最新发布的Tesla V100更将其提升到了新的高度。同时,NVIDIA推出的DevBox、DGX-1等深度学习系统,更让相同的训练任务,从几个月,缩短到几周,几天甚至几个小时。

  目前,不仅是商汤科技,如阿里巴巴、百度、腾讯、Facebook等等世界顶尖AI企业,都在使用NVIDIA GPU进行深度学习训练和推断,而NVIDIA Jetson TX1/TX2、NVIDIA DRIVE等平台的推出,也为智慧城市建设、自动驾驶等,铺平道路。

  商汤算法:驱动强大AI大脑的运算逻辑

  自成立之初,商汤科技便坚持自主研发,牢牢将人工智能算法技术掌控在自己的手中。2011年,商汤科技创始团队便开始大规模投入深度学习研究,并率先将深度学习应用于计算机视觉领域。商汤科技从算法层出发,打造了原创深度学习框架,结合其投入超过4000万自主搭建的深度学习超算平台,极大降低AI系统和新技术的研发时间和成本。

  深度学习框架好比生产深度学习模型的流水线,走自主设计的路线尽管难度大,但方向自主可控,可以非常方便的升级和改进,用于生产新的模型。相比之下,借助第三方的生产线,尽管易于上手,但在修改调试时往往会有一定的限制。商汤科技在ImageNet 2016上凭借1207层神经网络架构,赢得三项视觉识别项目的冠军,正是凭借其原创的深度学习框架所建立的优势,而这套网络在其他第三方框架上则无法支持。商汤科技CEO徐立博士说:“这不是算法的问题,而是系统的问题。公司开发的一些新的架构,TensorFlow,Caffe可能支持不了。”

  “我们还能训练非常深的网络架构,网络层数越深,学习能力越强,结果就越精准”,徐立博士表示,“此外,通过设计更加复杂的神经元信息传递机制,在同等深度下,我们可以训练更强的神经网络;我们还可以在不损失识别精度的情况下,把网络进行成百上千倍的压缩和加速,让整个训练过程速度更快,功耗也可以得到进一步降低。”

  不难发现,自主、可控、灵活是商汤技术优势的代名词。而也正是基于这样的优势,商汤科技可以将深度学习训练模型带到各种各样不同的应用场景当中。

  GPU计算能力+商汤算法,迸发多彩创造力

  商汤科技的SenseFace,便是英伟达GPU和商汤上千层神经网络架构充分协作的最典型代表!它可以支持千路以上监控视频中实时人脸识别,并在千万级人员库中300ms内获得识别结果!在光照、角度、表情、遮挡、年龄变化等情况下,其准确率也处于行业领先水平。如此强悍的功能,现在还被成功部署到Jetson平台上。凭借NVIDIA提供的cuDNN和加速深度学习推断的TensorRT库,SenseFace在单个Jetson TX1上,即可支持2路全高清视频的实时处理!SenseFace的推出,不仅可为反恐任务提供事前、事中与事后的技术保障,更可用于失踪人员查找、VIP客户管理以及商业智能数据服务等应用。

  SenseVideo视频结构化系统,是商汤科技在ImageNet 2016中获得场景分析第一名的深度学习模型的实际应用成果。基于GPU所训练的1207层神经网络,让机器能够看懂机动车、非机动车、行人的属性并跟踪,甚至获得车牌识别、车型分类的能力,成就未来的智慧交通应用。同样,得益于NVIDIA cuDNN和TensorRT,SenseVideo在单个Jetson TX2平台上即可实时处理双路高清视频。

  如果说在视频监控领域,商汤科技和英伟达的“AI二重唱”在带来智能化的同时,放大其应用规模,那么在个人消费场景中,带来的则是全新的应用模式。商汤科技此次首次展示的SensePose,正是这一路径的得力体现。

  以往,进行人体动作捕捉,都需要借助双摄像头,或带有额外传感装置的摄像头实现,而SensePose可以让最普通的摄像头,实现人体动作估计的能力,就像变成Kinect一样。其背后,正是来自商汤针对视频分析的算法优化,以及英伟达DGX-1进行训练,并最终实现在视频中实时识别人体姿态,定位手、肩、脚、腰等十几个关键点位置,更可精准的把关键点定位在10个像素以内的人体关节上。SensePose无疑可以降低动作估计系统的成本,可以大规模应用在虚拟穿戴、虚拟试衣等前沿应用领域。

  目前,人工智能正处于飞速发展的时代,每一年都会有性能更强的深度学习硬件平台推出,与之匹配的算法也在不断迭代更新。只有将二者充分结合,保持算法的持续领先,不断突破,方可立于不败之地。

(责编:张歌、赵超)

推荐阅读