视觉算法在最近取得了突破性进展。MIT-IBM 沃森人工智能实验室的研究人员开发出了一种新的训练视频识别模型的技术,比目前最先进的方法快三倍,并成功缩小了最先进的计算机视觉模型,使得人们可以在处理能力非常有限的手机或其他设备上运行视频识别模型。
这项新技术名为“草图神经网络”(sketch-based neural network),它不再将视频分割成图像帧,并在每个帧上运行识别算法,而是提取每一帧对象的基本草图,并将它们叠加起来。算法可以通过观察草图中物体在空间中的移动来获得时间流逝的印记,而不用记住什么时候发生了什么。这样可以大大提高算法的效率,并使得在小型设备上运行视频识别模型成为可能。
这项技术的突破,得益于人工智能领域在近几十年来的长足进步,尤其是深度学习技术的快速发展。深度学习在图像和语音识别方面已经达到了相当高的水平,而这项技术的突破则进一步拓展了深度学习的应用范围,使其能够在更广泛的领域中发挥作用。
随着人工智能技术的不断发展,我们有理由期待更多的技术突破和应用创新,以帮助人类解决更多的难题,创造更美好的未来。