眼动追踪技术具有梦幻和有些未来感的光环,拥有巨大的潜力。虽然我相信这一点是正确的,但这项技术在过去二十年中已经发展成为解决一些具有挑战性问题的已立足之地。例如,它是辅助设备的基石,为运动和语言障碍的人们提供了一种沟通方式,帮助他们过上独立的生活。
但我们在Tobii的目标始终是积极影响每个人的生活,而不仅仅是依赖我们的技术来过上正常生活的人们。我们的目标是使设备更好、更直观,为了实现这一目标,像眼动追踪这样的技术需要是通用的。这也是我在本文中要讨论的内容。
为了具有普适性,一项技术需要遵守规范和标准。理想情况下,它不应占用太多的空间,以确保便携性和移动性。低计算负荷始终是考虑的因素之一,以最大限度地延长电池寿命并确保性能。毋庸置疑,如果要将技术用于消费设备,它需要在任何时间、任何地点都适用于每个人。
目前,构建一个适用于大多数人和大多数情况的良好眼动追踪器相对容易。基本上,你所需要的只有一个摄像头、一个光源和一个处理单元。光源照亮一个人的眼睛,增加瞳孔和虹膜之间的对比,然后在角膜上形成反射。摄像头拍摄一个人的眼睛图像,然后处理单元找到瞳孔和这些反射物在角膜上。有了这些信息、摄像头和光源的已知位置,以及人眼的解剖学知识,就可以计算出每只眼睛的位置和旋转角度。通过要求用户看向一个位置已知的物体来校准眼动追踪系统,你就可以确定一个人在看何处所需的所有信息。
然而,每个新的使用场景都带来新的挑战,我希望有某种秘密公式可以解决所有问题,但不幸的是,这并不存在。将基本眼动追踪系统转化为可靠的产品需要辛勤而专注的工作。
首先,通常需要生成大规模的数据集。我们需要知道要寻找什么信息以及如何将数据切片用于目标应用。例如,一个研究场景并不像大众市场产品中的设备原生特性(例如虚拟现实头盔中的聚焦渲染)一样要求完全的人群覆盖。
然后是延迟的问题。例如,使用分裂渲染的图形密集型应用,部分计算在设备上,部分在云中进行,需要低延迟的网络连接和眼动追踪器。另一方面,支持眼控菜单选择的应用则不需要相同的延迟要求,这允许进行较长的暂时过滤以提高用户体验。
有人可能会认为眼动追踪是一个纯计算机科学问题,而机器学习会为你解决一切。尽管机器学习是我们解决方案的重要部分,但当设计眼动追踪算法时,你需要考虑眼睛的解剖结构、大脑如何解释视觉信号,以及目标应用的目标。
但我认为最大的挑战是当你从构思转向商业化时。在数百万设备依赖你的技术完全正常运行的大众市场场景中,失败不是一个选择。达到99%的人群覆盖率及以上意味着构思阶段被认为是局外人的场景和人需要解决。下垂眼皮、覆盖重要特征的化妆品、处方眼镜、隐形眼镜,以及懒惰/支配性眼睛都是典型的情况。此外,你可能需要处理耳机滑动,以及瞳孔间距(IPD)、脸型、近红外线皮肤反射、虹膜颜色、零部件和放置公差的变化。
为了让您了解这些挑战是怎样的,请查看上面的示例图像。在开发过程中,你需要考虑如何处理VR镜头引起的失真,如何解决杂光问题,以及如何滤除处方眼镜引起的鬼影反射。因为在所有这些情况下,你仍然需要以亚像素精度找到瞳孔和角膜反射——这是一个复杂的问题,但绝对是可以解决的。
所以希望当我说创建基本眼动追踪系统很简单时,你能相信我,但要构建一个适用于任何地方所有人的系统需要时间和专注。在本文中我没有涉及的一点是性能评估和衡量系统性能变化对影响的重要性,以确保你在为新的用例演变时保持最佳设计。我故意没有提及性能,因为我的一些同事过去几个月一直在专注这个领域。他们已经为眼动追踪系统的性能评估创建了一组度量标准和一套方法论,—你可以在我们的白皮书《VR/AR头显和可穿戴设备的眼动追踪性能评估》中阅读。如果你想在VR头显中尝试原生眼动追踪,请看看最新搭载Tobii技术的型号——Pico Neo 3 Pro Eye,该型号最近宣布发布。