Understanding what the user is looking at
We'll explore the intricacies of eye-based input and unveil strategies to surmount its inherent limitations.
目前,还没有一个单一的关于智能眼镜的定义。然而,一个以实际产品为导向的定义可能是:能够提供普通眼镜的熟悉功能并由传感器、音频和视觉组件以及处理器实现额外功能的眼戴设备。
此定义排除了使用透视视频观看世界的虚拟现实(VR)和混合现实(MR)设备。然而,它可以包括使用透视光学器件的增强现实(AR)设备。
智能眼镜是否应该包含传统眼镜的功能?这就像智能手机是否应该具备通话功能,或者智能手表是否应该能显示时间一样。让我们假设“智能”意味着在原有功能基础上的提升。
值得注意的是,智能眼镜要实用,就必须像普通眼镜一样舒适,能够长时间佩戴。从主观上讲,这意味着其尺寸和重量应该与普通眼镜相似,甚至在一定程度上也要时尚。
如今的消费级智能眼镜能够听音乐、打电话、唤起语音助手以及拍照和录像。具备显示屏的设备可能拥有地图、发短信、通知、日历和语言翻译等功能。这些应用并不为智能眼镜所独有,任何拥有智能手机的人都应该熟悉它们。不同之处在于,你无需掏出智能手机来访问这些功能,正如智能手表的优势一样。
与智能手表相比,智能眼镜完全不需要低头看手——你可以把注意力保持在周围世界和当前活动上。大多数智能眼镜还内置了扬声器,因此你可以放弃耳机,进一步提高你的环境感知能力,并向他人展示你可以听到他们说话。智能眼镜让你能够在不脱离现实世界的情况下保持与数字生活的连接。
眼动追踪可以为用户输入提供自然且新颖的方式,从而加速基于人工智能的应用场景并简化可用性。它还可以作为一个传感器,使技术能够适应佩戴者。
智能眼镜可以通过方便布置的摄像头、麦克风和其他传感器收集大量关于佩戴者周围环境的信息。这使得眼镜非常适合用于诸如视觉搜索和多模态对话等人工智能应用场景。
当AI有足够多的请求情景并能清楚地理解所问的内容时,它的效果会更佳。理解人类是诸如眼动追踪等注意力计算技术的目标。虽然用户前方场景的图像是有价值的上下文,但了解用户在关注什么将能够实现具体、高效的响应。这使得答案从一般信息转变为专注、切中要点的回答。
例如,博物馆的参观者可能会看着一幅画并询问AI:“那是什么?” AI可以回答:“那些是挂在墙上的装框艺术作品,” 或者“那是古斯塔夫·克林姆特的《女士肖像》。” 同样,像“我该如何使用它?” “我可以把线插在那里吗?” “他在拿什么?”等问题,当用户的注意力对象已知时,就不那么模棱两可了。
在谷歌的Project Astra预告视频中,我们看到了AI利用视觉焦点的一个例子。用户在询问AI“我在这里可以添加什么……?”时画了一个红色箭头。这个回答展现了对用户意图和注意力的理解。如果图表在一本书或屏幕上,或者根本不是图表而是一台物理机器,手绘箭头可能不起作用,但只需看向感兴趣的点即可。眼动追踪将能够实现这种增强注意力的查询方式。
谷歌的"天体计划"利用注意力提示来生成精确的回应
这种共享视图的协助反映了人们在远程支持会话中的互动。用户参与某项任务,而远程专家则观察并提供指导。智能眼镜使“见我所见”的支持成为可能,并通过眼动追踪实现注意力感知使其功能更加强大。
将设备置于面部的一个挑战是如何找到最佳控制方式。我们双手放松的静止位置远离设备的任何手动控制。这可能使触摸式交互变得笨拙且疲劳。一些智能眼镜可能试图通过无线控制器来克服这一限制,但在免提使用时这可能不是一种选择。语音命令是与智能眼镜交互的便捷方式,但在某些情况下需要无声或私密的交互。
眼动追踪开启了用眼睛控制设备的可能性。
这些交互可以指示智能眼镜关闭提醒、扫描视线中的二维码、朗读刚收到的短信,或挂断正在进行的通话。
当最初的iPhone首次亮相时,它被介绍为音乐播放器、手机和互联网通信设备的融合。在这三种功能中,前两种已经存在于许多人的口袋中。根据高通2023年的一项调查,互联网通信设备现在是智能手机最常用的功能。智能手机与互联网搜索的结合,使我们随时随地都能获取世界上的知识。
智能眼镜可以解放被智能手机整天束缚的双手和双眼。能通过我们的眼睛看世界的AI助手,将会提供及时的指导,丰富我们对世界的体验。智能手机给我们带来了知识,而智能眼镜将带来技能,并让我们回到本应归属的物质世界。
是否想了解更多关于眼动追踪如何使你的眼镜产品更智能、更以人为中心的相关信息?让我们与您分享多年来Tobii将注意力感知引入产品的经验吧。
We'll explore the intricacies of eye-based input and unveil strategies to surmount its inherent limitations.
In this article, we'll learn how the basic UI concept of pointing requires special handling when creating interfaces with eye-based input.
This article explains how eye tracking works. We illustrate step-by-step processes of screen-based and wearable eye trackers and XR integrations.