杨 毅1,徐淑正1,乔 飞1,王靖淇2,王生进1
(1. 清华大学 电子工程系,北京 100084;2. 英特尔(中国)有限公司,北京 100013)
摘?要:作为实现人机交互技术的必要途径,媒体认知技术及其领域受到越来越多的关注,媒体认知实验课程是清华大学电子信息学科在课程体系改革过程中创立的一门全新课程。文章通过阐述覆盖软件姿势操控、安卓平台人脸识别等媒体信息交互基本内容的基本项目,以及由学生自主提出与英特尔RealSense等许多国际一流技术接轨的实际项目如音乐节奏控制交互、手势模拟电脑键盘等,旨在激发学生对相关研究领域的热情与兴趣,进一步培养高层次人才的创新能力。
教育期刊网 http://www.jyqkw.com
关键词 :媒体认知;智能感知;RealSense;学生自主项目
基金项目:英特尔—清华2015年媒体与认知实验教学项目。
第一作者简介:杨毅,女,高级工程师,研究方向为数字信号处理,yangyy@mail.tsinghua.edu.cn。
1 媒体认知实验课程简介
信息一词在我国由来已久,但迄今为止尚未得到普遍接受的有关广义信息的定义,信息作为一个可以用严格数学公式定义的科学名词,首先出现在统计数学中,随后又出现在通信技术中[1]。文中的信息指的是通信系统中用于传输和处理的对象,特指消息和信号的具体内容和含义。电子信息科学与技术是以物理和数学为基础,研究通过电学形式表达操控信息的基本规律以及运用这些基本规律实现各种电子系统的方法。在进入电子时代和信息社会的今天,电子信息科学技术已渗透到各个领域[2]。
2008年,Bill Gates首次提出“自然用户界面”(natural user interface)的概念并预言人机交互在未来几年会有很大的改观,键盘和鼠标将会逐渐被更自然的触摸式、视觉型以及语音控制界面所替代。与此同时,“有机用户界面”(organic user interface)也开始悄然兴起,其包括生物识别传感器、皮肤显示器乃至大脑与计算机直接对接,这些技术无疑都给人类的生活带来重大影响。随着计算机技术和传感器的普遍应用,现实世界也逐渐出现其“数字版”的一面,而自然人机交互技术正是现实与虚拟世界之间的桥梁。现存的或已经比较成熟的人机交互技术主要有[3-4]虚拟现实、增强现实、多点触控、语音识别、眼球追踪、人脸识别、体感操作、脑机界面等。
当遇到一个人的时候,大脑立即将注意力集中在对方身上并根据经验辨识出他的身份,这一过程并不是通过数百层的决策树实现,而是人脑就是知道。婴儿很难区分出两个人的不同,但我们通过多年的学习和训练可以在几分之一秒内做到。事实上,人脑也许还能准确地估摸出他们的年龄、性别、心情甚至个性,这也是让我们成就为人类的原因之一。媒体认知技术的目的就是创造类似的设备和方法,主动观察身边的世界并与人类用户操作和互动,进行自主学习,甚至可以影响人类产生新的文化和艺术,彻底改变人类从外界学习知识和与外界及其他人类互动的手段和方式。
媒体认知实验课程从媒体认知技术出发,面向电子信息学科学生设立多个全新的媒体认知实践项目与环节,通过大量实践与实验训练,帮助学生深刻理解基于数字信号处理的媒体认知基本理论,培养学生在真实环境下建模和解决问题的能力。此外,自主研究环节还可极大地激发学生的学习热情,在课内外投入大量时间进行媒体认知技术相关领域的科学探索和研究。连续几年的学生调查反馈数据表明,媒体认知实验课程提高了学生的创新能力,对进一步培养高层次人才具有很大的意义。
2 媒体认知实验基本项目
人机交互的实质是媒体信息的交互。虚拟现实技术是20世纪末兴起的一种综合性信息媒体处理前沿技术,该技术作为新媒体和新一代人机交互技术,给人类带来了全新的认知体验。虚拟现实技术采用多通道媒体界面技术,显示出未来人机交互的发展趋势,即追求“人机和谐”的多维信息空间交互和自然人机交互。为了实现以上目标,机器需要通过多种媒体识别人的身体姿态、手势及语音等,判断出人的意图。
2.1 软件姿势操控项目
英特尔的RealSense设备[5]是一种能通过采集视觉、深度、音频等多种媒体信息获得手势、语音等表征意图的智能感知设备,可以广泛应用于自然互动、沉浸式协作与创作等创新应用,能够帮助开发人员在游戏、娱乐和内容创建交互方面实现新的突破。通过设计基于RealSense的一系列媒体认知系统项目,学生可以对媒体与认知相互作用的内涵有更深入的理解。该项目的目标是利用 RealSense的骨骼节点跟踪功能控制幻灯片的播放,免去演讲者按键进行幻灯片切换的过程;同时根据同样的原理,预定义一些动作实现幻灯片播放过程中需要的其他功能。实现RealSense控制幻灯片播放的主要方法包括姿势(pose)识别和手势(gesture)识别,这两种方法的本质都是通过骨骼数据的分析识别出已经定义好的动作,并根据不同的动作触发向前、向后、首页、尾页等按键的事件,使得幻灯片能够切换。不同之处在于姿势识别主要对单帧数据进行动作识别,其流程如图1所示;手势识别需要对连续多帧数据进行动作识别,其流程如图2所示。
2.2 安卓平台人脸识别项目
该项目基于主成分分析(PCA)算法[6],利用剑桥大学AT&T实验室的ORL人脸数据库[7]中的40 个人、每个人10种姿态的图片样本作为训练集,将二维人脸灰度图像变换为一向量矩阵,随后计算出特征集,将矩阵规范化后,求出样本的协方差矩阵的特征值与向量,选出主成分特征向量,得到样本的特征矩阵。安卓平台人脸识别的流程如图3所示。
在训练阶段,经过预处理规范化后的图像矩阵每一列向量被投影到特征子空间,形成特征库。在识别阶段,待识别人脸图像经过预处理规范化后,同样被投影到特征子空间,使用最近邻法分类器欧几里得距离作为判决分类,将距离最小的训练图像与测试图像进行匹配。
在具体教学中,基础项目环节每一层中的实践项目都按照知识点的深度分解为多个基础题目,帮助学生从实现基础题目的角度出发主动寻找解决问题需要的各个知识点,逐步形成知识体系结构。广泛的题材和前沿的题目也激发了学生对相关领域继续深入研究的兴趣。
3 媒体认知实验自主项目
自主项目是由学生提出研究题目并全部独立设计完成的一种教学方式,在媒体认知实验中作为选修环节,在设计之初主要考虑和面向部分优秀学生,但在实际教学过程中,全部学生均主动积极参与完成了自主项目环节。事实上,在学生的参与和建议下,部分学生提出的自主项目的成熟内容正在逐步转化为基本项目,这种教学相长的方式极大地调动了学生的参与性、主观能动性和创造性。完成该实验课程后,许多学生在研究生阶段继续从事该媒体认知方向的研究工作,部分自主项目如下。
3.1 音乐节奏控制交互
音乐节奏控制交互类应用的目的是根据音乐节奏与其提示按下不同的键模拟敲打鼓面或者敲打鼓边,系统根据敲打鼓面或鼓边的时机判断该次击打的得分并综合得出最终评价。通过PC端进行音乐节奏控制交互的主要问题是通过键盘无法很好地进行“击鼓”这一类型的人机交互,人通过按下某个键模仿击鼓这一动作的真实感太低,不能形成很好的人机交互的用户体验。通过RealSense设备实现手势操作则可以极大提升该游戏的体验度,用户可以直接通过做出模仿击鼓的手势进行操作,增强游戏体验的同时还能开发该游戏锻炼身体的功效。音乐节奏控制交互项目界面如图4所示。
3.2 手势模拟电脑键盘
键盘作为人类与计算机交互的重要工具已经有很长时间,用键盘几乎可以完成与计算机的所有交流活动。RealSense作为一种体感感知设备能够很好地实现人体和机器的交流。手势模拟电脑键盘的目的是将手势与电脑键盘一一对应起来,使得用户进行某个手势动作就相当于在电脑键盘上输入对应的键值。具体方案为首先对RealSense采集到的原始数据进行判别、加工;接着使用红外镜头提供的骨骼数据判断动作类型,发送不同指令;针对检测到多个骨骼的问题,采用提取与设备最近的目标作为主要操纵者的办法提高鲁棒性,同时在窗口绘出彩色视频流辅助调试。通过用手势替代键盘完成一些工作,并采用后台\客户端模式进行封装来提高系统易用性,理论上可以无需接触键盘就完成所有键盘控制的工作。手势模拟电脑键盘项目界面如图5所示。
4 结 语
媒体认知实验教学课程主要涉及的内容包括媒体数据获取与人机交互、生物特征识别、虚拟交互行为及分析、智能感知与识别等交叉学科领域。通过该实验课程的建立,学生能够了解国际科学界及工业界最前沿的媒体认知及智能感知技术热点和难点问题,掌握利用平台的基础设施和设备构建并实施多种解决方案的技能。媒体认知实验作为跨行业、跨领域、跨学科的电子信息前沿综合实验课程,通过借助智能感知及人机交互知识作为工具和手段解决媒体信息处理、虚拟现实及人机交互的问题,充分挖掘和激发理工科背景的学生在交叉学科和前沿技术方面的实力和潜力,逐步实现“在传统信息领域研究优势的基础上积极拓展新兴学科,在与能源、环境、生物等学科的交叉融合中寻求广阔的创新空间” [1]。
教育期刊网 http://www.jyqkw.com
参考文献:
[1] 朱雪龙. 应用信息论基础[M]. 北京: 清华大学出版社, 2003: 1-2.
[2] 清华大学电子工程系[EB/OL]. [2014-12-25]. http://www.ee.tsinghua.edu.cn/publish/ee/3684/index.html.
[3] 张文俊. 数字新媒体概论[M]. 上海: 复旦大学出版社, 2009: 21-101.
[4] 沈政, 方方, 杨炯炯, 等. 认知神经科学导论[M]. 北京: 北京大学出版社, 2010: 14-51.
[5] Intel. This is where it all changes[EB/OL]. [2014-12-25]. http://www.intel.com/content/www/us/en/architecture-and-technology/realsense-overview.html.
[6] Pears N, Liu Y H, Bunting P. 3D imaging analysis and applications[M]. Berlin: Springer, 2012: 337-344.
[7] AT&T. The database of Faces[EB/OL]. [2014-12-25]. http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html.
(编辑:宋文婷)