“通过你的目光看世界”,Rokid家庭机器人初见面
自上世纪60年代人类首次提出人工智能(Artificial Intelligence)概念以来,人类已对包含它的生活做了漫无边际的设想,包括人机间发生战争、爱情或共生等各种可能性,而相比之下实际的软硬件研发如同孑立在一旁,踽踽独行。50年过去了,仿生物大脑的人工神经网络仍是机器学习迈不过的一道坎。
近年来,基于神经网络的深度学习(Deep Learning)在计算机视觉(Computer Vision)和语音识别(Speech Recognition)、自然语言处理(NLP)应用上发展突出,人们再熟悉不过的Google、Microsoft、Apple、Facebook、百度等科技大厂均在这几个相关特征信息相对低层的技术领域有所建树,比如Siri、Cortana、度秘、Google无人汽车…
Rokid机器人昨日在北京露了个面,这是一家由前阿里巴巴M工作室领头人Misa创建的公司,他将基于上述几种技术的Rokid定位为家庭机器人。不同于常人对机器人的想象,Rokid不能动,而是形如一个立体水滴落在冰壶状底座的静态硬件。其“水滴”前脸是一个高曲率非球面壳,用来呈现内置DLP投影和LED阵列发出的图像;底座上半部与前脸材质相同,同样可以显像,下半部是一个音箱;产品顶端配有一个1200万像素的摄像头;还内置了麦克风与环境光线、温度传感器。据公司发言人向36氪透露,Rokid选用的是三星定制8核芯片,而那个高透光度曲面外壳则由一家日本供应商提供,没有公布具体信息,但宣称该材质全球只有3家公司能够生产。
Rokid采取的是语音交互模式,在静置状态下显示3D星轨动画,当你向它说一声“Hi,若琪”时,它会给予语音回应并在底座上层指向你声音的方向亮光,以及在显像界面弹出一个圆圈表示开始互动。公司联合创始人兼CEO Dan现场演示了部分功能,包括播报天气、变换灯光颜色、控制扫地机器人和窗帘开关、唱歌、播放周杰伦的音乐等。Dan的中文略带加拿大口音,且距离Rokid有两米左右,经常出现无反馈或听不懂的情况,我在靠近它说话时反馈准确率会高一些,不过公司也承认了其语音识别技术尚未成熟,还不足以正式面向用户。
此外,Rokid还基于摄像头做了手势唤醒功能(弱光环境下不太灵敏),正在研发调试远场识别和声纹识别、人脸识别,前者使用户远距离也能与Rokid语音交互,而后两者则可以通过声音、图像辨别家庭成员,然后提供基于对该用户的深度学习提供服务。
在单独采访Dan时,他讲了各种Rokid可能承载的使用场景,在这位十分擅长演讲的前外企高管即将把Rokid描绘成《星际穿越》中的Tars和《超能陆战队》中的大白一样令人心驰神往前,我竭力抑制住瞬间迸发的肾上腺素并问道:“基于现有技术的不成熟,如果想尽早投入消费市场,是否应先用一些容易实现的功能引导用户?”。Dan笑了笑,说团队最初想过把它宣传成一个智能音箱,但最终还是决定定位宽泛一些——Rokid是营造温馨气氛的家庭成员。
基于现有技术,我认为Rokid有四大类应用价值:
- 交谈与娱乐:Rokid使用的是tts声音技术,语音输出由字、音合成而来,Dan表示希望用众包的方式让用户制定Rokid对问题的回答,还可以开发图形化工具,他管这叫Co-design。目前已经开始通过微信公众号征集Rokid唱歌的曲目了。而如同Siri和Cortana一样,Rokid可以识别上下文、会对无法识别的语义做取巧式的回答,让用户乐于调戏它,不过要实现真正的自由交谈还很远。
- 内容消费:Rokid已经接入了虾米音乐和墨迹天气的内容,未来接入新闻、电台、视频等内容也不难。
- 功能性服务:Rokid可以通过与Broadlink合作控制智能家居设备,也可以从帮用户制定运动计划并帮忙计时做起,加入功能性服务。
- 消费型服务:出门前打辆Uber、推荐一个餐馆、订一间酒店,理论上来讲只要开放SDK给第三方应用(Rokid具备Android架构),任何服务都可以接入进来。
如果这样来看,Rokid更像是由智能手机转移到另一硬件的Siri,不过其远场识别的特性使得用户可以在家中任意地点使用它,并且解放双手。但别忘了我们讨论的是一个人工智能机器人,如果像上文提到的Co-design一样,只是通过预设算法和代码输出特定结果,那充其量只能算是基于数据搜索的智能推荐算法。真的要让机器越来越了解你的内心,需要通过深度学习模型用已有的数据分析出编程无法做到的预测。而我们在《在找机器人女友前,你还需要看下这篇最强自然语言处理科普贴》这篇文章中提过,从基础的语音识别、语义分析到输出经“思考”的主动推荐,目前的技术差的还很远。深度学习是Misa的主攻方向,也许下一次我们可以听到他专门讲解此事。
Dan告诉36氪,他希望最基础的语音识别做到90%准确率再发布产品,而这也是目前最重要的工作。此外他还透露,鉴于那两块既要透光度又要解析度的曲面外壳,还有一些细微处的用料调整,虽然模具已经定下,但产品离真正量产还有距离。
Dan认为Rokid在面市之路上只走完了50%的进度。这位硅谷产品经理出身的前Nokia、Samsung中国区副总裁表示自己不会干涉产品设计,而是完全扁平的交给员工主导。Rokid的50余人团队名声很响,除Misa和Dan之外还有前金山、好孩子、阿里的CFO Eric,以及由中科院教授、浙大副教授、前Apple生产负责人组成的顾问团。公司曾拿到华登国际、IDG、线性资本、元璟资本的投资,具体金额未曾透露。
回到见面会现场,当Dan数次向Rokid传达指令终获回应时,掌声不绝于耳,一名踯躅在门外的技术人员难掩激动之情,把攥了许久的拳抬至胸前又奋力甩下。在几十年后面对我家的机器人思考人生时,也许我会忆起这份骄傲。
附36氪现场试用Rokid实拍视频(环境略微嘈杂,正好考验其语音识别能力):
欢迎对人工智能、深度学习领域感兴趣的技术大牛指教,请加微信dusk_rain