微信模式识别技术 谁在用人工智能武装微信?

9158APP 0

微信5.0“扫一扫”发布时,人们讨论最多的就是它所承载的商业化责任。

被忽视的是其背后的技术以及技术所蕴含的趋势。

同样,微信在该版本中亮相的自主研发的语音识别技术也受到了外界的震惊和质疑。 “腾讯能否一夜之间成功研发出语音识别技术?”类似的质疑随处可见。

在专访微信“模式识别中心”团队后我们发现,这两项产品功能并不是孤立存在的,而是人工智能技术武装微信的两种投射。微信走向智能化并不是从这两个功能开始的,也显然不是以这两个功能结束的。

本文揭示了微信产品背后的故事,介绍了“模式识别技术”的未来形态,以及科研与产品开发的关系。我们更关心的是微信乃至整个移动互联网正在发生的变化:越来越智能化。这是由移动设备和移动产品的丰富连接性引发的一场革命。正是得益于如此丰富的连接性,基础人工智能技术才能从多方面渗透,点燃可穿戴设备的热潮,掀起电视、汽车、家居、医疗行业的变革,真正拉开技术变革的进程生活。

高学历团队,其中博士1/3,硕士2/3

“模式识别”是人工智能的一个分支,在20 世纪60 年代成为一门学科。所谓模式识别是指对表示事物或现象的各种形式的信息进行处理和分析,以描述、识别、分类和解释事物或现象的过程。模式识别对象包括文本、语音、图像、生物传感器、心电图、脑电图、地震波等。对应IT领域,主要指文本、语音、图像、IT相关传感器等,比如新指纹iPhone 5s的识别功能,这也将是未来“模式识别”研究的对象。

微信的模式识别中心也是一个研发中心。据团队负责人陈波介绍,他们隶属于微信北京研发中心,研究方向包括语音识别、图像识别、语音合成、音频指纹、语义理解、数据挖掘等。不过,由于这个研究团队属于微信,他们不仅负责理论研究,还负责产品功能开发。

模式识别中心最初并不是微信的一部分。其前身是2010年9月成立的腾讯研究院模式识别课题组,该课题组为整个腾讯公司提供基础研究成果服务。例如,它从一开始就为QQ输入法提供了手写识别功能。 2011年腾讯内部创新热潮开始后,该团队将研究领域拓展至人脸识别、图像检索、文本识别等,集成多种图像技术的“QQ眼”就是由该团队开发的。 2012年9月,团队正式划归微信管辖。随之而来的还有当月发布的微信4.3版本中的通讯录语音搜索功能。

为什么基础研究团队要融入微信团队?陈波给出的答案是:“一方面,微信是引领移动互联网潮流的产品,视觉、听觉的延伸需求很大;另一方面,技术已经成熟,当谈到基础领域研究的实施阶段,微信是一个更合适的平台”。

目前,微信模式识别团队拥有成员40余人,均为高学历、复合型人才。据陈波介绍,40多名同事中,1/3拥有博士学位,2/3拥有硕士学位。另一个类似的比例是:整个团队1/3从事前沿技术研究,2/3从事现有技术研究和产品对接。

对于团队的研究方向,陈波介绍,主要分为语音和图像两大组。语音研究对应手机上的麦克风,由博士生陆莉领衔的12人负责;图片对应手机摄像头,由博士生刘海龙带领13人负责。 “群体是一个比较成熟的方向,除了群体之外,我们还有其他研究方向,”陈波说,“包括文本识别、人脸识别、语义理解、视觉搜索、音频指纹检索等。”除了科研团队之外,模式识别中心还拥有与微信产品团队对接的工程团队。

据陈波介绍,她的团队并不是纯粹从事研究。不仅会写论文,还具有良好的开发能力。他们没有专门的手机开发人员。他们都自己开发iPhone 并展示演示。当他们遇到产品问题时,他们必须与产品团队一起解决。在人才招聘方面,模式识别中心也要求严格,要求兼具研究能力和工程能力。所以加入微信之后团队也没有扩大:一开始团队只有2、3个人,去年加入微信大家庭的时候已经有30人了。加入微信后团队约有40人。相对于竞争对手,这仍然是一支精简的团队。

“两包烟,三个月”,价值千元的承诺

微信5.0加入自主研发的语音识别技术,引起震动。很多人不相信腾讯能够在一夜之间开发出如此高门槛、长期、重积累的技术。行业领先者科大讯飞已经营业十多年,并且仍在不断改进这项技术。当然,科大讯飞在语义识别、云平台服务、产业链互联等方面有着更深厚的根基。

然而,世界上没有奇迹,更没有“一夜成名”的传奇。

腾讯模式识别团队成立于2010年9月,早期图像技术成熟,落地较早。不过其语音识别技术起步较晚,2011年底才正式启动语音识别自研项目。显然,该项目的启动受到了当年苹果Siri语音助手发布引发热潮的影响。在语音行业。 —— 科大讯飞股价至今已翻倍。

到今年8月,模式识别中心经过一年半的语音识别自研,终于攻克了语音识别的技术难关,并在微信5.0产品中正式上线(“语音输入”功能)。由于模式识别团队是一个研究型团队,前期主要注重基础技术的积累。再加上腾讯低调的作风,给外界一种“一夜崛起”的感觉。

事实上,模式识别团队此前已经为微信开发了多项人工智能技术。例如,2012年9月发布的4.3版本中的通讯录语音搜索功能,以及2013年2月发布的4.5版本中的语音提醒和“摇一摇”歌曲搜索功能。然而,微信4.5版本中的“语音提醒”功能却吸引了人们的关注。外界对其语音技术的关注。一方面与微信受到的关注有关。 ——微信1月中旬宣布用户数已达3亿,成为庞大的移动即时通讯平台;另一方面,“语音提醒”功能非常显眼,并不像“摇一摇”搜歌或“扫一扫”那样隐藏或难以理解。

关于微信4.5版本的“语音提醒”功能,外界不知道的是,它在这个版本中几乎未能发布。最终成功发布,背后还有一个故事:“两包烟,三个月”。

去年10月8日,国庆假期刚过,模式识别中心演讲组组长卢丽、组长陈波就前往广州与张小龙进行交流。 “张小龙希望4.5版本能有语音提醒。我说技术不成熟,对这件事也不太清楚。我聊了半个小时,小龙什么也没说。最后他说,‘怎么办?’”你认为需要多长时间? “我咬牙说,至少6个月。小龙什么也没说,走开了。”陆离回忆道。 “他回来的时候,手里拿着4包烟,会议上有4个人在抽烟,每人一包,包括他自己。我以前从来没有抽过这支烟,我看了看烟,我咬牙切齿地说:“三个月怎么样?”他听后,也将手里的那包香烟留给了我。”

(微信模式识别中心语音组组长陆莉)

从10月中旬到2月初,除去春节假期,产品上线了近3个月(期间进行了封闭式开发),陆丽顺利完成了任务。为什么烟对陆离如此有吸引力?答案就在这段对话中:

ifanr:平时怎么放松?

鲁莉:我的方式就是抽烟。

微信4.5版本中发布的“语音提醒”功能采用了更复杂的语义识别技术。例如“早上7点30分起床乘坐718路公交车上班”,需要将“7点30分”理解为时间,将“起床乘坐718路公交车上班”理解为事件。这在语音识别中更为复杂。今年2月该功能发布后,在语义理解方面做得不错,但存在一些错别字,说明语音识别还不够完善。微信5.0发布的“语音输入”功能,识别率非常准确,在人名、地名、专有名词的识别方面甚至让人惊喜。这表明,经过一年半的努力,模式识别团队在语音识别领域已经赶上了行业水平。

技术和产品,谁驱动谁?

上个月在日本NTT Docomo总部采访时我们了解到,NTT Docomo由于对3G技术的深入研究而忽视了配套产业的建设(它是全球首家商用WCDMA 3G网络运营商)。相反,它制约了3G业务的发展。 Docomo给中国运营商的建议是与终端厂商做好沟通,与产业界协同发展。

一个相反的例子是,我们今年5月在上海采访了来自Kickstarter的初创团队SmartWallit。他们很早就想利用蓝牙技术作为防丢器,但由于蓝牙4.0技术(更省电)一直没有大规模商业化(2010年2018年7月公布了技术规格),直到去年9 月iPhone 真正支持蓝牙4.0,并且Galaxy S3 和Note 2 机型出现,他们才觉得时机已经到来。

关于谁主导技术和产品的冲突经常存在。那么对于微信旗下的基础科研团队来说,到底是技术驱动产品,还是产品驱动技术?

陈波的回答是:很多时候,技术驱动产品。 “在确定一个产品的需求时,我们往往不知道一项技术能实现到什么程度,需要花足够的时间预研和探索才能知道。”陈波说。 “预研成熟后,产品会掌握更多的控制权。比如技术本身有很多弱点,那么产品就需要思考如何扬长避短。”

陈波表示,腾讯在做产品时比较注重敏捷开发,但在做基础研究时并不完全提倡敏捷开发,必须以技术的成熟为基础。 “但是一旦技术差不多准备好了,可以面向用户了,下一步就是走迭代路线。我们让研究跟着产品走,怎么优化、怎么评估,之前还需要开发到什么程度。” “能推出来,都是跟着产品的节奏来的。”陈波说,“几乎一半的时间是在技术预研上,一半的时间是在跟着产品的节奏。”

我问陈波做技术预研时是否会参考其他产品的现有技术。例如,微信的“摇一摇”歌曲搜索和QQ音乐的“听识别音乐”功能与海外应用产品Shazam非常相似。陈波表示,很多技术在国际期刊上都有相关、可参考的学术论文发表。 Shazam 有这样的论文,Google 也有论文。她的团队经常研究过去已经达到的阶段。 “要做基础研究,阅读大量文献是必要的。”陈波说。

(微信模式识别中心主任陈波)

进行研究和构建产品之间存在许多差异。最大的区别在于基础研究更注重“先决策后行动”。你需要深入思考,不到最后一刻你就想不出灵感了。在我认识的产品团队中,“封闭式开发”一般就是把团队带到郊区,一起吃喝睡,不与外界接触。他们甚至很少与家人和朋友通电话,几乎与世隔绝。状态,从而保持极其高效的开发效率。陈波表示,他们的封闭式开发并不是这么封闭的形式。 “封闭式发展更像是一个口号,态度上需要更认真,时间上更紧迫。”她说,“基础研究不是强求的,要有一个认真思考的环境,需要你静下心来思考,如果急于上线,就什么都做出不了。”

目前,陈波团队已经进行了两次封闭式开发,一次是在“两盒烟,三个月”的承诺之后,一次是为了确保微信5.0的语音功能上线。每个“封闭式开发”周期为两个月。在封闭开发期间,你会比较晚下班。 “我们会保持更紧的节奏,快速达到目标,按照产品的节奏进行研究。”

“基础研究没有‘失败’,只有时机”

模式识别团队于2012年9月加入微信团队,共开发了五大功能:通讯录语音搜索(v4.3)、语音提醒(v4.5)、摇一摇搜歌(v4.5)、增强版“扫描”(v5.0)和“语音输入”功能(v5.0)。我问陈波有没有失败的项目,她的回答很有趣:

有很多事情我们不认为是失败。有些技术目前没有发布,但并不意味着将来不需要;可能只是现阶段还没有,但将来肯定是可以的。比如说我们做的很多增强现实(AR)的东西现在还没有发布,因为无线带宽不允许;但两三年后,网络将不再是问题,该技术也将得到落实。我们不会关心“你所做的事情没有用”或者“短期内没有用”。我们不以此作为衡量技术的标准。

她以4G网络的发展为例。 “增强现实和移动视觉搜索技术现在在流量限制上花费了大量的精力(比如“扫描”扫描封面/CD/海报。前端和后端会做出各种判断来减少流量,最终控制流量)到几KB),”陈波说,“但未来4G时代,流量会更加充沛,很多事情都可以做,比如展示更酷的效果,把增强现实带到前台结尾。”本月初,我的同事何宗成在美国参加高通Uplinq会议时看到了高通在这方面的技术研究成果。不过,据爱范儿透露,国内4G牌照要到11月份才会发放,而4G至少要一年后才能迎来蓬勃发展。这意味着,受网络条件限制,各种创新技术在国内掀起热潮仍需时日。

回到微信的话题,“现阶段还没有”的功能之一就是“名片识别”。在8月5日微信5.0发布之前,我们就听说微信可能会发布名片识别功能,这会对名片全能王等产品产生影响;但这个版本发布后,名片识别功能消失了,他们才松了一口气。据陈波透露,他告诉爱范儿,名片识别功能确实会发布,但准确率还在提升中。 “只有在获得良好的用户体验后,我们才会考虑发布它。”

除了名片识别之外,据说陈波在《摇一摇》搜格发布4.5版本之前也经历过磨难。 “当时这个功能还没有确定在4.5版本发布,但是大家都很积极,周末经常过来加班。当时我什至想过干脆不发布。但最终做出来了,而且做得非常好。”陈波表示,加入微信后,最让他印象深刻的是微信团队的执行力。 “微信团队最大的优势就是超强的执行力。每个人都为了梦想而努力。例如,“Jerk Off”游戏是一个人在两周内开发出来的。是的,人脸识别也是一个人完成的。”

我让陈波用三个词形容她的团队,她用了“卓越”、“兴趣爱好”、“脚踏实地”。并解释:

精益求精:对于基础技术研究来说,精益求精非常重要。从测试水平、训练水平到评估,如果准确率能达到99%,肯定达不到98%。从产品的角度来看,这可能没有意义,但从技术上讲,这意味着让用户面临很多失败的风险。

兴趣和爱好:许多创新都是由兴趣驱动的。如果你不热爱或者不喜欢这个行业,你就不可能创造出好的东西。比如我们招人的时候,不会为了扩张而扩张。相反,每个人必须有自己的价值以及是否热爱人工智能技术。

实用性:在一个小方向上进行基础研究,1、2个人来做。从头到尾做很多事情,包括demo、实验、效果总结,都需要脚踏实地的心态。我们做了研究,达到了90%。如何做好剩下的10%,我们必须耐得住寂寞,要有良好的心态,不断追求。

目前,除了研究新功能,陈波团队还有各种优化任务提上日程,包括扫描封面和条码的识别率、语音识别的准确率、自有库的建设等。她表示,团队也在考虑如何建立一个开放的平台,让他们自主研发的技术可供大家使用。 “只有更多人使用,我们才能更好地了解用户需求,更容易看到未来趋势。”

模式识别技术的下一步是什么?

没想到,陈波表示,团队面临的最大困难是“用户对人工智能(模式识别)的期望”。

“很多功能很好,但用户会问为什么不能实现”,陈波说。 “我们所做的就是模仿人脑,但人脑神经网络非常复杂,目前的人工智能还远远无法比拟,用户对此很感兴趣。”期望非常高,需要指导才能让用户理解。”陆力举了语音转文本(5.0的“语音输入”)的例子,“这相当于初中生的大脑能做到的事情,但现在机器完成起来难度更大了。”

陈波认为,虽然麦克风、摄像头等传感器短期内可能不会有大爆发点,但长期来看肯定会非常重要。 “摄像头和麦克风的应用才刚刚开始,看起来很流行,但与大脑相比,还远远落后。”陈博信心十足。 “比如可穿戴设备,因为没有好的传感器,所以还没有被引爆。但是。技术趋势的发展方向是不可逆转的,一定会在某个时间点爆发。”

以现在的麦克风、摄像头等“入口”为例。在移动互联网出现之前,它们是安全领域的标配。移动互联网之后,它们成为移动设备的标配。 “标准配置是干什么用的?不就是为了让人们的生活更方便吗?标准配置可能会成为入口。”但陈波认为,语音识别或图像识别领域仍处于发展初期,无法成为替代品;她表示,未来不可能完全取代现有的交互方式,但比例会增加。例如,Google 上超过10% 的搜索来自语音搜索。

模式识别中心图像组组长刘海龙举了一个例子。以图像识别领域的视觉搜索为例,除了提高现有五种“扫描”功能的库容量外,未来还可以扫描三维刚性物体,或者由商家自行决定定制用户想要查找的内容—— 类似于Google Glass。这是微信的一个重要的产品理念:所见即所得。在刘海龙看来,相机应该是视觉的延伸,“它是我们的一双眼睛”。

(微信模式识别中心图像组组长刘海龙)

我问陈波,微信增加各种功能,包括模式识别技术领域的功能,会不会变得越来越臃肿。她表示,微信的基本结构没有改变,只是在各个入口下承载了更多的东西。 “它并不臃肿,反而增加了更多创新的东西,这是很多用户喜欢的。”她举了在Shake上搜索歌曲的例子。 “一开始我们没有信心,这个功能也很隐蔽,但后来的成长曲线非常健康,认可度和好评度都很高。”陈波表示,这个功能每天的使用次数达到数千万次,大约有10%的人在搜索歌曲后分享歌曲。这是一个很好的股权比例。

至于人工智能可能的发展方向,比如20年后会是什么样子?陈波开玩笑说,他把想象力留给了好莱坞科幻电影。 “《钢铁侠》和《碟中谍4》有很多语音和图像识别技术,这些技术为未来的产品形态提供了一些解读。”陈波就会带团队去看这样的科幻电影。 “我期待有一天真正实现这一效果。” ”。

“小龙看得远”

外界看得出来,张小龙有着“产品大师”的光环,拥有强大的产品能力和交互设计能力。

“外界看不到的是,张小龙对未来看得很清楚。”陈波说。 “他为什么关注我们的生意?哪些东西需要保留,哪些东西对未来很重要。他会给我们很多建议。他不只是告诉别人如何互动,他看得更远,他看得很远,每次和他交流都是一个学习的过程。”当陈波团队涉及某个技术研究方向时,张小龙会优先给予建议。不过,她没有提及具体类型的技术。

模式识别团队每个月都会去广州与张小龙进行交流,有时会停留两三周进行联调。除了交流日常工作之外,张小龙还会和他们谈论未来的趋势。例如,可穿戴设备、身体健康相关、脉搏分析、人脸识别、Google Glass 和对象检索。不过,当被问到微信未来是否会与可穿戴设备的联系越来越紧密时,陈波立即否认,称“这更多是小龙的个人爱好”。

据爱范儿从HTC消息人士处了解到,张小龙确实对硬件领域非常感兴趣,双方不时讨论未来的硬件形态。三星本月初发布Galaxy Gear智能手表后,张小龙在微信朋友圈中暗示微信可能会进军智能手表平台。微信内部还有一个尖端硬件实验室,已经开始从NFC贴纸、汽车中控台等不同方向研究微信在物联网平台的应用。此前,优宝自动售货机、印美图等基于微信平台的硬件交互创新也获得了关注和支持。

后来我们询问了张小龙和微信团队他们具体关注哪些趋势。陈波表示,张小龙更关心微信带来的交互变化以及其所依赖的移动互联网对行业的影响。 “随着硬件传感器的丰富,可以给人与机器的交互方式带来革命性的变化。”她谈到了两个方面。一是硬件与软件相结合。两者结合带来的变化将更加彻底;随着语音、光学等传感器的发展,机器人研究将会取得进展。 “机器人不会发展很长时间,因为每个传感器都非常昂贵。未来,科学家和极客会研究它,传感器本身会发展得非常快,带动人工智能技术的发展。”陈波说。

她以自动驾驶汽车为例,“无人驾驶汽车拥有大量的传感器,这一点很多人都钦佩。在未来的某个阶段,自动驾驶汽车会因为传感器的普及而得到更广泛的应用。” ”不过,她否认微信会涉足传感器硬件的研究。 —— iPhone 5s配备指纹识别功能。陈波表示,团队可能会基于iPhone技术进行研究,但不会自己制作指纹识别硬件。 —— 反而会保持团队踏实的气质。遵循产品策略。 “我们用一个小团队(约1/3的人力)来研究优秀的产品,这是我们的理想。”陈波说。

这也是张小龙和微信团队的理想。一年前,我们讨论了微信对于物联网的意义:

或许,在大家都在探索的移动互联网领域,微信也可能重新定义所谓的物联网、LBS、O2O。它所呈现的互联形式不是复制超链接,而是创建微链接(微链接),连接真实的关系,连接所有对象,成为人机交互界面。

张小龙曾在今年7月的腾讯合作伙伴大会微信论坛上回应了这一观点,并提出“解决人与企业、人与设备之间的沟通问题”:

最终,物联网将会到来。微信不仅可以连接人,还可以连接可以上网的机器。每台机器都有一个二维码作为设备ID。您可以在微信中与设备对话来控制设备。

可以预见,随着基础研究与平台结合,尤其是微信这样加强人与物智能连接的大平台,将会有更多改变的可能。与传统互联网不同,移动互联网拥有更丰富的连接性,基础技术可以从各个方面渗透改变行业。这甚至是一个自下而上的翻天覆地的变化,唯一的目标是让——人类生活更加智慧。

如今,微信开始了,Facebook开始了,福特开始了,苹果开始了,百度也开始了“深度学习”,谷歌跑得更远了……这条赛道也许没有终点,但无疑会变得更加并且更受欢迎。很多数字。