本文共 3567 字,大约阅读时间需要 11 分钟。
今天我报告的题目是《从大数据到大知识——自然语言处理领域的投资机会》。其实搞投资也是挺苦的事,我最近才开始学习,投资的活很专业,没有常人想象的那么风光。我今天讲的题目有四个方面,第一是对AI时代的看法;第二,NLP是AI皇冠上的明珠;第三,我们的AI之路及ABC融合的想法;第四,NLP领域的投资方向。
前面的不用讲了,我们不太愿意谈人工智能,但是不得不谈,因为大家都在谈。包括我们开复同学,前不久搞了一篇很高点击量的自媒体文章《我不是李开复,我是人工智能》。从投资的方向上来看,2016年麦肯锡的报告显示,AI方面的投资到2025年会到1千多亿美金。大家也可以看到,现在巨头们在AI领域的优势比较大,但是不是有他们我们就没事干了?也不一定,这些巨头有数据、有人才、有云的基础设施,我们很难在通用人工智能领域跟他们竞争。但是,还有别的很多地方和领域是可以做的。AI为什么这么火爆?昨天大会上也谈到大数据、深度学习、高计算力等,本次大会第一个巅峰论坛非常好,但是我后来看了一下,6位嘉宾全是搞视觉的,没有我们搞自然语言的,是不是搞自然语言太难了?还是说搞自然语言的人不好意思上去?大数据,深度学习,高的计算能力,导致了现在很多领域的突破,特别是感知领域。但是不是说有足够的数据和计算能力就行了?这就涉及从大数据到大知识,昨天有一位嘉宾说深度学习,让计算机达到5岁孩子的水平。如果想要达到更高怎么办?人工智能从计算到感知的技术(如图像、语音)现在已经取得了非常大的突破,但是认知这一块还是很难的,比如认知领域的自然语言处理。
为什么说NLP是人工智能皇冠上的明珠?我国在语言文字信息处理方面诞生了3家上市公司,从上市的顺序来说,最早是汉王,做模式识别;后来的科大讯飞做语音识别;然后是拓尔思的信息检索和文本挖掘。最近5年和语音相关的投资非常大,除了科大讯飞以外,还有云知声等,这两年视觉领域的投资非常热,甚至于昨天的主持人还搞了一家这样的公司,我说可不可以投点?他说不行了,计算所不同意。但实际上我建议大家做投资要慎重,为什么这么说?现在技术的门槛已经变低了,这些东西已经基本成熟,关键是要找到应用场景。如果没有这个应用场景,变现就非常困难。而且这些公司基本上很贵,大家的目标都是独角兽,我们投资就要投资未来。
为什么说前沿的机会在NLP相关领域?我们看了一下国外调研公司的数据,最值得关注的100家AI公司中,25%的项目和自然语言直接或者间接相关。从另外一个角度,福布斯TOP50AI公司的融资中,16.2%的资金投向了NLP直接或者间接相关的领域,所以这个领域大有可为。我们投资很多时候是跟风的,都跟着美国跑,可以看出一些趋势。另外,从商业的视角来看,很多具有重要影响的技术和自然语言直接或者间接相关。为什么说是AI皇冠上的明珠?微软前不久提出一个口号是“自然语言是人工智能皇冠上的明珠”,现在我们中文信息处理界一致认为这个口号恰如其分。
从技术上来说,如何从识别到理解,图像要能够认出来,要靠人脸比对这些东西。自然语言主要是解决理解的问题,这方面还是非常难的。传统的NLP技术现在也在用深度学习,根据我们自己的实践,把传统的方法加上深度学习的技术以后,如分类、聚类、热点词抽取等,这些都提高了5~10个百分点,在实践中非常有用。另外,深度学习很多方法,像神经网络、循环神经网络、递归神经网络、卷积神经网络等,都有自己的用途。
在NLP领域集大成的焦点应用,就是BOTS,它是人工智能的聊天机器人,或者虚拟助理。为什么这些大公司拼命在这个领域竞争?它是NLP技术的集大成。昨天微软黄学东的演示中,有几个例子非常好,表现出微软在这方面确实有自己领先的地方。谷歌,苹果,一直到微软小冰Facebook等,都是竞争的焦点。
如何提升人工智能的应用效果?也有很多学问。昨天谈到强人工智能,我觉得强和弱的说法我不太赞同,强和弱是相对的,我们更加强调的是通用的还是垂直的。另外,从投资的角度来说,NLP支持认知计算围绕三大领域,第一是交流,第二是决策,第三是发现。从应用场景来说,可能是智能的搜索引擎,还有智能的投顾等。从市场空间来说,当然是很大的,不用讲了。
我简单介绍下NLP领域相关典型的项目。这个是alphasense,里面大量使用了自然语言处理的技术。还有美国一家公司,Dataminr,分析社交媒体的数据,和其他数据进行结合,为投资者采取行动。前几年我们有一个组织叫SMP,我们经常讨论未来用社交网络炒股行不行?我在五道口金融学院经常问老师,我说智能投顾能不能搞?他们说都是骗子,这是某个基金大佬讲的。我昨天又问马蔚华,他也不可置否。主要的问题是什么呢?要看市场是否有效,证券市场是无效还是有效?这个特别重要。我们也看了很多智能投顾的项目,我们也特别想投资这些项目,但是非常谨慎。还有一个是KENSHO,也是跟智能投顾有关的应用,大家可以上网去查这些公司的资料。
下面讲一讲我们自己的AI之路。我从大学里出来创业,对学术和产业的认知感受颇多,挺难的。搞了一个叫全文检索,就是搜索引擎背后最重要的技术。后来成立公司,开始创业。2000年我们开始做自然语言处理方面的东西,大家觉得这个领域发展太慢,市场空间太小,认知度太低。我们对标的公司想买我们,是英国的一家公司,这家公司后来120亿美金卖给了惠普。他们当时要买我们,3 000万美金,我当时觉得挺好,心也动了一下,但是觉得卖了干嘛去?不知道该干什么,就没卖,自己搞,后来我们也在创业板上市了。那时我们鼓吹大数据,其实不是鼓吹,我们做非结构化数据处理,当然就是大数据重要的组成部分。现在人工智能时代来了,要为大数据加点东西,我们叫“大数据+AI”。我们做AI时,回顾历史,最早是1990年。1990年我们学校和国防科工委成立了人工智能实验室,当时参会的人很多,我记得钱学森发言,说“人工智能是人脑和手的延伸”。我们很兴奋,国防科工委给我们提供了很多基础设施,20部军线免费使用,结果搞了三年以后失败了,人工智能的三次浪潮,我们就算一次。那时还是规则和专家系统的思路,没有大数据,计算力也不行。
对于人工智能我有几点看法,对产业界来说,单独谈人工智能,意义不是很大,因为它是属于赋能的。在现在实际的环境中,最近有一篇文章,讲到ABC融合是必须的,对比一下IBM,虽然人工智能搞得很早,其智慧地球的理念领先业界多少年,但是为什么最近业绩不好?可以看谷歌、Facebook、亚马逊,他们有数据和云的基础设施支撑,所以发展得更好。人工智能的投资和前几年的大数据差不多,最近我们要发布一个“北京软件名人榜”,我现在还不能说,因为还要经过北京市相关领导的审批。有一点是可以说的,现在人工智能的热度已经上升为第二位,第一位还是大数据。我参加过太多大数据的论坛,我总结就是“钱多,人少,估值高,不挣钱”。我更加倾向于垂直的,行业性的,能互动的AI。刚才有一位嘉宾说到智能客服,如果这个智能客服跟人工系统不能结合,这个智能客服一定是不好的,必须要有人在参与。核心是应用场景,对于某些应用领域,只有大数据还不行,还要有知识,甚至是大知识。
面向用户提供人工智能的服务能力,不仅在于AI技术的领先,还要有云和数据的支撑。我们这么多年在文本挖掘和知识图谱领域也做了一些工作,也有相应的积累,我们推出了新一代的产品,叫TRS DL-CKM,已经用在很多领域,比如专利自动审查,国家专利局是我们最大的客户,中国已经被称为“专利大国”。但是我们的专利很水,通过我们的智能审查系统,可以发现这些冒牌专利。像数据新闻、机器人写作,我们跟很多新闻单位用机器人来写文章,已经实现了,很多地方已经在用,还有互联网作品的保护等。还有一个例子是金融的风险预警监控,大量地用到了AI技术。我们提出了“冒烟指数”,就是森林要着火了,才冒烟。这个系统在今年国家打击互联网金融非法集资中起到了很好的作用,另外,我们做了一个水晶球的东西,主要是用于国家安全部门,因为时间关系,不多讲了。
最后谈一下投资的建议,第一,垂直,或者是行业的;第二,一定要有应用场景;第三,跟大数据和云服务结合;第四,关注NLP和知识图谱的投资。目前,拓尔思直接投资大概10亿,我们发起和参与了6支基金,目前关注的投资方向主要是人工智能、大数据、工业互联网、机器人领域的早期和长期的项目。我们的优势,第一,广泛的项目源。第二,专业背景,可以起到战略投资者的作用。我一见到创业者,就特别同情他们,我对搞技术的人天然有一种同情感,他们有的时候真讲不好,不懂市场。第三,稳健可靠的投资风格。第四,要有退出渠道,可以通过相关上市公司实现并购退出。
(本报告根据速记整理)
转载地址:http://vorfx.baihongyu.com/