发布时间:2024-06-19 17:01
Part 1:NLP+金融的6大应用场景
首先我先简单介绍一下自然语言处理,尤其是在金融领域的一些应用场景,人工智能这个概念已经火了很长一段时间,但是其实自然语言处理在的应用说才刚刚开始。具体从技术和应用的划分上,一般来讲金融科技分成三层,从最底层的基础设施,主要就是我们现在云计算平台,比如阿里云、腾讯云、华为云等,很多大金融机构也开始自建私有云。另外一方面就是大数据的技术越来越成熟,算力、计算平台的解决方案通用化,使得大家能够像一个组件一样快速地应用到一些大数据的技术。另外,在芯片层面,包括GPU,包括一些专门经过针对AI进行优化的芯片,可以把原先很多算法层面的东西通过硬件来加速、实现,大大提高了我们的算力水平。基于这些基础设施之上,又具体衍生出了很多技术,包括像计算机视觉、生物识别、语音识别、语音合成,当然还有自然语言处理、知识图谱,以及机器学习、深度学习,这些技术都层出不穷地开始爆发出来,它们不仅仅是停留在论文层面,而是可以逐渐地真正地落地到实际的业务场景当中,发挥真实的作用。在应用层的话,有智慧银行,各种业务都可以直接语音来办理,甚至有些机器人客服可以帮你完成很多操作;智能保险在保前、保中、保后都会有各种智能化的一些产品或服务;智能投顾和投研比较偏向于在投资领域,像券商能够利用一些历史大数据,同时针对不同用户对风险、偏好的一些分析,来提供有针对性的投顾和投研产品;智能监管在监管层面越来越多地开始在应用。AI的技术是有生命周期的,从刚刚研发出来,这可能是理论层面或者学术界讨论很多,当它真正有技术、有推出、可以落地后,会逐渐在某一个阶段开始有一个爆发性的增长,再进入一个成熟期,逐渐地这个技术再进行衰退。人工智能技术从整体上来讲,这个技术的生命周期有过三波,我们现在已经是在第三波的生命周期当中了,我们现在所说人工智能是基于最新的大数据、云平台和深度学习等各种各样的技术整合出的新一代的人工智能技术。具体的各项技术所处的生命周期阶段也不一样,最近一段时间大家可能感受到比较多的还是在计算机视觉、语音识别、语音合成方面的应用,基本上你在银行上办一个业务,给你人脸识别一下,身份校验,这都是很常见的。还有语音的识别可以直接地语音发问题,甚至有的时候有一些业务员打电话你跟他聊两句发现这原来是个机器人,一开始都没有听出来,就说明现在这两种技术其实已经相对在一个从初级到成熟的过程当中,也就是一个高速增长的过程当中,这块也催生了非常多的AI的一些独角兽公司。虎博科技现在主要聚焦在NLP( Natural Language Processing),即自然语言处理,有一些项目的落地,并还在不断地摸索和创新,寻找一个比较成熟的能够真正推进业务的一些使用场景,但是它的发展速度也是非常快的。我们现在能够看到的在金融领域一些最常见的应用场景,总结下来大概是这么几项:首先,在智能搜索这种企业级的垂直类的搜索,这种搜索不再仅仅是网页、新闻,而可以是很多垂直的深度信息,比如说证券、研究报告、大宗商品、理财产品等等各种行业的垂直的信息搜索。第二,智能营销,其实现在很多产品在推荐东西的时候都是进行了深度的用户画像分析的,知道你是什么样的风险倾向、什么样的偏好,你的消费能力、家庭情况等等,这样销售推荐的商品就非常的定制化。比如说你可能在刚工作的时候就会给你推荐一些保险类的东西,等到你工作小有基础了,就开始推荐一些理财产品,看你储蓄是不是可以得到更多的收益,等到它预测你应该要结婚、生小孩了,就开始推荐一些宝宝的保险或者是给孩子未来的一些储蓄等等。其实很多时候你接到这样信息的时候,就已经是被精准定向到了一个范围内。第三,智能舆情,现在很多的信息、很多的事件其实都是从网络上先爆发起来的,如何通过全网的信息,不仅是传统媒体,还有自媒体,能够快速地去识别和预测一些可能的风险,这些风险可能是跟个人关联,也可能是跟一些企业、产品相关联。有了这些舆情的信息以后,金融机构做智能风控,将这些信息用于一些风控和预警的场景,比如说银行的贷款客户,或者是供应链上下游关系,比如我们要签一些合同,那么需要知道这个公司到底怎么样。当然现在一些企业征信的数据是可以去查的,但是更难的地方在于怎么样通过一些线索来预测,不仅是感知,而且能够预测潜在要爆发风险的可能。前面说到的两个应用偏向于如何控制风险,接下来说到的应用偏向于如何提升我们的服务质量。现在像C端用户用得比较多的头条、抖音,其实很多的信息它原先也在那里,但是它因为能够根据您的口味做一些定制,同时有一些这种通过机器进行深度加工之后的服务出来,那么就给人的感觉其实会跟原先的不一样。比如去银行开卡,你原先可能需要在那取号排队,现在一个机器上身份证输入进去,人脸识别扫一下,人工摁个指纹,整个这流程就办完了。不仅在银行,包括政府,其实越来越多的流程都在应用这些智能服务,包括一网通办等等,流程是越来越简化了,整个流程效率越来越高。最后还有一部分是关于公司智能运营方面,以前的运营有时候可能就是大家开会探讨一下我们要做怎么样的运营和推广,但是现在很多运营其实都是数据来推动的。比如说文档的审阅、机器的翻译、信息的抽取、市场热点的判断等等,只有通过这种全网的信息不断地反馈,监控现在的市场的热点是什么,然后才能更好地来调整运营的步骤,同时运营的人力也可以做非常大的减少。比如车险出保的情况,以前我们要有专门的审核员,现在你可能通过手机拍一下你的车的划痕就知道你这个情况能不能出保,自动流程就走下去了,这样其实就大大减轻了运营的成本。
Part 2:智能搜索的价值释放
刚才说到了几个大的场景以后,我们再回到一个具体的场景来讲,就是智能搜索可以发挥什么样的作用。一些机构在移动端的产品,当然PC端也会有一些,现在的话还是移动端为主。当大家在移动端产品上获取信息或者接受服务时,主要有三种路径。大家从银行、券商的APP或者是美团、支付宝之类的APP上都能够看到它们影子,几种交互方式是并存的,在不同的场景下面它各自发挥自己擅长的作用。首先肯定是卡片式或者我们叫九宫格的门户,它有很多功能罗列出来,这种一般来讲都是比较大的功能板块,可以在首页去提供给你各种各样的服务。但是越来越多就会遇见一个问题,几十个图标在上面,有时候不好找,现在的一些改进方式是可以对菜单进行个性化的定制,这个当然是比单独列出来会好一点,但是这肯定还不够。有些时候我看完这菜单,我可能需要进去做一点事情或者找点信息,那么就第二种方式就来了,它是一种类似于智能客服的方式,比如现在一些移动运营商的APP,可以通过客服对话的方式来获取一些服务,也许是人直接给你对接,也许一些常问的问题可以通过机器的服务解决。最后还有一种方式,当你的希望服务的问题开放性更强的时候,也可以通过搜索框来提出你感兴趣的问题,直接在搜索框里面搜索,这搜的可能就不仅是一个内容、一条新闻,搜索的可能是某个产品、某个功能,你想做的一件事情等等,都是可以通过一个搜索框来统一触达。总结来说,卡片式门户只能是最基础的大类的功能,如果把所有小类放上去,最后变成了一个大迷宫,找不到自己想要的东西是什么。但它能列的基础功能又是有限的,其实现在大家提供的服务和产品是越来越丰富,光靠这个基本上是难以来承接这么丰富的产品。这有点像是互联网在爆发时候,一开始可能是通过产品黄页或者门户网站就解决问题了,但是随着网页内容越来越多,不可能再通过一个门户网站就能够解决,这个时候谷歌、百度这样的搜索引擎就开始出现了,这是信息在爆炸过程当中所必经的一个路径。智能客服,刚才说到它已经开始有一些智能化的人机交互的过程了,当然在这个过程当中它基本上是多轮的一问一答的方式,你问一个问题过去以后能够得到的信息是相对比较明确、相对比较有限的,不可能一下子把很多东西都给到你。所以说更常见的是一些相对简单的操作,可以在一轮或者几轮对话之后就完成的工作。比如说你想写一个行业研究报告,那你通过这种对话方式搜的话其实解决不了问题,但是如果你想把手机的流量套餐给改一下,那这个很简单,或者我出行的时候查一下要经过哪些地方,是不是符合国家疫情防控的需要,那这个是通过问答可以很快地完成的。最后就是搜索框,它的好处就是只有一个单一的入口,非常简单,基本上用过搜索引擎的人都知道它是做什么的,是一种下意识的选择,有什么问题就提,它能够呈现的答案也非常丰富,可能是一个搜索列表,也可能是直接给你转跳到某一个业务办理的地方,或者是把各种各样的内容通过多类卡片的融合来帮你进行展现,这就取决于这个应用能够提供什么样的内容。所以这整体来讲,它的优势还是比较明显的,可以去提高用户的使用体验,然后把很多隐藏比较深的功能触达到用户。其实大家如果经常用一些电商的产品会发现,它不仅仅是个搜索框,它会不断地推荐出热门内容和你可能会感兴趣的内容,它就已经变成了一个人机或人和产品之间交互的一个小窗口,不断地有新的你可能会感兴趣的内容在上面滚动,所以这其实也是一种可以用于营销、触达用户、推荐你的产品、推荐优质内容的一个入口。不过搜索框其实也有一定的门槛,因为用户提的问题是各式各样、五花八门的,你怎么能够从语意角度能够理解用户到底想要什么,同样的一个事情,说出十几种讲法,或者甚至用不同的语言来问,这个时候怎么能够真正地理解用户的意图并且能够关联到最相关的内容上面,这个是有一定的技术门槛的。刚才提到技术门槛,具体有哪些技术在我们的面向行业的搜索产品当中是需要用到的,我们现在就详细再来聊一下。
Part 3:智能搜索技术解析
首先,我想跟大家分享一下,我们讲到的行业的垂直搜索和像百度、谷歌这样的网页搜索或者说通用搜索引擎,它的差别在哪里?大家经常用的话,可以感到像百度、谷歌基本上能搜到的内容,像网页、知道、贴吧、地图、图片等等,基本上它是一个相对比较通用的图片、文字及地理信息检索的一个入口,但是其实在金融领域或者是在一些行业垂直领域,它要搜的东西其实是非常专业的。
举个例子,比如说最近一段时间,疫情大家也知道,很多公司都在调整自己的经营策略,那么有一些上市公司其实以前不生产防疫设备,比如口罩、呼吸机,现在开始调整经营策略,开始来生产防疫设备。
那么如果我想知道最近一段时间在生产口罩的公司或者在转型开始做医疗设备的公司有哪些,当你问这个问题的时候,比如说我问的是“医疗设备”,那么要搜的内容就不能仅仅是医疗设备这四个字,而是要能够理解医疗设备这个概念背后所代表的一个产业链是什么,这是一个实体,它对应的关系和关联到的其他实体有哪些,口罩也好,呼吸机也好,这些内容如果只是单纯地通过关联次层面你是无法感知到的,所以它底层是需要一个针对特定领域的比较专业的语义模型和知识图谱来支撑,才能在用户提这样问题的时候,一瞬间理解到医疗防疫设备代表哪些内容,同时又有哪些公司和这些内容相关联,但这些信息其实又出现在很多相对专业的内容里面,比如公司公告、行业研究报告或者是一些招投标的信息,那这些数据本身是深埋在很多深度的文档当中的,它可能是一个PDF文件,也可能是一个Excel表格,也可能是一个网页的公告,这些东西如果你不去做全盘的整合、做数据或者知识的深度的挖掘和提取,是很难直接匹配得到的。
所以,在这个过程当中,我们需要有一些技术。
首先,数据方面,从传统的金融数据到一些非结构化的文档,甚至还有一些另类数据全盘的覆盖,对这些信息进行深度的理解,把不同格式、不同类型的内容里面涉及到的关键的实体、主题、知识提取出来,提取出来之后能够通过一些大数据、NLP的方法形成一个的信息的数据中台,还要保证时效性。
同时,各种类型的内容要通过一些综合化的排序来整合出来,这个也是虎博科技的旗舰产品虎博搜索之前一直在做的、在深度优化的工作。
第一步就是底层的文档的加工,从文档的格式转化、知识图谱的挖掘、语义模型的训练到知识条目的整理,因为数据量很大,从工程角度来讲也会优化索引数据的一个构建,这些步骤基本上是缺一不可的。
用户口语化搜索意图理解
整理清楚数据之后,下一步就是当用户提问题的时候,我怎么能够更好地理解他的意图,有些时候用户想要的是一个具体的实体,有些时候是想要你帮他做一件事情,有些时候是一些条件的筛选,那为了让搜索引擎更加智能,更像是一个独家顾问的角色,垂直搜索引擎就需要去理解很多用户的问题当中所涉及到的实体、含义以及可能是一些指标或条件的筛选,并且能够把它转化成底层的搜索引擎所理解的一些条件,最终从知识库里面把海量的信息能够召回,再整合,并进行重现。
文档信息深度提取
这当中涉及到的一些核心技术,刚才也陆续提到了一些,比如说PDF文档的深度提取,而且能够做比较完美的还原,表格、文字、图片甚至是目录结构、核心观点,都从这个PDF或者类似PDF的这种非结构化的报告、文档当中提取出来,这其实就是把非结构化文档变成类似于半结构化的知识,这样才能在后续的过程当中更好地进行分析和检索。
金融NLP语义模型
同时我们针对金融这个领域也做了比较多的预训练的模型,如果所有的模型都等到用的时候你再去训练或者迭代的话,它本身更新的时效性肯定是没有办法达到要求的。所以我们针对金融领域的这些语料,基本上是一个非常大量的语料,包含数百亿字的内容进行了深入的训练,得到了专门针对中文的金融领域的一个语意模型,包括词向量及现在比较主流的BERT等等,这样再应用到下一层的算法层上面的话就会非常快。
实体关系识别/抽取
另外我们需要从非结构文档当中提取知识,比如从新闻当中通过模型自动的预测或者识别实体、人名、关系、数字、指标等等信息,这些信息其实后续是可以通过一些半自动的方式自动地构建出一些知识图谱来,以前这种知识图谱的构建还是偏向于专家的系统,然后能够通过专家的意见来构建,这种方式需要对预先知道的知识的依赖非常大,而且人力的投入也是非常巨大,有一些自动化的方式可以大大缩短这个过程。
智能语义标签
我们也在研发一些标签的体系,标签它最大的好处就是可以把语义相关的一些概念抽象出来,比如说我刚才提到的医疗设备就是一个非常典型的概念标签、行业标签,还有最近比较热的原油,这是一个事件,它是一个相对短期的事件,但是也可以成为一个热门的标签。
情感/风险分析
很多内容其实大家在去表述的时候都是带着自己的情感的,比如说瑞幸咖啡的财务造假,大部分可能是负面的,但换一个其他的事情有可能是一个中性的,或正面的事情。如何来评价大家对信息的情感呢?首先从一个通常意义上来讲,你的情感正负面是如何来去衡量的,这其实是需要大量的历史的数据,当这类事情发生的时候,一般资本市场的反应是什么,一般一个人看到这种信息以后第一反应是什么,通过大量的历史数据来进行训练,这样当同类的事情再发生的时候,就会首先有一个基本的判断,当然这个基本的判断不一定跟市场的资产的股价、走势完全一致,但是会提供非常好的信号,帮助我们的投资者或者是说信息的检索的人能够做一个初步的判断。
用户画像与个性化推荐
最后还有一个核心的技术,其实很多情况下用户不一定知道他想要搜什么,这个时候搜索的技术和个性化推荐的技术是要相互结合的,一方面是某个用户他可能之前已经搜过一些、看过一些内容,然后另外一方面当有同类型的信息的时候我们又可以第一时间地去把这信息推荐出来,当然运用到很多基于内容的、协同过滤的算法,还有现在深度学习也有一些推荐的模型,可以用到这里面来。但是最关键两个信息,其实还是要把内容、产品的特征库和用户画像的画像库能够首先构建起来,然后通过各种方式去做匹配。当为用户推荐到比较好的内容以后,他就会源源不断地来有更多的浏览,甚至是产生更多的搜索行为,这样就会形成一个正向的循环,不断地增加用户的黏性。