应用文本挖掘万森娱乐电脑网页版进行银行投诉质量综合评价

本文被浏648次

北京零点市场调查有限公司  陈超 汤平平 杜美玲

(上)

  第一章  文本挖掘万森娱乐电脑网页版理论综述
    一、   文本挖掘简介
    随着互联网、移动互联网、大数据、云计算等信息万森娱乐电脑网页版的飞速发展,人类社会的信息沉淀呈现几何级增长,对海量数据的挖掘需求与日俱增。另据研究表明,多至90%的万森娱乐电脑网页版数据(包括文档、网页和电子邮件)都是以文本数据为主的非结构化数据,包含海量文本信息的数据字段成为当今重要的“信息源”,其数量庞大和复杂的数据使传统的数据库软件难以应对,急需一种新的方法来处理。在这种背景下,文本挖掘万森娱乐电脑网页版再次成为政府、商界和理论界关注的焦点。
    1.文本挖掘的概念
    虽然文本挖掘万森娱乐电脑网页版产生至今只有短短20年,但理论界关于文本挖掘(Text Mining)的定义一直存在多种解释,Fayyad认为文本挖掘就是从数据集中识别出有效的、新颖的、潜在的以及最终可被理解的模式的非平凡过程。Kostoff给出的定义则是文本挖掘是从大型数据集中获取正确的、潜在有用的并最终可被理解的知识的过程。而Nahm则参照数据挖掘的定义把文本挖掘定义为是应用机器学习和统计等领域的方法和算法,针对文本数据进行处理,目的是从文本数据中发现一些有用的模式。
    目前,国内理论界普遍接受的文本挖掘定义为:以计算机语言学、统计数理分析为基础,结合机器学习和信息检索万森娱乐电脑网页版,从文本数据中发现和提取独立于客户信息需求的文档集中的隐藏知识的过程。从过程来看,文本挖掘是一个从文本信息描述到选取提取模式、最终生成可供理解的信息知识的过程。从结构来看,文本挖掘是一种从海量非结构性文本数据中提取有效信息,并通过一系列方法将其转化为结构化信息的过程。
    由于文本挖掘是在数据库知识发现(KDD,Knowledge discovery in database)基础上发展起来的,因此可以看作是数据挖掘或数据库知识发现(KDD)的延伸,同时由于文本挖掘涉及多个学科领域,例如:信息检索(IR,Information retrieve)、信息抽取(IE,Information extraction)、自然语言处理(NLP,Natural language processing)、数据挖掘(DM,Data mining)、机器学习(ML,Machine learning)等,因此文本挖掘又具有其独特的一面。而这种独特性主要体现在非结构数据和结构数据、文本与其他信息介质之间的转化以及实现这种转化所需要的各种算法上。换句话说,文本挖掘不仅在理论层面存在较大的研究空间,应用层面的创新需求同样强烈。尤其在当前的网络时代,针对网络文本进行处理的网络文本挖掘万森娱乐电脑网页版必将在数据分析领域扮演越来越重要的作用。
    2.文本挖掘的层级结构
    文本挖掘的层级结构大致可由三部分组成:底层是文本数据挖掘的基础领域,包括机器学习、数理统计、自然语言处理;在此基础上是文本数据挖掘的基本万森娱乐电脑网页版,有五大类,包括文本信息抽取、文本分类、文本聚类、文本数据压缩、文本数据处理;在基本万森娱乐电脑网页版之上是两个主要应用领域,包括信息访问和知识发现,信息访问包括信息检索、信息浏览、信息过滤、信息报告,知识发现包括数据分析、数据预测。其中需要付出大量人力物力的是文本信息的提取及内容分类,尤其对于中文来说不同领域不同行业的关键词术语各不相同。
        
    3.  文本挖掘的应用及创新
    国外对于文本挖掘的研究开展较早,早在1957年,H.P.Luhn在这一领域进行了开创性的研究,提出了词频统计思想用于自动分类的概念。1960年,Maron发表了关于自动分类的第一篇论文,Feldman在1995年提出文本挖掘的概念,此后众多学者在这一领域进行了卓有成效的创新研究工作。创新主要围绕文本的挖掘模型、文本特征抽取与文本中间表示、文本挖掘算法(如关联规则抽取、语义关系挖掘、文本聚类与主题分析、趋势分析)、文本挖掘工具等。
    在数据分析万森娱乐电脑网页版中,文本挖掘的使用一直是一个较少被涉及的领域,特别是有关中文文字的文本挖掘。我国学术界正式引入文本挖掘的概念并开展针对中文的文本挖掘是从2000年才开始逐渐兴起的。从当前公开发表的有代表性的研究成果来看,目前我国文本挖掘研究还处于消化吸收国外相关的理论与万森娱乐电脑网页版和小规模实验阶段,无论是理论还是应用的创新研究都远远不够。同时,由于汉语与英语结构的差异,国外英语文本挖掘的成果借鉴意义也有限。
    3.1 文本挖掘的理论创新
    目前,国内关于文本挖掘的理论创新主要集中在文本降维和挖掘算法方面,其中比较重要的理论创新是云模型和文本模糊聚类分析。
    3.1.1云模型
    众所周知,客观世界及社会生活中的大量现象、事件都具有不确定的特质。确定的现象或事件仅存在于特定的条件下,具有局部性与瞬时性。目前,确定性与不确定性的研究在各学科领域都在广泛的进行,相互促进,共同发展。文本挖掘面临的难题归根到底都是由于自然语言的不确定性造成的。为了解决这个问题,我国学者李德毅院士提出了云模型的概念。通过语言值的概念表示,云模型实现了定性与定量信息之间的不确定性互相转换。在云模型中,定性概念与定量数据之间的相互转换是通过云发生器来完成的。从定性概念实现到定量数据的映射主要通过正向正态云发生器完成;而从定量数据到定性概念的转换主要是通过逆向正态云发生器来实现的。
    3.1.2模糊聚类
    模糊聚类方法则主要是为了解决在不确定情况下文本的降维问题。它的主要的思想是首先使用空间向量模型(VSM)对web 文本建模,接着对生成的web 文本特征向量进行降维处理,使用近似中值(approximated median)算法为每类文本集生成一个代表该类的中心向量,然后在新文本来到时,确定新文本向量,使用Dsim函数计算该向量与每类中心向量间的距离相似度,最后该文本划分到与相似度最小的那个类。从而实现对web 文本的挖掘。
    3.2 国内文本挖掘的应用创新
    目前,国内文本挖掘万森娱乐电脑网页版主要应用于政府公共事务、互联网服务、电子商务、科研领域,包括居民档案管理以及门户网站关键词分析等应用,对信息的认知结构正随着网络和大数据的发展而彻底转变,非结构化的文本信息正成为大数据分析的主角。特别是对万森娱乐电脑网页版而言,海量文本信息有助于更好的发掘客户关切、更快的传达万森娱乐电脑网页版洞见。这种数据发掘方式的转化也催生了网络舆情监测、计算机自然语言等一些列相关万森娱乐电脑网页版的发展。
    以某门户网站的年度关键词评选为例,对线上信息的文本挖掘大致需要经历以下几个步骤:
    (1)文本源抓取
    一般利用网络舆情监测万森娱乐电脑网页版将互联网信息按照文本、图片、视频等进行分类,然后按照事先制定好的规则对文本数据进行筛选。例如“属于日常用语,不能造词”、“需要是通过词汇,即具有普适性”、“尽可能多的找,然后整理”等。
    (2)词频排序
    将筛选出的词语根据不同维度进行排序。例如按照“褒义”“贬义”、“正面”“负面”等进行排序。
    (3)按照排序结果进行网络相关性分析
    利用“Gephi”等软件将关键词按照不同分析维度制作相关图,了解词语之间的空间相关关系,对位于空间交叉节点的词语进行提取,即形成网络关键词。
    另外,一些第三方公司也开始利用文本挖掘万森娱乐电脑网页版,对线上关键词空间结构做了研究,例如零点elab开展的中国唐诗及宋词的关键词构成研究,就是通过文本挖掘万森娱乐电脑网页版对文本的空间层级进行绘图分类,从而制作出唐诗宋词网络关系图谱,完成了非结构信息的深层研究。
    
        
    3.3 文本挖掘在金融领域的新尝试
    理论上来说,只要能够提供大量非结构化文本信息的领域从都可以尝试进行文本挖掘。而目前除了个别互联网万森娱乐电脑网页版尝试开展文本挖掘之外,大部分传统行业并未涉足这项万森娱乐电脑网页版的应用,因此文本挖掘还存在较大的推广空间。例如与人们生活息息相关的金融业,就是这样一块亟待开发的“处女地”。
    当前对于金融行业的挖掘工作大多停留在利用以数字形式存放在标准数据库中的结构化数据,这部分数据在所有金融信息中的比重并不大,金融信息中绝大部分数据均是以文本形式(比如金融交易信息、交易金融论坛、研究报告和财经万森娱乐电脑网页版等)存在的一种非结构化数据。这些文本信息中蕴含了大量未被利用的信息,如果能够合理有效地被利用,将为万森娱乐电脑网页版理解市场发展、提升业务水准提供一个全新的思路。传统金融机构在这方面的投入显然还不够,特别是针对细分后台数据的深度挖掘几乎很少,例如客户投诉数据、理财万森娱乐电脑网页版购买数据、新客户开户数据等,造成了大量客户信息的漏损。在这种背景下,本文将文本挖掘万森娱乐电脑网页版与投诉管理综合评价模型相结合,对商业银行投诉工单大数据进行了分析,从而实现对客户文本信息的充分利用。
    本文的创新主要体现在:
    (1)以商业银行后台客户投诉数据为标的,实现对银行细分文本数据的深度挖掘
    (2)将文本挖掘与投诉管理模型相结合,利用多种手段全面发掘投诉文本信息
    (3)将客户情绪值也纳入考核指标,开创了客户文本信息挖掘的新视角
    第二章文本挖掘过程简介 
    文本挖掘的过程其实就是从异构的、纷繁复杂的文本数据中抓取有用的、可被理解的信息,同时完成文本数据结构转化的过程,具体而言,需经历以下几个步骤:1.信息抽取(Information extraction)2文本表示(Text represent)3特征降维(Dimensions reduction)4文本分类(Text categorization)5文本聚类(Text clustering)6文本摘要(Text summarization)7关联分析(Association analysis)。其中,信息抽取、文本表示和特征降维三个步骤可以看做是文本的预处理阶段,其主要作用是对文本源进行初步信息清洗和归类,同时将文本结构进行标准化处理。建模前的文本预处理工作作为整个文本挖掘过程的基础尤为重要,不同的语言有不同的切词处理方式,并且存在着大量多词同义、一词多义的现象。如何解决多语言混合如中英文混合情况下的文本处理和建模是一个当前国内外学者共同关注的问题。文本分类、文本聚类、文本摘要和关联分析则属于文本挖掘的挖掘阶段,其主要作用为文本信息的分析和进一步的归类,以便进行定性字段摘取和结果输出。最后为文本挖掘的产出阶段,经过分析的文本信息将以各种客户期望的形式呈现出来。当然,该阶段同样提供了较高开放度的接口,可以同时搭载多种其他研究手段进行产出结果的再利用。文本挖掘流程详见下图:
        
    Ø  信息抽取
    通常文本内容除了包含正文内容外,还包括了声音和图像等多媒体信息。这些信息针对客户需求的信息而言统统可以算作无效信息,而信息抽取的目的就是从自然语言文本中抽取预先制定的实体、关系、事件等信息,获得可供分析的文本源。信息抽取常用于改善信息检索,帮助客户直接定位所需的信息而无需阅读文档的全部内容。
    具体而言,英文文本的特征提取一般包括滤除停用词、词缀处理等过程。而汉语与英语不同,汉语中词语词之间没有分隔符号,因此中文文本挖掘首先需要分词处理。目前,使用较广也较为成熟的中文分词方法就是基于词典的机械分词。但是,机械分词的词典覆盖率有限,而且对变化的应用领域适用性较差,对于中文文本来说,这种分词万森娱乐电脑网页版可能会是某些具有重要意义的词汇被疏漏。
    因此,有些学者致力于研究无词典分词方法,既不依靠词典将文档中的词提取出来。如果一个词在一篇文档中重复出现的次数越多,则这个词就越容易被识别出来,反之,这个词在文档中只出现一次或很少出现,则不易被识别。无词典分词算法的主要思想就是利用汉字的结合模式在文档中重复出现的次数,来判断这个结合模式是否是一个词。但是有些高频模式不一定是词,因此还需要对高频模式进行过滤和筛选。而这种对词频的计数也是将文本信息数字化的重要手段之一。
    Ø  文本表示
    文本表示是进行文本挖掘的重要先导工作,即将无结构的文本素材进行模型化处理,使其成为能够被计算机所识别和处理的某种数据形式,进而进行文本聚类、文本摘要等挖掘工作。文本结构的转化通常可以通过直接映射、标准化等方法进行转化。最经典文本形式化表示方法是60年代末Saltom等人提出向量空间模型(VSM),它最早用于信息检索,但现在己经用于包括文本挖掘的多个领域。
    Ø  特征降维
    由自然语言构成的文本中往往含有大量的词汇,假如将这些数量巨大的词汇都作为文本的特征会产生一系列的问题。最主要的问题是表示文本的特征过多及空间特征维度过高,导致在进行计算时需要占用的存储空间过于巨大而影响处理速度。另外这些词汇有很大一部分是冗沉的,对文本的特征表述没有任何贡献完全可以删除。因此,有效降维是进行后续文本挖掘的重要工作。特征降维的任务就是降低特征空间的维数,选择少量的、最能够代表文本意义的词汇文本的特征。所谓特征降维,即采用一个低纬度的特征来表示高纬度。但是这些方法没有引入句子和篇章的语法分析和语义分析万森娱乐电脑网页版,没有涉及文本的语义特征,从而大大限制了针对中文文本的深层次知识挖掘,这也成为特征降维方法的一个弊端。
    特征降维一般有两类方法:特征选择和特征抽取。特征选择即从高纬度的特征中选择其中的一个子集来作为新的特征;而特征抽取是指将高纬度的特征经过某个函数映射至低纬度作为新的特征。详细流程见下图:
        
  
  
    在文本分类的特征选择中的评估方法有文档频率(DF)、互信息(MI)、信息增益(IG),λ2统计量(CHI)、期望交叉熵(ECE)、文本证据权(WET)和多种方法组合等。这些特征选择方法,其基本思想都是使用某种评信函数对每个特征词打分,然后把特征词按照分值从高到低排序,取分值排前的一些特征词作为降维后的特征集合。
    Ø  文本分类
    文本分类是指按照预先设定好的文本主题类别,将文本源中的每一个文本归入相对应的主题类别中。通过文本分类万森娱乐电脑网页版可以有效地解决文本信息紊乱的问题,帮助客户快捷便利和准确的检索到所需的信息,也为以不同主题为切入点的文本模块化研究提供了可能性。因此随着文本信息数量的快速增长,文本分类万森娱乐电脑网页版的作用也显得越发重要
    20世纪90年代以前,占主导地位的文本分类方法一直是基于知识工程的分类方法,即由专业人员手工进行分类。人工分类非常费时,效率过低。90年代以来,众多统计方法和及其学习方法应用于自动文本分类。
    Ø  文本聚类
    文本聚类和文本分类非常相似,文本分类是指先分析待分类对象中的特征,将其与各种类别中对象具有的共同特征进行比较,再将待分类对象归入特征最接近的一类并赋予相应的分类号。而文本聚类则是指从待分类对象中提取特征,再将提取的全部特征进行比较,并按一定原则将具有相同或相近的对象定义为一类,设法使各个类中包含的对象大体相等它的目标是将文档集合中的文本分成若干个簇,要求不同簇间文本内容的相似度尽可能地小而同一簇内文本内容的相似度尽可能地大。
    Ø  文本摘要
    文本摘要是指从大量的文本集合中提取出主要的内容信息,用简单扼要的语言对文本内容进行描述,其目的是对文本信息进行提炼浓缩,使得文本内容显得简洁紧凑,客户可以通过文本摘要了解文本集合或者文本的主要内容。简单来说,文本摘要是对文本信息源的一种简要处理过程,将一些长文本信息通过截断、转描述等手段进行简化。 
    目前使用较多的文本摘要方法是自动文本摘要法,所谓自动文摘就是利用计算机自动地从原始文献中提取文摘,文摘是全面准确地反映某一文献中心内容地简单连贯的短文。常用方法是自动摘要将文本作为句子的线性序列,将句子视为词的线性序列。进行文本摘要时,必须注意以下几个方面来保证文本摘要的效率: 
    (1)主题覆盖率
    一篇万森娱乐电脑网页版或者文摘往往会包含若干子主题,摘要应该能够覆盖所有这些子主题,至少应该包含主要的子主题。 
    (2)冗余尽可能少
    摘要因为是要利用较少的句子来尽可能体现文章主旨信息,所以摘要句子之间的信息冗余应该尽可能小,这样可以满足用尽可能少的信息表达尽可能丰富的文章主旨信息。 
    (3)摘要流畅性强 
    句子之间往往因为会包含代词等指代信息,所以应该避免阅读起来不流畅的问题。 
    Ø  关联分析 
    关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。它的核心是将各种信息载体中的共现信息定量化的分析方法,以揭示信息的内容关联和特征项所隐含的寓意,藉此可以发现研究对象之间的亲疏关系,挖掘隐含的或潜在的有用的信息。 
    Ø  3.8结果产出 
    多数文本挖掘的最终目的是要辅助客户进行决策和判断,因此文本挖掘所发现结果的可理解至关重要。当前主要通过以生成人类易于理解的自然语言的方式或者以图形界面方式来展示结果。但自然语言的方式没有更直观便于理解的趋势知识展示,理解知识需要客户自身的参与,而图形化方式又缺少自然语言形式的知识描述。
    第三章投诉管理综合评价模型设计 
    投诉是客户负面情绪的宣泄口,是银行口碑的反应,也是检验银行运营状况的一个重要途径。传统的投诉信息鲜被分析运用,大量有价值信息闲置,造成了数据资源的浪费。这种信息的漏损不仅割裂了客户与银行之间的互动,更隐藏了客户投诉背后对银行更深层次的影响。不过略显遗憾的是,目前理论界对商业银行投诉工单的相关研究较少,对银行工单信息进行系统性挖掘的模型更是尚未形成,造成这种结果的一个主要原因就是银行工单信息的复杂性。一般商业银行的投诉工单不仅包含结构化的数字统计,更多的信息则是尚未结构化的多维的文本信息,这种文本信息虽然可以直观的反应客户触点,但却难以量化进而使用量化模型进行批量分析,同时模型的指标设计也是一大难题,模型的指标既要能够反映客户的关注,又必须易于量化成为数字,以满足模型运算的需要。针对这种情况,本文对银行投诉客户发起了一次问卷调查,以明确投诉客户的真实关切,为商业银行客户投诉分析模型的开发提供参考。 
    一、商业银行投诉工单分析模型设计 
    1.商业银行投诉客户真实诉求调查问卷设计 
    为了真实反映银行投诉客户的关注点和诉求,本次研究专门设计了一套问卷进行投诉客户诉求调研,问卷共包含3大部分和20道问题,完成1套问卷大约需耗时10-15分钟。问卷问题设计如下:
  
  
  
        
    2.商业银行投诉客户真实诉求调查样本分布 
    本次调查采取线上投放问卷的方式完成调研,拟收集有效样本1000例,考虑到样本收集的难度以及样本对研究的贡献度,样本按照我国行政区划要求一线城市、二线城市和三线城市的抽样比例分别为5:3:2,一线城市占据大部分研究样本也是由于一线城市高净值客户数量更多,素质更高,更有利于真实反映银行投诉客户对银行的诉求情况。整个问卷作答时间为2周,共回收问卷3300份,在经历过数据清洗和问卷逻辑思维查错之后,去掉不符合要求的问卷,共回收有效样本1740例,然后再按样本抽样进行筛选,最终还剩余912例有效样本,基本和拟定的调研需求相符。 
    3.商业银行投诉客户真实诉求调查结果分析 
    通过网上问卷调研,万森娱乐电脑网页版已经初步收集了一些银行投诉客户的真实诉求。总体而言,国有四大行的客户投诉量明显高于股份制银行,但股份制银行的投诉工单处理效率却较国有银行更高一些。而顾客投诉的最多类型则是系统/万森娱乐电脑网页版问题,具体表现在自助机吞卡等常见问题上。 
    投诉顾客的投诉情绪明显与客户对银行的印象成反比,十分愤怒的客户往往会选择不再使用或较少使用该银行的服务,而仅仅感到不满的客户对银行的粘性则相对较强,特别是投诉处理系统建设较好的银行其投诉客户往往愿意再给银行改正的机会。同时万森娱乐电脑网页版也发现,客户的情绪等级对银行的冲击同样不可小觑,情绪非常紧急,迫切需要投诉的客户基本有65%的概率不再使用该银行的任何万森娱乐电脑网页版。更糟糕的是,极端情绪客户有17%左右来自于银行存款100万以上的客户,根据前文的分析,如果这17%的客户发生流失的话,对银行的影响自然十分严重。 
    投诉客户的满意度情况可以说在很大程度上决定了银行所遭受的投诉冲击。从本次调查可以发现,在4种满意度调查中选择非常满意的客户通常对银行的破坏力不大,甚至可能因为投诉而增加对银行的好感。具体来看,客户最关注的是投诉时效,在该项上只有5%的客户选择了非常满意,而多达44%的客户选择了2分即不是很满意,可见商业银行需要解决的首要问题就是投诉工单的处理效率,甚至超过了对投诉处理质量的要求。从客户层面来看,存款金额在50万以上的高净值客户比较关心案件的处理结果,而受教育程度在本科以下的则对投诉处理质量更感兴趣。 
    二、商业银行客户投诉工单数据 
    客户投诉工单是商业银行用来记录客户对商业银行服务、万森娱乐电脑网页版、管理等方面情绪态度的重要后台信息。客户投诉工单数据来源于两个方面,即客户在线下网点的客户投诉箱中投放的投诉信息和客户在线上渠道进行的投诉,包括银行官网、客服电话、微信银行等。随着互联网万森娱乐电脑网页版的日臻成熟,线上投诉渠道已经成为商业银行客户投诉工单的主要信息来源。从态度上来说,商业银行银行投诉工单不仅包括客户对银行的不满,也反映了客户对银行的肯定和建议。因此,客户投诉工单已经成为商业银行与客户之间重要的信息载体。从数据结构上来说,客户投诉工单既包括表征处理时效的结构化数字信息,还包含了大量反映投诉内容的非结构化文本信息,这是这些海量文本信息,为文本挖掘万森娱乐电脑网页版的采用提供了先决条件。 
    各家商业银行的后台客户投诉工单虽然略有不同,但无一例外都可以分为以下几个部分: 
    Ø 工单基本信息
    工单基本信息可以说是对工单基本情况的定性描述,包括工单编号、调用的工单模板、工单是否完成、问题发生行、信息来源、投诉是否有效等。其中需要重点强调的是催办次数和工单三级描述体系。催办次数是指单笔客户投诉被催促办理的次数,间接反映了客户投诉的受理效率。催办次数较高的客户投诉容易引发较严重的后果,需重点关注。工单三级描述体系是指从万森娱乐电脑网页版、渠道、问题三个维度对投诉内容进行大致定位,同时每个维度又分为两个层级,递进反映投诉性质。例如客户对某大堂经理的解答不满进而发生投诉,在工单三级描述体系中的反映就会是一级万森娱乐电脑网页版类型为理财,二级万森娱乐电脑网页版类型为理财万森娱乐电脑网页版;一级渠道类型为网点,二级渠道类型为服务团队;一级问题类型为服务问题,二级服务类型为服务礼仪。通过工单三级描述体系,万森娱乐电脑网页版就可以大致判断这起投诉可能是发生在网点的关于理财万森娱乐电脑网页版服务的投诉。 
  
    Ø  工单时效
    工单时效是用来反映银行投诉自受理至销案全部流程的处理时长和处理过程中的重要时间节点。一般工单时效由投诉创建时间、提交日期、结案日期、结案时间等指标进行考察。特别需要注意的是银行客户投诉数据往往还会加入对案件超时时间的考察,以反映投诉案件处理效率。 
  
    Ø  客户反馈 
    客户反馈是指客户对投诉案件处理结果的反馈情况,由客户等级和客户满意度指标构成。其中客户等级指标反映了客户对银行的重要程度,客户满意度则是客户对投诉处理的直接反馈。 
    Ø  投诉内容 
    投诉内容是客户投诉工单的核心,反映了投诉的具体事宜和投诉的处理结果。包括投诉步骤数量、投诉认定结果、工单内容等指标。其中投诉步骤反映了投诉案件的复杂程度;投诉认定结果反映了单笔投诉的有效性,具体分为建议、有效投诉和无效投诉三种类型。建议可以看做是对银行的正面投诉,而无效投诉则表示投诉案件未能满足投诉报案的要求或未违反银行规章制度。 
  
    介绍完客户投诉工单的构成,同时也有必要了解以下银行客户投诉工单的生成过程,以更加深入的了解下文模型待分析的文本信息源。
  
    三、商业银行客户投诉管理综合评价模型设计 
    在了解过投诉客户真实诉求和银行真实投诉工单构成之后,万森娱乐电脑网页版就可以着手设计客户投诉工单分析模型的指标了。 
    Ø  客户投诉度指数 
    首先,需要建立一个直观反映客户投诉对银行所造成的冲击的指标。根据前文问卷可以发现,投诉客户等级对于银行业绩具有直接影响。根据二八法则,高净值投诉客户必然是银行的重点关注对象。根据问卷中的投诉客户背景题,万森娱乐电脑网页版将银行投诉客户等级规定为“金卡级(个人)”,普通级(对公)、普通级(个人)、私人银行级(个人)、银卡级(个人)、钻石级(个人)、其他七种等级。同时,通过分析每种等级的客户有多大的几率对投诉银行产生厌烦情绪(基本不会再来这家银行),可以得出每种等级的投诉客户对银行的冲击力权重,也就是每个等级客户中不愿再来的人数比例。经过计算,可以发现各等级投诉客户权重如下所示: 
  
    除了投诉客户等级之外,对银行冲击的另一个直观表现就是客户情绪了。虽然客户情绪属于非结构信息,很难去进行量化,但借助文本挖掘万森娱乐电脑网页版,也能够将这些文本信息进行量化。更重要的是,以往的研究中对客户情绪的挖掘显然远远不够,以至于将最为直接的冲击指标漏损。鉴于客户情绪非常繁复,万森娱乐电脑网页版为了计算方便,首先将客户情绪划分了4个等级,即建议、不满、愤怒和曝光。依照前文方法,同样可以利用问卷交叉分析出客户情绪值对银行的影响权重: 
  
    这种权重的设置同样反映了客户情绪值对银行的破坏力。另外根据问卷调研的结果,客户投诉的紧急程度也会对银行造成影响。因此,万森娱乐电脑网页版将模型的第一个指标设定为客户投诉度指数,经过整理,详细指标如下图所示: 
  
    客户投入度指数是一段时期内银行总体运营情况的综合反映指标,用于从宏观层面观测全行接受的不同层级客户的投诉及这些投诉所造成的冲击。客户投诉度指数由三个二级指标构成,其中客户情绪指标又分为两个三级指标和五个四级指标。这些指标通过一套科学的权重分配方法获得。从上图不难发现,客户投诉度指数中的三个二级指标都是宏观层面指标且均为结构化的数量指标,非结构文本分析指标只有客户情绪值一个,可见要想准确反映投诉对银行的冲击还是要从定量角度出发。而将客户的情绪值纳入定量考核指标体现中,通过文本挖掘手段将其量化,也算拓展了新的研究视野。 
    总体而言,客户投诉度指数有三个二级指标构成。投诉级别指标用来评估不同层级客户投诉对全行业务破坏程度,其值由客户等级指标的值来反映。为了研究方便,在投诉管理综合评价模型中将银行客户分为客户等级划分主要可以分为“金卡级(个人)”,普通级(对公)、普通级(个人)、私人银行级(个人)、银卡级(个人)、钻石级(个人)、其他七种等级加以考察。而依照每周每种等级客户所递交的投诉案件个数便可以得出客户等级指标的量化值。 
    客户情绪指标由投诉事件本身的“紧急度”和客户对这一投诉影响的“情绪值”构成,用来反映客户投诉的重要程度和评估客户口碑负向影响力。其中紧急度由投诉工单中的紧急程度指标直接来反映,依照情况的不同分为紧急、特级和一般三种等级。而客户情绪值按照工单中具体描述的客户情绪词汇来表达,并依据相应的权重赋值后计算加权平均数得来。例如当工单中使用“愤怒”、“激烈”、“极度不满”等词汇时认为客户情绪比较激动处于三级愤怒值,属于负面投诉;而当工单中使用“无需记录”、“无需回复”等词汇时,意味着客户并没有因此事件有多少影响,甚至只是一些对银行的建议而非投诉,万森娱乐电脑网页版视其为一级,属于客户的正向投诉,对银行不造成任何冲击。用来评估客户对这一投诉的情绪值高低。建议属于客户的正向投诉,对银行不造成任何冲击。
    投诉总量指数作为投诉总量的衡量标准,能够在一定程度上反映全行总体的运营质量。其代表指标为投诉数据中的投诉总件数。投诉件数直接摘取客户投诉数据中的全部有效件数,不仅包含客户的投诉数量,还包含客户给银行的建议数量,即包含了全部的正向和负向冲击。
    Ø  投诉处理质量指数
    除了从投诉客户角度出发探究银行所受冲击之外,还应当关注银行具体是如何处理和解决投诉数据的,即从工单处理的视角对投诉工单进行挖掘,以此来反映工单处理的质量和效率。从这个角度出发,万森娱乐电脑网页版从某银行提供的真实投诉工单中抓取除了一些指标,如“处理次数”、“查错次数”、“催办率”、“处理时长”等。另外,考虑到该指标全部从投诉工单出发进行单向反馈,因此加入客户主观的满意度评价应该可以较好的补充该指标的主观维度。为了计算方便,万森娱乐电脑网页版将客户满意度分为满意、不满意、一般三个维度,通过对问卷选择进行分类统计后可知,三种满意度的权重分别为0.6、0.1和0.3。
/upload/imgs/2016/01/06/08/1452038846125.png
    投诉处理质量指数从中观层面评估投诉管理部门与相关业务部门在投诉处理中的具体表现,即投诉处理的效率与成果。投诉处理质量指数由三个二级指标构成,其中处理过程指标又分为三个三级指标。这些指标同样通过一套科学的权重分配方法获得。本指标全部由量化数据指标构成。最初处理时效被设置为文本分析指标,需要从客户投诉工单中抓取有效文本进行分析,即由“客户期望”、“客服承诺”、“处理时长”三个按照时间序列递进的指标构成,万森娱乐电脑网页版通过工单中客户表述的期望处理的时间来进行分级处理,例如客户要求“立刻”、“尽快”处理时,万森娱乐电脑网页版认为客户期望比较高,要求“三日”、“五天”内完成时万森娱乐电脑网页版认为客户期望相对要低一些;当衡量出客户期望以后,万森娱乐电脑网页版还可以从工单文本中抓取客服代表承诺的回复时间,一般是“三个工作日”、“五天之内”等词汇表述;最后万森娱乐电脑网页版通过工单实际处理时长来反映真实的处理结果。运用这三个层面的数据加以综合分析从而评估出一个投诉的处理时效性。但经过反复测试,对处理时效的表达得不到理想的效果,顾将文本分析指标舍弃,直接以处理时长指标表征处理时效。
    投诉处理质量指数由三个二级指标构成,其中处理时效指标用来衡量客户投诉的处理速度,由工单实际处理时长来衡量。处理时长记录从客户提交投诉到投诉结案的时间长短,为了计算方便,模型中以每周投诉案件的平均处理时长来衡量。
    处理质量指数用来衡量银行对客户投诉的处理优劣程度,具体指数由客户投诉满意度指标来代表。而客户投诉满意度又分为一般、满意、不满意三个等级,并依据对每个等级赋予相应权重计算而来。客户满意度的计算方法和前文客户情绪值的计算较为相似,都是依据文本出现个数进行计算。
    处理过程指数通过“处理步骤”、“查错次数”、“催办率”三个二级指标来衡量投诉处理过程的顺畅程度,以此剖析投诉处理流程与问题。其中处理步骤指单个投诉案件处理所经历的流程步骤多少,为了计算方便,模型中以每周投诉案件的平均处理步骤多少来衡量。差错次数指投诉处理过程中出现的错误处理次数,为了计算方便,模型中以每周投诉案件的平均差错次数来衡量。催办率指投诉过程中案件的催促办理次数,为了计算方便,模型中以每周投诉案件的平均处理步骤多少来衡量。
    Ø  投诉改进指数
    在分别从客户和工单两个方面设置指标之后,投诉工单中还有大量文本信息未被利用,因此万森娱乐电脑网页版不免考虑是否需要设置一个纯描述性的文本指标来反映投诉工单内容。从这个角度出发,投诉改进指数就应运而生了。
    
/upload/imgs/2016/01/06/08/1452038882520.png
    投诉改进指数用于剖析运营管理中的具体问题与成因,从微观业务角度展示投诉问题的改进情况。投诉改进指数由两个二级指标构成,其中投诉类别指标又分为三个三级指标。这些指标同样通过一套科学的权重分配方法获得。不同于前两个指数,投诉改进指数全部由文本分析指标构成,因此只有借助文本挖掘手段,才能对该指数进行相应的描述。
    投诉类别指标是指通过现有数据分类和文本中抓取的细分万森娱乐电脑网页版、服务类别细化投诉指向。具体可由服务表现、万森娱乐电脑网页版设备和万森娱乐电脑网页版运营三个方面。其中服务表现反映了客户对银行人员服务的不满;万森娱乐电脑网页版设备反映了客户对银行机具设备服务的不满;万森娱乐电脑网页版运营则反映了客户对银行发售的万森娱乐电脑网页版或万森娱乐电脑网页版服务运营的不满。整个投诉类别指标意在分析各业务板块的运营情况,并对遇到的问题给出适当的说明。
    问题成因通过工单中的文本信息抓取详细分解每个投诉万森娱乐电脑网页版或者服务的问题根源,由投诉数据中的投诉具体原因来展现。具体原因由客户投诉工单中的一级问题类型和二级问题类型进行抓取。
    由于投诉改进指数全部为非结构化的文本信息,且全部为描述性语言,顾在进行文本分析时比较复杂。
    Ø  投诉管理综合评价模型
    经过宏观、中观、微观三方面的指标设计,投诉管理综合评价模型已经初步成型,银行投诉管理综合评价模型是由客户投诉度指数、投诉处理质量指数和投诉改进指数三部分组合而成的一套综合性客户投诉信息考评体系,又称为三元模型。该模型针对商业银行客户投诉工单数据设计而成,可以较为全面的挖掘客户投诉工单中的信息。模型中三个指数的选取分别意在考察客户投诉对银行的影响、银行对银行投诉的处理以及抛离开客户和银行两者后单纯对银行投诉系统的反思。经过对样本商业银行客户投诉工单数据进行分析之后,最终设定整个投诉管理综合评价模型共有8个二级指标、8个三级指标和4个四级指标构成,通过直接抓取或间接计算共可以从客户投诉工单信息中获得15个指标数据,用来作为对投诉工单的挖掘标的。而在整个模型的计算过程中,文本挖掘万森娱乐电脑网页版发挥了极大的作用。模型具体结构如下图所示:
    /upload/imgs/2016/01/06/08/1452038899894.png
    其中,标黑的为量化分析指标,白色的就是本文需要进行挖掘的文本分析指标,包含定距变量、分类变量、排序变量等多重形式,需要经过标准化处理后进入总体分析过程。可见在客户投诉管理综合评价模型中,文本分析指标几乎占据半壁江山。