【原创翻译】细说文本挖掘（1）

julianchen · ‎09-19-2020

引言：本文对文本挖掘进行了详细介绍，涵盖了各种常见的用例、典型的系统组成、相关的分类与算法、以及它们各自的优缺点。

如今，世界的各个角落都在无时不刻地产生着大量的数据，而且其规模也在逐年增长。这些丰富的数据为人们提供了企业竞争的优势和管理资源的依据。我们通常需要通过各种自动化的选择和处理过程，来实现对于海量数据的挖掘与分类。
业界时常提到文本挖掘的概念，其本质是：一个从给定文本中获取高质量信息的自动化过程。它与其他类型数据分析的主要区别在于：其输入的数据并未经过任何方式的格式化。也就是说，我们不能简单地运用数学函数来描述数据。
当下，文本分析、机器学习和大数据都在以各自的方式，为不同的公司和企业带来业务增长点。在本文中，我们将和您探讨文本挖掘所应对的挑战，以及WaveAccess公司是如何在其应用中使用此项技术的。
基本的文本挖掘工具
通过下列步骤，文本挖掘系统将能够从文本语料库中提取关键知识，以判断给定的文本是否与指定的主题相关联，进而揭示其内容的细节。
1. 文档相关性(搜索与给定主题相关的文本）。其中，给定的主题可以是一些相当狭窄的概念，例如：有关眼科手术的学术论文。
2. 命名的实体。如果一份文档被认为是相关的，那么系统可能需要在其中找到一些具体的实体，例如：学术名称、或讨论到的疾病名称。
3. 文档类型。系统根据文档的内容对其进行标记。例如：对于某个产品的评论可以被分为正面的、或负面的。
4. 实体链接。除了事实本身，系统是否能够在文档中找到与事实相联系的确切部分，也是非常重要的。例如：某种药物与副作用之间的关系，或者是某人的名字与对其工作的负面评价之间的关系。
典型的文本挖掘任务
文本挖掘不仅有助于我们从大型非结构化的数据管理项目中提取有用的知识，而且有利于提高相应的投资回报率。对于一家企业来说，这就意味着他们无需采用昂贵的手动处理，只需自动化地将不相关的数据剔除掉，便可以从大数据中得到正确的答案。
下面我们来探讨几个利用文本挖掘进行工作的例子。
语义科学文献的搜索
在大量的科学出版物中，文本挖掘可以帮助我们找到相关的文章，进而节省时间和金钱。
在法律上，如果在产品中发现了任何副作用，欧美制药公司都有义务召回其产品，并修改其传单页和其他相关文件中涉及到患者的信息。那么除了公司自己的研究方式以外，发现副作用的主要途径便是阅读其他研究人员的科学文章。由于每年发表出来的文章数量庞大，因此他们几乎不可能去手动处理所有的文章。
为了解决此问题，科学出版商（或者是与出版商有关联的数据分析公司）会根据客户（制药公司）所指定的算法和方法，提供自动化的文章搜索服务。而在客户方面，在得到了所需格式的相关文章简报之后，他们便可以选择要购买的指定文章了。
定价出版物
如下图所示，出版商对于这些最新科学文章与研究成果的收费标准是：每篇25-30美元的起步价。那么，制药公司就陷入了两难的局面：一方面，根据法律他们有义务跟踪其产品的所有副作用，以便修改产品规格或从市场上召回其产品。另一方面，购买所有可能提到某种药物的文章是一笔昂贵的开销，更不用说需要花费时间来处理所有这些文字了。

在WavetAccess公司，我们为制药行业的客户开发了一种自动化文章搜索方案：我们运用文本挖掘平台来搜索文章及其元数据，从而保证客户只为最有可能包含相关文本的文章买单。
鉴于此类任务的复杂性，我们用到的文本挖掘技术有：针对来源于非标准化书目的数据，我们采用了单独的搜索方式，有时甚至需要通过机器学习，去解析元数据里包含的公司地址等信息。
市场调查
文本挖掘的相关应用有助于定位目标公司所处的社交媒体空间，并分析它在空间里的认可程度。
许多企业往往需要对自己的产品，及其竞争产品进行客观的评估，以制定出独有的发展战略。在此，自动化的文本处理系统，更适合应对大量的信息来源（包括：学术文章、杂志、新闻、产品评论网站等），以及五花八门的产品使用评论。
信息源可信度
有了文本挖掘，我们还需要进一步将各种虚假的评论，与那些公平公正的评论相区别开来。
在医药领域，“产品评论”是指那些发表在可信学术杂志上的药物检测结果。由于业界对于学术论文的标准要求比较高，因此它们很难出现“虚假评论”。但是，如果把分析目标锁定为所有可公开访问的来源（包括互联网），那么我们就必须给评论的作者和来源的信誉予以排名，以甄别出虚假的评论。而在学术论文领域，这被称为引文索引（citation index，CI）。因此在文章搜索中，我们引入了这些参考因素，并将其包含在最终的报告中，以便读者自行判定是否信任那些给出的信息源。
另一个相关、但又不相同的参考因素叫做情绪分析（也称为观点挖掘）。其目标是评估作者对于给定对象的情绪态度。这同样有助于对各种评论进行分类，并且找出针对目标公司的负面舆论。
知识管理
对于文书工作的优化，有助于公司了解到有哪些可用的数据和文档，并设置针对它们的快速访问。
许多公司在其规模扩大的过程中，积累了大量的知识资产。不过，这些资产却往往存在着结构不良，没有实现标准化等问题。各部门可能持续使用着自己保存的内部文档，或者根本就没有任何保存的意识。那么当不同的公司合并到一起时，问题就会整体爆发，他们几乎不可能找到所需要的信息。因此，为了更好地利用过去所积累的知识，此处该“请出”文本挖掘系统了。它可以实现如下四个方面：
l 自动收集和标准化不同来源的数据。
l 添加元数据（如文档源、作者、创建日期等）。
l 对文档进行索引和分类。
l 通过用户定义的参数，来提供文档搜索的界面。
另外，此类文本挖掘系统还应该根据相关的安全标准，配备用户角色与授权级别的管控。
客户服务部门优化
除了各种内部文档之外，公司往往还需要从外部获取大量的文本数据，例如：导入从网站录入进来的表单和订单。因此，文本挖掘系统可以对传入的请求进行排序，并提供客户需要的详细信息。通过最小化订单的处理时间，客户服务部门可以为更多的客户提供服务，企业也更加能够盈利。
文本挖掘如何创收
我们有一家提供工业级别维护与维修的客户公司。他们每天最多能收到4000个维修请求。客户服务经理需要在CRM系统中创建修复条目，并在弹出的列表中选择修复的类别和类型。然后，他们根据请求的数量，再分配修复小组的工作量。
由于请求并非是以特定的格式提交的，因此在引入文本挖掘之前，他们只能花费大量的时间，靠人工去填写所有的字段。
WavetAccess公司给他们开发了一套基于未知格式的文本系统，以帮助客户服务部门更好地对各种请求进行排序。该系统预制了一些最有可能的类别，并帮助员工在CRM的弹出列表中快速地定位到某些特定情况。同时，这套系统也能甄别出那些收费项目，并为公司实现创收。
垃圾邮件过滤
垃圾邮件过滤的目标是：对大量的邮件流（包括电子邮件和短信）进行分类，以实现对那些不需要的邮件进行分类。因此对于这项工作而言，文本挖掘技术需要能够根据快速的算法，判断和处理大量的数据。
通过上述应用案例，我们可以看到：企业所面对的文本数据往往是“非标”的，而他们的处理目标也是多样的。因此我们无法仅使用某个单一的分析方法，来提高对于文本挖掘与决策的效率。下面让我们深入讨论文本挖掘过程中的不同开发阶段，以及流行的项目优化方法。
实施过程中的信息搜索问题
最常见的文本挖掘任务之一莫过于：搜索相关文档，并从中提取信息。那么随着数据量的不断增加，该任务的自动化程度就显得尤为重要。执行此类任务的典型系统一般由两部分组成：
l 文档收集和标准化。
l 文档分类和分析。
下面让我们详解这两个部分。
文档收集和标准化
此阶段的目标是：
l 持续收集和提取文本的结构化数据。
l 收集文档的元数据（包括创建日期、标题等）。
l 标准化文档的文本和元数据。
由于数据的来源五花八门，而且收集的方法也是灵活多样，因此在上传之前，我们有时需要使用格式转换器，来处置好目标文档的格式。下面是一些具体的数据收集与准备任务：
通过对源文档的扫描，来收集数据
在这种情况下，系统使用光学字符识别引擎（如：Tesseract之类的OCR工具），将文本分成多个部分与段落。不过，光学识别的一个常见问题是：它经常会碰到格式较为复杂的文本（如：各种列或表格），这些元素都会影响系统的最终转换，以及合并出有意义的文档。此外，有时为了同时扫描多个文档，系统需要使用特定的属性标记，标注出给定文档的开头和结尾。
通过PDF或DJVU文档的方式收集数据
这些文档的格式，虽然比较适合用来查看那些格式化好的文档，但是不适合被应用来存储结构化的数据。PDF与DJVU文件虽然能够存储符号和单词的位置，以便于显示和用户的阅读，但这些文件并没有任何的语句边界标记。因此，和上述文档扫描方式类似，此类具有复杂格式、表格和图像的PDF与DJVU文件，也会给文本的挖掘带来不同程度的挑战。
从Web源收集数据
并非所有包含数据源的网站或系统都有便捷的API，有时它们可能只是一个方便操作的用户界面而已。在这种情况下，系统需要用到web爬虫，即：通过分析网站来收集数据。因此，除了常用的HTML代码分析，系统还可能需要使用计算机视觉（computer vision）来解决此类特殊问题。

likuo · ‎11-02-2020

文本挖掘很重要。

bo chen · ‎11-27-2020

干货满满，感谢分享