当前位置: 首页 > 新闻 > 信息荟萃
编号:5409
NLTK基础教程用NLTK和Python库构建机器学习应用.pdf
http://www.100md.com 2020年11月10日
第1页
第10页
第20页
第25页
第31页
第160页

    参见附件(12837KB,172页)。

     NLTK基础教程用NLTK和Python库构建机器学习应用主要介绍如何通过NLTK库与一些Python库的结合从而实现复杂的NLP任务和机器学习应用。NLTK 库是当前自然语言处理(NLP)领域最为流行、使用最为广泛的库之一, 同时Python语言经过一段时间的发展也已逐渐成为主流的编程语言之一

    编辑推荐

    自然语言处理(NLP)属于人工智能与计算机语言学的交叉领域,处理的是计算机与人类语言之间的交互问题。随着人机交互需求的日益增长,计算机具备处理当前主要自然语言的能力已经成为了一个必然趋势。NLTK正是这一领域中一个强大而稳健的工具包。

    在这本书中,我们首先会介绍一些与NLP相关的知识。然后,我们会探讨一些与数据科学相关的任务,通过这些任务来学习如何从零开始构建自定义的标识器和解析器。在此过程中,我们将会深度探索NLP领域的基本概念,为这一领域各种开源的Python工具和库提供具有实践意义的见解。接下来,我们将会介绍如何分析社交媒体网站,发现热门话题,进行舆情分析。zui后,我们还会介绍一些用于处理大规模文本的工具。

    在阅读完本书之后,您将会对NLP与数据科学领域中的概念有一个充分的了解,并能将这些知识应用到日常工作中。

    如果您是NLP或机器学习相关领域的爱好者,并有一些文本处理的经验,那么本书就是为你量身定做的。此外,这本书也是Python程序员快速学习NLTK库的理想选择。

    通过本书,你将学会

    了解自然语言的复杂性以及机器对它们的处理方式。

    如何利用标识化处理手段清理文本歧义,并利用分块操作更好地处理数据。

    探索不同标签类型的作用,并学习如何将句子标签化。

    如何根据自己的需要来创建自定义的解析器和标识器。

    如何构建出具有拼写检查、搜索、机器翻译以及问答系统等功能的实用程序。

    如何通过信息爬取与捕获的手段对相关数据内容进行检索。

    如何通过特性的提取与选取,构建出针对不同文本的分类系统。

    如何使用各种第三方Python库,如pandas、scikit-learn、matplotlib、gensim。

    如何对社交媒体网站进行分析,包括发掘热门话题、舆情分析等。

    内容简介

    NLTK 库是当前自然语言处理(NLP)领域zui为流行、使用zui为广泛的库之一, 同时Python语言经过一段时间的发展也已逐渐成为主流的编程语言之一。

    本书主要介绍如何通过NLTK库与一些Python库的结合从而实现复杂的NLP任务和机器学习应用。全书共分为10章。第1章对NLP进行了简单介绍。第2章、第3章和第4章主要介绍一些通用的预处理技术、专属于NLP领域的预处理技术以及命名实体识别技术等。第5章之后的内容侧重于介绍如何构建一些NLP应用,涉及文本分类、数据科学和数据处理、社交媒体挖掘和大规模文本挖掘等方面。

    本书适合 NLP 和机器学习领域的爱好者、对文本处理感兴趣的读者、想要快速学习NLTK的zishenPython程序员以及机器学习领域的研究人员阅读。

    作者简介

    Nitin Hardeniya 数据科学家,拥有4年以上从业经验,期间分别任职于Fidelity、Groupon和[24]7等公司,其业务横跨各个不同的领域。此外,他还拥有IIIT-H的计算语言学硕士学位,并且是5项客户体验专利的作者。

    本书所涵盖的内容

    第1章 自然语言处理简介。这一章将会涉及一些NLP中的基本概念,并对NLTK和Python做一些介绍。这一章的重点是让你快速了解NLTK,并介绍如何安装所需要的库,以便开始构建一个非常基本的单词云实例。

    第2章文本的岐义及其清理。这一章将会讨论在任何文本挖掘和NIP任务中所需的所有预处理步骤,这一章将会具体讨论断词处理、词干处理、停用词去除等技术.并且,还会为你详细介绍一些别的文本清理技术,以及如何用NLTK来简化它们的实现.

    第3章词性标注,这一章将重点对词性标注进行概述.在这一章中,我们将会为你介绍如何将NLTK运用到一些标注器中,并讨论NLTK中有哪些不同的NLP标注器可用.

    第4章文本结构解析。这一章将会带你继续深入NLP,讨论不同的语法解析方法,并介绍如何用NLTK来实现这些方法,在此过程中,我们会讨论语法解析在NLP语境中的,以及一些常见的信息提取技术(如实体提取)中的重要性.

    第5章NLP应用。这一章将会谈及各种不同的NLP应用,我们将会带领你利用一些当前已掌握的知识来构建出一个简单的NLP应用实例.

    第6章文本分类。这一章将会介绍一些机器学习领域中常见的外类方法.讨论重点将主要集中在文本语科库,以及如何用NLTK和scikit来构建管道,从而实现一个文本分类器.当然,也会讨论与文本聚类和主题模型相关的内容.

    第7章Web爬虫。这一章将讨论NL.P、数据科学和数据收集中其他方面的处理任务,以及如何从最大的文本数据源之--Wb中获取相关的数据.在这里,我们将学习如何用Python库、Scrapy来建立一只运作良好的Web爬虫(crawlar).

    第8章NLTK与其他Python库的搭配运用,这一章将会谈及一些骨干的Python库,如NumPy和SciPy.另外,我们也会简单地介绍一下用于数据处理的panda和用于可视化处理的matplotlib.

    第9章 Python中的社交媒体挖掘.这一章将致力于数据采集相关的内容.在这里,我们将会讨论社交媒体,以及与社交媒体相关的其他问题。当然,我们也会讨论具体应该如何收集、分析并可视化社交媒体中的数据.

    第10章大规模文本挖掘.这一章将讨论如何扩展NLTK,并配合一些别的Python库,使其适应大数据时代规模化执行的需要。我们将会给出一个简短的演示,以说明NLTK和scikit是如何与Hadoop搭配使用的.

    NLTK基础教程用NLTK和Python库构建机器学习应用截图

您现在查看是摘要介绍页, 详见PDF附件(12837KB,172页)