-
HDInsight-Hadoop实战(一)网站日志分析
HDInsight-Hadoop实战(一)网站日志分析 简介 在此示例中,你将使用分析网站日志文件的 HDInsight 查询来深入了解客户使用网站的方式。借助此分析,你可查看外部网站一天内对该网站的访问频率以及用户体验的网站错误总结。 在此教程中,你将学习如何使用 HDInsight: 连接到包含网站日志文件的 Azure Storage Blob 创建配置单元表以查询这些日志 创建配置单元…- 3
- 0
-
Hadoop生态圈介绍
1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 具有可靠、高效、可伸缩的特点。 Hadoop的核心是YARN,HDFS和Mapreduce 下图是hadoop生态系统,集成spark生态圈。在未来一段时间内,hadoop将于spark共存,hadoop与…- 3
- 0
-
HanLP 关键词提取算法分析
HanLP 关键词提取算法分析 参考论文:《TextRank: Bringing Order into Texts》 TextRank算法提取关键词的Java实现 TextRank算法自动摘要的Java实现这篇文章中作者大概解释了一下TextRank公式 1. 论文 1In this paper, we introduce the TextRank graphbased ranking model…- 8
- 0
-
再谈深度学习文本的表示
深度模型如何学习和表示词、短语、句子和篇章呢? 词: 以前表示词是所谓的distributional vector, 现在将词表示成embedding这种形式我觉得根本区别在于: 前者的每个维度有具体的含义, 而后者没有(虽然也有人称其为代表一个latent topic/semantic/element...)。 词的任何特性应该是由embedding vector中的所有维度共同决定的。 所以传…- 0
- 0
-
Kafka分区分配策略(2)——RoundRobinAssignor和StickyAssignor
RoundRobinAssignor分配策略 RoundRobinAssignor策略的原理是将消费组内所有消费者以及消费者所订阅的所有topic的partition按照字典序排序,然后通过轮询方式逐个将分区以此分配给每个消费者。RoundRobinAssignor策略对应的partition.assignment.strategy参数值为:org.apache.kafka.clients.con…- 4
- 0
-
实战hadoop海量数据处理系列05 : 实现点击流日志的数据清洗模块
实战hadoop海量数据处理系列05 : 实现点击流日志的数据清洗模块 之前已经实现结构化数据的清洗,下一步我们将实现半结构化(非结构化)数据的清洗。 本文假设读者已搭建好了eclipse环境,并且已经导入ClickStreamETL文件夹下面的子工程。 如果遇到环境相关的问题,可以在专门的帖子下面留言。 在阅读本文前,强烈建议阅读原书“实现点击流日志的数据清洗模块”章节。 本文的代码同步于git…- 1
- 0
-
Hadoop生态图谱
当下Hadoop已经成长为一个庞大的体系,貌似只要和海量数据相关的,没有哪个领域缺少Hadoop的身影,下面是一个Hadoop生态系统的图谱,详细的列举了在Hadoop这个生态系统中出现的各种数据工具。 这一切,都起源自Web数据爆炸时代的来临 数据抓取系统 - Nutch 海量数据怎么存,当然是用分布式文件系统 - HDFS 数据怎么用呢,分析,处理 MapReduce框架,让你编写代码来实现对…- 4
- 0
-
Manacher 算法
首先我们先来看一个题:给定一个字符串str,返回str中最长回文子串的长度。比如str = “123”,其中的最长回文子串为"1"、“2”、“3”,所以返回1。又比如str = “abc1234321ab”,其中的最长回文子串为"1234321",所以返回7。 面对字符串"a131b",我们寻找字符串中回文子串的最直观的想法也许是在遍历字…- 4
- 0
-
完整的中英文词频统计
步骤: 1.准备utf-8编码的文本文件file 2.通过文件读取字符串 str 3.对文本进行预处理 4.分解提取单词 list 5.单词计数字典 set , dict 6.按词频排序 list.sort(key=) 7.排除语法型词汇,代词、冠词、连词等无语义词 8.输出TOP(20) 一、.英文歌曲 词频统计 1str2='''I will run, I wil…- 51
- 0
-
深度学习—-NLP-TextRank的textrank4zh模块源码解读
文章目录 textrank4zh模块源码解读 2 textrank4zh模块的使用 2.1 textrank4zh模块的安装 * 2.2 textrank4zh的使用实例 1)提取关键词、关键短语和关键句 * 2)展示textrank4zh模块的三种分词模式的效果 TextRank算法是一种文本排序算法,由谷歌的网页重要性排序算法PageRank算法改进而来,它能够从一个给定的文本中提取出该文本的…- 9
- 0
-
如何管理Spark Streaming消费Kafka的偏移量(三)
前面的文章已经介绍了在spark streaming集成kafka时,如何处理其偏移量的问题,由于spark streaming自带的checkpoint弊端非常明显,所以一些对数据一致性要求比较高的项目里面,不建议采用其自带的checkpoint来做故障恢复。 在spark streaming1.3之后的版本支持direct kafka stream,这种策略更加完善,放弃了原来使用Kafka的…- 20
- 0
-
实战hadoop海量数据处理系列04预热篇:窗函数row_number 从理论到实践
实战hadoop海量数据处理系列04预热篇:窗函数row_number 从理论到实践 作者写第一版书的时候,,hive还没有官方支持row_number,需要使用UDF来实现额外的jar; 不过幸运的是,从hive 0.11过后,官方就加入这个函数,所以入门更容易啦。 1 row_number定义 结合情景分析 1row_number()over (partition by tran_idorde…- 21
- 0
-
Hadoop各商业发行版之比较
Hadoop 的发行版除了社区的Apache hadoop外,cloudera,hortonworks,mapR, EMC , IBM , INTEL , 华为 等等都提供了自己的商业版本。商业版主要是提供了专业的技术支持,这对一些大型 企业 尤其重要。每个发行版都有自己的一些特点,本文就各发行版做简单介绍。 2008 年成立的 Cloudera 是最早将 Hadoop 商用的公司,为合作伙伴提供…- 9
- 0
-
自然语言处理之word2vec
一、背景 语言模型 - 在统计自然语言处理中,语言模型指的是计算一个句子的概率模型。 传统的语言模型中词的表示是原始的、面向字符串的。两个语义相似的词的字符串可能完全不同,比如“番茄”和“西红柿”。这给所有NLP任务都带来了挑战——字符串本身无法储存语义信息。该挑战突出表现在模型的平滑问题上:标注语料是有限的,而语言整体是无限的,传统模型无法借力未标注的海量语料,只能靠人工设计平滑算法,…- 34
- 0
-
使用TensorFlow,GPU和Docker容器进行深度学习
阅读全文请点击 在过去的几个月中,我和多个企业的数据科学团队进行了多次合作,也看到越来越多的机器学习和深度学习框架被广泛应用到实际生活中。 与大数据分析和数据科学中的其他用例一样,这些团队希望在BlueData EPIC软件 平台上的Docker容器中运行他们最喜欢的深度学习框架和工具。因此,我的一部分工作就是尝试使用这些新工具,确保在我们的平台上能够运行,并且能够帮助这些团队开发出可以解决一些问…- 4
- 0
-
如何管理Spark Streaming消费Kafka的偏移量(二)
上篇文章,讨论了在spark streaming中管理消费kafka的偏移量的方式,本篇就接着聊聊上次说升级失败的案例。 事情发生一个月前,由于当时我们想提高spark streaming程序的并行处理性能,于是需要增加kafka分区个数,,这里需要说下,在新版本spark streaming和kafka的集成中,按照官网的建议 spark streaming的executors的数量要和kafk…- 3
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!