全部标签

分析

HDInsight-Hadoop实战（一）网站日志分析

HDInsight-Hadoop实战（一）网站日志分析简介在此示例中，你将使用分析网站日志文件的 HDInsight 查询来深入了解客户使用网站的方式。借助此分析，你可查看外部网站一天内对该网站的访问频率以及用户体验的网站错误总结。在此教程中，你将学习如何使用 HDInsight：连接到包含网站日志文件的 Azure Storage Blob 创建配置单元表以查询这些日志创建配置单元…
安全运维
- 3
- 0
aqzt21年12月12日
Hadoop生态圈介绍

1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。 Hadoop的核心是YARN,HDFS和Mapreduce 下图是hadoop生态系统，集成spark生态圈。在未来一段时间内，hadoop将于spark共存，hadoop与…
安全运维
- 3
- 0
aqzt21年12月12日
EM算法详解

极大似然估计极大似然的本质是找出与样本分布最接近的概率分布模型，它是一种用样本来估计概率模型参数的方法。下面以二项分布和高斯分布为例。 1.二项分布例如，进行抛硬币实验，十次抛硬币的结果是：$$正正反正正正反反正正$$假设p是每次抛硬币结果为正的概率，则，得到实验结果的概率是， $$\begin{array}{l} P = pp(1 - p)ppp(1 - p)(1 - p)pp\\ ;;;;…
安全运维
- 7
- 0
aqzt21年12月12日
LRU算法

虚拟存储管理：允许将一个作业分多次调入内存。若采用连续分配方式，需申请足够空间，再分多次装入，造成内存资源浪费，并不能从逻辑上扩大内存容量。虚拟的实现建立在离散分配存储管理基础上方式：请求分页/请求分段系统细节：分页/段机构、中断机构、地址变换机构、软件支持每当要访问的页面不在内存时，便产生一缺页中断通知OS，OS则将所缺之页调入内存。作为中断，需经历几个步骤： “保护CPU环境” “…
安全运维
- 6
- 0
aqzt21年12月12日
HanLP 关键词提取算法分析

HanLP 关键词提取算法分析参考论文：《TextRank: Bringing Order into Texts》 TextRank算法提取关键词的Java实现 TextRank算法自动摘要的Java实现这篇文章中作者大概解释了一下TextRank公式 1. 论文 1In this paper, we introduce the TextRank graphbased ranking model…
安全运维
- 8
- 0
aqzt21年12月12日
再谈深度学习文本的表示

深度模型如何学习和表示词、短语、句子和篇章呢？词: 以前表示词是所谓的distributional vector，现在将词表示成embedding这种形式我觉得根本区别在于：前者的每个维度有具体的含义，而后者没有（虽然也有人称其为代表一个latent topic/semantic/element...）。词的任何特性应该是由embedding vector中的所有维度共同决定的。所以传…
安全运维
- 0
- 0
aqzt21年12月12日
Kafka分区分配策略（2）——RoundRobinAssignor和StickyAssignor

RoundRobinAssignor分配策略 RoundRobinAssignor策略的原理是将消费组内所有消费者以及消费者所订阅的所有topic的partition按照字典序排序，然后通过轮询方式逐个将分区以此分配给每个消费者。RoundRobinAssignor策略对应的partition.assignment.strategy参数值为：org.apache.kafka.clients.con…
安全运维
- 4
- 0
aqzt21年12月12日
实战hadoop海量数据处理系列05 ：实现点击流日志的数据清洗模块

实战hadoop海量数据处理系列05 ：实现点击流日志的数据清洗模块之前已经实现结构化数据的清洗，下一步我们将实现半结构化（非结构化）数据的清洗。本文假设读者已搭建好了eclipse环境，并且已经导入ClickStreamETL文件夹下面的子工程。如果遇到环境相关的问题，可以在专门的帖子下面留言。在阅读本文前，强烈建议阅读原书“实现点击流日志的数据清洗模块”章节。本文的代码同步于git…
安全运维
- 1
- 0
aqzt21年12月12日
Hadoop生态图谱

当下Hadoop已经成长为一个庞大的体系，貌似只要和海量数据相关的，没有哪个领域缺少Hadoop的身影，下面是一个Hadoop生态系统的图谱，详细的列举了在Hadoop这个生态系统中出现的各种数据工具。这一切，都起源自Web数据爆炸时代的来临数据抓取系统－ Nutch 海量数据怎么存，当然是用分布式文件系统－ HDFS 数据怎么用呢，分析，处理 MapReduce框架，让你编写代码来实现对…
安全运维
- 4
- 0
aqzt21年12月12日
机器学习十大算法

一，有监督学习算法一：决策树决策树是一种树形结构，为人们提供决策依据，决策树可以用来回答是和没有问题，它通过树形结构将各种情况组合都表示出来，每个分支表示一次选择（选择肯定还是没有），直到所有选择都进行完毕，最终给出正确答案。算法二：朴素贝叶斯分类器朴素贝叶斯分类照片照片什么器基于贝叶斯理论及其假设（即特征之间是独立的，是不相互影响的） P（A | B）…
安全运维
- 0
- 0
aqzt21年12月12日
设计模式之命令模式

1.命令模式的意图是什么？命令模式的意图是将请求封装在对象内部。从而可像操作对象那样来操作请求，使你可用不同的请求对客户进行参数化; 对请求排队或记录请求日志，以及支持可撤销的操作。 2.为什么用命令模式？有时我们无法控制方法执行的时机与上下文，此时，可将方法封装在对象的内部，通过在对象内部存储调用方法所需要的信息，就可让客户端或者服务决定何时调用该方法。 …
安全运维
- 6
- 0
aqzt21年12月12日
PID 算法

原标题：这是我见过最通俗易懂的PID整定理论！在实际工程中，应用最为广泛的调节器控制规律为比例、积分、微分控制，简称PID控制，又称PID调节。 PID控制器问世至今以其结构简单、稳定性好、工作可靠、调整方便而成为工业控制的主要技术之一。当被控对象的结构和参数不能完全掌握，或得不到精确的数学模型时，控制理论的其它技术难以采用时，系统控制器的结构和参数必须依靠经验和现场调试来确定，这时应用PID…
安全运维
- 6
- 0
aqzt21年12月12日
Manacher 算法

首先我们先来看一个题：给定一个字符串str，返回str中最长回文子串的长度。比如str = “123”，其中的最长回文子串为"1"、“2”、“3”，所以返回1。又比如str = “abc1234321ab”，其中的最长回文子串为"1234321"，所以返回7。面对字符串"a131b"，我们寻找字符串中回文子串的最直观的想法也许是在遍历字…
安全运维
- 4
- 0
aqzt21年12月12日
完整的中英文词频统计

步骤： 1.准备utf-8编码的文本文件file 2.通过文件读取字符串 str 3.对文本进行预处理 4.分解提取单词 list 5.单词计数字典 set , dict 6.按词频排序 list.sort(key=) 7.排除语法型词汇，代词、冠词、连词等无语义词 8.输出TOP(20) 一、.英文歌曲词频统计 1str2='''I will run, I wil…
安全运维
- 51
- 0
aqzt21年12月12日
深度学习—-NLP-TextRank的textrank4zh模块源码解读

文章目录 textrank4zh模块源码解读 2 textrank4zh模块的使用 2.1 textrank4zh模块的安装 * 2.2 textrank4zh的使用实例 1）提取关键词、关键短语和关键句 * 2）展示textrank4zh模块的三种分词模式的效果 TextRank算法是一种文本排序算法，由谷歌的网页重要性排序算法PageRank算法改进而来，它能够从一个给定的文本中提取出该文本的…
安全运维
- 9
- 0
aqzt21年12月12日
如何管理Spark Streaming消费Kafka的偏移量（三）

前面的文章已经介绍了在spark streaming集成kafka时，如何处理其偏移量的问题，由于spark streaming自带的checkpoint弊端非常明显，所以一些对数据一致性要求比较高的项目里面，不建议采用其自带的checkpoint来做故障恢复。在spark streaming1.3之后的版本支持direct kafka stream，这种策略更加完善，放弃了原来使用Kafka的…
安全运维
- 20
- 0
aqzt21年12月12日
实战hadoop海量数据处理系列04预热篇：窗函数row_number 从理论到实践

实战hadoop海量数据处理系列04预热篇：窗函数row_number 从理论到实践作者写第一版书的时候，，hive还没有官方支持row_number,需要使用UDF来实现额外的jar; 不过幸运的是，从hive 0.11过后，官方就加入这个函数，所以入门更容易啦。 1 row_number定义结合情景分析 1row_number()over (partition by tran_idorde…
安全运维
- 21
- 0
aqzt21年12月12日
Hadoop各商业发行版之比较

Hadoop 的发行版除了社区的Apache hadoop外，cloudera，hortonworks，mapR， EMC ， IBM ， INTEL ，华为等等都提供了自己的商业版本。商业版主要是提供了专业的技术支持，这对一些大型企业尤其重要。每个发行版都有自己的一些特点，本文就各发行版做简单介绍。 2008 年成立的 Cloudera 是最早将 Hadoop 商用的公司，为合作伙伴提供…
安全运维
- 9
- 0
aqzt21年12月12日
设计模式之桥接模式

1 引子我们都知道，士兵根据作战性质可以分很多种，比如步兵、骑兵和弓箭手等；又会根据个人的资质不同，会将其分会不同的等级，这里可简单理解为等级A、等级B和等级C。所以此处三种士兵，分别有三个等级，应该共有9个实体类。大概的逻辑图如图所示：上图很明显，反应出多层继承的问题。 ①抽象士兵-步兵/骑兵/弓箭手：根据作战性质进行划分； ②步兵/骑兵/弓箭手-A等/ B等/C等：根据个人资质进行划分； …
安全运维
- 8
- 0
aqzt21年12月12日
克鲁斯卡尔算法

克鲁斯卡尔算法克鲁斯卡尔算法求最小生成树应用场景——公交站问题某城市新增7个站点（A,B,C,D,E,F,G）现在需要修路将七个站点连通各站点的距离用边线表示（权），比如A—B距离12公里问：如何修路保证每个站点都能连通，并且总的修建公路里程最短？克鲁斯卡尔算法介绍克鲁斯卡尔算法，是用来求加权连通图的最小生成树的算法。基本思路：按照权值从大到小的顺序选择（n - 1）条边，并保证这…
安全运维
- 16
- 0
aqzt21年12月12日
算法的时间复杂度

** ** 通常，对于一个给定的算法，我们要做两项分析。第一是从数学上证明算法的正确性，这一步主要用到形式化证明的方法及相关推理模式，如循环不变式、数学归纳法等。而在证明算法是正确的基础上，第二部就是分析算法的时间复杂度。算法的时间复杂度反映了程序执行时间随输入规模增长而增长的量级，在很大程度上能很好反映出算法的优劣与否。因此，作为程序员，掌握基本的算法时间复杂度分析方法是很有必要的。 …
安全运维
- 5
- 0
aqzt21年12月12日
自然语言处理之word2vec

一、背景语言模型 - 在统计自然语言处理中，语言模型指的是计算一个句子的概率模型。传统的语言模型中词的表示是原始的、面向字符串的。两个语义相似的词的字符串可能完全不同，比如“番茄”和“西红柿”。这给所有NLP任务都带来了挑战——字符串本身无法储存语义信息。该挑战突出表现在模型的平滑问题上：标注语料是有限的，而语言整体是无限的，传统模型无法借力未标注的海量语料，只能靠人工设计平滑算法，…
安全运维
- 34
- 0
aqzt21年12月12日
使用TensorFlow，GPU和Docker容器进行深度学习

阅读全文请点击在过去的几个月中，我和多个企业的数据科学团队进行了多次合作，也看到越来越多的机器学习和深度学习框架被广泛应用到实际生活中。与大数据分析和数据科学中的其他用例一样，这些团队希望在BlueData EPIC软件平台上的Docker容器中运行他们最喜欢的深度学习框架和工具。因此，我的一部分工作就是尝试使用这些新工具，确保在我们的平台上能够运行，并且能够帮助这些团队开发出可以解决一些问…
安全运维
- 4
- 0
aqzt21年12月12日
如何管理Spark Streaming消费Kafka的偏移量（二）

上篇文章，讨论了在spark streaming中管理消费kafka的偏移量的方式，本篇就接着聊聊上次说升级失败的案例。事情发生一个月前，由于当时我们想提高spark streaming程序的并行处理性能，于是需要增加kafka分区个数，，这里需要说下，在新版本spark streaming和kafka的集成中，按照官网的建议 spark streaming的executors的数量要和kafk…
安全运维
- 3
- 0
aqzt21年12月12日