全部标签

命令

系统稳定性建设（14） – 稳定性治理思路与实践

想了想，还是把过往一段时间里，我们在稳定性建设中的实践记录下来，包含一些思路和方法，也算是一部大型踩坑记录，也只是一些实践过的野路子、野方法。文章目录 Toggle 团队背景治理目标故障分级稳定性目标治理思路事前预防研发流程中的保障常态化治理专项优化故障发现基础组件监控服务监控链路监控业务监控流量监控故障恢复故障注入恢复手段扩容熔断/限流/降级多云多活技术治理之外的稳定性能力建设流程标准及自动化…
安全运维
- 17
- 0
aqzt25年2月11日
系统稳定性建设（12） – 线上监控指标全解(线上问题排查指南)

前言本文将从基础设施（CPU、内存、网络、磁盘）、服务内部（JVM、线程池、连接池等）、中间件（MySQL、Redis、MQ等）、服务治理（注册中心、熔断、分布式事务、服务间调用）、业务指标（支付成功率、转化漏斗）、用户体验（页面性能、用户反馈）等全维度出发，讲解线上应用的全方面监控参数，大家设计线上服务监控的时候可以借鉴这些参数和思路。线上问题排查也可从这些角度出发。掌握这些将全方面提升你…
安全运维
- 88
- 0
aqzt25年2月11日
2024年十大网络安全事件盘点

10大网络安全事件 1微软高管邮箱被“午夜暴雪”攻陷 2024年1月，微软披露其遭到了威胁组织“午夜暴风雪”的攻击。攻击者主要针对微软的高级领导团队成员以及网络安全、法务等部门的员工，窃取了部分电子邮件和附件，同时还访问了一些源代码库和内部系统。攻击者首先通过一个遗留的非生产测试租户账户获得访问权限，使用密码喷洒攻击，这种攻击方式涉及同时对多个账户尝试大量常见密码。在获得初步立足点后，他们从被攻…
安全运维
- 37
- 0
aqzt25年2月11日
故障最佳实践经验 – 微软 Azure 澳洲数据中心宕机超 24 小时！值得思考自动化、智能化等工具失效后运维人员是否还依然能管控好生产风险

宕机时时有，但持续 24 小时以上的却并不多见。近日，位于澳大利亚悉尼的微软 Azure 服务突发中断，导致用户在超过 24 小时内无法访问 Azure、Microsoft 365 和 Power Platform 服务。而后微软针对此次事故发布了一份初步分析报告，引发众人关注。这份报告将原因归咎于“电力骤降导致一个可用区内的一个数据中心的部分冷却装置处于脱机状态”。由于冷却装置无法正常工作，…
安全运维
- 28
- 0
aqzt24年12月21日
经验教训 – 运维工程师不得不看的日常经验2，帮你远离故障

确保变更可以回滚佛说：“每次创伤都是一次成熟”。这是运维人员的真实写照。从某种意义上讲，运维是一份不断犯错、不断积累经验的工作。以前没有经历的东西，总是不定期的给你痛击。所以请保护好变更的现场，使得变更有回头的机会。小心破坏性的操作什么是破坏性的操作？比如：对 Oracle 而言，有truncate table_name，delete table_name，drop table_name。这些语…
安全运维
- 4
- 0
aqzt24年12月21日
数字化运营基础技能 – python学习路线图经典版

关于Python数据分析，其实网上能够找到的学习资源很多，主要分为两类：一类是提供各种资源的推荐，比如书单、教程、以及学习的先后顺序；另一类是提供具体的学习内容，知识点或实际案例。但很多繁琐而又杂乱的内容，除了给初学者增加理解和认识的噪音外，真正能够起到明确的方向指引导的，确实不多。以至于很多人一开始没有明确的方向就一头扎进去，学了很久却不知道自己到底在学什么，或者自己学了很久不知道能够做什么。…
安全运维
- 12
- 0
aqzt24年12月21日
宝贵的人生建议 – 凯文·凯利：给子女，100条建议

一、永远不要为你不想成为的人工作 1. 如果你不想投资于一家公司，就不要在这家公司工作。因为当你工作时，你是在投入自己拥有的一切：你的时间。 2. 在同意参加一场工作会议之前，你必须先看会议日程，并知道需要做出什么样的决定。如果不需要做出任何决定，你可以跳过这场会议。3. …
安全运维
- 6
- 0
aqzt24年12月21日
【运维工具】一文搞懂 Hadoop 生态系统的组件

Hadoop概述 Hadoop体系也是一个计算框架，在这个框架下，可以使用一种简单的编程模式，通过多台计算机构成的集群，分布式处理大数据集。Hadoop是可扩展的，它可以方便地从单一服务器扩展到数千台服务器，每台服务器进行本地计算和存储。除了依赖于硬件交付的高可用性，软件库本身也提供数据保护，并可以在应用层做失败处理，从而在计算机集群的顶层提供高可用服务。Hadoop核心生态圈组件如图1所示。图…
安全运维
- 8
- 0
aqzt24年12月21日
大规模运行 Apache Airflow 的经验和教训

Apache Airflow 是一个能够开发、调度和监控工作流的编排平台。在 Shopify，我们已经在生产中运行了两年多的 Airflow，用于各种工作流，包括数据提取、机器学习模型训练、Apache Iceberg 表维护和 DBT 驱动的数据建模。在撰写本文时，我们正通过 Celery 执行器和 MySQL 8 在 Kubernetes 上来运行 Airflow 2.2。 Shopify 在…
安全运维
- 4
- 0
aqzt24年12月21日
数字化运营基础技能 – pandas实战 – 数据清洗

这篇文章我会先给你讲解数据清洗的重要性，然后我会跟你列举数据清洗的四大准则，最后，我会用一个实战案例带你学会如何使用Python进行数据清洗。也可以直接访问我的Github地址进行下载: https://github.com/RecordLiu/Python-Data-cleaning 好了，接下来，咱们详细看一看。文章目录 Toggle 认识数据清洗数据清洗四大准则使用Python进行数据清…
安全运维
- 2
- 0
aqzt24年12月21日
经验教训 – 运维工程师不得不看的日常经验，帮你远离故障

1. 测试使用当初学习Linux的使用，从基础到服务到集群，都是在虚拟机做的，虽然老师告诉我们跟真机没有什么差别，可是对真实环境的渴望日渐上升，不过虚拟机的各种快照却让我们养成了各种手贱的习惯，以致于拿到服务器操作权限时候，就迫不及待的想去试试。记得上班第一天，老大把root密码交给我，由于只能使用putty，我就想使用xshell，于是悄悄登录服务器尝试改为xshell+密钥登录，因为没有测…
安全运维
- 2
- 0
aqzt24年12月21日
可观测性（Observability）- 聚合度量

度量（Metrics）的目的是揭示系统的总体运行状态。相信大家应该见过这样的场景：舰船的驾驶舱或者卫星发射中心的控制室，在整个房间最显眼的位置，布满整面墙壁的巨型屏幕里显示着一个个指示器、仪表板与统计图表，沉稳端坐中央的指挥官看着屏幕上闪烁变化的指标，果断决策，下达命令……如果以上场景被改成指挥官双手在键盘上飞舞，双眼紧盯着日志或者追踪系统，试图判断出系统工作是否正常。这光想像一下，都能感觉到一股…
安全运维
- 10
- 0
aqzt24年12月21日
Hive Sql：工作中常用HSQL语句大全一

文章目录 Toggle Hive Sql 大全hive的DDL语法对数据库的操作对数据表的操作对管理表(内部表)的操作对外部表操作对分区表的操作对分桶表操作修改表和删除表向hive表中加载数据hive表中数据导出hive的DQL查询语法单表查询Hive函数聚合函数关系运算数学运算逻辑运算数值运算条件函数日期函数字符串函数复合类型构建操作复杂类型访问操作复杂类型长度统计函数hive当中的latera…
安全运维
- 10
- 0
aqzt24年12月21日
IT运维最佳实践 – 一线游戏运维心得（同行经验）

自2015年开始从事游戏行业一线运维工作，至今（2022）已经近7年。网易游戏：2015.04 ~ 2021.04灵犀互娱：2021.04 至今文章目录 Toggle 背景1、运维人员的定位运维叫什么？PE？SRE？什么是SRE？什么是可用率？可用率到底要达到几个9？不同人眼中的运维项目组对运维的核心诉求技术要专，还是广？运维SRE的段位2、做事方法新手常犯的错误或误区怎么推进事情落地？忙不过…
安全运维
- 39
- 0
aqzt24年12月21日
数据治理 – XX业务数据分析体系的架构与实践

导读：讲述在业务快速迭代发展过程中，为了让大数据更好地赋能业务，高效的为用户提供有业务价值的数据产品和服务，百度爱番番的数据团队构建实时和离线大数据基础平台的心路历程，包括如何应对业务、技术、组织等方面的挑战和解决实际痛点过程中的思考与实践。全文9911字，预计阅读时间24分钟。文章目录 Toggle 一、前言1.1 名词解释三、实践及经验分享3.1 数据架构3.1.1 什么是数据架构3.1.…
安全运维
- 13
- 0
aqzt24年12月21日
实践案例 – 故障治理阿里电商故障治理和故障演练实践

大家好，今天来的人不少，可见对于故障耿耿于怀的人，不止我自己。今天分享的内容主要还是围绕故障治理有关。众所周知，故障治理本身就是一个比较大的话题，几乎涉及到运维、研发、故障运行管理的全部岗位，奇葩一点的故障还可能涉及到运营和产品经理。聊到故障的苦与泪，相信45分钟绝对连开头都没讲完。今天的分享，主要还是回归故障发生的本质，故障原因角度切入。看是否有一些方法论和通用性的手段可以沉淀出来。希望可以对大…
安全运维
- 10
- 0
aqzt24年12月21日
经验教训 – 2018.12.24 一个800万的教训：运维怎样规避违规操作风险？

“郑大一附院系统瘫痪2小时，违规操作的运维被判5年半”的事件刷了屏。据目前公开资料显示，北京中科某某科技有限公司的夏某某在未经授权或许可的情况下，私自编写了“数据库性能观测程序”和锁表语句，并利用私自记录的账号密码将该程序私自连接郑大一附院“HIS数据库”，导致该锁表语句在“HIS数据库”运行并锁定，造成郑大一附院三个院区所有门诊、临床计算机业务受恶意语句攻击，多个门诊业务系统无法正常操作，所有门…
安全运维
- 30
- 0
aqzt24年12月21日
SRE 到底是什么

SRE 到底是什么？这是一个最早由 Google 提出的概念，我的理解是，用软件解决运维问题。标准化，自动化，可扩展，高可用是主要的工作内容。这个岗位被提出的时候，想解决的问题是打破开发人员想要快速迭代，与运维人员想要保持稳定，拒绝频繁更新之间的矛盾。 SRE 目前对于招聘来说还是比较困难。一方面，这个岗位需要一定的经验，而应届生一般来说不会有运维复杂软件的经历；另一方面就是很多人依然以为这就是“…
安全运维
- 7
- 0
aqzt24年12月21日
排查 K8S 问题的经验和技巧

最近更新：故障经验、Kubernetes架构、持久化存储、Helm、CICD、Ingress-nginx、监控告警、应用可观察性、服务治理等相关文章。排查 Kubernetes 问题需要有一定的经验和技巧。在实际使用过程中，可以通过学习和实践来积累经验，并结合官方文档和社区资源进行学习和交流。同时，也可以考虑采用监控和日志系统等第三方工具来帮助进行排查和预警。这样可以更好地保障应用程序的稳定性和…
安全运维
- 11
- 0
aqzt24年12月21日
[经验分享]远离故障的十大原则

故障是运维人员永远的痛。相信每一个运维人员的KPI中都有一项：可用性。可用性高就是不出故障，各个公司对可用性和故障评级的标准都不相同，但是避免故障的方法却是殊途同归。我们怎么避免故障，沃趣科技简单列举了以下几条，与大家共勉！1、变更要有回滚，在同样的环境测试过2、对破坏性的操作谨慎小心3、设置好命令提示4、备份并验证备份有效性5、对生产环境存有敬畏之心6、交接和休假最容易出故障，变更请谨慎7、搭建…
安全运维
- 9
- 0
aqzt24年12月21日
2021.10.07 一行小错为何产生巨大破坏-Facebook史诗级故障大反思学习

Facebook大故障原因：一条写得很糟糕的命令、一款有缺陷的审核工具、一个阻碍成功恢复网络的DNS系统、以及严密的数据中心安全 Facebook故障是一系列不幸的事件酿成的！一条写得很糟糕的命令、一款有缺陷的审核工具、一个阻碍成功恢复网络的DNS系统以及严密的数据中心安全，所有这些因素导致了Facebook长达 7 个小时的重大故障。 Facebook 表示，周一故障的根本原因是例行维护工作出…
安全运维
- 6
- 0
aqzt24年12月21日
运维生产故障有哪些？运维常见问题最佳实践

运维生产故障是指在运维过程中出现的各种问题和故障，可能导致系统停机、服务中断或其他运维效率问题。运维生产故障可以根据不同的因素进行分类，下面是一些常见的运维生产故障分类和其常见类型： 1. 硬件故障硬件故障是指由于服务器、网络设备或其他硬件设备的故障或损坏导致的系统停机或服务中断的问题。常见的硬件故障类型包括：– 服务器故障：例如硬盘故障、内存故障等。– 网络设备故障：例如…
安全运维
- 25
- 0
aqzt24年12月21日
PYTHON基础技能 – Python环境搭建与管理的9个常见问题解答

文章目录 Toggle 引言问题一：如何选择Python版本？问题二：如何安装Python？问题三：如何管理多个Python版本？问题四：如何解决Python依赖冲突？问题五：如何升级Python版本？问题六：如何设置Python环境变量？实战案例：使用虚拟环境管理多版本Python项目示例：激活和使用项目A的虚拟环境示例：激活和使用项目B的虚拟环境问题七：如何管理项目依赖？使用 requirem…
安全运维
- 4
- 0
aqzt24年12月21日
2015.05.28 事件回顾，深入解析和反思携程宕机事件

携程网宕机事件还在持续，截止 28 号晚上 8 点，携程首页还是指向一个静态页面，所有动态网页都访问不了。关于事故根源，网上众说纷纭。作为互联网运维老兵，尝试分析原因，谈谈网友的看法携程微博：5月29日1：30分，经携程技术排查，确认此次事件是由于员工错误操作导致。由于携程涉及的业务、应用及服务繁多，验证应用与服务之间的功能是否正常运行，花了较长时间。携程官方网站及APP已于28日23:29全面…
安全运维
- 14
- 0
aqzt24年12月21日