-
经验教训 – 运维工程师 不得不看的日常经验2,帮你远离故障
确保变更可以回滚佛说:“每次创伤都是一次成熟”。这是运维人员的真实写照。从某种意义上讲,运维是一份不断犯错、不断积累经验的工作。以前没有经历的东西,总是不定期的给你痛击。所以请保护好变更的现场,使得变更有回头的机会。 小心破坏性的操作什么是破坏性的操作?比如:对 Oracle 而言,有truncate table_name,delete table_name,drop table_name。这些语…- 0
- 0
-
大规模运行 Apache Airflow 的经验和教训
Apache Airflow 是一个能够开发、调度和监控工作流的编排平台。在 Shopify,我们已经在生产中运行了两年多的 Airflow,用于各种工作流,包括数据提取、机器学习模型训练、Apache Iceberg 表维护和 DBT 驱动的数据建模。在撰写本文时,我们正通过 Celery 执行器和 MySQL 8 在 Kubernetes 上来运行 Airflow 2.2。 Shopify 在…- 1
- 0
-
最佳实践 – 运维服务器故障排查与定位常用命令
整理总结了一些常用分析网站的命令方便大家快速定位故障所在排除故障,最小化的减少故障给业务带来的影响。 文章目录 Toggle 1. 背景2. 说明3. 分析问题的方法论4. cpu4.1 说明4.2 分析工具4.3 使用方式5. 内存5.1 说明5.2 分析工具5.3 使用方式6. 磁盘IO6.1 说明6.2 分析工具6.3 使用方式7. 网络7.1 说明7.2 分析工具7.3 使用方式8. 系统…- 33
- 0
-
故障复盘 – 故障复盘哪三大关键问题?
这是很多企业/团队都要面对的问题,有着超10年系统稳定性保障经验的李道兵老师给我们分享了他的观点: 故障复盘的三大关键问题: 怎么有效降低故障的影响? 事故处理的流程和原则有哪些? 相关管理制度怎么设置比较合理? 故障复盘的四大注意项: 1.事故复盘不是给人定责的,要有系统思维将优化项实际落地才能推动系统优化; 2.事故报告的重点应该是事故提升项,监控、定位、根因、架构四个部分都必须涉及; 3.事…- 1
- 0
-
IT运维最佳实践 – 一线游戏运维心得(同行经验)
自2015年开始从事游戏行业一线运维工作,至今(2022)已经近7年。 网易游戏:2015.04 ~ 2021.04灵犀互娱:2021.04 至今 文章目录 Toggle 背景1、运维人员的定位运维叫什么?PE?SRE?什么是SRE?什么是可用率?可用率到底要达到几个9?不同人眼中的运维项目组对运维的核心诉求技术要专,还是广?运维SRE的段位2、做事方法新手常犯的错误或误区怎么推进事情落地?忙不过…- 1
- 0
-
可观测性(Observability)- 聚合度量
度量(Metrics)的目的是揭示系统的总体运行状态。相信大家应该见过这样的场景:舰船的驾驶舱或者卫星发射中心的控制室,在整个房间最显眼的位置,布满整面墙壁的巨型屏幕里显示着一个个指示器、仪表板与统计图表,沉稳端坐中央的指挥官看着屏幕上闪烁变化的指标,果断决策,下达命令……如果以上场景被改成指挥官双手在键盘上飞舞,双眼紧盯着日志或者追踪系统,试图判断出系统工作是否正常。这光想像一下,都能感觉到一股…- 4
- 0
-
运维工具 – Hadoop高可用的架构知识
hadoop 2.0 对于Hadoop高可用架构节点介绍 NN服务器会出现脑裂(brain-split)情况什么是脑裂在hadoop2.x版本中,如果存在两个NameNode节点同时服务,这种情况称之为“脑裂” 为什么会出现脑裂脑裂出现原因一般发生在主备NamoNode切换,由于网络延迟、设备故障等,备用的StandbyNameNode【备用节点】认为ActiveNameNode【主节点】失效,此…- 1
- 0
-
排查 K8S 问题的经验和技巧
最近更新:故障经验、Kubernetes架构、持久化存储、Helm、CICD、Ingress-nginx、监控告警、应用可观察性、服务治理等相关文章。 排查 Kubernetes 问题需要有一定的经验和技巧。在实际使用过程中,可以通过学习和实践来积累经验,并结合官方文档和社区资源进行学习和交流。同时,也可以考虑采用监控和日志系统等第三方工具来帮助进行排查和预警。这样可以更好地保障应用程序的稳定性和…- 1
- 0
-
经验教训 – 2018.12.24 一个800万的教训:运维怎样规避违规操作风险?
“郑大一附院系统瘫痪2小时,违规操作的运维被判5年半”的事件刷了屏。据目前公开资料显示,北京中科某某科技有限公司的夏某某在未经授权或许可的情况下,私自编写了“数据库性能观测程序”和锁表语句,并利用私自记录的账号密码将该程序私自连接郑大一附院“HIS数据库”,导致该锁表语句在“HIS数据库”运行并锁定,造成郑大一附院三个院区所有门诊、临床计算机业务受恶意语句攻击,多个门诊业务系统无法正常操作,所有门…- 10
- 0
-
系统稳定性保障 – 混沌工程 – 持续保障系统稳定性和高可用:腾讯游戏混沌工程实践
最近一两年,我们可以发现混沌工程这个技术变得十分火热,大家都知道它变成了一个新的风口。常说做事情要顺势而为,我们希望能够抓住这个机会,所以我最近一年的工作主要是将混沌工程这一技术在腾讯游戏落地。 文章目录 Toggle 一、什么是混沌工程1、混沌工程的定义2、混沌工程的作用1)故障预防2)故障发现3)故障响应4)故障定位5)故障恢复6)复盘改进二、混沌工程平台建设1、流程设计1)实验前2)实验中3…- 1
- 0
-
【Keras】Linux一个shell脚本安装python、keras、tensorflow、anaconda等~
本文提供一个shell脚本,在Linux环境下通过执行此shell脚本可以一次自动安装python、keras、tensorflow、anaconda、pyenv、curl、git等等 解决的问题 在linux server环境下安装keras等软件时,人肉输入一个一个apt install命令安装每个软件的话,会很费时费精力。可以通过文中提供的shell脚本,执行一次脚本安装keras等…- 66
- 0
-
html table 转 Markdown表格 (python脚本实现)
如果有很多特殊符号不一定能处理好,需要自己调整下脚本语言 in.txt (浏览器 复制元素 内容而来) 1<table class="data-table"><tbody> 2 <tr> 3 <th>Name</th> 4 <th>Description</th> 5 <th>Typ…- 94
- 0
-
8 个 Python 实用脚本,建议收藏备用
脚本写的好,下班下得早!程序员的日常工作除了编写程序代码,还不可避免地需要处理相关的测试和验证工作。 例如,访问某个网站一直不通,需要确定此地址是否可访问,服务器返回什么,进而确定问题在于什么。完成这个任务,如果一味希望采用编译型语言来编写这样的代码,实践中的时间和精力是不够的,这个时候就需要发挥脚本的神奇作用! 好不夸张的说,能否写出高效实用的脚本代码,直接影响着一个程序员的幸福生活[下班时…- 14
- 0
-
Python Django基础教程(一)(入门)
Django是比较流程的web框架之一。Django安装可以直接用pip安装即可。 环境Windows+py3.5版本+django 1.11 欢迎加入学习交流QQ群:657341423 (CMD下创建) 项目创建:E:\Djtest> django-admin.py startproject Djtest Djtest自定义项目名称。 在e盘文件夹Djtest创建文件为Djtest的项目 …- 8
- 0
-
php防止xss攻击
攻击过程 用户在输入框中输入脚本<script>alert(1)</script>。点击提交后保存数据库,在后台读取数据时候会弹出1。 解决方法 使用php函数 htmlentities(用户提交数据),这样会把数据转化成html实体在保存数据库。(全部转换) 局部过滤: 1: 2:html…- 4
- 0
-
利用CSS、JavaScript及Ajax实现图片预加载的三大方法
摘要:图片的加载速度往往影响着网站整体的用户体验,尤其对于包含大量图片的网站。对图片进行预加载,不失为一个高效的解决方案。如何实现预加载?本文将例举利用CSS、JavaScript及Ajax实现图片预加载的三大方法。 Perishable Press网站近日发表了一篇文章《3 Ways to PreloadImages with CSS, JavaScript, or Ajax 》,分享了利用 C…- 14
- 0
-
使用Rust开发操作系统(UEFI抽象文件系统)
在上一篇文章中我们介绍了rust在uefi中的基本使用,在本章中我们开始编写UEFI基础设施,主要包括File结构和uefi编译脚本用来简化内核文件读取和qemu启动过程 建立基础异常 在标准库中为我们提供了Result,但是在UEFI开发中将Result分成了2种,UEFI服务执行的Result和用户自定义的Result,在本节中我们仿照标准库的io::Result建立我们自己的Result 设…- 11
- 0
-
zabbix监控nginx(python脚本)
1 配置nginx的http_stub_status_module模块 编译nginx加上参数:–with-http_stub_status_module 配置nginx.conf: location /nginx-status { stub_status on; access_log off; allow 127.0.0.1; allow 10.24.xx.xx;#可以多个 deny all;#…- 19
- 0
-
apache bench+python脚本压测统计TPS和延迟
一、系统的瓶颈 压测的目的就是跑垮系统,达到系统承受最大值。本次压测考虑的方面: 1、CPU利用率、磁盘IO利用率 2、达到系统瓶颈后,再次增大并发和最大连接数吞吐量和延迟反而会下降 3、压测的机器选择,我是在服务器本机上跑的,这会使得压测程序占用一部分CPU,网络延迟几乎为0;而在笔记本上跑,网络延迟占很大部分。 二、python脚本 关于ab的参数分析在上一篇文章中介绍了,网上关于ab都是基于…- 33
- 0
-
Python 数据库备份脚本(邮件通知)
今天用Python写了一个数据库备份脚本,备份失败会用邮件的形式通知系统管理员,感觉还行,先凑和着用: #!/usr/bin/python #coding:utf-8 import subprocess import time import os import sys import sendEmail import getip mail_to_list = …- 15
- 0
-
IIS7配置PHP图解
IIS7配置PHP图解 IIS6整合PHP详解:http://zhidao.zgsj.com/article/8/2011118142648.shtml PHP5.2.17 官方下载: http://windows.php.net/downloads/releases/php-5.2.17-Win32-VC6-x86.zip PHP5.3.5 官方下载:http://windows.php.net…- 4
- 0
-
JavaScript—网络编程(4)-Date、Math、Global和自定义对象
本节博客进行Date对象、Math对象、Global对象和自定义对象的用法演示。 首先是一个out.js文件内容(输出到网页中的自定义输出方法): function println(parma){ document.write(parma+" "); } function print(parma){ document.write(parma); } Date 对象 启用基本存储…- 15
- 0
-
Rust语言开发基础(三)开发工具攻略
2019独角兽企业重金招聘Python工程师标准>>> 一、Subline Text 3 插件下载: Ctrl+Shift+P 调用命令面板,我们就会找到一些以“Package Control:”开头的命令,找到 Install Package (安装扩展),确定后出现命令行, 输入:Rust ,找到插件,确认安装 输入:RustAutoComplete,找到racer插件,确认…- 116
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!