Wednesday`s Blog

我是如何拿到澳洲北领地政府奖学金的

2026-04-07T10:30:00.000Z

1.0 澳洲北领地政府奖学金是什么

北领地政府为了资助从澳洲别的洲或者海外来北领地上学的学生而设立的奖学金。

简单来讲就是从北领地以外的地方来的学生都能够申请的奖学金，S1学期入学的会在当年的1月份左右开启申请，S2入学是6月份左右开启申请，具体时间可能会浮动（具体在https://grantsnt.nt.gov.au/welcome 搜索Study in Australia’s Northern Territory Scholarship就能看到）。

也是来CDU上学，每个人除了默认的30%学费减免；还能申请北领地奖学金和住宿奖学金(1000刀)，但是后两者不可兼得。北领地奖学金本科是$4200，研究生是$5200，这个是必须要申请的，就当挂彩票了，如果中了就起飞了。建议是提前准备申请材料，而且材料需要仔细准备一下。

1.1 要求是什么？

要求是以下几项：

尚未居住在北领地
计划来北领地上学
获得了500学签
获得了COE
限定时间内入学

这个要求基本来上学的都具备了，就是第一个条件容易被忽略，很多朋友到了北领地才想起来要申请，但是这就已经不符合第一个条件了。所以申请的话还是越早申请越好，越早申请个人是觉得概率越高，开学后还会在国际生迎新会上进行颁奖。

1.2 如何申请？

申请路径还是见：https://grantsnt.nt.gov.au/welcome 搜索Study in Australia’s Northern Territory Scholarship，如果开放了的话点进去就能填材料进行申请了。

申请需要哪些材料？

提交申请有两项个部分的内容需要准备：Student Details和Application Details

Student Details：这个部分就是填一些个人的信息，里面有一个很容易迷糊的地方。一个是要填手机号，但是这里只能填10位，但是大家如果还没来澳洲肯定没这边的手机号，其实这里不重要，把自己国内手机号去首位或者尾位填上去就行了，因为他们如果需要联系你是通过你的邮箱基本不会通过电话，所以邮箱没写错就行了。

Application Details：
这个部分就是主要的文书材料的环节了。
问题具体有以下几项：

为什么要把奖给你以及你为什么来北领地上学 – 写500字的说明
CoE，到达北领地的时间以及到达的证明 –上传机票或行程单证明文件证明自己到达达尔文的日期
需要两封支持信，支持为什么给奖给你 – 一封雇主支持信，一封学校老师支持信（如果没有雇主的话就写两封老师的）。
其他证明文件 – 主要是你文书里面提到的获得什么奖项的全部打包在这里

关于文书材料我根据自己申请成功的文书，整理了一份模板放这里供大家参考：https://pan.quark.cn/s/d7e39d7e06b3

vim tutor

2021-08-24T05:35:06.000Z

学习教程

官方tutor教程
Interactive Vim tutorial (openvim.com)
Learn VIM while playing a game - VIM Adventures

========= basic ==========
left : h
right : l
up : k
down : j
undo the previous motion: u
undo the previous motion of the line : U
undo undo : ctrl+R
word : w
end : e
insert : i
append : a
paste : p
replace a char ：r
replace a word : R
copy a word: yw  (paste is p!!)
copy some words : v+y
show the numbers of line : set number
to the line end : $
command prompt : ctrl + d  / tab
($ is means the end of the line)
(w is means word)
(e is means end) 
======== delete ========== d+motion
delete a char: x
delete to word : dw
delete to end : de
left delete : dj
right delete : dl
delete to line : d$
delete line : dd
======= number to execute =====
move to second word : 2w
move to second word end : 2e
to the end of the line : 0
delete 2 words : d2w
delete 2 lines : 2dd
======= the command of place =====
delete a line and paste it below the current line : dd + p
replace a word : r + word
change a word to the end of the word : cw/ce
change to the end of the row : c$
change to second word : c2w
======= location and file status =====
go to the first line : gg
go to the last line : G
show file status : ctrl+g
====== search command ==========
search word in order :  /+word (n:next one ;N:the previous one)
search word in reverse : ?+word
find matched brackets(查找匹配的括号) : %
replace word in this line : :/s/oldword/newword
replace word all : :/s/oldword/newword/g
replace word all and confirm everyone :  :/s/oldword/newword/gc
replace word between line1 and line3 : :1,3/oldword/newword/g
====== others =========
use external instruction in vim : :!+commad(eg: :!ls)
save file in another file : :w+filename(eg: :w test)
merge other file in this file : :r + filename(insert to now location)           
insert mode
insert line under the line : o
insert line upon the line : O

spark三种join方法对比及应用场景

2021-07-08T00:22:48.000Z

1 问题描述

前几天在跑一个程序的时候遇到了一个很诡异的事情，在dolphinSchedule上面上线了几天的一个程序突然挂掉了，查看问题原因总是报连接超时。无从下手，然后查看代码发现是同事写的代码有一个分区的bug，改掉了但是运行到程序的一个关联操作的地方还是连接超时，然后直接就死掉了。感觉很诡异，因为程序运行了几天没问题，说明代码可能是没问题的，然后计算的数据是一年的数据，猜想可能是数据量的变化出现的问题。

2 问题详情

2.1 报错信息

具体信息

Traceback (most recent call last):
  File "LineLossRate.py", line 237, in 
    dfjoin.show(5)
  File "/opt/cloudera/parcels/SPARK2-2.4.0.cloudera2-1.cdh5.13.3.p0.1041012/lib/spark2/python/lib/pyspark.zip/pyspark/sql/dataframe.py", line 378, in show
  File "/opt/cloudera/parcels/SPARK2-2.4.0.cloudera2-1.cdh5.13.3.p0.1041012/lib/spark2/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py", line 1257, in __call__
  File "/opt/cloudera/parcels/SPARK2-2.4.0.cloudera2-1.cdh5.13.3.p0.1041012/lib/spark2/python/lib/pyspark.zip/pyspark/sql/utils.py", line 63, in deco
  File "/opt/cloudera/parcels/SPARK2-2.4.0.cloudera2-1.cdh5.13.3.p0.1041012/lib/spark2/python/lib/py4j-0.10.7-src.zip/py4j/protocol.py", line 328, in get_return_value
py4j.protocol.Py4JJavaError: An error occurred while calling o409.showString.
: org.apache.spark.SparkException: Could not execute broadcast in 1800 secs. You can increase the timeout for broadcasts via spark.sql.broadcastTimeout or disable broadcast join by setting spark.sql.autoBroadcastJoinThreshold to -1
at org.apache.spark.sql.execution.exchange.BroadcastExchangeExec.doExecuteBroadcast(BroadcastExchangeExec.scala:150)
at org.apache.spark.sql.execution.InputAdapter.doExecuteBroadcast(WholeStageCodegenExec.scala:387)
at org.apache.spark.sql.execution.SparkPlan$$anonfun$executeBroadcast$1.apply(SparkPlan.scala:144)

在其他节点上显示有一些重复连接超时的警告：

21/07/02 19:13:42 WARN scheduler.TaskSetManager: Lost task 9.0 in stage 70.0 (TID 5771, cdh06.nari.com, executor 12): java.net.ConnectException: Connection timed out (Connection timed out)
at java.net.PlainSocketImpl.socketConnect(Native Method)
at java.net.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:350)
at java.net.AbstractPlainSocketImpl.connectToAddress(AbstractPlainSocketImpl.java:206)
at java.net.AbstractPlainSocketImpl.connect(AbstractPlainSocketImpl.java:188)
at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:392)
at java.net.Socket.connect(Socket.java:589)
at java.net.Socket.connect(Socket.java:538)
at java.net.Socket.(Socket.java:434)
at java.net.Socket.(Socket.java:244)
at org.apache.spark.api.python.PythonWorkerFact

2.2 报错代码

dfjoin=df365.join(resDf3,on=["xx"]).\
    withColumn("xx",F.lit(dateMyes)). \
    withColumn("xx", F.expr("cast(`xx` as string)")).join(tg_id,on=["xx"]).\
    withColumnRenamed("xx","xx").\
    select("xx","xx","xx""xx""xx""xx""xx").persist()

dfjoin.show(5)
dfjoin.coalesce(128).write.mode("append").partitionBy("XXX").format("parquet").saveAsTable("tableName")

3 问题刨析

从报错的信息中基本可以定位问题出现在数据join的位置，但是其中的两个dataframe，resDf3和df365数据量都在十几万也并不是很大。但是从这句话中可以看出也是join的问题，建议我们关闭BroadcastJoin。然后大致可以清楚了，BroadcastJoin是关联一个大表和一个小表的方法，但是这里关联的两个表数据量基本相同，如果使用BroadcastJoin的话就可能导致广播时间过长而连接超时，初步猜想问题的原因就在于此。

1	You can increase the timeout for broadcasts via spark.sql.broadcastTimeout or disable broadcast join by setting spark.sql.autoBroadcastJoinThreshold to -1

于是添加了spark.sql.autoBroadcastJoinThreshold参数为-1，程序正常运行，问题解决。

4 扩展延伸：spark的三种join方式

文章参考链接：SparkSQL – 有必要坐下来聊聊Join – 有态度的HBase/Spark/BigData (hbasefly.com)

这里是对该文章内的信息转载并做一个简要的摘录：

当前SparkSQL支持三种Join算法－shuffle hash join、broadcast hash join以及sort merge join。其中前两者归根到底都属于hash join，只不过在hash join之前需要先shuffle还是先broadcast。

方法	所属类别	使用场景
shuffle hash join	hash join	一张大表join一张小表
broadcast hash join	hash join	一张大表join一张极小表
sort merge join	merge join	两张大表join

4.1 Hash Join

先来看看这样一条SQL语句：select * from order,item where item.id = order.i_id，很简单一个Join节点，参与join的两张表是item和order，join key分别是item.id以及order.i_id。现在假设这个Join采用的是hash join算法，整个过程会经历三步：

确定Build Table以及Probe Table：这个概念比较重要，Build Table使用join key构建Hash Table，而Probe Table使用join key进行探测，探测成功就可以join在一起。通常情况下，小表会作为Build Table，大表作为Probe Table。此事例中item为Build Table，order为Probe Table。
构建Hash Table：依次读取Build Table（item）的数据，对于每一行数据根据join key（item.id）进行hash，hash到对应的Bucket，生成hash table中的一条记录。数据缓存在内存中，如果内存放不下需要dump到外存。
探测：再依次扫描Probe Table（order）的数据，使用相同的hash函数映射Hash Table中的记录，映射成功之后再检查join条件（item.id = order.i_id），如果匹配成功就可以将两者join在一起

这里可能存在的疑问：
hash join性能如何？hash join基本都只扫描两表一次，可以认为o(a+b)
为什么Build Table选择小表？因为构建的Hash Table最好能全部加载在内存，效率最高；这也决定了hash join算法只适合至少一个小表的join场景，对于两个大表的join场景并不适用；

4.1.1 Broadcast Hash Join

Broadcast Hash Join一般分为两步：

broadcast阶段：将小表广播分发到大表所在的所有主机。广播算法可以有很多，最简单的是先发给driver，driver再统一分发给所有executor；要不就是基于bittorrete的p2p思路；
hash join阶段：在每个executor上执行单机版hash join，小表映射，大表试探

SparkSQL规定broadcast hash join执行的基本条件为被广播小表必须小于参数spark.sql.autoBroadcastJoinThreshold，默认为10M

4.1.2 Shuffle Hash Join

在大数据条件下如果一张表很小，执行join操作最优的选择无疑是broadcast hash join，效率最高。但是一旦小表数据量增大，广播所需内存、带宽等资源必然就会太大，broadcast hash join就不再是最优方案。此时可以按照join key进行分区，根据key相同必然分区相同的原理，就可以将大表join分而治之，划分为很多小表的join，充分利用集群资源并行化。如下图所示，shuffle hash join也可以分为两步：

shuffle阶段：分别将两个表按照join key进行分区，将相同join key的记录重分布到同一节点，两张表的数据会被重分布到集群中所有节点。这个过程称为shuffle
hash join阶段：每个分区节点上的数据单独执行单机hash join算法。

4.2 Sort-Merge Join

sort merge join 一般分为三个步骤：

shuffle阶段：将两张大表根据join key进行重新分区，两张表数据会分布到整个集群，以便分布式并行处理
sort阶段：对单个分区节点的两表数据，分别进行排序
merge阶段：对排好序的两张分区表数据执行join操作。join操作很简单，分别遍历两个有序序列，碰到相同join key就merge输出，否则取更小一边

5. 再次回到问题

从上面介绍的三种join的原理可以基本确定各自所对应的应用场景，这次遇到的问题就是由于spark默认使用了broadcast join方法，然后两个join的表的数据量基本相似，所以遇到了broadcast join乱广播导致程序超时的现象。所以手动禁止该方法解决了问题。

保险相关基础知识

2021-06-29T01:28:22.000Z

1. 保险

##1.1. 保险初步说明

###1.1.1 是什么

一种对财务进行风险管理的工具
对风险进行转移或者降低

1.1.2 基本作用

风险来临时，帮助家庭度过难关，避免家庭陷入经济困境；
明确资金归属权的问题，明确资金的流向；
帮助我们做长期储蓄，实现养老和子女教育的问题。

1.2. 医保

社保，就是社会保险，属于社会福利性质的保险。它由政府主办，个人或单位负责交钱，政府承担保险公司的角色，财政给予补贴，并承担最终的保险责任。社保一共有 5 个项目，分别是养老保险、医疗保险、生育保险、工伤保险和失业保险，其中医疗保险就是我们常说的医保。而医保又分为职工医疗保险和城镇居民医疗保险两种。

###1.2.1 医保的优点

医保门槛很低
广覆盖
价格实惠

1.2.2 医保的缺点

保障效果不足
受地域影响较大

1.3. 普通人常见的几种商业保险

1.3.1 医疗险

弥补医保的不足，解决可能出现的高额医疗费用问题

商业医疗险和社会医保之间的关系:两者关系的相互补充，而不是相互取代

1.3.2 重疾险

既能补充医疗费用，也能补偿因为大病导致的收入损失，贴补家用

重疾险是「给付型」的保险，和当时购买时签订合同的保额有关，和生病花费多少无关。简单讲，保额是多少钱，生病了就赔多少钱。（打个比方生病花了10w，但是保额是20w，仍然是可以赔付20w）

医疗险和重疾险组合，降低了理赔门槛，保障也更加全面，可以帮我们更好的对抗疾病风险

1.3.3 意外险

报销由意外带来的医疗，对意外导致的残疾和身故进行补偿；

意外风险是由外因导致的，比如交通事故、磕伤碰伤、摔伤烫伤等等。不同的事故，导致的结果也不一样，有的可能只是皮外伤，也有可能出现骨折、留下残疾，甚至失去生命。

与之对应，意外险的主要保障内容有三类：意外医疗、意外身故和意外伤残

1.3.4 寿险

补偿因身故导致的收入损失，避免家庭因经济支柱去世而陷入经济困难之中。

它是一种以「身故」为赔付标准的保险，既包括疾病身故，也包括意外身故。

寿险可以让我们活着的时候是一台印钞机，倒下也是一堆人民币

2. 商业保险具体介绍

从省保费的角度看，应该先买重疾险，因为越早买便宜得越多；从决策难度的角度看，应该先买意外险，因为保费最便宜。如果一定要排个顺序，那我会建议大家先买医疗险中的百万医疗险。

##2.1 百万医疗险

2.1.1 优点

用到可能性大，保额高，价格便宜，决策简单。

2.1.2 缺点

管大不管小（针对大病作用很大，但小病作用却很小）
续保不确定性大
无法补偿医疗费用之外的财务损失

2.1.3 总结

普通人选择医疗险的三个关键点：保额高、不限社保范围、价格能负担得起。
百万医疗险的优点：高保额，都在 100 万以上；不限社保，100% 赔付，自费药进口药都能报销；价格便宜，年轻人只要两三百元一年，性价比很高。
百万医疗险的不足：免赔额比较高；无法提供终身保障；无法补偿医疗费用意外的开销。
购买医疗险时，注意仔细阅读健康告知和免责条款。

2.2 重疾险

重疾险是给付型保险，而医疗险是补偿型保险。

**给付型，满足条件就给钱。只跟当初「保多少」有关，跟「治病花多少」**没关系

**补偿型，要看实际的花销，跟「保多少，花多少，花在哪儿了」**都有关系

2.2.1 优点

产品较稳定
达到理赔标准，一次性赔付一笔钱，不限制用途；
能够提供终身保障，不用担心保障中断；

2.2.2 缺点

相比百万医疗险，理赔门槛较高。
配置产品时，最好把百万医疗险和重疾险搭配起来，既能降低理赔门槛，也能加强特定高发重疾的保障。

2.3 重疾险的分类

按保障时间长短，分定期重疾和终身重疾；
按赔付次数，分为单次重疾和多次重疾；
按疾病，分为分组重疾和不分组重疾.

价格上：

不分组的多次重疾要比分组的多次重疾更贵；
多次重疾比单次重疾更贵；
终身的重疾险也要比定期的重疾险更贵。

2.3.1 如何选择适合自己的重疾险

2.3.1.1 第一步：确定预算

相对具有普适性的建议是：一个家庭，配置保障类产品的费用，也就是「重疾险 + 寿险 + 意外险 + 医疗险」这几类产品，每年的总保费占年收入的 5% 到 10% 是比较合理的，如果超过 10%，可能会影响日常生活的质量，缴费压力大一些；但如果低于 5%，保额、保障的全面性就势必受到影响。
而所有预算中，重疾险的保费会占到总预算的 70%-80%。

2.3.1.2 第二步：确定保额

考虑到目前的生活水平和医疗成本，重疾保额要达到 30-50 万，才会有明显的意义。如果是经济发达地区，收入和支出都较高、医疗费用水平也较高，保额目标做到 100 万以上也是合理的。
但是保额未必是一步到位的，可以后续根据自己能力逐渐补充提高。

####2.3.1.3 第三步：选择产品类型

在预算和保额的约束下，选择产品类型，实际上就是在保障责任的长度与深度之间做出取舍。长度也就是保障期限的长短，深度则是保障责任的多少，需要考虑的选择包含以下几项：
多次重疾还是单次重疾？
如果是多次重疾，分组还是不分组？
终身重疾还是定期重疾？
是否要包含身故责任？

2.3.1.4 第四步：选择具体产品

先把符合条件的产品的健康告知都认真地看一遍，需要智能核保的也都做一下得出核保结论，看哪些能保得上，哪些保不上，进一步缩小选择范围。
其次，看一些细节的区别，比如等待期的长短、中症和轻症的赔付比例、免责条款的范围、等等

两个细节地方：

第一是，轻症和中症。在大多数重疾险中，轻症、中症都是和重疾绑定在一起的，不需要额外选择；个别产品是分开的，需要自己选择。我个人的建议是，尽量把轻症、中症都加上，毕竟它们能降低重疾险的理赔门槛，从保障的角度来说，是相当实用的。
**另一个是保费豁免。**在规定的缴费期内，如果达到某些特定情况，比如轻症、中症、重疾、全残或者身故，后续保费就不用再交了，保险合同依然有效，这相当于给自己要交的保费又买了一份保险。如果豁免的对象是被保险人，就叫做被保人豁免；如果针对的是投保人，那就叫投保人豁免。

2.3.1.5 可选：自己做产品组合

如果单一产品满足不了我们的需求，或者在不同产品之间过于纠结难以选择，也可以做组合。

2.4 低价格高保障的意外险

2.4.0 是什么

在意外险中，「意外」二字有专门的定义，它指的是外来的、突发的、非本意的、非疾病的使身体受到伤害的客观事件，并且这个客观事件是导致被保险人受伤或身故的直接原因、以及单独原因

2.4.1 意外险的常见保障有哪些？

生活中的意外，按照严重程度的不同，导致的结果一般有 3 种：

直接身故；
造成伤残，比如失明、肢体缺失；
身体损伤，需要进行治疗。

与这 3 种情况相对应，意外险中最常见的保障责任也是3种，分别是意外身故责任、意外伤残责任和意外医疗责任。

2.4.1.1 意外身故责任

这是意外险中最基础、最常见的保障，比较简单，如果被保险人因意外身故，意外险就会一次性赔付保额。和重疾险一样，意外身故也是给付型的，如果有多款意外险，意外身故责任可以叠加理赔。

2.4.1.2 意外伤残责任

可以能提供完整分级的伤残保障，其他保险，要么不含伤残，要么只含比较严重的全残，覆盖范围都不如意外险。

根据《人身保险伤残评定标准》，意外伤残分为十级，以意外身故责任保额为基准，其中一级最重，可以赔付 100% 的保额，十级最轻，可以赔付 10% 的保额，中间每隔一级，赔付比例就相差 10%。

2.4.1.3 意外医疗责任

意外医疗，也是一种医疗险，报销就医产生的费用，只不过相比普通的医疗险，它只保意外伤害带来的费用，疾病引起的医疗是不理赔的。

2.4.2 意外险的常见分类

根据事故原因的不同，意外险又可以分为综合意外险和专项意外险，并且两者可以叠加理赔，并不冲突。

2.4.2.1 综合意外险

什么意外都能保的意外险，除了免责条款里的内容，不会特别限制意外的原因。

2.4.2.2 专项意外险

只针对某种特定类型的意外提供保障。

比如普通的综合意外险，自驾发生事故是在理赔范围内的。但公共交通意外险，只有乘坐飞机、轮船、汽车、火车等公共交通工具，才能享受意外保障；范围再窄些，航空意外险，只有乘坐民营航班，才能享受意外保障。

2.4.3 意外险的特点

保费低
杠杆高（低保费高赔付）
无等待期，即投即生效
无健康告知或少健康告知，相对十分宽松
根据职业存在风险分类，不同的职业选择不同的保险种类

2.5 寿险

寿险是指以「身故」为主要保障责任的保险，可以降低因被保险人去世而给家庭带来的财务缺口。分为终身寿险和定期寿险，终身寿险可以保障终身，什么时候都可以理赔。而定期寿险只保障一段时间，合同到期终止既不再理赔。前者适合普通家庭，后者适合高净值家庭。（一般定期寿险和终身寿险相差价格可达十倍左右）

2.5.1 特点

健康告知宽松，高保额，杠杆高，免责条款少

2.6 慧民保

当地政府和保险公司合作的另一种商业保险，价格便宜覆盖广，门槛低（低配版百万医疗险）

2.6.1 优点

投保年龄范围大
职业限制少
价格便宜
既往症可以赔
几乎无健康告知

2.6.2 缺点

免赔额高
保障范围/力度不够
可持续不确定
必须购买当地医保

2.6.3 适合谁

买不到百万医疗险
有既往症
追求全面保障

2.7 团体险

一种企业为员工购买的保险，并不像社保一样要求企业为员工强制购买。

对于个人来说只能作为个人保险的补充，并不能当作个人保险配置的主体。

保额可能不足并且该保险与企业相绑定。

2.8 相互宝

个人感觉就像是非公类型的医保，每个人交钱放在一个池子里，然后生病了可以提交申请从里面拿出部分治疗费用。（一人生病众人分摊的概念）

优点：方便便宜，如果没有购买主体保险，可买入相护宝抵御部分风险。

缺点：依靠某些企业办理相护宝，可持续性存在隐患。并且丰富性较差，理赔纠纷仍存在灰色地带

美团吃到虫子并维权成功全记录

2021-05-25T01:32:24.000Z

美团吃到虫子并维权成功全记录

赔偿依据法律

“根据《食品安全法》第一百四十八条第二款的规定，“生产不符合食品安全标准的食品或者经营明知是不符合食品安全标准的食品，消费者除要求赔偿损失外，还可以向生产者或者经营者要求支付价款十倍或者损失三倍的赔偿金；增加赔偿的金额不足一千元的，为一千元。”

2021/5/23 17:47 事情发生

美团点外卖吃到虫子
发生时间：约2021年5月23日18点
店铺商家名称及地址：
- （美团）XXX大食堂
- 略
食品已拍照并已留存

##2021/5/23 17:56 尝试初步解决未果

和商家协商希望五倍赔偿，商家表示对索要赔偿表示吃惊，说只退款。关于赔偿的事情很轻蔑的表示让我去申请美团索赔。

但是在知乎上看了一些朋友和我遇到相同的问题但是在美团上申请了“放心吃”索赔，结果都是不太理想，为了避免不必要的麻烦遂决定绕过美团直接上12315，准备今晚先在12315app上提交投诉，然后明天打电话在投诉一遍。

网友推荐解决方法（当无法和商家协商赔偿时）

联系当地工商局一起去找商家。
拨打+当地区号拨打12315，或者下载12315APP进行投诉，个人觉得打电话可能会快点，周末好像打不通，需要工作日拨打

2021/5/23 19:04 因为明天要上班所以想今天解决于是尝试联系美团客服

网络人工客服排队99+，电话人工客服打了两次未接通人工客服。

于是选择等待app端的人工客服，大概等了十分钟终于有客服开始和我沟通了。

2021/5/23 19:33 和app端人工客服开始沟通

2021/5/23 19:40 客服沟通完表示退款并返10元红包，表示不接受。

客服让我稍等并咨询管理解决。

2021/5/23 19:44 客服表示给我一张30并且可提现的充值卡，表示拒绝

表示30也拒绝后客服提升到了50元，搁这跟我钓鱼呢

2021/5/23 19:46 客服表示给我一张50并且可提现的充值卡，表示拒绝。将转交专员客服处理，预计24小时解决

客服说我的问题需要提交到专员处理并一个工作日内回电，我表示明天如果不解决周二直接提到12315上。等待明天的解决方案。

2021/5/24 一天无事发生，未得到美团专员客服联系

2021/5/24 22:20 12315 APP进行投诉

投诉内容（详细时间，地点，事情经过，基本诉求）

本人于2021年5月23日17:12分在尚食客大食堂定了一份外卖（包含一份炒豆芽，一份鸡块和一份米饭），外卖于17:50分左右送达并打开准备食用，发现鸡块上粘着异物（初步判断为苍蝇），个人认为改商家“生产了不符合食品安全标准的食品”遂进行投诉：个人诉求为：希望商家对我的商品进行退款并对我支付价款十倍的赔偿金，商品订单实付价格为12.76元，但是由于使用了5元的会员红包且该红包为本人花钱购买，即总共实际付款为17.76，商家应退款17.76元并应赔偿177.6元。

2021/5/25 13:44 美团客服处理状态更新显示未打通我的电话，但是并未接到电话

2021/5/25 14:54 接到专员客服电话，客服表示已对该店铺进行监管并对我退款进行十倍支付款赔偿

本来算的实付款应该为17.76的，其中包含一张会员红包，但是这个会员红包是我花了3.3开的，所以一张会员券并不值什么钱，所以实付就算12.76算了。赔偿金额为127.6元。

2021/5/25 14:55 问题解决

2021/5/25 14:56 撤销12315投诉

Spark核心架构与RDD编程入门

2021-03-03T06:31:58.000Z

1 基础概念

1.1 核心组件

Driver

将用户程序转化成任务（job）
在Executor之间执行任务调度
跟踪Executor的执行情况
通过UI站视查询运行情况

Executor：

执行任务并返回给Driver
通过自身的Block Manager为用户程序中需要缓存的RDD提供内存式存储。RDD是直接存储在Executor中的进程内的，因此任务在运行时可以充分利用缓存数据加速运算。

Master

资源调度和分配，集群的监控

Worker

由Master分配任务并进行计算

ApplicantsMaster

对Driver与Master的直接通信进行解耦合，Driver通过ApplicantsMaster与Master进行通信，监控任务的执行等任务

1.2 核心概念

Executor和Core

Executor为提供计算的节点个数，Core为核数

并行度

整个集群并行执行任务的数量

1.3 其他相关

序列化（serialization）在计算机科学的资料处理中，是指将数据结构或对象状态转换成可取用格式（例如存成文件，存于缓冲，或经由网络中发送），以留待后续在相同或另一台计算机环境中，能恢复原先状态的过程。

2 RDD

RDD数据处理方式：类似IO流，包含装饰器设计模式。

通过每一个操作方法的输入与输出来确定数据的格式。

2.1 RDD的创建

//TODO 通过内存中创建
val ints: Seq[Int] = Seq(1, 2, 3, 4)
//val value: RDD[Int] = sc.parallelize(ints)
//makeRdd方法就是parallelize方法的包装
val value: RDD[Int] = sc.makeRDD(ints)

//TODO 通过文件创建rdd
//1. 通过文件路径创建
val value: RDD[String] = sc.textFile("datas/1.txt")
//2. 通过文件夹创建
//val value: RDD[String] = sc.textFile("datas.txt")
//3. 通过文件路径通配符创建
//val value: RDD[String] = sc.textFile("datas/1*.txt")
//4. 通过hdfs文件系统路径创建
//val value: RDD[String] = sc.textFile("hdfs://linux1:8080/tmp/file.txt")

2.1 RDD方法=>RDD算子

转换方法

功能的转换和封装，将旧的RDD包装成新的RDD(flatMap,map)

行动方法（操作方法）

触发任务的调度和作业的执行(collect)

惰性执行方法

2.1.1 RDD转换算子

2.1.1.1 Map

Map方法

scala> val rdd = sc.makeRDD(List(1,2,3))
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at makeRDD at :24
scala> rdd.map{(v)=>(v*2)}.collect()
scala> rdd.map((num:Int)=>{num*2}).collect()
scala> rdd.map((num:Int)=>(num*2)).collect()
scala> rdd.map((num:Int)=>num*2).collect()
# 最简单的方法
scala> rdd.map{_*2}.collect()
scala> rdd.map(_*2).collect()
res: Array[Int] = Array(2, 4, 6)

Map的并行计算顺序
- 单个分区内的数据是一个一个执行的，只有前面一个数据的所有逻辑都执行完才能进行下一个数据的执行逻辑，分区内数据的执行是有序的
- 而多个分区的数据计算是无序的

# 单个分区
val value: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4),**1**)
  val mapRDD: RDD[Int] = value.map(
    num => {
      println(">>>>>>>" + num)
      num
    }
  )
  val mapRDD1: RDD[Int] = mapRDD.map(
    num => {
      println("@@@@@@@@" + num)
      num
    }
  )
  mapRDD1.collect()
  # 输出结果
  >>>>>>>1
  @@@@@@@@1
  >>>>>>>2
  @@@@@@@@2
  >>>>>>>3
  @@@@@@@@3
  >>>>>>>4
  @@@@@@@@4
  # 多个分区
  val value: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4),2)
  。。。。。。。
  >>>>>>>3
  @@@@@@@@3
  >>>>>>>4
  @@@@@@@@4
  >>>>>>>1
  @@@@@@@@1
  >>>>>>>2
  @@@@@@@@2

2.1.1.2 MapPratitions

MapPratitions是对分区的数据进行操作

# 求分区的最大值
val value: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4),2)
# mapPartitions传入的是迭代器，传出的也是迭代器
   val value1: RDD[Int] = value.mapPartitions (
     iter => List(iter.max).iterator
   )
   value1.collect().foreach(println)
   # 输出
   2
   4

2.1.1.3 Map和Mappartitions的对比

map是对所有的数据串行进行操作，输入与输出个数相同

而mappartitions是分块对分区内的数据进行操作，输入与输出数据个书可以不同。

map速度慢，占用内存较少

mappartitions速度快，会长时间占用内存。

2.1.1.4 glom()方法

将同一个分区的数据直接转换为相同类型的内存数组进行处理，分区不变

2.1.1.5 groupby()

groupby方法会将数据打乱并重新组合，也称之为shuffle

分区数不变

2.1.1.6 coalsce(numPartitions=num；shuffle=boolen)

当大批量数据经过处理之后，需要缩小分区数可以使用coalsce()方法修改分区数。分区数修改后，分区内的数据不会被coalsce方法打散重新组合（并且同一个分区的数据也不会被分开）。

随意使用coalsce方法可能会产生数据倾斜，如果希望使数据均衡，可以使用shuffle（使shuffle=True）。

如果需要扩大分区的话使用repartition，它是coalsce的上层实现（coalsce(numPartitions=bignum；shuffle=True)）

2.1.1.7 groupByKey和reduceByKey的区别

groupByKey只分组，如果需要聚合需使用map
reduceByKey包含分组和聚合两个功能
如果只需要分组则只能使用groupByKey

groupByKey导致数据打乱重组，数据处理的时候存在shuffle操作，数据量大的话可能会导致数据倾斜然后内存溢出。

所以在spark中shuffle操作必须落盘处理（保存在硬盘中），不能在内存中进行等待。所以shuffle操作的性能十分低。

reduceByKey可以预先在分区内将相同key的数据进行聚合，然后进行落盘再shuffle。提升了很大的性能

而groupByKey只能先打乱所有的数据再落盘聚合。

2.1.1.8 foreach

foreach是在每个exector上执行的，而collect()算子是将所有的分区数据集合在一起在执行的

val rdd: RDD[Int] = sc.makeRDD(List(1,2,3,4),2)
// 收集后打印
rdd.map(num=>num).collect().foreach(println)
> 1 2 3 4
// 分布式打印
rdd.foreach(println)
> 3 4 1 2

2.1.1.9 宽依赖和窄依赖

宽依赖：父rdd对一个子rdd（一对一/独生子女)

窄依赖：父rdd对多个子rdd（一对多/多生子女）

2.1.2 闭包检查

闭包的理解：使用到了外部（超出其作用域）的变量的函数称为闭包。

从计算的角度算子以外的代码都是在driver端运行，算子里的代码都是在excutor里面运行，在scala编程中经常会遇到算子内会用到算子外的数据，这样就形成了闭包的效果。如果内部需要用到外部的数据，则需要检查内部的对象能否序列化，这样的过程称为闭包检测。（如果算子内部的对象可以进行序列化，则可以对外部引用数据进行序列化传给excutor端进行计算）

3 SparkSql

3.1 DataSet和DataFrame

强类型：DataSet（每一行的类型都可能不相同，当相同时就是DateFrame）

弱类型：DataFrame（每一行的类型都相同，由第一行标识出）

PySpark读取HBase数据训练预测模型实践

2021-03-01T00:58:59.000Z

0. 需求说明

需求是对变压器的负荷进行预测，每一个变压器当作一个独立的个体。需要训练的个体数过多，所以尝试使用pyspark进行训练。原始数据保存在hbase中，程序的整体设计流程为：从hbase中读取数据 –> 数据预处理 –> 使用pyspark训练模型并进行预测

1. 读取hbase

因为是在自己的本地windows进行测试，电脑内存较小就没上虚拟机了。

1.1 pyspark读取hbase需要配置相关包

将HBase的lib目录下的如下包复制到spark的目录下（因为放在其他目录中需要添加该目录的环境变量，所以为了省事就全部放在spark的默认jar目录中了，在spark启动的时候会全部加载进去，在http://127.0.0.1:4040/environment/最下面的**Resource**中可以查看到）

所有hbase开头的jar文件
guava-12.0.1.jar
htrace-core-3.1.0-incubating.jar
protobuf-java-2.5.0.jar
spark-example-1.6.0.jar（把hbase的数据转换python可读取的jar包）
metrics-core-2.2.0.jar

1.2 读取数据

# 在pyspark中打开
host = '172.16.221.102'
table = 'PSSC:HT_E_MP_CURVE_RELA'
conf = {"hbase.zookeeper.quorum": host, "hbase.mapreduce.inputtable": table}
keyConv = "org.apache.spark.examples.pythonconverters.ImmutableBytesWritableToStringConverter"
valueConv = "org.apache.spark.examples.pythonconverters.HBaseResultToStringConverter"
hbase_rdd = sc.newAPIHadoopRDD("org.apache.hadoop.hbase.mapreduce.TableInputFormat","org.apache.hadoop.hbase.io.ImmutableBytesWritable","org.apache.hadoop.hbase.client.Result",keyConverter=keyConv,valueConverter=valueConv,conf=conf)
count = hbase_rdd.count()
hbase_rdd.cache()
output = hbase_rdd.collect()
for (k, v) in output:
        print (k, v)

# 显示部分结果如下
{"qualifier" : "IC85", "timestamp" : "1614130918336", "columnFamily" : "C", "row" : "20201115", "type" : "Put", "value" : "0.0000"}
{"qualifier" : "IC86", "timestamp" : "1614130918336", "columnFamily" : "C", "row" : "20201115", "type" : "Put", "value" : "0.0000"}
{"qualifier" : "IC87", "timestamp" : "1614130918336", "columnFamily" : "C", "row" : "20201115", "type" : "Put", "value" : "0.0000"}
{"qualifier" : "IC88", "timestamp" : "1614130918336", "columnFamily" : "C", "row" : "20201115", "type" : "Put", "value" : "0.0000"}
{"qualifier" : "IC89", "timestamp" : "1614130918336", "columnFamily" : "C", "row" : "20201115", "type" : "Put", "value" : "0.0000"}

1.3 遇到问题

1.3.1 java.io.IOException: com.google.protobuf.ServiceException: java.lang.NoClassDefFoundError:

遇到问题要自己思考出现问题的原因是什么，以及找到问题的解决方法之后要思考底层是如何运行的，为什么这个方法能够解决这个问题。

问题复现：

# 包放好后启动报如下错误（第一部分）
An error occurred while calling z:org.apache.spark.api.python.PythonRDD.newAPIHadoopRDD.
: org.apache.hadoop.hbase.client.RetriesExhaustedException: Failed after attempts=32, exceptions:
Mon Mar 01 14:28:51 CST 2021, null, java.net.SocketTimeoutException: callTimeout=60000, callDuration=68422: row 'PSSC:HT_E_MP_CURVE_RELA,,00000000000000' on table 'hbase:meta' at region=hbase:meta,,1.1588230740, hostname=worker01,60020,1613617191977, seqNum=0
......
# 并且下面会有这样一句：（第二部分）
Caused by: java.io.IOException: com.google.protobuf.ServiceException: java.lang.NoClassDefFoundError: com/yammer/metrics/core/Gauge

解决：

在google了很多之后以上第一部分的问题之后，都是在说一些hosts映射的解决方法。但是我的hosts是没有问题的，启动之前就已经添加过主机名的映射了，未解决我的问题。

然后仔细将所有的报错提示从头到尾看了一遍，发现了上面第二部分的问题，然后在想是不是因为第二部分的问题导致了第一部分的错误，然后去网上搜该方法，显示”com/yammer/metrics/core/Gauge”是metrics-core-2.2.0.jar包里面的方法，然后在hbase的lib文件夹下面找到了该包，于是导入后遂解决了问题。

1.3.2 pyspark默认版本的问题

Exception: Python in worker has different version 3.5 than that in driver 3.6, PySpark cannot run with different minor versions.Please check environment variables PYSPARK_PYTHON and PYSPARK_DRIVER_PYTHON are correctly set.

问题解析：
因为自己的的电脑上有三个版本的python（3.5/3.6/3.8），出现这个问题是因为环境变量冲突，默认的环境变量是anaconda的3.5，然后在pycharm中使用的python版本为3.6，所以产生了冲突。只需要在spark的配置文件中指定某一环境变量即可

解决方法：

# 在spark-3.0.2-bin-hadoop3.2\conf\spark-env.sh中添加环境变量
# 如果不存在的话将spark-env.sh.template修改为spark-env.sh并添加
export PYSPARK_PYTHON=D:\Anaconda3\envs\python36
export PYSPARK_DRIVER_PYTHON=D:\Anaconda3\envs\python36
export SPARK_HOME=D:\spark-3.0.2-bin-hadoop3.2

##2. 大批量跑模型

Python实用特性：线程池与装饰器详解

2021-01-18T05:27:47.000Z

1.线程池ThreadPoolExecutor

https://www.jianshu.com/p/120b61aa4cee

2. 装饰器

装饰器本质上是一个 Python 函数或类，它可以让其他函数或类在不需要做任何代码修改的前提下增加额外功能，装饰器的返回值也是一个函数/类对象。它经常用于有切面需求的场景，比如：插入日志、性能测试、事务处理、缓存、权限校验等场景，装饰器是解决这类问题的绝佳设计。有了装饰器，我们就可以抽离出大量与函数功能本身无关的雷同代码到装饰器中并继续重用。概括的讲，装饰器的作用就是为已经存在的对象添加额外的功能。
先来看一个简单例子，如果你要对多个函数进行统计运行时间，不使用装饰器会是这样的：

from time import time, sleep

def fun_one():
    start = time()
    sleep(1)
    end = time()
    cost_time = end - start
    print("func one run time {}".format(cost_time))
    
def fun_two():
    start = time()
    sleep(1)
    end = time()
    cost_time = end - start
    print("func two run time {}".format(cost_time))

在每个函数里都需要获取开始时间start、结束时间end、计算耗费时间cost_time、加上一个输出语句。
使用装饰器的方法是这样的

简单装饰器

def run_time(func):
    def wrapper():
        start = time()
        func()                  # **函数在这里运行**
        end = time()
        cost_time = end - start
        print("func three run time {}".format(cost_time))
    return wrapper

@run_time
def fun_one():
    sleep(1)
    
@run_time
def fun_two():
    sleep(1)

3.anconda升级python版本

先查看本地镜像源，清华镜像源从2019年已经停用了，建议使用中科大的镜像源
然后直接命令指定升级python版本即可，如果不升级镜像源的话可能报404或者下载速度慢

3.1 修改镜像源

先查看已经安装过的镜像源，cmd窗口执行命令：

1	conda config --show

查看配置项channels，如果显示带有tsinghua，则说明已安装过清华镜像。

channels:
- https://mirrors.tuna.tsinghua.edu.cn/tensorflow/linux/cpu/
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/

下一步，使用conda config --remove channels url地址删除清华镜像，如下命令删除第一个。然后，依次删除所有镜像源

1	conda config --remove channels https://mirrors.tuna.tsinghua.edu.cn/tensorflow/linux/cpu/

添加目前可用的中科大镜像源：

1	conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/free/

并设置搜索时显示通道地址：

1	conda config --set show_channel_urls yes

确认是否安装镜像源成功，执行conda config --show，找到channels值为如下：

1
2
3

channels:
  - https://mirrors.ustc.edu.cn/anaconda/pkgs/free/
  - defaults

3.2 升级python版本

打开Anaconda Prompt，
输入

1	conda create -n python36 python=3.6 anaconda

4.文件io

4.1 文件打开方式，r/w/a/+的说明

r只读，r+读写(覆盖写)，不创建
w新建只写，w+新建读写，二者都会将文件内容清零
w+与r+区别：
r+：可读可写，若文件不存在，报错；w+: 可读可写，若文件不存在，创建
a：附加写方式打开，不可读；
a+: 附加读写方式打开

#5. 代码规范性测试

pylint代码规范测试

6. fileinput 懒惰行迭代

只读取实际需要的文件部分

7. 编码规范

多次使用的常量使用全大写命名，并考虑设置为全局变量
创建单独的配置文件模块，保存一些配置的参数
简单配置或者使用configparser模块
在需要的时候使用日志记录（logging模块）

8.魔法方法理解

魔法方法是python内置方法，不需要主动调用，存在的目的是为了给python的解释器进行调用，几乎每个魔法方法都有一个对应的内置函数，或者运算符，当我们对这个对象使用这些函数或者运算符时就会调用类中的对应魔法方法，可以理解为重写内置函数

实际上, 当我们调用x = SomeClass()的时候调用,__init__并不是第一个执行的, __new__才是。所以准确来说,是__new__和__init__共同构成了”构造函数”.

new() 是一种负责创建类实例的静态方法，它无需使用 staticmethod 装饰器修饰，且该方法会优先 init() 初始化方法被调用

9.正则表达式

##9.1 match()和search()比较

m = re.match('foo', 'seafood') 
m.group()
>>> None    # 匹配失败

m = re.search('foo', 'seafood') 
m.group()
>>> 'foo' # 搜索成功， 但是之前匹配失败

match是从字符串的起始部分开始匹配模式，把字符串当作一个整体来匹配，而search表示字符串中任意位置出现符合匹配模式的字符串，都将其提取出来。
##9.2 中括号（[cr][23][dp][o2]）和或运算符（r2d2|c3po）的区别

[cr][23][dp][o2]
上述表示匹配由四个字符组成的类似‘ABCD’字符串，每一个字符匹配一个中括号内的两个字符中的一个
r2d2|c3po
上述表示匹配“r2d2”或“c3po”

##9.3 使用group()或groups()访问匹配组

pattern中每一个括号为一个匹配模式，返回的结果保存在group()中，而groups()可以查看所有的子组匹配结果（如果pattern中无括号分组模式则groups为空）。

m = re.match(‘(\w\w\w)-(\d\d\d)’, ‘abc-123’)
m.group() # 完整匹配
‘abc-123’
m.group(1) # 子组 1
‘abc’
m.group(2) # 子组 2
‘123’
m.groups() # 全部子组
(‘abc’, ‘123’)

9.4 findall和search方法的区别

findall()查询字符串中某个正则表达式模式全部的非重复出现情况，和search类似，但是findall总是返回一个列表，当匹配失败时列表为空；当匹配成功时返回所有成功的匹配部分。

9.5 sub()和subn()，表示替换

sub和subn基本一样，但是subn还返回了替换的次数。

10 python多线程与多进程

参考python进程池：multiprocessing.pool - jihite - 博客园 (cnblogs.com)

10.1 总结

i/o密集型任务用多线程，多任务计算使用多进程

10.2 使用进程池

10.2.1 样例

#coding: utf-8
import multiprocessing
import time

def func(msg):
    print "msg:", msg
    time.sleep(3)
    print "end"

if __name__ == "__main__":
    pool = multiprocessing.Pool(processes = 3)
    for i in xrange(4):
        msg = "hello %d" %(i)
        pool.apply_async(func, (msg, ))   #维持**同时**执行的进程总数为processes，当一个进程执行完毕后会添加新的进程进去（多通道）
   #pool.apply(func, (msg, )) # 而使用apply方法的时候是通道阻塞的，一次只有一个进程在运行，当一个进程执行完毕后再添加新的进程（单通道）
    print "Mark~ Mark~ Mark~~~~~~~~~~~~~~~~~~~~~~"
    pool.close()
    pool.join()   #调用join之前，先调用close函数，否则会出错。执行完close后不会有新的进程加入到pool,join函数等待所有子进程结束
    print "Sub-process(es) done."

10.2.2 结果：

apply_async方法，多通道

mMsg: hark~ Mark~ Mark~~~~~~~~~~~~~~~~~~~~~~ello 0
 
msg: hello 1
msg: hello 2
end
msg: hello 3
end
end
end
Sub-process(es) done.

apply方法，单通道

msg: hello 0
end
msg: hello 1
end
msg: hello 2
end
msg: hello 3
end
Mark~ Mark~ Mark~~~~~~~~~~~~~~~~~~~~~~
Sub-process(es) done.

11 python 集合set中 add与update的区别

集合set是一个无序不重复元素的集

set(['hello','hello','hi'])
# {'hello', 'hi'}
set('hello hello hi')
# {' ', 'e', 'h', 'i', 'l', 'o'}

set.add() 与set.update()的区别

myset1 = set()
myset1.add('hello')
#{'hello'}
myset1.update('world')
#{'d', 'hello', 'l', 'o', 'r', 'w'}

myset2 = set()
myset2.add('123')
myset2.update('123')
#{'1', '123', '2', '3'}

12. python离线环境迁移

12.1 依赖文件requirement.txt生成

# 在当前目录生成该目录下项目所需的所有依赖文件：注意生成包之后需要手动核对一下版本最好，会有部分版本生成错误的问题
pipreqs ./ --encoding=utf8
# 与pip freeze的区别
# freeze 是生成当前python环境的所有包

12.2 然后根据requirement.txt批量下载包文件

pip wheel --wheel-dir=.pip wheel --wheel-dir=./packages -r requirements.txt
# 最后一起迁移到离线环境中并进行安装
#在新服务器的site-packages目录下执行：
pip install --no-index --find-links=/xxx/xxx/packages -r /xxx/xxx/packages/requirements.txt

12.3 出现问题

使用pipreqs生成的requirement.txt无法完整安装所有的包

使用python -m pip freeze > req.txt生成依赖文件然后替换用该文件安装

13. collection方法详解

13.1 命名元组 namedtuple

使用namedtuple可以对元组中的每一个值进行命名

# 使用命名元组解析csv
from collections import *
import csv

EmployeeRecord = namedtuple('EmployeeRecord','name, age, title, department, paygrade')
for emp in map(EmployeeRecord._make,csv.reader(open("employee.csv","rb"))):
    print (emp.name,emp.title)

13.2 defaultdict

功能和dict差不多，区别是会对未存在的key值赋予一个默认值而不报异常

并且 defaultdict()的default_factory参数可以传入list，int，tuple等类型

>>> from collections import *
>>> >>> s = [('yellow',1),('blue',2),('yellow',3),('blue',4),('red',5)]
>>> d = defaultdict(list)
>>> for k,v in s: 
... d[k].append(v)
>>> d.items()
[('blue', [2, 4]), ('red', [5]), ('yellow', [1, 3])]

13.3 Counter

counter可以支持方便、快速的计数

>>> from collections import *

>>> cnt = Counter('aabbcc')
>>> cnt
Out[14]: Counter({'a': 2, 'b': 2, 'c': 2})

13.4 deque

deque是栈和队列的一种广义实现，deque是”double-end queue”的简称；deque支持线程安全、有效内存地以近似O(1)的性能在deque的两端插入和删除元素，尽管list也支持相似的操作，但是它主要在固定长度操作上的优化，从而在pop(0)和insert(0,v)（会改变数据的位置和大小）上有O(n)的时间复杂度。

>>> from collections import deque
>>> dq = deque(range(10), maxlen=10) 
>>> dq
deque([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=10)
# rotate 将循环队列向右移三次
>>> dq.rotate(3) 
>>> dq
deque([7, 8, 9, 0, 1, 2, 3, 4, 5, 6], maxlen=10)

————其他—————————

mysql/oracle

内连接是保证两个表中所有的行都要满足连接条件，而外连接则不然。在外连接中，某些不满条件的列也会显示出来，也就是说，只限制其中一个表的行，而不限制另一个表的行。分左连接、右连接、全连接三种。

Django/Flask
git

14 多线程，多进程，协程

程序是由多个进程组成的，然后每个进程可能有多个线程（线程更加底层）

而python由于GIL（全局解释器锁）的存在，使得多线程无法充分使用多核的优势

如果使用爬虫这种i/o密集型程序，多线程操作还是很明显的。

15 pandas操作

16 scrapy相关

17 restful api

遵循 REST 架构规范的应用编程接口

api：
客户端和服务器端信息的传递者

传输格式：
JSON（Javascript 对象表示法）、HTML、XLT、Python、PHP 或纯文本

python中方法及变量的下划线双下划线等含义

2020-12-23T07:02:35.000Z

#Python 下划线、双下划线

一般常见的下划线为以下几种：

前置单下划线：_var
后置单下划线：var_
前置双下划线：__var
前后双下划线：__var__
单下划线：_

###1. 前置单下划线变量和单下划线方法的区别：

前置单下划线表示在方法内部使用，单下划线变量可以从外部引用，而单下划线方法在使用通配符导入包时（from package import *）不可以，除非使用import package，然后使用”package._model”进行使用。

class Test:
    def __init__(self):
        self.foo = 11
        self._bar = 23
>>> t = Test()
>>> t.foo
11
>>> t._bar
23

# my_module.py：
def external_func():
    return 23
def _internal_func():
    return 42
>>> from my_module import *
>>> external_func()
23
>>> _internal_func()
NameError: "name '_internal_func' is not defined"

>>> import my_module
>>> my_module.external_func()
23
>>> my_module._internal_func()
42

2. 后置单下划线

当需要使用的最合适的变量名与关键字所重复，可以使用后置单下划线来绕过命名冲突

>>> def make_object(name, class):
SyntaxError: "invalid syntax"

>>> def make_object(name, class_):
... pass

3. 前置双下划线

前置双下划线会被解释器进行命名改写。这个例子先声明_MangledGlobal__mangled为全局变量，然后在名为MangledGlobal的类环境中访问变量。由于名称改写，类中的test()方法仅用__mangled就能引用_MangledGlobal__mangled全局变量。__mangled以双下划线开头，因此Python解释器自动将名称扩展为_MangledGlobal__mangled。这表明名称改写不专门与类属性绑定，而是能够应用于类环境中所有以双下划线开头的名称

_MangledGlobal__mangled = 23

class MangledGlobal:
    def test(self):
        return __mangled

>>> MangledGlobal().test()
23

###4. 单独单下划线

单下划线有时用作名称，来表示变量是临时的或无关紧要的

1
2
3

例如下面的循环中并不需要访问运行的索引，那么可以使用_来表示它只是一个临时值：
>>> for _ in range(32):
...     print('Hello, World.')

5.总结

前置单下划线_var：命名约定，用来表示该名称仅在内部使用。一般对Python解释器没有特殊含义（通配符导入除外），只能作为对程序员的提示。
后置单下划线var_：命名约定，用于避免与Python关键字发生命名冲突。
前置双下划线__var：在类环境中使用时会触发名称改写，对Python解释器有特殊含义。
前后双下划线__var__：表示由Python语言定义的特殊方法。在自定义的属性中要避免使用这种命名方式。
单下划线_：有时用作临时或无意义变量的名称（“不关心”）。此外还能表示Python REPL会话中上一个表达式的结果。

Flask之缓慢的http拒绝服务攻击漏洞解决

2020-11-06T01:32:24.000Z

1.什么是缓慢的http拒绝服务攻击漏洞

缓慢的http拒绝服务攻击是一种专门针对于Web的应用层拒绝服务攻击，攻击者操纵网络上的肉鸡，对目标Web服务器进行海量http request攻击，直到服务器带宽被打满，造成了拒绝服务。

慢速HTTP拒绝服务攻击经过不断的演变和发展，主要有三种攻击类型，分别是Slow headers、Slow body、Slow read。

slowloris：完整的http请求是以 \r\n\r\n 结尾，攻击时仅发送 \r\n，少发送一个 \r\n，服务器认为请求还未发完，就会一直等待直至超时
slow post：通过声明一个较大的content-length后，body缓慢发送，导致服务器一直等待
- slow read：向服务器发送一个正常合法的read请求，请求一个很大的文件，但把TCP滑动窗口设置得很小，服务器就会以滑动窗口的大小切割文件，然后发送，这时文件会长期存放在内存中，消耗资源

2. Flask应对措施

限制每次请求数据的大小
限制单个HTTP请求头的最大许可时间
限制单个ip请求数量
。。。。。。

#3. 使用slowhttptest测试漏洞

3.1 slowhttptest的安装

安装说明:https://github.com/shekyan/slowhttptest/wiki/InstallationAndUsage1

下载压缩包：https://github.com/shekyan/slowhttptest/releases
安装libssl-dev
$ yum install openssl openssl-devel
安装C++编译器
$ yum install gcc-c++
解压
$ tar -xzvf slowhttptest-x.x.tar.gz

编译安装

$ cd slowhttptest-x.x
$ ./configure --prefix=PREFIX
$ make
$ sudo make install

3.2 参数说明及使用测试

-g      在测试完成后，以时间戳为名生成一个CVS和HTML文件的统计数据
-H      SlowLoris模式
-B      Slow POST模式
-R      Range Header模式
-X      Slow Read模式
-c      number of connections 测试时建立的连接数
-d      HTTP proxy host:port  为所有连接指定代理
-e      HTTP proxy host:port  为探测连接指定代理
-i      seconds 在slowrois和Slow POST模式中，指定发送数据间的间隔。
-l      seconds 测试维持时间
-n      seconds 在Slow Read模式下，指定每次操作的时间间隔。
-o      file name 使用-g参数时，可以使用此参数指定输出文件名
-p      seconds 指定等待时间来确认DoS攻击已经成功
-r      connections per second 每秒连接个数
-s      bytes 声明Content-Length header的值
-t      HTTP verb 在请求时使用什么操作，默认GET
-u      URL  指定目标url
-v      level 日志等级（详细度）
-w      bytes slow read模式中指定tcp窗口范围下限
-x      bytes 在slowloris and Slow POST tests模式中，指定发送的最大数据长度
-y      bytes slow read模式中指定tcp窗口范围上限
-z      bytes 在每次的read()中，从buffer中读取数据量

3.2.1参考实例：

slowloris模式：

1	slowhttptest -c 1000 -H -g -o my_header_stats -i 10 -r 200 -t GET -u https://xxxxxx.xxxxx.xx -x 24 -p 3

slow post模式：

1	$ slowhttptest -c 3000 -B -g -o my_body_stats -i 110 -r 200 -s 8192 -t FAKEVERB -u http://xxx.xxx.xxx -x 10 -p 3

slow read模式：

1	$ slowhttptest -c 8000 -X -r 200 -w 512 -y 1024 -n 5 -z 32 -k 3 -u https://xxx.xxx.xxx -p 3

4.使用说明

以下是分别使用四种方式对自己的服务进行测试的结果，先开始不太懂每个曲线图的意义。这里说明一下，上面的参数可以设置连接数量以及持续请求时间等参数。然后下面展现的是曲线图，主要看在测试程序运行时间内Connected的数量是否被释放，是否通过服务的设置不符合条件的请求被服务端关闭，Service是否正常运行（服务是否存在被漏洞攻击程序给冲宕机了）。

##4.1 RANGE HEADERS

##4.2 SLOW HEADERS(SlowLoris)

##4.3 SLOW BODY(SLOW POST)

4.4 SLOW READ

熵权法计算权重

2020-10-15T05:00:06.000Z

1.熵权法说明

通过信息熵的大小判断某项数据在整体数据评测中所占的比重大小。

一般来说，若某个指标的信息熵Ej越小，表明指标值得变异程度越大，提供的信息量越多，在综合评价中所能起到的作用也越大，其权重也就越大。相反，某个指标的信息熵越大，表明指标值得变异程度越小，提供的信息量也越少，在综合评价中所起到的作用也越小，其权重也就越小

#2.计算步骤

2.1 数据标准化

假设给定了k个指标（类别）$X_1$,$X_2$，……，$X_i$={$x_1$,$x_2$,……},

假设对各指标数据标准化后的值为 : $Y_1$,$Y_2$….$Y_k$

则$X_{ij}$表示第$i$个指标下的第$j$个值

那么标准化的$Y_{ij}$ =$\frac{X_{ij}-min(X_{ij})}{max(X_i) - min(X_i)}$

2.2 计算各指标的信息熵

信息熵 $E_j = -\frac{1}{lnn}∑^n_{i=1}p_{ij}lnp_{ij}$

其中 $p_{ij} = \frac{Y_{ij}}{\stackrel{n}{\stackrel{∑{Y_{ij}}}{i=1}}}$

如果： $p_{ij}=0$

则：$\stackrel{lim}{p_{ij-0}} p_{ij}lnp_{ij}=0$

2.3 确定各指标权重

根据信息熵$E_j$的计算公式计算信息熵分别为$E_1,E_2,……E_k$

然后计算权重:

$W_i = \frac{1-E_i}{k-∑E_i}(i = 1,2,3….k)$

这里的分母$k-∑E_i$通过上面计算出所有的信息熵E之后为一个固定的常数。

2.4 根据权重打分

根据计算后：$X_1$,$X_2$，……，$X_i$={$x_1$,$x_2$,……}每一项指标分别对应的权重为$W_1,W_2,….W_i$

得到每个个体的得分计算为

$R_1 = X_{11}W_1+X_{21}W_2+….+X_{i1}W_i$

本地安装faceswap与一键使用google的colab搭建faceswap两种方式

2020-09-23T05:04:43.000Z

0. 摘要

因为本机安装过anaconda，python，tensorflow等环境，所以直接按照版本安装部分依赖即可。
后来发现谷歌的colab有免费的gpu可以白嫖，并且colab内置了tensorflow和图形计算框架，所以省去了搭建环境的烦恼。可以直接使用，也很方便。弊端就是不氪金每天能分配的gpu资源不定并且容易断联，session断开需要重新配置，不过图一乐还是可以的。

1. 本地手动安装

全程安装按照官方指南，见 https://github.com/deepfakes/faceswap/blob/master/INSTALL.md。

2. 问题记录

2.1 问题1

问题：import win32console # pylint: disable=import-errorImportError: DLL load failed while importing win32console: 找不到指定的模块
解决：进入“Anaconda3\Scripts”下找到“pywin32_postinstall.py”文件，并执行“python3 pywin32_postinstall.py -install”

2.2 问题2

问题：在使用pip一键安装requirements_base.txt及requirements_nvidia.txt中的依赖的时候速度慢，并且切换到anaconda的新建虚拟环境中windows下无法执行其中的git命令
解决：速度慢修改anaconda的镜像。git无法访问：手动下载git包并将“requirements_base”中的git相关命令注释掉（git慢的话修改git的代理端口）

2.3 问题3

问题：File “D:\faceswap\lib\gui\menu.py”, line 302, in _get_branchesretcode, stdout.decode(‘utf-8’).strip().replace(“\n”, “ - “)) UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xb2 in position 6: invalid start byte
解决：查看源码发现该句只是写入日志的内容，直接注掉，成功运行

2.4 问题4

问题：一直无法启动gpu进行运算，猜想是缺少插件CUDA toolkit（英伟达计算架构框架）和cudnn（英伟达架构算法）

证明猜想：

#测试tfGPU是否能够使用：
import tensorflow as tf
import os
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2' 
print('GPU', tf.test.is_gpu_available())
a = tf.constant(2.0)
b = tf.constant(4.0)
print(a + b)

#结果为如下表示可以使用gpu
GPU True
tf.Tensor(6.0, shape=(), dtype=float32)

#但是报错
“Could not load dynamic library 'cusparse64_10.dll'; dlerror: cusparse64_10.dll not found”等dll文件不存在

#需要安装CUDA和cudnn
CUDA：https://developer.nvidia.com/cuda-downloads 
CUDNN: https://developer.nvidia.com/cudnn

2.4.1 安装cuda和cudnn后查看gpu是否启动报错

问题：Could not load dynamic library 'cudnn64_7.dll'; dlerror: cudnn64_7.dll not found

解决方法：Copy \cuda\bin\cudnn64_7.dll to C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v9.0\bin.
Copy \cuda\ include\cudnn.h to C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v9.0\include.
Copy \cuda\lib\x64\cudnn.lib to C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v9.0\lib\x64

3. colab安装

参考：https://github.com/RakaMaru/Faceswap_Google_Colab_Master/blob/master/Faceswap_Google_Colab_Master.ipynb，因为colab的python版本问题又不想修改python版本，进行了部分修改。以下均在colab的笔记本中按顺序执行(前置需要配置一些文件的目录参考上述链接)

#@title Use this to check the assigned GPU
!cat /etc/os-release

def install_dependencies():
  !ln -sf /opt/bin/nvidia-smi /usr/bin/nvidia-smi;
  !pip install gputil;
  !pip install psutil;
  !pip install humanize;%%capture

def printm():
 GPUs = GPU.getGPUs()

 if len(GPUs) == 0:
  print("No GPU available.")
  return

 gpu = GPUs[0]
 process = psutil.Process(os.getpid())
 print("Gen RAM Free: " + humanize.naturalsize( psutil.virtual_memory().available ), " | Proc size: " + humanize.naturalsize( process.memory_info().rss))
 print("GPU RAM Free: {0:.0f}MB | Used: {1:.0f}MB | Util {2:3.0f}% | Total {3:.0f}MB".format(gpu.memoryFree, gpu.memoryUsed, gpu.memoryUtil*100, gpu.memoryTotal))

from IPython.utils import io
from google.colab import drive
import psutil
import humanize
import os
 
with io.capture_output() as captured:
  install_dependencies()
print("Dependencies installed.")

import GPUtil as GPU
printm()

#@title Set Time Zone
!rm /etc/localtime
!ln -s /usr/share/zoneinfo/HST /etc/localtime
!date

#above is for HST, you can find yours in
#/usr/share/zoneinfo

1	! rm -rf ./drive

#@title Mount Google Drive

from google.colab import drive
drive.mount('/content/drive', force_remount=True)

#@title Cleanup folders if needed

!rm -r face_a
!rm -r face_b

#@title Download training data
!cp "/content/drive/My Drive/colab_files/faceswap/faces/face_a.zip" .
!cp "/content/drive/My Drive/colab_files/faceswap/faces/face_b.zip" .

!unzip face_a.zip -d face_a
!unzip face_b.zip -d face_b

!rm face_a.zip
!rm face_b.zip

1 2	#@title Grab the latest Faceswap !git clone --single-branch --branch r1.0 https://github.com/deepfakes/faceswap.git

#@title Copy configuration files
!cp "/content/drive/My Drive/colab_files/faceswap/config/train.ini" faceswap/config/
!ls -lA faceswap/config/
!cat faceswap/config/train.ini

1
2
3

#@title 删除自带的tensorflow2.3安装1.15.0
! pip install tensorflow==1.15.0
! pip install gast==0.2.2

1
2
3

#@title Install Tensorflow
!pip install -r faceswap/requirements_nvidia.txt
#@ 这里会报错“ERROR: albumentations 0.1.12 has requirement imgaug<0.2.7,>=0.2.5, but you'll have imgaug 0.2.9 which is incompatible.”  但没关系

#@title 开始训练，参数根据需要修改
num_iterations = "100000"
save_every = "360"
save_model_every = "25000"
batch_num = "8"
num_gpus = "1"

trainer_type = "dlight"

model_dir = "/content/drive/My Drive/colab_files/faceswap/models/model"
alignments_file_a = "face_a/alignments.fsa"
alignments_file_b = "face_b/alignments.fsa"
timelapse_dir = "/content/drive/My Drive/colab_files/faceswap/output/timelapse"
#@title set variables end

!python3 faceswap/faceswap.py train \
  -A './face_a/faceA' -ala '{alignments_file_a}' \
  -B './face_b/faceB' -alb '{alignments_file_b}' \
  -m '{model_dir}' \
  -t '{trainer_type}' \
  -bs '{batch_num}' \
  -it '{num_iterations}' \
  -g '{num_gpus}' \
  -s '{save_every}' \
  -ss '{save_model_every}' \

#@title 查看结果：
Setting Faceswap backend to NVIDIA
09/26/2020 16:14:02 INFO     Log level set to: INFO
Using TensorFlow backend.
09/26/2020 16:14:04 INFO     Model A Directory: /content/face_a/faceA
09/26/2020 16:14:04 INFO     Model B Directory: /content/face_b/faceB
09/26/2020 16:14:04 INFO     Training data directory: /content/drive/My Drive/colab_files/faceswap/models/model
09/26/2020 16:14:04 INFO     ===================================================
09/26/2020 16:14:04 INFO       Starting
09/26/2020 16:14:04 INFO       Press 'ENTER' to save and quit
09/26/2020 16:14:04 INFO       Press 'S' to save model weights immediately
09/26/2020 16:14:04 INFO     ===================================================
09/26/2020 16:14:05 INFO     Loading data, this may take a while...
09/26/2020 16:14:05 INFO     Loading Model from Dlight plugin...
09/26/2020 16:14:05 INFO     Using configuration saved in state file
09/26/2020 16:14:10 INFO     Loaded model from disk: '/content/drive/My Drive/colab_files/faceswap/models/model'
09/26/2020 16:14:10 INFO     Loading Trainer from Original plugin...
09/26/2020 16:14:12 INFO     Enabled TensorBoard Logging
[16:14:27] [#04386] Loss A: 0.05719, Loss B: 0.05088
09/26/2020 16:14:32 INFO     [Saved models] - Average since last save: face_loss_A: 0.05719, face_loss_B: 0.05088
[16:19:42] [#04746] Loss A: 0.04279, Loss B: 0.03795
09/26/2020 16:19:46 INFO     [Saved models] - Average since last save: face_loss_A: 0.04535, face_loss_B: 0.04580
[16:25:01] [#05106] Loss A: 0.04427, Loss B: 0.04492
09/26/2020 16:25:06 INFO     [Saved models] - Average since last save: face_loss_A: 0.04406, face_loss_B: 0.04483
[16:25:19] [#05120] Loss A: 0.04438, Loss B: 0.03987

3.1 总结

根据官方指导上面的损失函数lossA和lossB分别训练到0.02和0.01就基本差不多了，最后把训练的模型下载到本地上，然后跑一下就行了。虽然是在云端训练的，但是本地似乎还是需要安装相关的环境，因为模型下载下来了本地使用还是需要环境。

云端的好处就是不用占用本机的内存什么的，还有gpu用方便很多速度也蛮快的。

PyQt5入门：为Python小工具开发GUI界面

2020-09-17T07:43:07.000Z

1. pyqt5及qtdesigner的安装

1.1 安装

安装步骤网上一堆自行谷歌

1.2 使用pyqt5生成ui文件后无法转py，报错

错误如下:

Fatal error in launcher: Unable to create process using ‘“‘

原因：

执行语句错误，完整应为
“python -m PyQt5.uic.pyuic untitled.ui -o untitled.py”

注意在pycharm中的tools中的pyuic的settings—External Tools—(External Tools)Pyuic内Tools settings设置的正确，正确如下

1
2
3

Program: D:\Anaconda3\envs\python36\python.exe
Arguments: -m PyQt5.uic.pyuic $FileName$ -o $FileNameWithoutExtension$.py
Working directory: $FileDir$

2. 使用

功能比较简单，就是一个根据时间和工作日/休息日的不同计算出差补助。

主要是因为之前没用过pyqt5，所以突发奇想尝试一下，发现也是蛮简单的。

# -*- coding: utf-8 -*-

# Form implementation generated from reading ui file 'untitled.ui'
#
# Created by: PyQt5 UI code generator 5.15.0
#
# WARNING: Any manual changes made to this file will be lost when pyuic5 is
# run again.  Do not edit this file unless you know what you are doing.

from PyQt5.QtWidgets import *
from PyQt5 import QtCore, QtWidgets
from datetime import datetime
import datetime as datetime0
# 添加这一行可以在程序捕获异常的时候pyqt不崩溃
import cgitb
cgitb.enable( format = 'text')

class Ui_Form(object):
    def setupUi(self, Form):
        Form.setObjectName("Form")
        Form.resize(586, 401)
        self.textEdit = QtWidgets.QTextEdit(Form)
        self.textEdit.setGeometry(QtCore.QRect(130, 100, 141, 41))
        self.textEdit.setObjectName("textEdit")
        self.textEdit_2 = QtWidgets.QTextEdit(Form)
        self.textEdit_2.setGeometry(QtCore.QRect(420, 100, 121, 41))
        self.textEdit_2.setObjectName("textEdit_2")
        self.textEdit_4 = QtWidgets.QTextEdit(Form)
        self.textEdit_4.setGeometry(QtCore.QRect(420, 190, 121, 41))
        self.textEdit_4.setObjectName("textEdit_4")
        self.textEdit_5 = QtWidgets.QTextEdit(Form)
        self.textEdit_5.setGeometry(QtCore.QRect(210, 270, 281, 91))
        self.textEdit_5.setObjectName("textEdit_5")
        self.textEdit_5.setReadOnly(True)
        self.textEdit_6 = QtWidgets.QTextEdit(Form)
        self.textEdit_6.setGeometry(QtCore.QRect(130, 190, 141, 41))
        self.textEdit_6.setObjectName("textEdit_6")

        self.pushButton = QtWidgets.QPushButton(Form)
        self.pushButton.setGeometry(QtCore.QRect(110, 290, 61, 41))
        self.pushButton.setObjectName("pushButton")
        self.label = QtWidgets.QLabel(Form)
        self.label.setGeometry(QtCore.QRect(40, 100, 71, 31))
        self.label.setObjectName("label")
        self.label_2 = QtWidgets.QLabel(Form)
        self.label_2.setGeometry(QtCore.QRect(320, 100, 81, 31))
        self.label_2.setObjectName("label_2")
        self.label_3 = QtWidgets.QLabel(Form)
        self.label_3.setGeometry(QtCore.QRect(30, 190, 91, 31))
        self.label_3.setObjectName("label_3")
        self.label_4 = QtWidgets.QLabel(Form)
        self.label_4.setGeometry(QtCore.QRect(320, 200, 91, 16))
        self.label_4.setObjectName("label_4")
        self.label_5 = QtWidgets.QLabel(Form)
        self.label_5.setGeometry(QtCore.QRect(40, 40, 281, 41))
        self.label_5.setObjectName("label_5")

        self.retranslateUi(Form)
        QtCore.QMetaObject.connectSlotsByName(Form)
        Form.show()

    def retranslateUi(self, Form):
        _translate = QtCore.QCoreApplication.translate
        Form.setWindowTitle(_translate("Form", "Form"))
        self.textEdit.setHtml(_translate("Form",
                                         "\n"
                                         "\n"
                                         "
"))
        self.pushButton.setText(_translate("Form", "计算"))
        self.label.setText(_translate("Form", "起始时间："))
        self.label_2.setText(_translate("Form", "结束时间："))
        self.label_3.setText(_translate("Form", "工作日价格："))
        self.label_4.setText(_translate("Form", "休息日价格："))
        self.label_5.setText(_translate("Form", "时间输入格式：20200101"))
        self.textEdit_2.setHtml(_translate("Form",
                                           "\n"
                                           "\n"
                                           "
"))
        self.textEdit_4.setHtml(_translate("Form",
                                           "\n"
                                           "\n"
                                           "
"))
        self.textEdit_6.setHtml(_translate("Form",
                                           "\n"
                                           "\n"
                                           "
"))

        self.pushButton.clicked.connect(self.calc)

    def calc(self):

        try:
            startTime = self.textEdit.toPlainText()
            stopTime = self.textEdit_2.toPlainText()
            holiday_price = self.textEdit_4.toPlainText()
            workday_price = self.textEdit_6.toPlainText()
            # today = datetime.now().weekday() + 1
            工作日 = 0
            休息日 = 0
            begin = datetime0.date(int(startTime[0:4]), int(startTime[4:6]), int(startTime[6:8]))
            end = datetime0.date(int(stopTime[0:4]), int(stopTime[4:6]), int(stopTime[6:8]))
            for eachDay in range((end - begin).days + 1):
                eachDay = str(begin + datetime0.timedelta(days=eachDay)).split("-")

                week = datetime.strptime(eachDay[0] + eachDay[1] + eachDay[2], "%Y%m%d").weekday() + 1
                if week > 0 and week < 6:
                    工作日 += 1
                else:
                    休息日 += 1
            result = "一共有工作日{}天，休息日{}天\n".format(工作日, 休息日) +\
            "出差补贴一共为{}元".format(工作日 * int(workday_price) + 休息日 * int(holiday_price))
            self.textEdit_5.setText(result)
        except Exception :
            # 输入框制空并显示重新输入
            self.textEdit_5.setText("输入格式有误\n请检查并重新输入")
            # self.textEdit.setText()
            # self.textEdit_2.setText()
            # self.textEdit_5.setText()
            # self.textEdit_6.setText()


if __name__ == "__main__":
    import sys
    app = QApplication(sys.argv)
    widget = QWidget(None)
    ui = Ui_Form()
    ui.setupUi(widget)
    sys.exit(app.exec_())
    pass

neo4j集群安装步骤

2020-08-13T07:27:32.000Z

1. neo4j集群安装

文件说明：

neo4j-enterprise-3.4.18-unix.tar.gz为软件压缩包
如下其余的都是第三方包，后面只需要移动到后面指定的文件夹中即可

apoc-3.4.0.4-all.jar                hive-service-1.1.0-cdh5.15.2.jar
graph-algorithms-algo-3.4.12.7.jar  httpclient-4.2.5.jar
hive-exec-1.1.0-cdh5.15.2.jar       httpcore-4.2.5.jar
hive-jdbc-1.1.0-cdh5.15.2.jar       libfb303-0.9.3.jar
hive-metastore-1.1.0-cdh5.15.2.jar  libthrift-0.9.3.jar

说明
安装目录这里假设为根目录下面的opt文件夹/opt,具体视现场情况而定。配置集群方式可以通过先修改一份配置文件，然后将整个文件包发送到另外两个节点上。最后再修改neo4j的id即可。以下为此种安装方式的步骤

测试主机配置ip分别为：

xxx.xx.xxx.100/xxx.xx.xxx.102/xxx.xx.xxx.9，

对应的hostname分别为master/slave01/slave02，

对应的neo4j集群id分别为1/2/3
（具体视现场情况而定,neo4j集群id只是一个标识）

获取软件包之后然后在安装目录下直接解压缩，命令如下

1	tar -vxf neo4j-enterprise-3.4.18-unix.tar.gz

开启http页面服务外部访问

修改neo4j-enterprise-3.4.18/conf/neo4j.conf文件

删除

1	# dbms.connectors.default_listen_address=0.0.0.0

行前面的井号

1	# vim中打开文件然后输入“/+字符串”然后回车可以进行字符串搜索，使用n键调整上下匹配

配置ip地址及页面缓存大小

修改neo4j-enterprise-3.4.18/conf/neo4j.conf文件

# 修改文件中的不带井号行的数据为如下值

# Unique server id for this Neo4j instance
# can not be negative id and must be unique
ha.server_id=1 
# List of other known instances in this cluster
# Alternatively, use IP addresses:
ha.initial_hosts=xxx.xx.xxx.100:5001,xxx.xx.xxx.102:5001,xxx.xx.xxx.9:5001(这里根据实际id进行修改，端口默认不变)
# HA - High Availability
# SINGLE - Single mode, default.
dbms.mode=HA
# HTTP Connector
dbms.connector.http.enabled=true
dbms.connector.http.listen_address=:7474
# 设置堆内存和页面缓存大小
dbms.memory.heap.initial_size=10g
dbms.memory.heap.max_size=10g
dbms.memory.pagecache.size=10g

将第0步里面所述的所有第三方包放到/opt/neo4j-enterprise-3.4.18/plugins目录下
将整个neo4j文件夹opt/neo4j-enterprise-3.4.18复制到要安装的从节点对应的目录下

1 2	scp -r ./opt/neo4j-enterprise-3.4.18/ root@xxx.xx.xxx.102:/opt/ scp -r ./opt/neo4j-enterprise-3.4.18/ root@xxx.xx.xxx.9:/opt/

修改从节点的neo4jID

修改从节点的neo4j-enterprise-3.4.18/conf/neo4j.conf文件
找到neo4j.conf文件中的如下部分，将两个从节点中的ha.server_id分别修改为2和3

1
2
3

# Unique server id for this Neo4j instance
# can not be negative id and must be unique
ha.server_id=1

然后分别启动三个集群，主从节点启动顺序不定，集群配置必须三个节点都启动服务才能启动成功。单独启动一个节点是无法启动成功的。

在/opt/neo4j-enterprise-3.4.18/bin目录下分别输入

start``` ，并等待数秒即可


> 重启和关闭的命令将上面的start改成restart或者stop即可


9. web客户端查看是否启动成功

客户端页面为“http://xxx.xx.xxx.100:7474/browser/”,
第一次登陆的时候会强制修改密码,
默认账号密码为:neo4j/neo4j。
点击页面上的System information框内的monitor键如下显示表示成功启动。
（id为1，2，3的节点状态都是alive）

Cluster
IdAliveAvailableIs Master
1truetrueyes
2truetrue-
3truetrue



# 2.启动可能遇到问题:

## 2.1  ERROR Failed to start Neo4j
>  ERROR Failed to start Neo4j: Starting Neo4j failed: Component 'org.neo4j.server.database.LifecycleManagingDatabase@1e141e42' was successfully initialized, but failed to start. Please see the attached cause exception "Conversation-response mapping:
>  {1/13#=ResponseFuture{conversationId='1/13#', initiatedByMessageType=join, response=null}}". Starting Neo4j failed: Component 

如上错误说明三台机器之间访问出现了问题，不能相互感知，不能加入集群，还需要增加下面配置

在neo4j-node1 neo4j.conf中添加

dbms.connectors.default_listen_address=xxx.xx.xxx.100
dbms.connector.bolt.enabled=true
dbms.connector.bolt.listen_address=:7687

在neo4j-node2 neo4j.conf中添加

dbms.connectors.default_listen_address=xxx.xx.xxx.102
dbms.connector.bolt.enabled=true
dbms.connector.bolt.listen_address=:7687

在neo4j-node3 neo4j.conf中添加

dbms.connectors.default_listen_address=xxx.xx.xxx.9
dbms.connector.bolt.enabled=true
dbms.connector.bolt.listen_address=:7687

1
2
3

然后三台集群分别启动即可，无启动顺序。等待启动完成查看neo4j状态或者看日志都可以看到启动已经成功。

## 2.2 Neo4j-shell 报错Connection refused

cd /etc/neo4j
vim neo4j.conf
去掉 #dbms.shell.enabled=true 前面的#

更改后重启neo4j即可

# 3. 部分需要脚本
**下面脚本都需要在文件解压后在“/opt/neo4j-enterprise-3.4.18/bin”（解压文件的bin目录下）目录下手动建立相关的文件**


## 3.1 清空库脚本
- 路径：
> /opt/neo4j-enterprise-3.4.18/bin/dropDataBase.sh

- 内容：

#!/bin/bash

Neo4j删除边和顶点的脚本

删除边

/opt/neo4j-enterprise-3.4.18/bin/cypher-shell “call apoc.periodic.iterate(‘match ()-[r]-() return r’,’delete r’,{batchsize:’100000’,iterateList:true,paraller:true,concurrency:8})”

删除点

/opt/neo4j-enterprise-3.4.18/bin/cypher-shell “call apoc.periodic.iterate(‘match (n) return n’,’delete n’,{batchsize:’100000’,iterateList:true,paraller:true,concurrency:8})”

- 说明：
> 该脚本为删库脚本，需要删库的时候**先执行删除边**脚本**再执行删除点**脚本

## 3.2 服务崩溃自动启动脚本
- 路径：
> /opt/neo4j-enterprise-3.4.18/bin/selfStartUp.sh

- 内容：

check_point(){
echo “端口检测”
netstat -tlpn grep “\b$1\b”
}
while true
do
if check_point 7474
then
echo “已存在”
else
echo “不在”
./neo4j start
fi
sleep 10m
done

- 说明：> 该脚本需要在**集群的三台机器上**常驻执行，neo4j安装后执行```nohup  selfStartUp.sh  & ```启动

机器学习基础笔记：线性回归与特征缩放

2020-05-20T01:44:56.000Z

0.概述

部分摘录

1. 线性回归

1.1 特征缩放（归一化）

1.1.1 Standardization

Standardization又称为 Z-score normalization，量化后的特征将服从标准正态分布：

z = （X_i-μ）/δ

其中， μ ， δ 分别为对应特征 x_i 的均值和标准差。量化后的特征将分布在 [−1,1] 区间

1.1.2 Min-Max Scaling

Min-Max Scaling 又称为 normalization，特征量化的公式为：

z = x_i−min(x_i) / max(x_i)−min(x_i)

量化后的特征将分布在[0,1]区间。

大多数机器学习算法中，会选择 Standardization 来进行特征缩放，但是，Min-Max Scaling 也并非会被弃置一地。在数字图像处理中，像素强度通常就会被量化到[0,1] 区间，在一般的神经网络算法中，也会要求特征被量化到 [0,1] 区间。

1.2 学习率的调节

1.2.1 梯度下降

批量梯度下降
随机梯度下降

1.2.2 正规方程

我们通过梯度下降法来求得J(θ) 的最小值，但是对于学习率α 的调节有时候使得我们非常恼火。为此，我们可通过正规方程来最小化 J(θ) ：

θ=(X^T^X)^−1^X^T^y

其中， X 为输入向量矩阵，第0 个特征表示偏置（x0=1）， y 为目标向量，仅从该表达式形式上看，我们也脱离了学习率α 的束缚。

1.3 欠拟合与过拟合

1.3.1 局部加权线性回归（LWR）

为了解决欠拟合和过拟合问题，引入了局部加权线性回归。

LWR 补充自机器学习实战一书，后续章节中我们知道，更一般地，我们使用正规化来解决过拟合问题。

2. 逻辑回归

逻辑回归就是解决分类问题，求决策边界

2.1 0/1 分类问题

简单的根据y值大小（类别）进行分类

2.2 逻辑回归

上一节我们知道，使用线性回归来处理 0/1 分类问题总是困难重重的，因此，人们定义了逻辑回归来完成 0/1 分类问题，逻辑一词也代表了是（1）和非（0）。

2.2.1 Sigmoid预测函数

在逻辑回归中，定义预测函数为：
h_θ(x)=g(z)

其中， z=θ^T^x 是分类边界（分类边界曲线/线），且g(z)=1 / 1+e^−z^

g(z) 称之为 Sigmoid Function，亦称 Logic Function

2.3 决策边界

决策边界，顾名思义，就是用来划清界限的边界，边界的形态可以不定，可以是点，可以是线，也可以是平面。Andrew Ng 在公开课中强调：“决策边界是预测函数 hθ(x) 的属性，而不是训练集属性”，这是因为能作出“划清”类间界限的只有h_θ(x) ，而训练集只是用来训练和调节参数的。

2.4 利用正规化解决过拟合问题

在之前的文章中，我们认识了过拟合问题,通常，我们有如下策略来解决过拟合问题：

减少特征数，显然这只是权宜之计，因为特征意味着信息，放弃特征也就等同于丢弃信息，要知道，特征的获取往往也是艰苦卓绝的。

不放弃特征，而是拉伸曲线使之更加平滑以解决过拟合问题，为了拉伸曲线，也就要弱化一些高阶项（曲线曲折的罪魁祸首）。由于高阶项中的特征 x 无法更改，因此特征是无法弱化的，我们能弱化的只有高阶项中的系数 θ_i 。我们把这种弱化称之为是对参数 θ 的惩罚（penalize）。Regularization（正规化）正是完成这样一种惩罚的“侩子手”

2.5 多分类问题

通常采用 One-vs-All，亦称 One-vs-the Rest 方法来实现多分类，其将多分类问题转化为了多次二分类问题。假定完成K个分类，One-vs-All 的执行过程如下：

轮流选中某一类型i，将其视为正样本，即 “1” 分类，剩下样本都看做是负样本，即 “0” 分类。
训练逻辑回归模型得到参数 θ^(1)^,θ^(2)^,…,θ^(K)^ ，即总共获得了K−1个决策边界。

给定输入x，为确定其分类，需要分别计算 h_θ^(k)^(x),k=1,…,K , h_θ^(k)^(x)越趋近于 1，x 越接近是第k类。

总结：ABC三类，将A当作一类，BC当作一类，得到决策边界h₁；然后将B当一类，AC当一类，得到决策边界h2，以此类推。然后将目标x_θ代入h₁,h₂,h₃中求解。哪个值越接近1，即为x₀的类别。

这里为什么条件是接近1：因为逻辑回归的归一化函数比如说上面的sigmod函数归一化的值区间为[0,1],如果h₃(x0)值为0.8表示x₀有0.8的概率为h3类别，并不是h₃(x₀)的值越大表示它的类别一定为h₃

3. 神经网络

3.1 再论 0/1 分类问题

在逻辑回归中，通过对特征进行多项式展开，可以让逻辑回归支持非线性的分类问题。
但是当数据的特征维度比较高的时候，多项式展开扩展后的特征个数是特别高的，对计算机的性能提出了很大的挑战。

比如说在计算机视觉（CV）领域，图像的特征往往都是高维的

因此，就需要考虑用新的机器学习模型来处理高维特征的非线性分类问题，神经网络是典型的不需要增加特征数目就能完成非线性分类问题的模型。

3.2 神经网络概述

3.2.1 卷积层

作用：提取图像特征

关于卷积核的选取

3.2.2 池化层

特征降维

3.2.3 全连接层

全连接的核心操作就是矩阵向量乘积：y=Wx

本质就是由一个特征空间线性变换到另一个特征空间。目标空间的任一维——也就是隐层的一个 cell——都认为会受到源空间的每一维的影响。不考虑严谨，可以说，目标向量是源向量的加权和。

在 CNN 中，全连接常出现在最后几层，用于对前面设计的特征做加权和。比如 mnist，前面的卷积和池化相当于做特征工程，后面的全连接相当于做特征加权。（卷积相当于全连接的有意弱化，按照局部视野的启发，把局部之外的弱影响直接抹为零影响；还做了一点强制，不同的局部所使用的参数居然一致。弱化使参数变少，节省计算量，又专攻局部不贪多求全；强制进一步减少参数。少即是多）

在 RNN 中，全连接用来把 embedding 空间拉到隐层空间，把隐层空间转回 label 空间等

4. 算法分析与优化

4.1 调优方法

在线性回归中，我们使用了如下的代价函数来评估预测误差：
J(θ)=1 / 2m（costFunction + 正则化表达式）

想要降低预测误差，即提高预测精度，我们往往会采用这些手段：

手段	优/劣
采集更多的样本	我们认为见多识广会让人变得聪明，但是也会让人变得优柔寡断，或者聪明反被聪明误。
降低特征维度	也许被降掉的维度会是非常有用的知识。
采集更多的特征	增加了计算负担，也可能导致过拟合。
进行高次多项式回归	可能造成过拟合。
调试正规化参数λ	这个调节策略缺乏指导，只能是猜测性调节。

4.2 数据集划分

训练集：70%
测试集：30%

在对数据集进行训练集和测试集的划分前，最好先对数据集进行乱序，防止类似样本聚到一起

4.2.1 交叉验证集

在多项式回归中,我们总是尝试不同的多项式次数（degree）,形成了不同的预测模型:

y1= θ₀X

y2 = θ₀X + θ₁X^2^

y3 = θ₀X + θ₁X^2^ + θ₂X^3^

假设y₃的测试误差最小，我们选取y₃中的θ作为模型的参数。
这时参数已经有了，如何评估模型的泛化能力呢？

这时就要使用交叉验证集对模型的泛化能力进行验证。通常情况下：

训练集：60%，确定参数 θ
交叉验证集：20%，进行模型选择。
测试集：20%，评价模型预测能力。

1
2
3

graph LR
使用训练集得到参数θ-->使用交叉验证集对模型泛化能力进行验证可能会修改超参数θ的值
使用交叉验证集对模型泛化能力进行验证可能会修改超参数θ的值--> 使用测试集评价模型预测能力

4.3偏差与方差

在机器学习中，偏差（bias）反映了模型无法描述数据规律，而方差（variance）反映了模型对训练集过度敏感，而丢失了数据规律，高偏差和高方差都会造成新数据到来时，模型给出错误的预测。

通过诊断（Diagnose）模型是出现了高偏差问题还是高方差问题，我们能对症下药，采取不同的解决策略

方法	使用场景
采集更多的样本	高方差
降低特征维度	高方差
采集更多的特征	高偏差
进行高次多项式回归	高偏差
降低参数 λ	高方差
增大参数 λ	高偏差

4.4 问题分析方法

对于机器学习问题，吴恩达给出了一些 tips：

在一开始，尽量不要将问题复杂化（不要提前优化），先快速实现一个简单算法，然后通过交叉验证集评估模型。这就好比在软件工程中，不会做提前优化，而是先迭代功能。
通过绘制学习曲线（learning curve），确定面临的问题是高偏差还是高方差，来决定是添加更多训练样本，还是添加更多特征。
甚至可以手动检查交叉验证集中误差较大的样本，确定错误的来源和解决策略。

4.4.1 举个例子

假定交叉验证集有 500 个样本，即 mcv=500mcv=500 ，我们的模型错分了其中 100 个样本，那么我们会通过下述手段进行错误分析：

需要知道哪些邮件被错分了，是假冒伪劣的推销邮件？医药邮件？还是钓鱼邮件？
需要知道提供什么线索（特征）能帮助模型区分出这些邮件？

例如，在这 100 个错分样本中，我们发现有 53 个样本是钓鱼邮件，因此，我们就需要考虑为模型注入识别的钓鱼邮件的能力。继续观察，我们发现，在这 53 封钓鱼邮件中，故意使用错误拼写的邮件有 5 封，来源可疑（发送人可疑）的邮件有 16 封，使用了大量煽动性标点符号的邮件有 32 封。因此，对于识别钓鱼邮件来说，我们更适合将煽动性标点符号添加为特征，而不用再考虑去识别错误拼写。

5. SVM

常用来处理多维度不规则分类问题

5.1 大间距分类器

SVM 是典型的大间距分类器：寻找一个直线（面）将数据分类，而这个线（面）到所有点的距离之和最大。

5.2 核函数

在逻辑回归中，我们会通过多项式扩展来处理非线性分类问题：
h₀(x)=θ₀+θ₁x₁+θ₂x₂+θ₃x₁x₂+θ₄x₁^2^+θ₅x₂^2^+⋯

假设我们令：

f₁=x₁,

f₂=x₂,

f₃=x₁x₂,

f₄=x₁^2^,

f₅=x₂^2^

则预测函数为：

h_θ(x)=θ₀+θ₁f₁+θ₂f₂+θ₃f₃+⋯

但多项式回归所带来的高阶项不一定作用明显，针对这一问题，SVM 不会引入高阶项来作为新的特征，而是会选择一些标记点（landmark），并将样本x与标记点l^(i)^的相似程度作为新的训练特征f_i（将f_i作为数据集的一个属性进行训练） ：

距离度量的方式就称之为核函数（Kernel），最常见的核函数是高斯核函数（Gaussian Kernel）

5.3 svm的使用说明

5.3.1 参数和核函数

使用这些库时，我们通常需要声明 SVM 需要的两个关键部分：

参数 C
由于 C 可以看做与正规化参数 λ 作用相反，则对于 C 的调节：
低偏差，高方差，即遇到了过拟合时：减小 C 值。
高偏差，低方差，即遇到了欠拟合时：增大 C 值。
核函数（Kernel）
而对于核函数的选择有这么一些 tips：
当特征维度n较高，而样本规模m较小时，不宜使用核函数，否则容易引起过拟合。
当特征维度n较低，而样本规模m足够大时，考虑使用高斯核函数。不过在使用高斯核函数前，需要进行特征缩放（feature scaling）。另外，当核函数的参数δ较大时，特征f_i 较为平缓，即各个样本的特征差异变小，此时会造成欠拟合（高偏差，低方差）：

5.3.2 分类模型的选择

目前，我们学到的分类模型有：

（1）逻辑回归
（2）神经网络；
（3）SVM。

怎么选择在这三者中做出选择呢？我们考虑特征维度n及样本规模m ：

如果n相对于m非常大，例如例如 n=10000,m∈(10,10000) :此时选用用逻辑回归或者无核的 SVM。
如果n较小，m适中，如 n∈(1,1000) ，而 m∈(10,10000) ：此时选用核函数为高斯核函数的 SVM。
如果n较小，m 较大，如 n∈(1,1000) ，而 m>50000 ：此时，需要创建更多的特征（比如通过多项式扩展），再使用逻辑回归或者无核的 SVM。

神经网络对于上述情形都有不错的适应性，但是计算性能上较慢。

6. k-means

聚类算法，其中的k为簇的种类数
簇中心的选取：遍历随机初始化选取
确定聚类数：肘部法则

6.1 二分k-means

常规的 K-Means 算法的误差通常只能收敛到局部最小，在此，引入一种称为二分 K-Means（bisecting kmeans）的算法，相较于常规的 K-Means，二分 K-Means 不急于一来就随机K个聚类中心，而是首先把所有点归为一个簇，然后将该簇一分为二。计算各个所得簇的失真函数（即误差），选择误差最大的簇再进行划分（即最大程度地减少误差），重复该过程直至达到期望的簇数目
虽然二分 K-Means 能带来全局最优解，但是我们也可以看到，该算法是一个贪心算法，因此计算量不小。

7. 特征降维

特征降维的一般手段就是将高维特征投影到低维空间

7.1 PCA（主成分分析）

PCA，Principle Component Analysis，即主成分分析法，是特征降维的最常用手段。顾名思义，PCA 能从冗余特征中提取主要成分，在不太损失模型质量的情况下，提升了模型训练速度

8. 异常检测

8.1 高斯分布模型

异常检测的核心就在于找到一个概率模型，帮助我们知道一个样本落入正常样本中的概率，从而帮助我们区分正常和异常样本。高斯分布（Gaussian Distribution）模型就是异常检测算法最常使用的概率分布模型。

9. 推荐系统

9.1 协同过滤

基于用户的协同过滤推荐(User-based Collaborative Filtering Recommendation)
基于用户的协同过滤推荐算法先使用统计技术寻找与目标用户有相同喜好的邻居，然后根据目标用户的邻居的喜好产生向目标用户的推荐。基本原理就是利用用户访问行为的相似性来互相推荐用户可能感兴趣的资源
基于项目的协同过滤推荐(Item-based Collaborative Filtering Recommendation)
根据所有用户对物品或者信息的评价，发现物品和物品之间的相似度，然后根据用户的历史偏好信息将类似的物品推荐给该用户
基于模型的协同过滤推荐(Model-based Collaborative Filtering Recommendation)

基模型的协同过滤推荐就是基于样本的用户喜好信息，训练一个推荐模型，然后根据实时的用户喜好的信息进行预测推荐

HBase基础

2020-05-11T05:03:36.000Z

1. HBase的存储形式

hbase的内部使用KeyValue的形式存储，其key是rowKey：family：column：logTime，value是其存储的内容。

其在region内大多以升序的形式排列，唯一的时logTime是以降序的形式进行排列。

所以，rowKey里越靠近左边的信息越容易被检索到。其设计时，要考虑把重要的信息放左边，不重要的信息放到右边。这样可以提高查询数据的速度。最重要的提高索引速度的就是设计合适的rowKey。

在做RowKey设计时，请先考虑业务是读比写多，还是读比写少，HBase本身是为写优化的，即便是这样，也可能会出现热点问题，而如果我们读比较多的话，除了考虑以上RowKey设计原则外，还可以考虑HBase的Coprocessor甚至elasticSearch结合的方法，无论哪种方式，都建议做实际业务场景下数据的压力测试以得到最优结果。

1.1 Hbase的存储结构

1.1.1 逻辑存储结构

-	-	列族：info	列族：area
行键	时间戳	name / age	country / city
Row1	t1	张三 / 11	中国 / 上海
Row2	t2	王二 / 20

在本图中，列簇（Column Family）对应的值就是 info 和 area ，列（ Column 或者称为 Qualifier ）对应的就是 name 、 age 、 country 和 city ，Row key 对应的就是 Row 1 和 Row 2，Cell 对应的就是具体的值。

Row key ：表的主键，按照字典序排序。
列簇：在 HBase 中，列簇将表进行横向切割。
列：属于某一个列簇，在 HBase 中可以进行动态的添加。
Cell : 是指具体的 Value 。
Version ：在这张图里面没有显示出来，这个是指版本号，用时间戳（TimeStamp ）来表示。

在 HBase 中的 KEY 组成是这样的：

Row key	CF（列簇）	cloumn	TimeStamp	value
row 1	info	name	t1	张三

KEY 的组成是以 Row key 、CF(Column Family) 、Column 和 TimeStamp 组成的。

TimeStamp 在 HBase 中充当的作用就是版本号，因为在 HBase 中有着数据多版本的特性，所以同一个 KEY 可以有多个版本的 Value 值（可以通过配置来设置多少个版本）。查询的话是默认取回最新版本的那条数据，但是也可以进行查询多个版本号的数据

1.1.2 Region Server 和 Region 的关系

Region Server	Region Server	Region Server	Region Server
RegionA	RegionA	RegionB	RegionB
CFA	CFB	CFC	CFD

一个 Region Server 就是一个机器节点(服务器)
一个 Region Server 包含着多个 Region
一个 Region 包含着多个列簇 (CF)
一个 Region Server 中可以有多张 Table，一张 Table 可以有多个 Region

1.1.3 Hbase读取数据的过程

Client 请求读取数据时，先转发到 ZK 集群，在 ZK 集群中寻找到相对应的 Region Server，再找到对应的 Region，先是查 MemStore，如果在 MemStore 中获取到数据，那么就会直接返回，否则就是再由 Region 找到对应的 Store File，从而查到具体的数据。

在整个架构中，HMaster 和 HRegion Server 可以是同一个节点上，可以有多个 HMaster 存在，但是只有一个 HMaster 在活跃。

在 Client 端会进行 rowkey-> HRegion 映射关系的缓存，降低下次寻址的压力。

1.2 HBase的存储机制

HBase是一个面向列的数据库，在表中它由行排序。表模式定义只能列族，也就是键值对。一个表有多个列族以及每一个列族可以有任意数量的列。后续列的值连续存储在磁盘上。表中的每个单元格值都具有时间戳。总之，在一个HBase：

表是行的集合。
行是列族的集合。
列族是列的集合。
列是键值对的集合。

这里的列式存储或者说面向列，其实说的是列族存储，HBase是根据列族来存储数据的。列族下面可以有非常多的列，列族在创建表的时候就必须指定。

2.HBase中建立分区（表）

2.1 为什么要建立分区表/分区表存在的意义是什么:

将大数据表的增加由无序变为有序

2.2 原理

在HBase中，每个表默认时都由一个Region存储原数据，但是若当数据慢慢增加时，就会将一个Region分裂成其他若干个不同的region。但是这种无序的分裂，会让后期的表扫描，表过滤操作很不方便（特别耗时）。正是着眼于未来表的改变，才有了为表创建分区的操作。
提前创建分区表为有序

图数据库nebula-graph的安装与集群部署

2020-04-16T05:43:04.000Z

1. nebula的安装

1.1 下载nebula的rpm包

bash $ wget https://nebula-graph.oss-cn-hangzhou.aliyuncs.com/package/1.0.0-rc2/nebula-1.0.0-rc2.el7-5.x86_64.rpm

# centos6的链接格式  
# package/${release_version}/nebula-${release_version}.el6-5.x86_64.rpm
# centos7的链接格式
# package/${release_version}/nebula-${release_version}.el7-5.x86_64.rpm

1.2 安装

1	$ sudo rpm -ivh nebula-2019.12.23-nightly.el6-5.x86_64.rpm

1.3 启动

1	$ sudo /usr/local/nebula/scripts/nebula.service start all

1.4 查看 Nebula Graph 服务

1	$ sudo /usr/local/nebula/scripts/nebula.service status all

1.5 连接 Nebula Graph 服务

1	$ sudo /usr/local/nebula/bin/nebula -u user -p password

1.6 停止 Nebula Graph 服务

1	$ sudo /usr/local/nebula/scripts/nebula.service stop all

2. 集群部署

2.1集群部署ip需要修改的步骤如下：

“nebula/etc/”文件夹里面的配置文件“nebula-metad.conf”里面的相关ip地址
本地“etc/hosts”里面的hostsip地址
“nebula/etc/nebula-graphd.conf”里面的hostname

1
2
3

etc/nebula-graphd.conf:26:--meta_server_addrs=ng1:45500
etc/nebula-graphd.conf:28:--local_ip=ng1
etc/nebula-graphd.conf:48:--ws_ip=ng1

添加节点服务器地址

# 以下几个文件中的地址都要添加节点地址，用逗号隔开
etc/nebula-storaged.conf:19:--meta_server_addrs=127.0.0.1:45500
etc/nebula-metad.conf:20:--meta_server_addrs=192.168.111.133:45500
etc/nebula-graphd.conf:26:--meta_server_addrs=ng2:45500

修改nebula的host文件

[root@ng2 scripts]# vi graph.hosts 
[root@ng2 scripts]# vi meta.hosts 
[root@ng2 scripts]# vi storage.hosts 
# 添加如下：
ng1
ng2

这个时候应该已经可以登陆了，如下，但是登录从节点每次都需要输入密码。为了方便，下一步需要手动设置ssh免密登录

[root@ng1 nebula]# ./jiqunRestart.sh 
Processing Meta Service ...
start ng1
The authenticity of host 'ng1 (::1)' can't be established.
ECDSA key fingerprint is SHA256:A1I43wcavqxvxEqTh2XYzqdYlXZZVbavUpmoQffE26Y.
ECDSA key fingerprint is MD5:5d:9c:99:d7:70:51:5f:f0:e5:c7:cc:0d:54:e5:b6:f9.
Are you sure you want to continue connecting (yes/no)? yes
Warning: Permanently added 'ng1' (ECDSA) to the list of known hosts.
root@ng1's password: 
start ng2
The authenticity of host 'ng2 (192.168.111.133)' can't be established.
ECDSA key fingerprint is SHA256:A1I43wcavqxvxEqTh2XYzqdYlXZZVbavUpmoQffE26Y.
ECDSA key fingerprint is MD5:5d:9c:99:d7:70:51:5f:f0:e5:c7:cc:0d:54:e5:b6:f9.
Are you sure you want to continue connecting (yes/no)? yes
Warning: Permanently added 'ng2,192.168.111.133' (ECDSA) to the list of known hosts.
root@ng2's password: 
Processing Storage Service ...
start ng1
root@ng1's password: 
start ng2
root@ng2's password: 
Processing Graph Service ...
start ng1
root@ng1's password: 
start ng2
root@ng2's password:

配置免密登录

因为nebula自身是没有从属关系的，这里把ng1当作Master节点，ng2当作slave节点

首先生成 Master 节点的公匙，在Master 节点的终端中执行（因为改过主机名，所以还需要删掉原有的再重新生成一次）：
cd ~/.ssh               # 如果没有该目录，先执行一次ssh localhost
rm ./id_rsa*            # 删除之前生成的公匙（如果有）
ssh-keygen -t rsa       # 一直按回车就可以

让Master节点需能无密码SSH 本机，在 Master节点上执行： 
cat ./id_rsa.pub >> ./authorized_keys

完成后可执行 ssh ng1 验证一下（可能需要输入 yes，成功后执行 exit 返回原来的终端）。接着在 Master 节点将上公匙传输到 ng2 节点：
scp ~/.ssh/id_rsa.pub leox@ng2:/home/hadoop/

接着在 ng2 节点上，将 ssh 公匙加入授权：
mkdir ~/.ssh       # 如果不存在该文件夹需先创建，若已存在则忽略
cat ~/id_rsa.pub >> ~/.ssh/authorized_keys
rm ~/id_rsa.pub    # 用完就可以删掉了

如果有其他 Slave 节点，也要执行将 Master公匙传输到 Slave节点、在 Slave 节点上加入授权这两步。
这样，在Master节点上就可以无密码 SSH 到各个 Slave节点了

配置成功后再次启动结果如下

[root@ng1 nebula]# ./jiqunRestart.sh 
Processing Meta Service ...
start ng1
start ng2
Processing Storage Service ...
start ng1
start ng2
Processing Graph Service ...
start ng1
start ng2
# 进入命令行
[root@ng1 nebula]# ./login.sh 
Welcome to Nebula Graph (Version 1.0.0-rc4)
(user@127.0.0.1:3699) [(none)]>

3.可视化安装

3.1 因为可视化组件需要使用docker安装，所以需要先安装docker

1 2	# 见docker官方安装文档： https://docs.docker.com/engine/install/centos/#install-using-the-repository

3.2 安装docker-compose

1	sudo curl -L "https://github.com/docker/compose/releases/download/1.25.5/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose

3.3 安装并启动 Nebula Graph Studio

在命令行中输入以下命令，下载 Nebula Graph Studio 安装包。

1	git clone https://github.com/vesoft-inc/nebula-web-docker

在命令行中，进入到安装文件夹 nebula-web-docker(当前放在根目录下面)。
输入 systemctl start docker 启动docker
输入 docker-compose pull && docker-compose up 启动 Nebula Graph Studio 服务。

Creating docker_importer_1 ... done
Creating docker_client_1   ... done
Creating docker_web_1      ... done
Creating docker_nginx_1    ... done

这一步可能会出现“ERROR: Couldn’t connect to Docker daemon at http+docker://localhost - is it running?
If it’s at a non-standard location, specify the URL with the DOCKER_HOST environment variable.的问题”，是因为需要给用户登录，直接su给root权限启动就可以了

启动成功，访问: http://0.0.0.0:7001（本机为192.168.111.135:7001）
配置数据库的相关信息

1
2
3

Host :192.168.111.135:3699
用户名:user
密码:password

4. 遇到问题及解决

0.1 某个服务无法启动，查看日志中发现”failed to set SO_REUSEPORT on async server socket Protocol not available”问题。

问题原因
使用的版本为centos6.5，内核版本是小于3.9
SO_REUSEPORT 在linux 3.9 及以上才支持的
解决方法

修改系统版本为centos7.5 内核版本为3.10即可解决

python打包程序移植到生产环境redhat出现的问题

2020-04-13T05:49:22.000Z

1.出现问题及解决

1.1 python打包访问oracle数据库无instantclient相关问题

1.1.1 问题1：cx_Oracle.DatabaseError: DPI-1047: 64-bit Oracle Client library cannot be loaded解决方法”

解决方法：本机安装instantclient，安装步骤如下(参考：http://www.360doc.com/content/12/1103/21/8827884_245559524.shtml)

第一步，先安装Oracle客户端，结合你的情况自己找合适的版本，我下载的是 oracle-instantclient11.2-basic-11.2.0.3.0-1.x86_64.rpm
下载地址为（http://www.oracle.com/technetwork/topics/linuxx86-64soft-092277.html）

1	rpm -ivh oracle-instantclient11.2-basic-11.2.0.3.0-1.x86_64.rpm

第二步，找出你的ORACLE_HOME，我安装之后在这里：/usr/lib/oracle/11.2/client64/lib/
第三步，下载oracle-instantclient11.2-sdk-11.2.0.1.0-1.x86_64.zip 下载地址。解压，把里面那个叫sdk的文件夹复制到 /usr/lib/oracle/11.2/client64/lib/
第四步，做一个软链：

1 2	$ cd /usr/lib/oracle/11.2/client64/lib/ $ ln -s libclntsh.so.11.1 libclntsh.so

第五步，安装cx_Oracle:

1
2
3

$ export ORACLE_HOME=/usr/lib/oracle/11.2/client64/lib
$ export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$ORACLE_HOME
$ easy_install cx_Oracle

试一下：

1 2	$ python $ import cx_Oracle

done.

不过还没配环境变量，一退再进去就不行了，在.bashrc里加入刚才安装之前的那两句：

$cd vim ~/.bashrc
export ORACLE_HOME=/usr/lib/oracle/11.2/client64/lib
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$ORACLE_HOME

source ~/.bashrc

1.1.2 问题2：上述问题解决后出现“cx_Oracle.DatabaseError: Error while trying to retrieve text for error ORA-01804”问题

解决方法（参考“https://blog.csdn.net/zklth/article/details/7184032）”：

1 2	注释掉 os.environ["LD_LIBRARY_PATH"] = '$LD_LIBRARY_PATH:$ORACLE_HOME:$ORACLE_HOME'

出现新问题 “cx_Oracle连接数据库错误ORA-21561: 生成 OID 失败”

解决方法:参考“https://www.rookiefly.cn/detail/161”

修改本机hostname名称，然后终于成功
cat /etc/hosts  
127.0.0.1   localhost redhat6
::1         localhost redhat6

1.1.3 问题3：数据库可以访问后出现 “from numpy.testing import nosetester ImportError: cannot import name ‘nosetester’”问题

问题原因：当前安装在python3.5.2的numpy版本和pandas版本冲突，修改版本
可用版本:

1 2	numpy (1.11.1) pandas (0.18.1)

1.1.4 问题4：打包报错“ File “sklearn/metrics/pairwise_fast.pyx”, line 1, in init sklearn.metrics.pairwise_fast ImportError: No module named ‘sklearn.utils._cython_blas’”

问题原因：打包的时候无法自动加入sklearn包，手动添加即可

解决方法：在main.spec中的hiddenimports属性中手动添加

1 2	hiddenimports=['cython', 'sklearn', 'sklearn.utils._cython_blas','sklearn.neighbors.typedefs', 'sklearn.neighbors.quad_tree','sklearn.tree','sklearn.tree._utils'],

1.1.5 问题5：打包后运行然后又报问题2，“cx_Oracle.DatabaseError: Error while trying to retrieve text for error ORA-01804”

问题原因：缺少相关的oracle包

解决方法: 在main.spec中添加：

a.binaries = a.binaries + [('libclntsh.so', '/usr/lib/oracle/11.2/client64/lib/libclntsh.so.11.1','BINARY')]
a.binaries = a.binaries + [('libnnz11.so', '/usr/lib/oracle/11.2/client64/lib/libnnz11.so','BINARY')]
a.binaries = a.binaries + [('libocci.so', '/usr/lib/oracle/11.2/client64/lib/libocci.so.11.1','BINARY')]
a.binaries = a.binaries + [('libociicus.so', '/usr/lib/oracle/11.2/client64/lib/libociicus.so','BINARY')]

1.1.6 问题6：添加上述包之后出现“Oracle returned an error. ORA-12737: Instant Client Light: unsupported server character set SIMPLIFIED CHINESE_CHINA.UTF8 ”

问题原因：见（https://thwack.solarwinds.com/t5/SAM-Discussions/Oracle-returned-an-error-ORA-12737-Instant-Client-Light/td-p/356034）
或https://www.cnblogs.com/chenjianhong/p/4144399.html

在Instant Client Light中，语言只能是美国语言，地区可以是任何受支持的地区，字符集可以是以下任意一项：

＆＃9632; 单字节

US7ASCII
WE8DEC
WE8MSWIN1252
WE8ISO8859P1
＆＃9632; 统一码

UTF8
AL16UTF16
AL32UTF8
指定除列出为客户端或服务器字符集的字符集或国家字符集以外的字符集或国家字符集，或者在客户端上以NLS_LANG设置语言时，将引发以下错误之一：

＆＃9632; ORA-12734
＆＃9632; ORA-12735
＆＃9632; ORA-12736
＆＃9632; ORA-12737

使用Instant Client Light，获得的错误消息仅是英文的。因此，NLS_LANG设置的有效值的类型为：American_territory.characterset ，其中，region可以是任何有效且受支持的领域，并且characterset可以

可以是前面列出的任何字符集。Instant Client Light可以与在OCI_UTF16模式下创建的OCI环境句柄一起使用。

解决方法：
修改文字编码：

1	将os.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_CHINA.UTF8' 修改为os.environ['NLS_LANG'] = 'AMERICAN_AMERICA.AL32UTF8'

2.最终打包成功样例

步骤0：下载oracle客户端驱动文件

instantclient-sdk-linux.x64-11.2.0.4.0_2
instantclient-basic-linux.x64-11.2.0.4.0
# basic中要包含libclntsh.so，libnnz11.so，libocci.so，libociicus.so这四个文件
# 如果没有从instantclient-basiclite-linux.x64-11.2.0.4.0包中找
# 官方下载链接“https://www.oracle.com/database/technologies/instant-client/downloads.html”

步骤1:添加依赖链接在main.spec中

main.spec： pyinstaller打包的说明文件，里面编写一些打包的时候手动添加的文件

# -*- mode: python ; coding: utf-8 -*-

block_cipher = None

a = Analysis(['main.py'],
             pathex=['/home/redhat/Desktop/monthPredict'],
             datas=[],
             hiddenimports=['cython',  'sklearn', 'sklearn.utils._cython_blas','sklearn.neighbors.typedefs',
             'sklearn.neighbors.quad_tree','sklearn.tree','sklearn.tree._utils'],
             hookspath=[],
             runtime_hooks=[],
             excludes=[],
             win_no_prefer_redirects=False,
             win_private_assemblies=False,
             cipher=block_cipher,
             noarchive=False)

a.binaries = a.binaries + [('libclntsh.so', '/usr/lib/oracle/11.2/client64/lib/libclntsh.so.11.1','BINARY')]
a.binaries = a.binaries + [('libnnz11.so', '/usr/lib/oracle/11.2/client64/lib/libnnz11.so','BINARY')]
a.binaries = a.binaries + [('libocci.so', '/usr/lib/oracle/11.2/client64/lib/libocci.so.11.1','BINARY')]
a.binaries = a.binaries + [('libociicus.so', '/usr/lib/oracle/11.2/client64/lib/libociicus.so','BINARY')]

pyz = PYZ(a.pure, a.zipped_data,
             cipher=block_cipher)
exe = EXE(pyz,
          a.scripts,
          a.binaries,
          a.zipfiles,
          a.datas,
          [],
          name='main',
          debug=False,
          bootloader_ignore_signals=False,
          strip=False,
          upx=True,
          upx_exclude=[],
          runtime_tmpdir=None,
          console=True )

步骤2：打包

1	使用 pyinstaller main.spec 命令打包

随机森林和梯度决策树（GBDT）

2020-03-27T05:43:24.000Z

概述

随机森林和GBDT部分对比

一：随机森林(bagging思想)

通过构建决策树然后进行分类，最后选择种类比较多的类别
随机：随机选取固定的样本和固定的特征
集成学习：投票选举（民主集中制）

二：GBDT(boosting思想)

GBDT是回归树不是分类树
核心在于累加所有树的结果最为最终结果
利用损失函数的负梯度去模拟残差，使用残差构建决策树
为什么使用梯度决策树而不是回归算法

1
2

> 回归算法寻找参数和目标值之间存在的某种曲线关系，但是当某些特征与目标值之间无线性关系可使用梯度决策树。
> 梯度决策树是讲特征拟化成数值分类回归最佳结果。

2.1 参数说明

class sklearn.ensemble.GradientBoostingRegressor(loss='ls', learning_rate=0.1, n_estimators=100, subsample=1.0, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_depth=3, init=None, random_state=None, max_features=None, alpha=0.9, verbose=0, max_leaf_nodes=None, warm_start=False, presort='auto')

n_estimators：指GBR使用的学习算法的数量。通常，如果你的设备性能更好，可以把n_estimators设置的更大，效果也会更好。
max_depth：应该在优化其他参数之前先调整max_depth参数。因为每个学习算法都是一颗决策树，max_depth决定了树生成的节点数。选择合适的节点数量可以更好的拟合数据，而更多的节点数可能造成拟合过度。
loss:loss参数决定损失函数，也直接影响误差。默认值为ls，表示最小二乘法（least squares）。还有最小绝对值差值，Huber损失和分位数损失（quantiles）等等。
learning_rate:学习率

2.1.1 参数调整

Grid Search来选择性能表现最好的超参数

https://zhuanlan.zhihu.com/p/55524425

在Gradient Boosting Regressor 模型中，有一些独立的参数最好是手动调整。

超参数主要使用了：

n_estimators=2000,
learning_rate=0.01,
max_depth=15,
max_features=’sqrt’,
min_samples_leaf=10,
min_samples_split=10,
loss=’ls’,
random_state =42)

2.2 负荷预测程序说明记录

1. 误差偏大的处理方法

误差偏大的原因：缺失值处理不当(0或空值设置为均值)

因为数据波动较大，设置为历史均值是否存在较大的参考价值。其次数据量教少直接删除也不太可取。尝试设置为近一年的均值进行测试。

从0开始学大数据笔记

2019-12-25T04:48:47.000Z

1.感想

融会贯通

2.1 章节摘录

2.1.1 07 | 为什么说MapReduce既是编程模型又是计算框架？

模型是人们对一类事物的概括与抽象，可以帮助我们更好地理解事物的本质，更方便地解决问题。比如，数学公式是我们对物理与数学规律的抽象，地图和沙盘是我们对地理空间的抽象，软件架构图是软件工程师对软件系统的抽象。

通过抽象，我们更容易把握事物的内在规律，而不是被纷繁复杂的事物表象所迷惑，更进一步深刻地认识这个世界。通过抽象，伽利略发现力是改变物体运动的原因，而不是使物体运动的原因，为全人类打开了现代科学的大门。

这些年，我自己认识了很多优秀的人，他们各有所长、各有特点，但是无一例外都有个共同的特征，就是对事物的洞察力。他们能够穿透事物的层层迷雾，直指问题的核心和要害，不会犹豫和迷茫，轻松出手就搞定了其他人看起来无比艰难的事情。有时候光是看他们做事就能感受到一种美感，让人意醉神迷。

这种洞察力就是来源于他们对事物的抽象能力，虽然我不知道这种能力缘何而来，但是见识了这种能力以后，我也非常渴望拥有对事物的抽象能力。所以在遇到问题的时候，我就会停下来思考：这个问题为什么会出现，它揭示出来背后的规律是什么，我应该如何做。甚至有时候会把这些优秀的人带入进思考：如果是戴老师、如果是潘大侠，他会如何看待、如何解决这个问题。通过这种不断地训练，虽然和那些最优秀的人相比还是有巨大的差距，但是仍然能够感受到自己的进步，这些小小的进步也会让自己产生大大的快乐，一种不荒废光阴、没有虚度此生的感觉。

我希望你也能够不断训练自己，遇到问题的时候，停下来思考一下：这些现象背后的规律是什么。有时候并不需要多么艰深的思考，仅仅就是停一下，就会让你察觉到以前不曾注意到的一些情况，进而发现事物的深层规律。这就是洞察力。

2.1.2 06 | 新技术层出不穷，HDFS依然是存储的王者

1.如何设计分布式文件系统
DataNode 负责文件数据的存储和读写操作，HDFS 将文件数据分割成若干数据块（Block），每个 DataNode 存储一部分数据块，这样文件就分布存储在整个 HDFS 服务器集群中.
NameNode 负责整个分布式文件系统的元数据（MetaData）管理，也就是文件路径名、数据块的 ID 以及存储位置等信息，相当于操作系统中文件分配表（FAT）的角色。

NameNode 负责整个分布式文件系统的元数据（MetaData）管理，也就是文件路径名、数据块的 ID 以及存储位置等信息，相当于操作系统中文件分配表（FAT）的角色

2.HDFS的高可用设计

数据存储故障容错
磁盘介质在存储过程中受环境或者老化影响，其存储的数据可能会出现错乱。HDFS 的应对措施是，对于存储在 DataNode 上的数据块，计算并存储校验和（CheckSum）。在读取数据的时候，重新计算读取出来的数据的校验和，如果校验不正确就抛出异常，应用程序捕获异常后就到其他 DataNode 上读取备份数据。
磁盘故障容错
如果 DataNode 监测到本机的某块磁盘损坏，就将该块磁盘上存储的所有 BlockID 报告给 NameNode，NameNode 检查这些数据块还在哪些 DataNode 上有备份，通知相应的 DataNode 服务器将对应的数据块复制到其他服务器上，以保证数据块的备份数满足要求。
DataNode 故障容错
DataNode 会通过心跳和 NameNode 保持通信，如果 DataNode 超时未发送心跳，NameNode 就会认为这个 DataNode 已经宕机失效，立即查找这个 DataNode 上存储的数据块有哪些，以及这些数据块还存储在哪些服务器上，随后通知这些服务器再复制一份数据块到其他服务器上，保证 HDFS 存储的数据块备份数符合用户设置的数目，即使再出现服务器宕机，也不会丢失数据。
NameNode 故障容错
NameNode 是整个 HDFS 的核心，记录着 HDFS 文件分配表信息，所有的文件路径和数据块存储信息都保存在 NameNode，如果 NameNode 故障，整个 HDFS 系统集群都无法使用；如果 NameNode 上记录的数据丢失，整个集群所有 DataNode 存储的数据也就没用了。

2.1.3 13 | 同样的本质，为何Spark可以更高效？

spark的计算阶段
MapReduce 一个应用一次只运行一个 map 和一个 reduce 不同，Spark 可以根据应用的复杂程度，分割成更多的计算阶段（stage），这些计算阶段组成一个有向无环图 DAG，Spark 任务调度器可以根据 DAG 的依赖关系执行计算阶段。

2.1.4 18 | 如何自己开发一个大数据SQL引擎？

如果只是作为学习者，被动接受总是困难的。但如果从开发者的视角看，很多东西就豁然开朗了，明白了原理，有时甚至不需要学习，顺着原理就可以推导出各种实现细节。

各种知识从表象上看，总是杂乱无章的，如果只是学习这些繁杂的知识点，固然自己的知识面是有限的，并且遇到问题的应变能力也很难提高。所以有些高手看起来似乎无所不知，不论谈论起什么技术，都能头头是道，其实并不是他们学习、掌握了所有技术，而是他们是在谈到这个问题的时候，才开始进行推导，并迅速得出结论。

我在 Intel 的时候，面试过一个交大的实习生，她大概只学过一点 MapReduce 的基本知识，我问她如何用 MapReduce 实现数据库的 join 操作，可以明显看出她没学习过这部分知识。她说：我想一下，然后盯着桌子看了两三秒的时间，就开始回答，基本跟 Hive 的实现机制一样。从她的回答就能看出这个女生就是一个高手，高手不一定要很资深、经验丰富，把握住了技术的核心本质，掌握了快速分析推导的能力，能够迅速将自己的知识技能推进到陌生的领域，就是高手。

2.1.4 23 | 大数据基准测试可以带来什么好处？

大数据测试工具：HiBeach
HiBench 内置了若干主要的大数据计算程序作为基准测试的负载（workload）。

2.1.5 24 | 从大数据性能测试工具Dew看如何快速开发大数据系统

1. Akka 原理与应用

Akka 使用一种叫 Actor 的编程模型，Actor 编程模型是和面向对象编程模型平行的一种编程模型。面向对象认为一切都是对象，对象之间通过消息传递，也就是方法调用实现复杂的功能。

而 Actor 编程模型认为一切都是 Actor，Actor 之间也是通过消息传递实现复杂的功能，但是这里的消息是真正意义上的消息。不同于面向对象编程时，方法调用是同步阻塞的，也就是被调用者在处理完成之前，调用者必须阻塞等待；给 Actor 发送消息不需要等待 Actor 处理，消息发送完就不用管了，也就是说，消息是异步的。

2. 主要原理

Akka 实现异步消息的主要原理是，Actor 之间的消息传输是通过一个收件箱 Mailbox 完成的，发送者 Actor 的消息发到接收者 Actor 的收件箱，接收者 Actor 一个接一个地串行从收件箱取消息调用自己的 receive 方法进行处理。如下图
https://static001.geekbang.org/resource/image/26/13/269b28c63c69444dd9dcb0c3124e0713.png

发送者通过调用一个 Actor 的引用 ActorRef 来发送消息，ActorRef 将消息放到 Actor 的 Mailbox 里就返回了，发送者不需要阻塞等待消息被处理，这是和传统的面向对象编程最大的不同，对象一定要等到被调用者返回结果才继续向下执行。

通过这种异步消息方式，Akka 也顺便实现了并发编程：消息同时异步发送给多个 Actor，这些 Actor 看起来就是在同时执行，即并发执行。

2.1.6 25 | 模块答疑：我能从大厂的大数据开发实践中学到什么？

1. 学习方法

学习一样新技术的时候，不会到处乱找资料，而是直接读原始论文。通过原始论文掌握核心设计原理以后，如果需要进一步学习，就去官网看官方文档；如果还需要再进一步参与开发，就去读源代码。

我刚开始读论文时感觉很费劲，但是后面习惯以后，发现读论文真的是最快的学习方法，因为最核心的东西就在其中，一旦看懂，就真的懂了，而且可以触类旁通，整个软件从使用到开发，很多细节通过脑补就可以猜个八九不离十。而且越是优秀的产品，越是厉害的作者，论文反而越是容易读懂，可能是因为这些作者是真的高手，自己理得越清楚，写出来的论文越是脉络清晰、结构合理、逻辑严谨。

2. 典型的互联网大数据平台的架构。

如图
https://static001.geekbang.org/resource/image/5f/1f/5f0515ad5740575ff79ac8c68990071f.png

2.1.7 35 | 如何利用大数据成为“增长黑客”？

1. AARRR 用户增长模型

关于用户增长有一个著名的 AARRR 模型，它描述了用户增长的 5 个关键环节，分别是：获取用户（Acquisition）、提高活跃度（Activation）、提高留存率（Retention）、获取收入（Revenue）和自传播（Refer）。
获取用户：通过各种推广手段，使产品触达用户并吸引用户，让用户访问我们的产品。

提高活跃度：用户访问我们的产品后，如果发现没意思、体验差，就很难再次打开，产品的价值也就无法实现。因此需要结合产品内容、运营活动各种手段吸引用户，提升产品的活跃度。

提高留存率：留住一个老用户的成本远低于获取一个新用户，而真正为产品带来营收利润的通常是老用户，因此需要提高留存率。提高留存率的常用手段有：针对老用户推出各种优惠和活动；建立会员等级体系，注册时间越长等级越高；对于一段时间没有访问的疑似流失用户进行消息短信推送以实现用户挽回等。

获取收入：做企业不是做慈善，开发、运营互联网产品的最终目的还是为了赚钱，即获取收入。互联网产品收入主要有用户付费和广告收入，有些互联网产品看起来是用户付费，但其实主要营收是广告收入，比如淘宝。
自传播：让用户利用利用自己的社交网络进行产品推广就是自传播，几乎所有的互联网产品都有“分享到”这样一个功能按钮，促进用户社交传播。有些产品还会利用“帮我砍价”“帮我抢票”等产品功能推动用户进行分享，实现产品的裂变式传播、病毒式营销。

2. 拼多多如何利用 AARRR 模型实现用户快速增长。

拼多多是近几年互联网产品中将自传播发挥到极致的一个产品。拼多多用户群体主要为三四线以下城市人群，社交成本比较低，愿意为了砍几块钱发动自己的各种社交资源，因此拼多多就利用“帮好友砍价”这一功能实现产品的快速裂变传播。事实上，拼多多非常准确地抓住了这一群体的社交痛点：交往不多的朋友，与其尬聊维持友谊，不如帮我砍价来的更实惠更亲密。

自传播也是拼多多主要获取用户的手段。比如帮好友砍价时，拼多多会提示“下载 App 可以帮好友砍更多价”，于是用户量呈指数级增长。
拼多多为了让新来的用户快速上手、增加活跃度，用户第一次使用拼多多的时候，并不需要注册登录，直接就可以挑选商品和购买，在后面订单环节再让用户注册，这时用户已经产生购买冲动，进行注册也更容易被接受。
拼多多通过各种消息推送促使用户打开 App（或者微信小程序），并在开屏页面的优惠信息给用户制造惊喜，达到留存用户的目的。

拼多多的主要交易模式为拼团，拼团属于冲动型购买，拼多多为了减少用户的思考时间、维持购买冲动，将购买路径设计得尽可能短，使用户可以尽快完成付费，企业获取收入。