-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathatom.xml
531 lines (411 loc) · 39.2 KB
/
atom.xml
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
<?xml version="1.0" encoding="utf-8"?>
<feed xmlns="http://www.w3.org/2005/Atom">
<title><![CDATA[Hamo's]]></title>
<link href="http://blog.hamobai.com/atom.xml" rel="self"/>
<link href="http://blog.hamobai.com/"/>
<updated>2014-09-13T18:37:36+08:00</updated>
<id>http://blog.hamobai.com/</id>
<author>
<name><![CDATA[Yang Bai]]></name>
<email><![CDATA[[email protected]]]></email>
</author>
<generator uri="http://octopress.org/">Octopress</generator>
<entry>
<title type="html"><![CDATA[Docker源码分析3-daemon启动(API)]]></title>
<link href="http://blog.hamobai.com/2014/09/12/docker-analysis-3/"/>
<updated>2014-09-12T17:30:00+08:00</updated>
<id>http://blog.hamobai.com/2014/09/12/docker-analysis-3</id>
<content type="html"><![CDATA[<p>在该系列的
<a href="http://blog.hamobai.com/2014/08/31/docker-analysis-2/">上一篇文章</a>中,
我们介绍了Docker daemon启动流程的前半部分,后半部分的代码会完成daemon
启动中最重要的两个步骤:</p>
<ul>
<li>Daemon结构的初始化</li>
<li>API的初始化</li>
</ul>
<p>在这篇文章中,我们将首先分析API初始化相关的代码,其利用Golang标准库
“net/http”生成一个RESTful的HTTP接口与client通信。</p>
<!--more-->
<p>上一篇文章中,我们介绍了Docker daemon能执行的动作都是封装在其engine之
中的,那么具体如何执行这些动作呢?这里就需要engine.Job接口。其代码位于
<code>$SRC/engine/job.go</code>。</p>
<p>job struct的定义如下:</p>
<figure class='code'><figcaption><span></span></figcaption><div class="highlight"><table><tr><td class="gutter"><pre class="line-numbers"><span class='line-number'>1</span>
<span class='line-number'>2</span>
<span class='line-number'>3</span>
<span class='line-number'>4</span>
<span class='line-number'>5</span>
<span class='line-number'>6</span>
<span class='line-number'>7</span>
<span class='line-number'>8</span>
<span class='line-number'>9</span>
<span class='line-number'>10</span>
<span class='line-number'>11</span>
<span class='line-number'>12</span>
</pre></td><td class='code'><pre><code class='go'><span class='line'><span class="kd">type</span> <span class="nx">Job</span> <span class="kd">struct</span> <span class="p">{</span>
</span><span class='line'> <span class="nx">Eng</span> <span class="o">*</span><span class="nx">Engine</span>
</span><span class='line'> <span class="nx">Name</span> <span class="kt">string</span>
</span><span class='line'> <span class="nx">Args</span> <span class="p">[]</span><span class="kt">string</span>
</span><span class='line'> <span class="nx">env</span> <span class="o">*</span><span class="nx">Env</span>
</span><span class='line'> <span class="nx">Stdout</span> <span class="o">*</span><span class="nx">Output</span>
</span><span class='line'> <span class="nx">Stderr</span> <span class="o">*</span><span class="nx">Output</span>
</span><span class='line'> <span class="nx">Stdin</span> <span class="o">*</span><span class="nx">Input</span>
</span><span class='line'> <span class="nx">handler</span> <span class="nx">Handler</span>
</span><span class='line'> <span class="nx">status</span> <span class="nx">Status</span>
</span><span class='line'> <span class="nx">end</span> <span class="nx">time</span><span class="p">.</span><span class="nx">Time</span>
</span><span class='line'><span class="p">}</span>
</span></code></pre></td></tr></table></div></figure>
<p>从Job结构封装的内容不难看出,Job的设计想法来自于Unit进程:每个Job包含
自己的名字,调用的参数,执行的环境变量,标准输入、输出、错误流以及执行
状态。这里不再详细展开介绍Job的实现,有兴趣的读者可以自行研究。</p>
<p>回到API的初始化。之前我们介绍过,<code>builtins.Register()</code>会向
engine中注册serveapi命令,其对应的handler为apiserver.ServeApi。该命令
会完成API的初始化工作。</p>
<p>首先,以命令名”serveapi”及其参数(监听地址)调用<code>engine.Job()</code>函数,
会返回指向该命令的Job结构。之后我们会根据命令行参数中指定的对API的选项,
如是否启用tls等设置Job的环境变量。在这些工作都完成后,调用
<code>Job.Run()</code>函数将实际调用”serveapi”对应的handler。</p>
<p>当然,<code>Job.Run()</code>并非简单调用handler,其还会处理与任务同步,日志与
状态等相关的工作,有兴趣的同学可以自行阅读<code>Job.Run()</code>的代码。下面
我们直接进入到handler <code>apiserver.ServeApi</code>,其代码位于
<code>$SRC/api/server/server.go</code>。</p>
<p>对于daemon来说,Docker支持绑定多个监听地址,他们通过Job的args传递,格
式为<code>PROTO://ADDR</code>。Docker支持3种PROTO,分别是tcp,unix和fd,分别对
应tcp连接,unix socket和systemd fd。不失一般性的,我们将以unix socket
为例继续后面的代码分析,有兴趣的同学可以自己研究下另外两种proto的代码。</p>
<p>ServeApi首先会初始化<code>activationLock chan</code>。上篇文章中我们
介绍了API的初始化分为两个部分,第一部分是今天我们介绍的”serveapi”命令,
另一部分是在daemon结构初始化完成后调用的”acceptconnections”命令,其作
用是令初始化完成的API可以接受连接。而这个名为”activationLock”的
chan就是实现API初始化与接受连接分离的关键。同时,Docker实现了
<code>listenbuffer</code>package,通过包装Golang标准库<code>net</code>来实现对
延迟接受连接的支持。<code>listenbuffer</code>package的代码位于
<code>$SRC/pkg/listenbuffer/buffer.go</code>。在实际调用<code>net.Accpet()</code>接
受连接之前,会首先从管道<code>activationLock chan</code>中进行读取操作,该操
作会立即被阻塞(因为管道还没有被写入),直到管道有写入操作或者管道被
关闭。写入或者关闭的区别在于,如果是写入操作,那么必须写入N次才能唤醒
N个读取操作,而关闭管道将唤醒所有阻塞在该管道的读取操作。说到这里,读
者不难想到”acceptconnections”命令的具体作用,对,他会调用
<code>close(activationLock)</code>从而将所有阻塞在<code>activationLock
chan</code>的函数唤醒,进而实际调用<code>net.Accept()</code>开始接受连接。</p>
<p>API的初始化工作在<code>ListenAndServe</code>函数中完成。首先是生成router。
router即从HTTP方法和URL到对应的handle函数的映射。Docker包含一组
Profiler API,只在打开DEBUG模式时才有<code>AttachProfiler</code>函数添加到
router中。Docker主要的API router在<code>createRouter</code>函数中生成。这里利
用了gorilla/mux库,好处是:1. <code>mux.Router</code>兼容<code>http.Handler</code>接
口,可以直接作为handler传入<code>http.Server</code>;2. <code>mux.Vars</code>函数可
以将单次连接中的router变量生成<code>map[string]string</code>,方便在handler函
数中获取。</p>
<p>router生成之后,会利用它和之前传递的监听地址来初始化<code>http.Server</code>,
并调用<code>http.Serve</code>函数传入之前生成的<code>Listenbuffer</code>。这样,
daemon的API便初始化完成。在运行”acceptconnections”命令之后,daemon的
API便可接受外部连接来响应client的请求了。</p>
<p>在<a href="http://blog.hamobai.com/2014/09/20/docker-analysis-4/">下一篇文章</a>
中,我们将开始介绍Docker daemon最重要的Daemon结构的初始化,它包含了
docker网桥、containers repo、images graph、volumes graph、repository
list以及execDriver等的初始化。</p>
]]></content>
</entry>
<entry>
<title type="html"><![CDATA[Docker源码分析2-daemon启动]]></title>
<link href="http://blog.hamobai.com/2014/08/31/docker-analysis-2/"/>
<updated>2014-08-31T12:30:00+08:00</updated>
<id>http://blog.hamobai.com/2014/08/31/docker-analysis-2</id>
<content type="html"><![CDATA[<p>在该系列的
<a href="http://blog.hamobai.com/2014/08/31/docker-analysis-1/">上一篇文章</a>中,
我们简单介绍了Docker的基本信息。在这篇文章中,我们将详细分析Docker
daemon的启动代码。从这篇文章开始,我将用<code>$SRC</code>指代Docker源码所在的
目录。</p>
<!--more-->
<h3>启动入口</h3>
<p>Docker的启动入口位于<code>$SRC/docker</code>目录,在分析代码之前,先介绍Golang的一个小知识。Golang的每一个package,都可以有零个,一个或者多个<code>func init()</code>,多个init函数会按照它们在源文件中出现的顺序被执行。除<code>main</code>pakcage外,init函数在package被import的时候执行;而对于<code>main</code>pakcage,其<code>func init()</code>将在程序启动时,先于<code>func main()</code>被执行。[1]</p>
<p> <code>$SRC/docker</code>目录下共有4个文件,<code>flags.go</code> <code>docker.go</code>
<code>daemon.go</code>以及<code>client.go</code>。</p>
<p> <code>flags.go</code>包含对于daemon和client都生效的命令行参数。主要是设定
client与daemon之间通讯方式相关的参数。当然,决定该次<code>docker</code>作为
client还是daemon运行的<code>-d</code>参数也在flags.go文件中被定义。具体如下:</p>
<figure class='code'><figcaption><span></span></figcaption><div class="highlight"><table><tr><td class="gutter"><pre class="line-numbers"><span class='line-number'>1</span>
</pre></td><td class='code'><pre><code class='go'><span class='line'><span class="nx">flDaemon</span> <span class="p">=</span> <span class="nx">flag</span><span class="p">.</span><span class="nx">Bool</span><span class="p">([]</span><span class="kt">string</span><span class="p">{</span><span class="s">"d"</span><span class="p">,</span> <span class="s">"-daemon"</span><span class="p">},</span> <span class="kc">false</span><span class="p">,</span> <span class="s">"Enable daemon mode"</span><span class="p">)</span>
</span></code></pre></td></tr></table></div></figure>
<p>这样,当我们用参数<code>-d</code>或者<code>--daemon</code>调用<code>docker</code>时,
<code>flDaemon</code>会被置为<code>true</code>(默认值为<code>false</code>),从而影响后序
代码的执行。
这里要注意的是,Golang的flag对所有参数都是默认使用<code>-</code>指定的,所以
绑定在<code>flDaemon</code>上的长参数,Docker选择了<code>-daemon</code>。这样,我们
才可以按照Unix的惯例,使用<code>-</code>指定短参数,使用<code>--</code>指定长参数。</p>
<p>接下来,执行会进入到真正的入口函数<code>func main()</code>,该函数位于
<code>$SRC/docker/docker.go</code>文件中。首先会被调用的是
<code>reexec.init()</code>,其作用是实现类似busybox的程序调用,即根据文件名
决定程序的功能。这里暂且不表,有兴趣的同学可以自行研究<code>reexec</code>
package的源码,代码位于<code>$SRC/reexec</code>目录下。</p>
<p>在完成对命令行参数使用<code>flag.Parse()</code>的解析后,首先会判断是否使用了
<code>-v</code>或<code>--version</code>参数,之后会根据<code>flDebug</code>的值设置
<code>DEBUG</code>环境变量,在Docker中,很多类似debug这样的全局设置都是通过
环境变量传递的,这样做的好处是简化程序对该设置的处理,当需要修改或获
取该项设置时,直接访问环境变量即可;坏处也显而易见,程序容易受到运行
时已经定义的环境变量的影响。</p>
<p>如果用户没有通过命令行参数指定daemon与client的连接方式,则会检查
<code>DOCKER_HOST</code>环境变量,如果环境变量也没有指定,则将unix
socket <code>unix:///var/run/docker.sock</code> 作为默认的连接方式压入
<code>flHosts</code>变量。之后,因为我们以<code>-d</code>或者<code>--daemon</code>参数启动
<code>docker</code>,<code>flDaemon</code>变量为<code>true</code>,我们会进入
<code>mainDaemon</code>函数进行daemon相关的动作。该函数位于
<code>$SRC/docker/daemon.go</code>。</p>
<p>进入<code>daemon.go</code>,首先会利用之前提过的<code>init()</code>注册daemon所
需要的flag,并通过引用其他package,调用各个package的<code>init()</code>函数。
这里需要着重介绍的是如下代码:</p>
<figure class='code'><figcaption><span></span></figcaption><div class="highlight"><table><tr><td class="gutter"><pre class="line-numbers"><span class='line-number'>1</span>
<span class='line-number'>2</span>
<span class='line-number'>3</span>
<span class='line-number'>4</span>
</pre></td><td class='code'><pre><code class='go'><span class='line'><span class="kn">import</span> <span class="p">(</span>
</span><span class='line'> <span class="nx">_</span> <span class="s">"github.com/docker/docker/daemon/execdriver/lxc"</span>
</span><span class='line'> <span class="nx">_</span> <span class="s">"github.com/docker/docker/daemon/execdriver/native"</span>
</span><span class='line'><span class="p">)</span>
</span></code></pre></td></tr></table></div></figure>
<p>在import package时,如果将包名重新定义为<code>_</code>,则该package无法在后面
的代码中被调用(Golang不允许引用而不被调用的包存在)。引用一个包再将其
重命名为<code>_</code>,其目的就是为了调用该包自己的<code>func init()</code>。比如这
里,lxc和native就各自利用各自的<code>init</code>函数注册了一个reexec项,为
<code>/.dockerinit</code>和<code>native</code>设置各自的动作。而具体以这两个名字作为
文件名运行docker程序时会有什么不同,我们会在以后的章节中介绍。</p>
<p>言归正传,在daemon的<code>init()</code>函数中注册的flag位于
<code>$SRC/daemon/config.go</code>,由于当前文件也属于main包,这些flag实际上
在程序运行一开始就已经被注册,并不是在进入到<code>mainDaemon</code>函数后才
被注册的。现在的叙述方法只是为了更清楚的描述代码的结构。为了简单起见,
接下来的分析都基于默认参数, 有兴趣的同学可以自行研究一下daemon都支持
那些参数,各自的含义是什么。</p>
<p>接下来,我们将进入daemon部分最核心的代码engine,engine代码位于
<code>$SRC/engine</code>目录下。engine将所有操作封装在其内部,通过其
<code>Register</code>方法向engine注册操作。engine内部还封装了标准输入,输出
及错误流,以及操作之间相互同步的工具。简而言之,engine是所有操作运行
的容器。</p>
<p><code>mainDaemon</code>函数首先会调用<code>engine.New()</code>生成一个全新的engine,
注册一个<code>commands</code>操作,其作用是按字典顺序显示所有已经注册过的操作。
并将所有已经注册过的操作写入这个新生成的engine里。</p>
<p>再之后,会通过<code>signal.Trap()</code>函数将<code>os.Interrupt</code>
<code>syscall.SIGTERM</code>等信号绑定到新生成的engine的Shutdown成员上。这样
当daemon收到以上信号时,engine可以得到通知并进行相应的操作。</p>
<p>再之后,<code>builtins.Register()</code>函数会向engine中注册如下操作:</p>
<ul>
<li>initnetworkdriver -> bridge.InitDriver</li>
<li>serveapi -> apiserver.ServeApi</li>
<li>acceptconnections -> apiserver.AcceptConnections</li>
<li>events -> Events.Get</li>
<li>log -> Events.Log</li>
<li>subscriberscount -> Events.SubscribersCount</li>
<li>version -> builtins.dockerVersion</li>
<li>auth -> registry.Service.Auth</li>
<li>search -> registry.Service.Search</li>
</ul>
<p>这里不加介绍的列出builtins注册的每个操作及其对应的函数,我们会在具体用
到他们的时候再详细介绍。</p>
<p>再之后的流程会分成两部分,一部分用来初始化和启动RESTful API,但并不接
受连接;另一部分用来初始化daemon的服务,并在初始化结束后设置RESTful
API可以接受新连接。这样即可加快启动的速度,同时也可以保证当daemon可以
接受API连接时,daemon处于就绪状态。</p>
<p>我们将会在
<a href="http://blog.hamobai.com/2014/09/12/docker-analysis-3/">下一篇文章</a>中
详细介绍daemon服务和RESTful API服务的启动过程。</p>
<p>[1]<a href="http://golang.org/ref/spec#Package_initialization">http://golang.org/ref/spec#Package_initialization</a></p>
]]></content>
</entry>
<entry>
<title type="html"><![CDATA[Docker源码分析1-简介]]></title>
<link href="http://blog.hamobai.com/2014/08/29/docker-analysis-1/"/>
<updated>2014-08-29T17:31:00+08:00</updated>
<id>http://blog.hamobai.com/2014/08/29/docker-analysis-1</id>
<content type="html"><![CDATA[<p>Docker是一款由docker, Inc发起的开源Linux容器引擎。由Golang编写完成。它
基于Linux Container技术。Linux Container技术,是一种操作系统层次的虚拟
化技术,提供了系统隔离,资源限制等功能。与Linux下传统的KVM虚拟机相比,
container技术更轻量,所有容器运行在Host的内核上,共享Host的硬件资源。</p>
<p>由于Docker依赖于Linux Container技术,所以现在只能运行在Linux系统上。为
了解决这个问题,
<a href="https://github.com/boot2docker/boot2docker">boot2docker</a>项目应运而生。
该项目为Windows和Mac OS的用户提供了一个包含Docker的最小化的Virtualbox
虚拟机镜像,借助Virtualbox虚拟机让Docker运行在这两种操作系统上。</p>
<p>本系列的Docker源码分析将基于Docker v1.2.0版本进行。读者可以从Docker项
目在github的<a href="https://github.com/dotcloud/docker">页面</a>获取到该项目的源
代码。</p>
<p><a href="http://blog.hamobai.com/2014/08/31/docker-analysis-2/">下一篇</a>,我们将首先对Docker daemon的启动代码进行分析。</p>
]]></content>
</entry>
<entry>
<title type="html"><![CDATA[Linux内核中的IO调度器简介]]></title>
<link href="http://blog.hamobai.com/2012/07/03/IO-scheduler-in-Linux-kernel/"/>
<updated>2012-07-03T13:45:00+08:00</updated>
<id>http://blog.hamobai.com/2012/07/03/IO-scheduler-in-Linux-kernel</id>
<content type="html"><![CDATA[<p>从2.6系列开始,Linux内核引入了全新的IO调度子系统。与2.4系列内核只有一个惟一的,通用的I/O调度器相比,最新的Linux内核提供了CFQ(默认), deadline和noop三种IO调度器。(anticipatory调度器从2.6.33开始被移除,<a href="http://git.kernel.org/?p=linux/kernel/git/torvalds/linux-2.6.git;a=commitdiff;h=492af6350a5ccf087e4964104a276ed358811458">commit 492af6350a5ccf087e4964104a276ed358811458</a>,被CFQ所取代)。在这篇文章里,我会首先介绍三种IO调度器各自的特点和应用场景,之后会介绍Linux内核提供的为每一个块设备指定IO调度器和调整IO调度器参数的接口。Ok, let’s go!</p>
<h3>CFQ(Complete Fair Queuing)</h3>
<p>CFQ实现了一种QoS的IO调度算法。该算法为每一个进程分配一个时间窗口,在该时间窗口内,允许进程发射IO请求。通过时间窗口在不同进程间的移动,保证了对于所有进程而言都有公平的发射IO请求的权利。同时,与CFS(Complete Fair Schedule)相同,该算法也实现了进程的优先级控制,可以保证高优先级进程可以获得更长的时间窗口。主要代码位于
block/cfq-iosched.c
CFQ调度算法适用于系统中存在多任务I/O请求的情况,通过在多进程中轮换,保证了系统I/O请求整体的低延迟。但是,对于只有少数进程存在大量密集的I/O请求的情况,则会出现明显的I/O性能下降。</p>
<p>CFQ调度器主要提供如下三个优化参数:</p>
<ol>
<li>slice_idle</li>
</ol>
<p>如果一个进程在自己的时间窗口里,经过slice_idle时间都没有发射I/O请求,则调度选择下一个程序。通过该机制,可以有效利用I/O请求的局部性原理,提高系统的I/O吞吐量。</p>
<ol>
<li>quantum</li>
</ol>
<p>该参数控制在一个时间窗口内可以发射的I/O请求的最大数目。</p>
<ol>
<li>low_latency</li>
</ol>
<p>对于I/O请求延时非常重要的任务,将该参数设置为1可以降低I/O请求的延时。</p>
<h3>NOOP</h3>
<p>顾名思义,NOOP调度器并不完成任何复杂的工作,只是将上层发来的I/O请求直接发送至下层,实现了一个FIFO的I/O请求队列。主要代码位于
block/noop-iosched.c
其应用环境主要有以下两种:一是物理设备包含自己的I/O调度程序,比如SCSI的TCQ;二是寻道时间可以忽略不计的设备,比如SSD等。</p>
<h3>DEADLINE</h3>
<p>DEADLINE调度算法主要针对I/O请求的延时而设计,每个I/O请求都被附加一个最后执行期限。该算法维护两类队列,一是按照扇区排序的读写请求队列;二是按照过期时间排序的读写请求队列。如果当前没有I/O请求过期,则会按照扇区顺序执行I/O请求;如果发现过期的I/O请求,则会处理按照过期时间排序的队列,直到所有过期请求都被发射为止。在处理请求时,该算法会优先考虑读请求。主要代码位于
block/deadline-iosched.c
当系统中存在的I/O请求进程比较少时,与CFQ算法相比,DEADLINE算法可以提供较高的I/O吞吐率,特别是对于使用了自带I/O请求队列的设备,如SCSI的TCQ的时候。</p>
<p>DEADLINE调度算法提供如下三个参数:</p>
<ol>
<li>writes_starved</li>
</ol>
<p>该参数控制当读写队列均不为空时,发射多少个读请求后,允许发射写请求。</p>
<ol>
<li>read_expire</li>
</ol>
<p>参数控制读请求的过期时间,单位毫秒。</p>
<ol>
<li>write_expire</li>
</ol>
<p>参数控制写请求的过期时间,单位毫秒。</p>
<h3>为块I/O设备设置I/O调度算法的方法</h3>
<p>Linux内核允许用户为每个单独的块I/O设备设置不同的I/O调度算法。这样,根据块设备的不同以及读写该设备的应用不同,可以最大限度的提升系统的I/O吞吐率。设置接口通过sysfs导出。如果当前系统中没有挂载sysfs的话,使用如下命令可以将sysfs挂载至/sys目录下。</p>
<figure class='code'><figcaption><span></span></figcaption><div class="highlight"><table><tr><td class="gutter"><pre class="line-numbers"><span class='line-number'>1</span>
</pre></td><td class='code'><pre><code class='console'><span class='line'><span class="gp">root@trinity:~#</span> mount -t sysfs sysfs /sys
</span></code></pre></td></tr></table></div></figure>
<p>我们以sda为例,介绍修改设备调度算法的方式。</p>
<figure class='code'><figcaption><span></span></figcaption><div class="highlight"><table><tr><td class="gutter"><pre class="line-numbers"><span class='line-number'>1</span>
<span class='line-number'>2</span>
<span class='line-number'>3</span>
<span class='line-number'>4</span>
<span class='line-number'>5</span>
</pre></td><td class='code'><pre><code class='console'><span class='line'><span class="gp">root@trinity:~#</span> cat /sys/block/sda/queue/scheduler
</span><span class='line'><span class="go">noop deadline [cfq] </span>
</span><span class='line'><span class="gp">root@trinity:~#</span> <span class="nb">echo</span> <span class="s2">"deadline"</span> > /sys/block/sda/queue/scheduler
</span><span class='line'><span class="gp">root@trinity:~#</span> cat /sys/block/sda/queue/scheduler
</span><span class='line'><span class="go">noop [deadline] cfq </span>
</span></code></pre></td></tr></table></div></figure>
<p>当然,这里的修改是临时的。系统重启后设备的调度算法会重置为默认的CFQ。如果希望保证每次系统启动都使用自定的调度算法,可以在
/etc/fstab
文件中为对应的设备传递如下参数:
elevator=deadline
便会将对应设备的调度算法设置为deadline,其他算法类似。</p>
]]></content>
</entry>
<entry>
<title type="html"><![CDATA[ARM体系架构下的同步操作(二)]]></title>
<link href="http://blog.hamobai.com/2012/06/29/synchronization-on-ARM-two/"/>
<updated>2012-06-29T12:31:00+08:00</updated>
<id>http://blog.hamobai.com/2012/06/29/synchronization-on-ARM-two</id>
<content type="html"><![CDATA[<p>在<a href="http://blog.hamobai.com/2012/06/28/synchronization-on-ARM-one" title="ARM体系架构下的同步操作(一)">上一篇文章</a>中,我们介绍了ARM体系架构下,为了实现对内存地址同步访问而引入的
LDREX
STREX
两条指令。在这篇文章里,首先会以Linux Kernel中ARM架构的原子相加操作为例,介绍这两条指令的使用方法;之后,会介绍GCC提供的一些内置函数,这些同步函数使用这两条指令完成同步操作。</p>
<h3>Linux Kernel中的atomic_add函数</h3>
<p>如下是Linux Kernel中使用的atomic_add函数的定义,它实现原子的给v指向的atomic_t增加i的功能。</p>
<figure class='code'><figcaption><span>atomic_add</span></figcaption><div class="highlight"><table><tr><td class="gutter"><pre class="line-numbers"><span class='line-number'>1</span>
<span class='line-number'>2</span>
<span class='line-number'>3</span>
<span class='line-number'>4</span>
<span class='line-number'>5</span>
<span class='line-number'>6</span>
<span class='line-number'>7</span>
<span class='line-number'>8</span>
<span class='line-number'>9</span>
<span class='line-number'>10</span>
<span class='line-number'>11</span>
<span class='line-number'>12</span>
<span class='line-number'>13</span>
<span class='line-number'>14</span>
<span class='line-number'>15</span>
</pre></td><td class='code'><pre><code class='c'><span class='line'><span class="k">static</span> <span class="kr">inline</span> <span class="kt">void</span> <span class="nf">atomic_add</span><span class="p">(</span><span class="kt">int</span> <span class="n">i</span><span class="p">,</span> <span class="kt">atomic_t</span> <span class="o">*</span><span class="n">v</span><span class="p">)</span>
</span><span class='line'><span class="p">{</span>
</span><span class='line'> <span class="kt">unsigned</span> <span class="kt">long</span> <span class="n">tmp</span><span class="p">;</span>
</span><span class='line'> <span class="kt">int</span> <span class="n">result</span><span class="p">;</span>
</span><span class='line'>
</span><span class='line'> <span class="n">__asm__</span> <span class="n">__volatile__</span><span class="p">(</span><span class="s">"@ atomic_add</span><span class="se">\n</span><span class="s">"</span>
</span><span class='line'><span class="s">"1: ldrex %0, [%3]</span><span class="se">\n</span><span class="s">"</span>
</span><span class='line'><span class="s">" add %0, %0, %4</span><span class="se">\n</span><span class="s">"</span>
</span><span class='line'><span class="s">" strex %1, %0, [%3]</span><span class="se">\n</span><span class="s">"</span>
</span><span class='line'><span class="s">" teq %1, #0</span><span class="se">\n</span><span class="s">"</span>
</span><span class='line'><span class="s">" bne 1b"</span>
</span><span class='line'> <span class="o">:</span> <span class="s">"=&r"</span> <span class="p">(</span><span class="n">result</span><span class="p">),</span> <span class="s">"=&r"</span> <span class="p">(</span><span class="n">tmp</span><span class="p">),</span> <span class="s">"+Qo"</span> <span class="p">(</span><span class="n">v</span><span class="o">-></span><span class="n">counter</span><span class="p">)</span>
</span><span class='line'> <span class="o">:</span> <span class="s">"r"</span> <span class="p">(</span><span class="o">&</span><span class="n">v</span><span class="o">-></span><span class="n">counter</span><span class="p">),</span> <span class="s">"Ir"</span> <span class="p">(</span><span class="n">i</span><span class="p">)</span>
</span><span class='line'> <span class="o">:</span> <span class="s">"cc"</span><span class="p">);</span>
</span><span class='line'><span class="p">}</span>
</span></code></pre></td></tr></table></div></figure>
<p>在第7行,使用LDREX指令将v->counter所指向的内存地址的值装入寄存器中,并初始化exclusive monitor。
在第8行,将该寄存器中的值与i相加。
在第9,10,11行,使用STREX指令尝试将修改后的值存入原来的地址,如果STREX写入%1寄存器的值为0,则认为原子更新成功,函数返回;如果%1寄存器的值不为0,则认为exclusive monitor拒绝了本次对内存地址的访问,则跳转回第7行重新进行以上所述的过程,直到成功将修改后的值写入内存为止。该过程可能多次反复进行,但可以保证,在最后一次的读-修改-写回的过程中,没有其他代码访问该内存地址。</p>
<h3>GCC内置的原子操作函数</h3>
<p>看了上面的GCC内联汇编,是不是有点晕?在用户态下,GCC为我们提供了一系列内置函数,这些函数可以让我们既享受原子操作的好处,又免于编写复杂的内联汇编指令。这一系列的函数均以__sync开头,分为如下几类:</p>
<figure class='code'><figcaption><span></span></figcaption><div class="highlight"><table><tr><td class="gutter"><pre class="line-numbers"><span class='line-number'>1</span>
<span class='line-number'>2</span>
<span class='line-number'>3</span>
<span class='line-number'>4</span>
<span class='line-number'>5</span>
<span class='line-number'>6</span>
</pre></td><td class='code'><pre><code class='c'><span class='line'><span class="n">type</span> <span class="n">__sync_fetch_and_add</span> <span class="p">(</span><span class="n">type</span> <span class="o">*</span><span class="n">ptr</span><span class="p">,</span> <span class="n">type</span> <span class="n">value</span><span class="p">,</span> <span class="p">...)</span>
</span><span class='line'><span class="n">type</span> <span class="n">__sync_fetch_and_sub</span> <span class="p">(</span><span class="n">type</span> <span class="o">*</span><span class="n">ptr</span><span class="p">,</span> <span class="n">type</span> <span class="n">value</span><span class="p">,</span> <span class="p">...)</span>
</span><span class='line'><span class="n">type</span> <span class="n">__sync_fetch_and_or</span> <span class="p">(</span><span class="n">type</span> <span class="o">*</span><span class="n">ptr</span><span class="p">,</span> <span class="n">type</span> <span class="n">value</span><span class="p">,</span> <span class="p">...)</span>
</span><span class='line'><span class="n">type</span> <span class="n">__sync_fetch_and_and</span> <span class="p">(</span><span class="n">type</span> <span class="o">*</span><span class="n">ptr</span><span class="p">,</span> <span class="n">type</span> <span class="n">value</span><span class="p">,</span> <span class="p">...)</span>
</span><span class='line'><span class="n">type</span> <span class="n">__sync_fetch_and_xor</span> <span class="p">(</span><span class="n">type</span> <span class="o">*</span><span class="n">ptr</span><span class="p">,</span> <span class="n">type</span> <span class="n">value</span><span class="p">,</span> <span class="p">...)</span>
</span><span class='line'><span class="n">type</span> <span class="n">__sync_fetch_and_nand</span> <span class="p">(</span><span class="n">type</span> <span class="o">*</span><span class="n">ptr</span><span class="p">,</span> <span class="n">type</span> <span class="n">value</span><span class="p">,</span> <span class="p">...)</span>
</span></code></pre></td></tr></table></div></figure>
<p>这一系列函数完成对ptr所指向的内存地址的对应操作,并返回操作之前的值。</p>
<figure class='code'><figcaption><span></span></figcaption><div class="highlight"><table><tr><td class="gutter"><pre class="line-numbers"><span class='line-number'>1</span>
<span class='line-number'>2</span>
<span class='line-number'>3</span>
<span class='line-number'>4</span>
<span class='line-number'>5</span>
<span class='line-number'>6</span>
</pre></td><td class='code'><pre><code class='c'><span class='line'><span class="n">type</span> <span class="n">__sync_add_and_fetch</span> <span class="p">(</span><span class="n">type</span> <span class="o">*</span><span class="n">ptr</span><span class="p">,</span> <span class="n">type</span> <span class="n">value</span><span class="p">,</span> <span class="p">...)</span>
</span><span class='line'><span class="n">type</span> <span class="n">__sync_sub_and_fetch</span> <span class="p">(</span><span class="n">type</span> <span class="o">*</span><span class="n">ptr</span><span class="p">,</span> <span class="n">type</span> <span class="n">value</span><span class="p">,</span> <span class="p">...)</span>
</span><span class='line'><span class="n">type</span> <span class="n">__sync_or_and_fetch</span> <span class="p">(</span><span class="n">type</span> <span class="o">*</span><span class="n">ptr</span><span class="p">,</span> <span class="n">type</span> <span class="n">value</span><span class="p">,</span> <span class="p">...)</span>
</span><span class='line'><span class="n">type</span> <span class="n">__sync_and_and_fetch</span> <span class="p">(</span><span class="n">type</span> <span class="o">*</span><span class="n">ptr</span><span class="p">,</span> <span class="n">type</span> <span class="n">value</span><span class="p">,</span> <span class="p">...)</span>
</span><span class='line'><span class="n">type</span> <span class="n">__sync_xor_and_fetch</span> <span class="p">(</span><span class="n">type</span> <span class="o">*</span><span class="n">ptr</span><span class="p">,</span> <span class="n">type</span> <span class="n">value</span><span class="p">,</span> <span class="p">...)</span>
</span><span class='line'><span class="n">type</span> <span class="n">__sync_nand_and_fetch</span> <span class="p">(</span><span class="n">type</span> <span class="o">*</span><span class="n">ptr</span><span class="p">,</span> <span class="n">type</span> <span class="n">value</span><span class="p">,</span> <span class="p">...)</span>
</span></code></pre></td></tr></table></div></figure>
<p>这一系列函数完成对ptr所指向的内存地址的对应操作,并返回操作之后的值。</p>
<figure class='code'><figcaption><span></span></figcaption><div class="highlight"><table><tr><td class="gutter"><pre class="line-numbers"><span class='line-number'>1</span>
<span class='line-number'>2</span>
</pre></td><td class='code'><pre><code class='c'><span class='line'><span class="kt">bool</span> <span class="n">__sync_bool_compare_and_swap</span> <span class="p">(</span><span class="n">type</span> <span class="o">*</span><span class="n">ptr</span><span class="p">,</span> <span class="n">type</span> <span class="n">oldval</span><span class="p">,</span> <span class="n">type</span> <span class="n">newval</span><span class="p">,</span> <span class="p">...)</span>
</span><span class='line'><span class="n">type</span> <span class="n">__sync_val_compare_and_swap</span> <span class="p">(</span><span class="n">type</span> <span class="o">*</span><span class="n">ptr</span><span class="p">,</span> <span class="n">type</span> <span class="n">oldval</span><span class="p">,</span> <span class="n">type</span> <span class="n">newval</span><span class="p">,</span> <span class="p">...)</span>
</span></code></pre></td></tr></table></div></figure>
<p>这两个函数完成对变量的原子比较和交换。即如果ptr所指向的内存地址存放的值与oldval相同的话,则将其用newval的值替换。
返回bool类型的函数返回比较的结果,相同为true,不同为false;返回type的函数返回的是ptr指向地址交换前存放的值。</p>
]]></content>
</entry>
<entry>
<title type="html"><![CDATA[ARM体系架构下的同步操作(一)]]></title>
<link href="http://blog.hamobai.com/2012/06/28/synchronization-on-ARM-one/"/>
<updated>2012-06-28T18:23:00+08:00</updated>
<id>http://blog.hamobai.com/2012/06/28/synchronization-on-ARM-one</id>
<content type="html"><![CDATA[<p>处理器在访问共享资源时,必须对临界区进行同步,即保证同一时间内,只有一个对临界区的访问者。当共享资源为一内存地址时,原子操作是对该类型共享资源同步访问的最佳方式。随着应用的日益复杂和SMP的广泛使用,处理器都开始提供硬件同步原语以支持原子地更新内存地址。</p>
<p>CISC处理器比如IA32,可以提供单独的多种原子指令完成复杂的原子操作,由处理器保证读-修改-写回过程的原子性。而RISC则不同,由于除Load和Store的所有操作都必须在寄存器中完成,如何保证从装载内存地址到寄存器,到修改寄存器中的值,再到将寄存器中的值写回内存中可以原子性的完成,便成为了处理器设计的关键。</p>
<p>从ARMv6架构开始,ARM处理器提供了Exclusive accesses同步原语,包含两条指令:
LDREX
STREX
LDREX和STREX指令,将对一个内存地址的原子操作拆分成两个步骤,同处理器内置的记录exclusive accesses的exclusive monitors一起,完成对内存的原子操作。</p>
<h3>LDREX</h3>
<p>LDREX与LDR指令类似,完成将内存中的数据加载进寄存器的操作。与LDR指令不同的是,该指令也会同时初始化exclusive monitor来记录对该地址的同步访问。例如</p>
<figure class='code'><figcaption><span></span></figcaption><div class="highlight"><table><tr><td class="gutter"><pre class="line-numbers"><span class='line-number'>1</span>
</pre></td><td class='code'><pre><code class='gas'><span class='line'><span class="nf">LDREX</span> <span class="no">R1</span><span class="p">,</span> <span class="err">[</span><span class="no">R0</span><span class="err">]</span>
</span></code></pre></td></tr></table></div></figure>
<p>会将R0寄存器中内存地址的数据,加载进R1中并更新exclusive monitor。</p>
<h3>STREX</h3>
<p>该指令的格式为:</p>
<figure class='code'><figcaption><span></span></figcaption><div class="highlight"><table><tr><td class="gutter"><pre class="line-numbers"><span class='line-number'>1</span>
</pre></td><td class='code'><pre><code class='gas'><span class='line'><span class="nf">STREX</span> <span class="no">Rd</span><span class="p">,</span> <span class="no">Rm</span><span class="p">,</span> <span class="err">[</span><span class="no">Rn</span><span class="err">]</span>
</span></code></pre></td></tr></table></div></figure>
<p>STREX会根据exclusive monitor的指示决定是否将寄存器中的值写回内存中。如果exclusive monitor许可这次写入,则STREX会将寄存器Rm的值写回Rn所存储的内存地址中,并将Rd寄存器设置为0表示操作成功。如果exclusive monitor禁止这次写入,则STREX指令会将Rd寄存器的值设置为1表示操作失败并放弃这次写入。应用程序可以根据Rd中的值来判断写回是否成功。</p>
<p>在下篇文章中,我会以Linux Kernel中如何编写原子操作代码具体介绍LDREX和STREX的使用方法,并介绍gcc提供的ARM架构下的关于这两条指令的C语言扩展。</p>
]]></content>
</entry>
</feed>