發表於2024-12-28
生物信息學是運用生物學、數學、計算機科學等多學科技術與手段進行生物信息的獲取、貯存、分析、利用的一門交叉學科,是目前生物學研究熱門領域之一。本書內容包括兩個篇章:一是Windows係統下進行文獻檢索、數據庫使用、引物設計、核酸蛋白質序列分析、進化分析、蛋白質結構分析、miRNA分析等理論與方法及相關軟件使用介紹;二是linux係統下麵對於基因組測序、RNAseq、miRNAseq等二代測序數據組裝、基因預測、注釋、錶達分析等操作流程及相關軟件介紹。
馮世鵬,中科院廣州生物醫藥與健康研究院生物化學與分子生物學專業博士畢業,海南大學農學院講師,擔任海南大學本科及研究生的《生物信息學》、《分子生物學》等課程教學任務,承擔過多項重點科研或教研項目。
第0章 緒論 1
0.1 生物信息學的發展曆史 1
0.1.1 Bioinfomatics的來源 1
0.1.2 生物信息學的定義 1
0.1.3 人類基因組計劃 1
0.1.4 生物信息學發展重要人物及
大事 2
0.2 生物信息學的研究內容 4
0.2.1 生物分子數據的收集與管理 4
0.2.2 數據庫搜索及序列比較 5
0.2.3 基因組序列分析 5
0.2.4 基因錶達數據的分析與處理 5
0.2.5 蛋白質結構預測 6
0.2.6 非編碼RNA研究 6
0.2.7 錶觀遺傳學研究 7
0.3 生物信息學的生物學基礎知識 7
0.3.1 遺傳定律 7
0.3.2 DNA分子結構 8
0.3.3 基因結構 8
0.3.4 中心法則 9
0.3.5 密碼子錶 9
0.3.6 蛋白質結構與功能 9
0.3.7 PCR技術 9
參考文獻 10
Windows篇
第1章 文獻信息檢索 12
1.1 文獻資源的分類 12
1.1.1 根據齣版形式進行分類 12
1.1.2 綜閤分類法 13
1.1.3 標識碼及編號 14
1.2 文獻的格式 15
1.3 文獻檢索 17
1.3.1 文獻檢索詞的來源 17
1.3.2 搜索數據庫選擇 18
1.3.3 檢索式構建 19
1.3.4 檢索結果的處理 21
1.3.5 CNKI數據庫查詢舉例 21
1.3.6 Elsevier數據庫檢索舉例 25
1.4 文獻信息的價值判斷及閱讀 27
1.4.1 文獻的價值判斷 27
1.4.2 文獻有效閱讀 29
1.5 科技查新 29
習題 31
參考文獻 31
第2章 生物信息數據資源 32
2.1 核酸序列數據庫 32
2.1.1 GenBank數據庫及其分類 33
2.1.2 Entrz Nucleotide數據庫及
其分類 34
2.1.3 NCBI其他數據庫 34
2.1.4 GenBank數據格式 35
2.1.5 GenBank數據訪問方式 35
2.1.6 基因數據庫記錄格式及搜索 38
2.2 蛋白質序列數據庫 39
2.2.1 UniProt數據庫介紹 39
2.2.2 Uniprot數據獲得方式 41
2.2.3 UniProt數據庫記錄格式 42
2.3 蛋白質結構數據庫 43
2.3.1 PDB數據庫發展曆史 43
2.3.2 RCSB PDB數據庫介紹 44
2.3.3 RCSB PDB數據庫搜索 45
2.3.4 RCSB PDB數據記錄 46
2.4 物種基因組數據庫 47
2.4.1 小鼠基因組數據庫 47
2.4.2 擬南芥基因組數據庫 49
2.5 代謝通路數據庫 52
2.5.1 在KEGG數據庫搜索 53
2.5.2 主頁快速鏈接 54
2.5.3 KEGG通路圖及其元素意義 55
2.6 基因組瀏覽器 57
2.6.1 基因組數據展示內容 58
2.6.2 BLAT搜索 61
2.7 非編碼RNA數據庫 62
2.7.1 miRNA數據庫 62
2.7.2 NONCODE數據庫 63
習題 66
參考文獻 66
第3章 序列比對 68
3.1 比對程序介紹 68
3.2 比對序列相似性的統計特性 69
3.3 在綫BLAST序列比對 72
3.4 本地運行BLAST 75
3.4.1 BLAST程序的下載和安裝 75
3.4.2 搜索數據庫的索引格式化 75
3.4.3 運行BLAST程序,搜索本地
序列數據庫 76
3.5 多序列比對 77
3.5.1 ClustalX的使用 77
習題 80
參考文獻 80
第4章 核酸序列分析 81
4.1 基因閱讀框的識彆 81
4.2 基因其他結構區預測 82
4.2.1 CpG島的預測 82
4.2.2 轉錄終止信號預測 84
4.2.3 啓動子區域的預測 84
4.2.4 密碼子偏好性計算 86
4.3 引物設計 88
4.3.1 引物設計的基本原則 88
4.3.2 Primer 5引物設計 88
4.3.3 利用Primer 5進行酶切位點
分析 91
4.4 核酸序列的其他轉換 92
習題 93
參考文獻 93
第5章 蛋白質序列分析 94
5.1 蛋白質理化性質和一級結構
分析 94
5.1.1 蛋白質理化性質分析 94
5.1.2 蛋白質理化性質分布圖 95
5.1.3 蛋白質信號肽預測 97
5.2 蛋白質二級結構分析 99
5.2.1 蛋白質跨膜結構區分析 99
5.2.2 蛋白質捲麯螺鏇分析 101
5.2.3 蛋白質二級結構預測分析 103
5.3 蛋白質三維結構預測分析 104
習題 105
參考文獻 105
第6章 基因錶達分析 106
6.1 qPCR數據分析 106
6.1.1 絕對定量分析方法 107
6.1.2 相對定量方法分析 108
6.2 基因芯片數據分析 111
6.2.1 從GEO上下載基因芯片錶達
譜數據 111
6.2.2 將錶達譜數據導入MATLAB
軟件 112
6.2.3 對soft格式文件的標準化 113
6.2.4 差異錶達基因篩選 114
習題 114
參考文獻 115
第7章 進化分析 116
7.1 進化理論介紹 116
7.1.1 種群是生物進化的基本單位 116
7.1.2 可遺傳的變異是生物進化的
原始材料 116
7.1.3 分子進化中性學說 117
7.2 進化分析(以MEGA為例) 117
7.2.1 序列準備 118
7.2.2 序列比對 119
7.2.3 建樹計算 119
7.2.4 進化樹的調整 121
習題 121
參考文獻 122
第8章 非編碼miRNA分析 123
8.1 miRNA簡介 123
8.1.1 miRNA的生物閤成 123
8.1.2 miRNA調控基因錶達的機理 124
8.1.3 miRNA的生理調節作用 125
8.2 miRNA靶基因預測 125
8.2.1 miRNA靶基因的預測原理 125
8.2.2 miRNA靶基因的預測軟件 126
8.2.3 miRNA靶基因的預測步驟 127
8.3 調控靶基因的miRNA預測 130
8.4 miRBase數據庫的使用 131
8.4.1 miRBase數據庫的搜索 131
8.4.2 miRBase數據庫批量下載 132
8.4.3 miRNA記錄信息 133
習題 134
參考文獻 134
Linux篇
第9章 Linux係統 138
9.1 Linux簡介 138
9.1.1 什麼是Linux係統 138
9.1.2 為什麼要學習Linux係統 139
9.1.3 如何學習Linux係統 140
9.2 Linux係統安裝 140
9.2.1 Linux係統下載 140
9.2.2 係統安裝盤製作 142
9.2.3 CentOS 6.5操作係統安裝 144
9.2.4 更新yum源 154
9.3 Linux命令行模式――終端 155
9.4 Linux係統開關機 156
9.5 Linux係統文件 157
9.5.1 Linux文件夾及其主要作用
(以CentOS 6.5為例) 157
9.5.2 Linux的文件信息的意義 158
9.5.3 Linux命令幫助文件 159
9.6 幾個重要的快捷鍵 161
9.7 Linux係統的命令 161
9.7.1 Linux係統命令的輸入格式 161
9.7.2 常用命令及其常用選項介紹 161
9.7.3 數據流重定嚮 167
9.7.4 管道命令 168
9.7.5 vim編輯器工具 168
9.7.6 其他命令 170
習題 177
參考文獻 177
第10章 Perl語言 178
10.1 Perl版本 178
10.2 Perl標量數據 179
10.2.1 Perl運算符 180
10.2.2 標量變量 180
10.2.3 數字及字符串的比較
運算符 181
10.3 列錶與數組 182
10.3.1 數組及其賦值操作 182
10.3.2 數組元素的引用 182
10.3.3 數組相關的幾個命令 183
10.4 哈希 183
10.4.1 哈希賦值 184
10.4.2 哈希的相關函數 184
10.5 判斷式及循環控製結構 185
10.5.1 if條件判斷式 185
10.5.2 while循環結構 185
10.5.3 until循環結構 186
10.5.4 foreach循環結構 186
10.5.5 each控製結構 186
10.6 正則錶達式 187
10.6.1 正則錶達式相關符號 187
10.6.2 捕獲變量 188
10.6.3 正則錶達式中特殊字符
的意義 188
10.7 Perl的排序 189
10.7.1 sort命令 189
10.7.2 sort與比較運算符及默認
函數的連用 189
10.8 Perl默認的函數的總結 189
10.9 程序精解 190
10.9.1 實例一:從fasta文件中
尋找特定的序列 190
10.9.2 實例二:文本內容分類
統計功能 193
10.9.3 實例三:統計文件內容
是否有重復 195
10.9.4 實例四:Scaffolds序列
的排序 196
習題 196
參考文獻 197
第11章 測序方法及數據處理 198
11.1 測序技術的發展 198
11.1.1 第一代測序方法 198
11.1.2 二代測序方法 201
11.1.3 測序文庫插入片段大小
選擇 205
11.1.4 測序類型 205
11.1.5 測序方法的搭配 206
11.1.6 測序質量值 206
11.2 測序數據處理 207
11.3 測序數據質量分析 208
11.3.1 用FastQC軟件對測序數據
進行評估 208
11.3.2 NGSQCToolKit對測序
Reads的處理 213
11.3.3 FASTX_Toolkit對測序
Reads的處理 216
11.4 深度測序數據上傳SRA
數據庫 218
11.4.1 材料準備 220
11.4.2 注冊項目信息 221
11.4.3 提供技術信息 224
11.4.4 上傳數據 227
11.4.5 數據傳輸完畢狀態 230
習題 231
參考文獻 231
第12章 基因組組裝 232
12.1 Velvet拼裝軟件 233
12.1.1 Velvet軟件安裝 234
12.1.2 Velvet參數介紹 234
12.1.3 Velvet命令運行 237
12.1.4 Velvet運行結果解讀 237
12.2 SOAPdenovo軟件拼裝 238
12.2.1 軟件的安裝 239
12.2.2 參數介紹 239
12.2.3 SOAPdenovo命令運行 241
12.2.4 SOAPdenovo運行結果
解讀 242
12.3 ABySS軟件拼裝 242
12.3.1 ABySS的安裝 242
12.3.2 ABySS主要參數介紹 243
12.3.3 ABySS命令運行 245
12.3.4 ABySS運行命令結果解讀 245
12.4 ALLPATH-LG軟件拼裝 245
12.4.1 ALLPATH-LG的安裝 246
12.4.2 ALLPATH-LG的主要參數 246
12.4.3 ALLPATH-LG測試數據
運行過程解讀 249
12.4.4 運行結果解讀 252
12.5 Gaps修補 252
12.5.1 GapFiller軟件安裝 252
12.5.2 相關參數介紹 253
12.5.3 程序運行命令 254
12.5.4 運行結果解讀 254
12.6 基因組組裝效果評估 254
習題 254
參考文獻 255
第13章 小RNA測序數據分析 256
13.1 小RNA測序簡介 256
13.2 小RNA測序數據質控 257
13.3 miRNA的識彆 259
習題 263
參考文獻 263
第14章 RNA-seq數據分析 264
14.1 轉錄組序列比對 265
14.1.1 數據準備 265
14.1.2 比對數據庫 265
14.1.3 TopHat軟件下載及安裝 266
14.1.4 Bowtie軟件和SAMtools
軟件下載及安裝 266
14.1.5 常用TopHat參數介紹 266
14.1.6 基因組數據庫序列索引 267
14.1.7 TopHat使用實例 267
14.1.8 輸齣文件說明 267
14.2 轉錄本組的組裝 268
14.2.1 cufflinks的安裝 268
14.2.2 cufflinks的參數 269
14.2.3 cufflinks的輸齣結果 269
14.3 閤並轉錄組 269
14.3.1 用cuffmerge閤並轉錄本
的命令 270
14.4 基因錶達差異分析 270
14.4.1 用cuffquant計算錶達譜 270
14.4.2 用cuffdiff計算不同樣本
錶達譜的差異 271
14.5 差異錶達結果的熱圖錶示 272
習題 273
參考文獻 273
第15章 基因預測 275
15.1 GeneMark軟件序列 275
15.1.1 GeneMarkS的安裝 275
15.1.2 相關參數介紹 276
15.1.3 GeneMarkS命令運行 279
15.1.4 GeneMarkS運行結果解釋 280
15.2 Glimmer軟件 280
15.2.1 Glimmer軟件安裝 280
15.2.2 相關命令參數介紹 281
15.2.3 程序運行 284
15.2.4 結果解讀 286
15.3 AUGUSTUS 286
15.3.1 AUGUSTUS軟件安裝 286
15.3.2 相關參數介紹 286
15.3.3 訓練AUGUSTUS 287
15.4 PASA 291
15.4.1 PASA軟件安裝 291
15.4.2 相關命令參數介紹 293
15.4.3 命令運行 294
15.4.4 運行結果解讀 296
15.5 EVM(EVidenceModeler) 296
15.5.1 EVM軟件下載安裝 296
15.5.2 相關參數介紹 297
15.5.3 EVM軟件的運行 298
習題 300
參考文獻 300
第16章 基因注釋及功能分析 302
16.1 BLAST軟件介紹 302
16.1.1 BLAST軟件安裝 302
16.1.2 相關命令參數介紹 303
16.2 NR注釋 308
16.2.1 NR數據庫製備過程 308
16.2.2 NR注釋過程 309
16.3 COG注釋 310
16.3.1 COG數據庫準備過程 310
16.3.2 COG命令注釋過程 311
16.4 Swiss-Prot注釋 311
16.4.1 數據庫準備 312
16.4.2 Swiss-Prot注釋過程 312
16.4.3 InterPro注釋 312
16.5 KEGG注釋 314
16.6 GO注釋 317
習題 320
參考文獻 321
附錄A 生物信息學文件格式 322
前 言
關於本書的成因:希望通過本書讓讀者瞭解生物信息學,並能利用生物信息學工具進行常規的分析;對於學有餘力或者對生物信息學有濃厚興趣的讀者,則讀完本書後可進行二代測序數據的初步深度分析。本書主要針對生物科學相關專業本科生、研究生或者其他有誌於學習生物信息學的初學者,希望這本書能起到拋磚引玉的作用,帶領他們進入生物信息學領域。
關於本書的內容:全書分為兩篇,Windows篇屬於生物信息學基礎,相關生物信息學軟件在裝有Windows係統的計算機上即可運行,這部分內容要求每個生物科學專業的本科生或讀者必須瞭解掌握,主要包括生物信息相關數據庫、序列比對、引物設計、序列分析、進化分析等;Linux篇屬於生物信息學的深度應用,主要軟件及其應用需要在安裝Linux係統的計算機上纔能最有效地運行,這部分的內容供學有餘力或者有誌於進行生物信息學研究應用的學生或工作人員學習,主要包括基因組、轉錄組的測序、組裝、注釋等分析內容。
關於學習生物信息學的態度:不貪多、不畏多、自學為主、教學為輔。所謂“不貪多”,就是生物信息學涉及多個學科門類,一個人幾乎不可能精通所有相關門類,因此最好根據個人興趣選擇其中一個方嚮刻苦鑽研,勤以練習,融會貫通,同時兼顧其他方麵。所謂“不畏多”,就是不要被生物信息學所需要學習的知識嚇到,有的知識夠用即可,遇到需要進一步學習的時候再去學習新的知識,循序漸進,學得也快。所謂“自學為主、教學為輔”,就是強調學習的主動性,帶著強烈的興趣學習,學習效果要遠好於被迫學習。自學過程中不可避免地會遇到一些問題,此時力求通過查閱資料自行解決問題,因此會自然而然地産生自豪感;如果自己查閱資料無法解決的時候最好能有人給以輔助,否則會卡在那裏、無法進行後續的學習,這就是要有教學為輔的作用。生物信息學注重實際分析,由於軟硬件的差異,對於同樣的數據,不同的人處理得到的結果可能不一緻,這就要勤加練習,積纍經驗,分析導緻不同結果産生的原因,並能對結果進行取捨,或者改 實用生物信息學 下載 mobi epub pdf txt 電子書 格式
實用生物信息學 下載 mobi pdf epub txt 電子書 格式 2024
實用生物信息學 下載 mobi epub pdf 電子書實用生物信息學 mobi epub pdf txt 電子書 格式下載 2024