<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE document PUBLIC "-//CNX//DTD CNXML 0.5 plus MathML//EN" "http://cnx.rice.edu/cnxml/0.5/DTD/cnxml_mathml.dtd">
<document xmlns="http://cnx.rice.edu/cnxml" xmlns:md="http://cnx.rice.edu/mdml/0.4" xmlns:m="http://www.w3.org/1998/Math/MathML" xmlns:bib="http://bibtexml.sf.net/" id="id3924660">
  <name>sequence analysis</name>
  <metadata>
  <md:version>1.1</md:version>
  <md:created>2007/06/18 23:27:52.064 GMT-5</md:created>
  <md:revised>2007/06/18 23:35:23.819 GMT-5</md:revised>
  <md:authorlist>
      <md:author id="quyviolet">
      <md:firstname>Quy</md:firstname>
      <md:othername>Cam</md:othername>
      <md:surname>Vo</md:surname>
      <md:email>quyviolet@yahoo.com</md:email>
    </md:author>
  </md:authorlist>

  <md:maintainerlist>
    <md:maintainer id="quyviolet">
      <md:firstname>Quy</md:firstname>
      <md:othername>Cam</md:othername>
      <md:surname>Vo</md:surname>
      <md:email>quyviolet@yahoo.com</md:email>
    </md:maintainer>
  </md:maintainerlist>
  
  <md:keywordlist>
    <md:keyword>sequence analysis</md:keyword>
  </md:keywordlist>

  <md:abstract>sequence analysis</md:abstract>
</metadata>
  <content>
    <section id="id-165688501691">
      <name>SỰ TƯƠNG ĐỒNG TRÌNH TỰ</name>
      <section id="id-476405762735">
        <name>Giới thiệu</name>
        <para id="id8092623">Trong Bioinformatics, sắp gióng cột trình tự được dùng để sắp xếp các trình tự DNA, RNA hoặc protein để xác định những vùng tương đồng có thể có sự bảo tồn về cấu trúc, chức năng hoặc có mối quan hệ tiến hóa giữa chúng với nhau. Trong quá trình sắp gióng cột, các khoảng trống (gap, được kí hiệu bằng dấu –) được chèn vào giữa vị trí các nucleotide hay amino acid để các trình tự có sự tương tự nhau nhiều nhất trong mỗi cột (Hình 1.1.) </para>
        <para id="id4785866">
        ***SORRY, THIS MEDIA TYPE IS NOT SUPPORTED.***
      </para>
        <para id="id13111627">Figure 1</para>
        <para id="id10617460">Hình 1.1. Kết quả của một quá trình sắp gióng cột bởi chương trình ClustalW giữa các protein Zinc finger ở người.</para>
        <para id="id8883162">Nếu hai trình tự được sắp gióng cột có chung một tổ tiên, các gap biểu thị cho các đột biến thêm vào hay mất đi của nucleotide trong quá trình tiến hóa. Trong sắp gióng cột các trình tự protein, mức độ tương đồng giữa các amino acid biểu thị cho sự bảo tồn của một vùng đặc biệt trong trình tự. Sắp gióng cột giữa các trình tự protein cũng cho thấy có sự thay thế các amino acid. Sự thay thế bởi các amino acid có chuỗi bên có đặc tính sinh hóa tương tự nhau (sự thay thế có tính bảo tồn) tại một vùng đặc biệt của trình tự giải thích cho vai trò quan trọng về cấu trúc hoặc chức năng của vùng đó. </para>
        <para id="id8142268">Bằng phương pháp thủ công, có thể dễ dàng sắp gióng cột những trình tự rất ngắn hoặc rất tương đồng với nhau. Tuy nhiên, trên thực tế, các trình tự protein, đặc biệt là các trình tự nucleotide rất dài, đòi hỏi phải có các công cụ, phần mềm, thuật toán để giải quyết vấn đề này. Trong trường hợp này, việc sắp gióng cột được thực hiện bằng hai cách: sắp gióng cột toàn bộ (global alignment) và sắp gióng cột cục bộ (local alignment). Sắp gióng cột toàn bộ nhằm gióng cột toàn bộ chiều dài của tất cả các trình tự, thường được sử dụng khi các trình tự khá tương đồng và có chiều dài tương đương nhau. Thuật toán Needleman-Wunsch thường được sử dụng cho việc sắp gióng cột toàn bộ. Trong sắp gióng cột cục bộ, chỉ một phần của trình tự được xác định sự tương đồng. Phương pháp này thường được sử dụng khi các trình tự không có mức tương đồng cao hoặc được cho là có những vùng motif bảo tồn. Sắp gióng cột cục bộ thường sử dụng thuật toán Smith-Waterman. Hình 1.2. minh họa sự khác biệt giữa sắp gióng cột toàn trình tự và sắp gióng cột cục bộ.</para>
        <para id="id6305128">
        ***SORRY, THIS MEDIA TYPE IS NOT SUPPORTED.***
      </para>
        <para id="id13726083">Hình 1.2. Sắp gióng cột toàn bộ và sắp gióng cột cục bộ</para>
      </section>
      <section id="id-203166195447">
        <name>Sắp gióng cột cặp trình tự (Pairwise Alignment – PA)</name>
        <section id="id-507024035516">
          <name>Nguyên tắc sắp gióng cột toàn bộ bằng thuật giải Needleman-Wunsch</name>
          <para id="id11652030">Thuật giải sắp gióng cột trên toàn bộ chiều dài của hai trình tự được Needleman và Wunsh đưa ra vào năm 1970 </para>
          <para id="id3253385">Giả sử có hai trình tự A và B. Để việc sắp gióng cột cặp trình tự AB có điểm cao nhất (tức cho kết quả tương đồng cao nhất), một ma trận F hai chiều được tạo ra. Mỗi vị trí trong ma trận được kí hiệu là Fij. Điểm cho sắp gióng cột được đặc trưng bằng ma trận tương đồng, trong đó, S(i,j) là điểm tương đồng giữa hai kí tự i và j. d là một điểm phạt tuyến tính cho các gap (gap penalty). Trong ma trận, trục hoành là các kí tự của trình tự A (có chiều dài x), các kí tự của trình tự B (có chiều dài y) được biểu diễn trên trục tung. </para>
          <para id="id12345160">Khởi tạo ma trận F như sau:</para>
          <para id="id13451634">F(11) = 0</para>
          <para id="id13902258">F(1j) = 0</para>
          <para id="id7579430">F(i1) = 0</para>
          <para id="id13646370">Tiếp theo tiến hành lấp đầy ma trận F từ đỉnh bên trái tới đáy bên phải. Giá trị tại vị trí F(i,j) sẽ được tính dựa trên điểm tại F(i-1,j-1), F(i-1,j), và F(i,j-1) theo công thức:</para>
          <para id="id5632683">
        ***SORRY, THIS MEDIA TYPE IS NOT SUPPORTED.***
       </para>
          <para id="id12906973">Nếu F(i, j) = F(i-1, j-1) + s(xi,yj), xi sẽ được sắp gióng hàng với yj. Nếu F(i,j) = F(i-1,j) – d, xi sắp gióng hàng với một khoảng trống. Nếu F(i,j) = F(i,j-1) – d, yj sắp gióng hàng với một khoảng trống. Công thức này sẽ được tính lặp lại cho đến khi tất cả các giá trị F(i,j) được xác định (hai trường hợp đặc biệt F(i,0) và F(0,j) được xác định bằng công thức F(i,0) = -id, F(0,j) = -jd). </para>
          <para id="id10828388">Như vậy giá trị F(i,j) cuối cùng là điểm tốt nhất cho sắp gióng cột hai trình tự. Bước tiếp theo chúng ta phải xác định con đường đi đến giá trị cuối cùng này. Quá trình này gọi là traceback, bắt đầu từ giá trị cuối cùng của ma trận. Trong mỗi bước traceback, chúng ta sẽ di chuyển ô hiện tại (i,j) đến một trong 3 ô (i-1,j-1), (i-1,j) hay (i,j-1) và đặt cặp ký tự vào hàng gióng hiện tại. xi và yi sẽ được gióng với nhau nếu từ ô (i,j) di chuyển đến ô (i-1,j-1), xi gióng với “–” nếu di chuyển đến ô (i-1,j) và yj gióng với ‘-‘ nếu di chuyển đến ô (i,j-1) và kết thúc khi i = j = 0. </para>
          <para id="id12116833">Ví dụ cho hai trình tự sau:</para>
          <para id="id6756876">s :GACGGATTAGAA</para>
          <para id="id11220265">t :GATCGGAATAG</para>
          <para id="id7937224">Điểm số cho các kí tự như sau: +1 nếu hai kí tự giống nhau, -1 nếu hai kí tự khác nhau và điểm phạt khi một kí tự bắt cặp với một gap là -2.</para>
          <para id="id12808233">G A – C G G A T T A G A A</para>
          <para id="id9000074">G A T C G G A A T A G – –</para>
          <para id="id13265349">1 1 -2 1 1 1 1 -1 1 1 1 -2 -2</para>
          <para id="id11908791">Như vậy, điểm tổng cộng cho quá trình sắp gióng cột của hai trình tự trên là:</para>
          <para id="id13971291">1+1-2+1+1+1+1-1+1+1+1-2-2=2</para>
          <para id="id6759069">Ta có ma trận F cho hai trình tự này trên Bảng 1.1.</para>
          <para id="id3901762">Bảng 1.1. Ma trận cho sắp gióng cột hai trình tự</para>
          <para id="id12296344">
        ***SORRY, THIS MEDIA TYPE IS NOT SUPPORTED.***
      </para>
          <para id="id12176826">Và kết quả sắp gióng cột cho ra:</para>
          <para id="id10883000">G A – C G G A T T A G A A</para>
          <para id="id4767085">G A – C G G A A T A G – –</para>
          <para id="id13671378">1 1 -2 1 1 1 1 -1 1 1 1 -2 -2</para>
        </section>
      </section>
    </section>
  </content>
</document>
