- 596
- 2023/04/26 - 12:24
- 77 بازدید
شرح فصل و نکات ویژه: * در این فصل مروری کلی بر جنبههای مختلف ژنومیکس ساختاری، مقایسهای و عملکردی خواهیم داشت. * مباحث مربوط به ژنومیکس مقایسهای و عملکردی در فصلهای بعد به تفصیل مورد بحث قرار میگیرند. * در این فصل انواع روشهای سکئونسینگ و پروژههای ژنوم معرفی میشوند. بسیاری از مباحث موجود در این فصل در فصول بعدی با تفصیل شرح داده شدهاند، به این دلیل برخی بخشها در این فصل به صورت خلاصه تدوین[…]
شرح فصل و نکات ویژه:
* در این فصل مروری کلی بر جنبههای مختلف ژنومیکس ساختاری، مقایسهای و عملکردی خواهیم داشت.
* مباحث مربوط به ژنومیکس مقایسهای و عملکردی در فصلهای بعد به تفصیل مورد بحث قرار میگیرند.
* در این فصل انواع روشهای سکئونسینگ و پروژههای ژنوم معرفی میشوند.
بسیاری از مباحث موجود در این فصل در فصول بعدی با تفصیل شرح داده شدهاند، به این دلیل برخی بخشها در این فصل به صورت خلاصه تدوین شدهاند. بحث اصلی این فصل پیرامون ژنومیکس ساختاری میباشد.
پیشنهاد مطالعاتی:
کتاب ”بیوانفورماتیک” نوشته ”محمدرضا نقوی” و ”محمدعلی ملبوبی” از انتشارات دانشگاه تهران کتابی جامع میباشد که به مبحث ژنومیکس بهصورت گستردهتر پرداخته است.
26-فصل دوم
برای دریافت نسخه چاپی و به روز کتاب با انتشارات دکتر خلیلی تماس بگیرید. 02166568621
مدتهای طولانی است که پزشکان و دانشمندان میدانند ژنوم به عنوان مجموعه کامل اطلاعات ژنتیکی یک موجود زنده، یک منبع غنی از اطلاعات مربوط به عناوینی است که از متابولیسم پایه و مکانیسمهای نمو تا طول عمر و افزایش سن متفاوت هستند. هرچند، اندازه عظیم ژنوم انسانی ( جفت باز نوکلئوتیدی) نیاز به تغییر در روش دانشمندان برای تعیین توالیهای DNA را نشان میدهد و همچنین پیشرفتهای اخیر در بیوانفورماتیک به نوبه خود، نیاز به ابداع روش برای «استخراج» اطلاعات از توده توالی ژنومی حاصل از طرح ژنوم انسانی و گونههای مرتبط را مطرح میکنند. تکمیل موفقیتآمیز طرح ژنوم انسان اوج بیش از شش دهه تلاش ماندگار در بیولوژی مولکولی، ژنتیک و بیوشیمی است. شرح تاریخی زیر اشاره به یکایک وقایع مهمی دارد که منتهی به تعیین توالی کل ژنوم انسان شد.
1944- نقش DNA به عنوان ماده وراثتی نشان داده شد.
1953- مفهوم مارپیچ دوتایی مسلم شد.
1966- کد ژنتیکی مشخص شد.
1972- فناوری DNA نوترکیب ابداع شد.
1977- فناوری تعیین توالی DNA عملی شد.
1983- ژن بیماری هانتینگتون نقشهبرداری شد.
1985- واکنش زنجیری پلیمراز (PCR) ابداع شد.
1986- تعیین توالی DNA خودکار شد.
1986- ژن دیستروفی عضلانی دوشن شناسایی شد.
1990- طرح ژنوم انسان در ایالات متحده شروع شد.
1994- نقشهبرداری ژنتیکی انسان تکمیل شد.
1996- اولین نقشه ژنی انسان تهیه شد.
1999- چند شکلی تک نوکلئوتیدی مقدماتی شروع شد.
1999- اولین توالی یک کروموزوم انسانی (شمار 22) تکمیل شد.
2000- «اولین پیشنویس» طرح ژنوم انسان تکمیل شد.
2003- تعیین توالی اولین ژنوم انسانی تکمیل شد.
همزمان با این پیشرفتها، تعیین توالی ژنوم صدها موجود زنده دیگر انجام شد، مثل Haemopilus influenzae (1995)، مخمر (1996)، Escherichia coli (1997)، Caenorhabditis elegans (1998)، Mycobacterium tuberculosis (1998)، برنج (2000)، Listeria monocytogenes (2001)، کوروناویروس SARS (2003)، موش صحرایی (2004) و شامپانزه (2005).
دو گروه مسئول تعیین توالی ژنوم انسان بودند. گروه اول “اجلاس تعیین توالی ژنوم انسان” بود که از تعیین توالی “Shotgun sequencing سلسله مراتبی” استفاده نمود (تصویر 9-2) و کار خود را از سال 1990 شروع کرد. کل ژنوم به قطعاتی در حدود kb 200-100 تجزیه شد و این قطعات در داخل کروموزومهای ساختگی باکتریایی (BACs) قرار داده شدند. سپس این BACها از طریق جستوجوی توالیهای نشانگری به نام جایگاههای توالی که موقعیت آنها قبلاً تعیین شده بود، در BACهای مجزایی قرار داده شدند. در مرحله بعد، کلونهای BACs به قطعات کوچک شکسته شدند. سپس هر قطعه تعیین توالی شد و از الگوریتمهای کامپیوتری برای سازماندهی توالیهای سازگار اطلاعات حاصل از قطعات همپوشان برای جمعآوری کامل
27-ژنومیکس
این توالیها استفاده گردید. گروه دوم تیم Celera بود که کار خود را از سال 1998 شروع کرده و از روش “shotgun sequencing کل ژنوم” استفاده نمود (تصویر 7-2). در این روش به جای اینکه ابتدا کلونهای موجود در کتابخانه ژنوم را به صورت شمارشی مرتب کرده و سپس تعیین توالی کنند، ابتدا BACها را تعیین توالی کرده و سپس از یک الگوریتم کامپیوتری برای تعیین ترتیب قطعههای کلون شده استفاده میشود. در سال 2003 “اجلاس تعیین توالی ژنوم” اعلام کرد 90% یوکروماتین ژنوم انسان به پایان رسیده است و در همین تاریخ شرکت Celera اعلام کرد 93% یوکروماتین ژنوم انسان را تعیین توالی کرده است.
ژنومیکس علم مطالعه ژنوم است، بیراه نگفتهایم اگر ادعا کنیم شاهراه اصلی بیوانفورماتیک ژنومیکس میباشد و میتوان بسیاری از مباحث بیوانفورماتیک را حول بحث ژنومیکس بیان کرد. در این فصل به مباحث مختلف حوزه ژنومیکس اشاره خواهیم کرد، این بحث را میتوانیم ” Pre-genomic to Post-genomic Era” بنامیم. ژنومیکس به سه بخش کلی با عناوین ژنومیکس ساختاری، ژنومیکس مقایسهای و ژنومیکس عملکردی تقسیم شده است که در این فصل مبحث ژنومیکس ساختاری به تفصیل شرح داده شده است اما مباحث ژنومیکس مقایسهای و عملکردی به علت همپوشانی مباحث در فصلهای بعدی به صورت خلاصه شرح داده شدهاند. درمطالعه ژنومیکس تعداد بسیار زیادی ژن و یا تمام ژنهای جاندار بهطور هم زمان مورد مطالعه قرار میگیرد. نقشه یابی ژنوم و همچنین توالییابی ژنوم از چالشهای اصلی و ابتدایی این حوزه از علم میباشد و سپس تجزیه و تحلیل دادهها چالشهای بعدی میباشد.
28-فصل دوم
1-2 ژنومیکس ساختاری
در ژنومیکس ساختاری تجزیه و تحلیلهای اولیه ژنوم، شامل: ترسیم نقشههای فیزیکی و ژنتیکی، شناسایی ژنها، مستندسازی ژنها و مقایسه ساختارهای ژنوم صورت میگیرد. مباحثی که در رابطه با ژنومیکس ساختاری در ادامه مطالعه خواهید کرد به این شرح میباشد: نقشهیابی ژنوم، توالییابی ژنوم، تفسیر ژنوم، انتولوژی ژن، مستندسازی خودکار ژنوم، مستندسازی پروتئینهای فرضی، ساختار ژنوم، گروههای پروتئین ارتولوگ، نواحی رمز کننده، نواحی غیررمز کننده، تعداد ژنها در ژنوم و اقتصاد ژنوم. نیم قرن پس از ارائه مدل ساختماني DNA توسط واتسون و كريك (۱۹۵۳ م)، پروژه ژنوم انسان به عنوان بزرگترين پروژه پژوهشي بشر با صرف بيش از ۲ ميليارد دلار و ۱۲ سال (در سال ۲۰۰۳ م) به اتمام رسيد.
تصویر 2-2: اعلام اختتام پروژه ژنوم انسان 50 سال پس از ارائه مدل واتسون و كريك.
در حال حاضر، بدون احتساب ويروسها، بيش از ۴۵۰۰ پروژه ژنوم گونههاي مختلف پروكاريوتي و يوكاروتي در حال انجام است. تا کنون بيش از ۳۰۰ پروژه ژنوم (بهجز ويروسها) اتمام یافته است و تقریبا هر ماه پایان دو پروژه اعلام میشود. با در اختیار داشتن فناوریهای جدیدتر (ادامه این بخش را ببینید)، سرعت انجام پروژههای ژنوم به مراتب بیشتر خواهد شد. اندازه كوچكترين ژنوم يك موجود تك سلولي مثل مایکوپلاسما ژنیتالیوم 600 هزار جفت باز و ژنوم موجوداتي مثل موش و انسان حدود سه ميليارد جفت باز است. اين ژنومها به صورتهاي مختلف حلقوي و خطي ميباشند كه به حالت بستهبندي شده در داخل سلول در ساختارهايي به نام كروموزمها قرار دارند. بنا به اندازهي ژنومها، شكل ژنوم و چرخه زندگي موجود، راهبردهاي متفاوتي براي تهيه توالي ژنومها به كار گرفته ميشود.
از نظر ماهيت، اطلاعات حاصل از پروژههاي ژنوم در سه گروه قابل تقسيم هستند:
1- نقشههاي و تواليهاي مربوط به ژنومها كه به ژنوميكس (Genomics) مشهور است.
29-ژنومیکس
2- ژنهاي قابل رونويسی و توالي آنها كه به ترانس كريپتوميكس (Transcriptomics) مشهور است.
3- پروتئينهاي ابراز شده و توالي آنها به پروتئوميكس (Proteomics) مشهور است.
در اين بخش سعي شده است تصويري عمومي از پروژههاي ژنوم و نحوه دسترسي به اطلاعات گروه اول آورده شود. گروه دوم و سوم در بخشهاي بعدي به تفصيل تشريح شدهاند.
در ادامه، مباحث مربوط به ژنومیکس ساختاری را به ترتیب زیر دنبال کنید:
1- نقشهیابی ژنوم 7- ساختار ژنوم
2- توالییابی ژنوم 8- گروههای پروتئینی ارتولوگ
3- تفسیر ژنوم 9- نواحی رمز کننده
4- انتولوژی ژن 10- نواحی غیررمز کننده
5- مستندسازی خودکار 11- تعداد ژنها در ژنوم
6- مستندسازی پروتئینهای فرضی 12- اقتصاد ژنوم
1-1-2 نقشهیابی ژنوم
اولین گام در فهم ساختار ژنوم نقشهیابی آن است. مکانهای نسبی ژنها، جهشها یا صفات مورفولوژیکی بر روی کروموزومها شناسایی میشوندو لازم به ذکر است معمولا کیفیت نقشهیابیها پایین است. از گذشتهها نقشههاي ژنومي براي تعيين محل لوكوسهاي تعیین كننده صفاتي خاص يا نشانگرها (Markers) به كار ميرفتهاند. با آغاز پروژههاي ژنوم، توجه پژوهشگران به استفاده از اين نقشهها براي علامتگذاري نقاط معين (Landmarks) در ژنومها جلب شد تا بتوانند از آنها براي تشخيص نقاط مورد مطالعه در سطح توالي استفاده كنند. نشانگرها هر گونه صفتي اعم از صفات ظاهري (نشانگرهای مورفولوژيک) تا قطعات ژنومي يا ژنها (نشانگرهای مولکولی) را شامل ميشوند. صفاتي مانند تعداد پرچم، رنگ بذر، مقاومت به بيماري از انواع نشانگرهای مورفولوژيک هستند. نشانگرهاي مولكولي بنا به ماهيت آنها نامگذاري شدهاند. RFLP، RAPD، AFLP، VNTR، SSCP و SNP انواعي از اين نشانگرها هستند كه در دهههاي
30-فصل دوم
اخير رواج فراواني يافتهاند (برای اطلاعات بیشتر در رابطه با تنوع زیستی فصل 13 را ببینید).
الف) نقشههای لینکاژی (ژنتیکی)
از سال 1910، ژنتيكدانان دريافته بودند كه بين برخي صفات پيوستگي وجود دارد. با اين استدلال كه میان فاصله بین نقاط و احتمال كراسينگاور (Crossing over) ارتباط مستقيمی هست، اقدام به تخمين فاصله بين لوكوسهاي مربوط به صفات پيوسته به هم نمودند. اين شيوه مبناي تهيه نقشههاي ژنومي شد كه از طريق تجزيه و تحليل اطلاعات ژنتيكي به دست ميآمد و لذا نقشههاي ژنتيكي ناميده شدند. اين نقشهها، ترتيب قرار گرفتن لوكوسها و فاصله تخمينی بين آنها را نشان ميدهند. واحد فاصله در اين نقشهها، سانتيمورگان است. امروزه ميدانيم به دليل وجود نقاط حساس و مقاوم به شكنندگي يا كراسينگآور نقشههاي ژنتيكي دقت لازم را ندارند.
– موقعیتهای نسبی نشانگرهای ژنتیکی براساس چگونگی به ارث رسیدن آنها شناسایی میشوند.
– یک واحد سانتیمورگان یعنی یک درصد از کل حوادث نوترکیبی به هنگام جدا شدن دو نشانگر ژنتیکی.
ب) نقشههای فیزیکی
در اين گونه نقشهها با استفاده از مشاهده و يا محاسبه، فاصله بين دو نقطه كروموزومي بهطور فيزيكي نشان داده میشود. اين نقشهها طي مطالعات سيتوژنتيكي يا كروموزومي از مشاهده شكستگيهاي طبيعي كروموزومها ويا تحت تاثير اشعهها به دست ميآيند. بنا به روش مورد استفاده ميزان تمايز (Resolution) بين دو نقطه تفاوت ميكند. مثلا نقشههاي سيتوژنتيكي كه از مشاهده الگو و يا كم و زياد شدن باندهاي رنگآميزي شده كروموزومها به دست ميآيند، قدرت تمايز كمتري دارند. نقشههاي (Radiation Hybrid maps) RH براساس ميزان اشعه تابانده شده يا سانتيگري (CR) تعيين ميشوند. هر چقدر مقدار تشعشع به سلولهاي در حال مطالعه بیشتر باشد، شكستگيهاي بیشتر و نزديكتر به هم ايجاد ميشود و در نتيجه قدرت تمايز نقشه بالا ميرود. در اين روش سلولهاي اشعه ديده با سلولهاي موجودي ديگر دو رگ ميشوند. سپس در سلولهاي حاصل به مطالعه نوع شكستگي و تاثير آن ميپردازند. قدرت تمايز اين نقشهها تا ۵۰ كيلوباز ميرسد.
31-ژنومیکس
تصویر 4-2: نمايي از نقشههاي ژنتيكي و فيزيكي مورد نياز پروژههاي ژنوم.
در سالهاي اخير نقشههایي با همين قدرت تمايز با استفاده از تعيين توالي دو انتهاي كلونهاي BAC به دست ميآيد كه اين نقشهها را STC map مينامند. در مقايسه، نقشههاي توالي كه بر مبناي تعيين توالي تهيه ميشوند، بالاترين تمايز و دقت را دارند؛ زيرا در اين نقشهها ميتوان فاصله بين دو نقطه را برحسب جفت باز (bp) تعيين كرد. به هر حال، مقدمه تعیین توالی ژنوم، تهيه نقشههاي ژنتيكي و فيزيكي است.
– در نقشههای فیزیکی موقعیت مکانهای قابل تفکیک و مشخص در ژنوم بدون توجه به الگوی توارث آنها تعیین میشود.
– نقشههای فیزیکی با استفاده از روشهای پیمایش کروموزومی که مبتنی بر کاوشگرهای برچسبدار شده برای دورگه گیری با قطعات کلون شده DNA است به دست میآیند.
ج) نقشههای سیتوژنتیکی
هر کروموزوم بعد از رنگآمیزی الگوی ویژه باندی (تیره و روشن) را نشان میدهند. در این نوع نقشهبرداری فواصل بین دو کروموزوم نسبی است و کیفیت نقشهها پایین میباشد.
تهیه کتابخانه ژنومی
در حالي كه تلاشهاي در حال انجام براي تهيه نقشههاي ژنومي ادامه يافته و شتاب بیشتري ميگرفت، به منظور فراهم آوردن امکانات برای تعیین توالی و رفع مشکلات آن، روشهاي تهيه كتابخانههاي ژنومي نيز توسعه يافت. بدین لحاظ، آزمايشگاههاي شركت كننده در پروژههاي ژنوم نسبت به تهيه كتابخانههاي ژنومي اقدام نموده و آنها را با يكديگر رد و بدل مينمودهاند. انواع مشهور كتابخانههاي ژنومي در جدول زیر آورده شدهاند.
32-فصل دوم
جدول 1-2: اطلاعات مقايسهاي كتابخانههاي ژنومي به كار رفته در پروژههاي ژنوم.
لازم به ذکر است براي تهيه كتابخانههاي موجودات مختلف و به ويژه انسان سعي برآن است كه فرد خاصي را در نظر نگيرند. به اين ترتيب توالي عام (Blueprint) مربوط به يك گونه خاص (و نه فرد) تهيه ميشود كه ميتواند پايه مطالعات ژنومي واقع شود.
2-1-2 توالییابی ژنوم
سه رویکرد اصلی برای توالییابی کل ژنوم وجود دارد.
– روش شاتگان (Shotgun Approach)
– روش سلسلهمراتبی (Hierarchical Approach)
– تعيين توالي در مقياس انبوه (Large-Scale Sequencing)
از آنجا كه محدوديتهاي تکنیکی موجود امکان تعيين توالي يك ژنوم يا يك كروموزوم بهطور پيوسته را امکان پذیر نمیکند، تلاش هاي زيادي براي افزايش اندازة قابل توالي يابي انجام گرفته است. در روشهاي معمول، ميزان توالي تعيين شده در هر واكنش حدود 350 تا 700 جفت باز است. به ندرت ميتوان با روشهاي اتوماتيك تا 1000 جفت باز را تعيين توالي نمود. به دليل چنين محدوديتي نيازمند به تهيه كتابخانههاي ژنومي كه در آن ناقلها تواليهاي كوتاه (به طول 1 تا 50 كيلوباز) را حمل ميكنند هستيم (جدول 1-2). كوچك شدن اندازة قابل توالييابي، بهره گيری از راهبردهايي براي كنار هم چيدن تواليهاي به دست آمده در جهت به دست آوردن قطعات بزرگتر يا تکه توالي (conting) را ضروري ميسازد. براساس اين راهبردها، سه راهبرد براي تعيين توالي ابداع شده است: راهبرد اول، روشي كلاسيك بوده و از ابتدا در پروژههاي ژنوم به كار ميرفته است. در این روش با کوچک و کوچک کردن قطعات، اقدام به تعیین توالی شده و سپس با استفاده از توالی های هم پوشان و نقشه ها قطعات سرهم می شوند تا توالی طول کامل هر کروموزوم بدست آید. اين راهبرد بسيار پرهزينه بوده و اغلب با بنبستهاي تکنیکی مواجه بوده است.
33-ژنومیکس
تصویر 5-2: الکتروفورز DNAهای نشاندار شده با موارد رادیو اکتیو به منظور سکوئنسینگ.
راهبرد دوم، مبتنی بر روش شلیک تصادف (Shot gun) در دو دهه گذشته ابداع شد و هماكنون بسيار رواج يافته است. در راهبرد اول و دوم، اساس روش تعيين توالي سانگر است.
راهبرد سوم، براي تعيين توالي در مقياس انبوه معرفي شده است كه روش كار آن در ادامه فصل ميآيد. دانستن روشها به شما در فهم و دنبال نمودن اطلاعات كمك زيادي ميكند. نمايشي از نتايج تعيين توالي به روش دستي با استفاده از راديوايزوتوپها (تصویر 5-2) و اتوماتيك با استفاده از مواد فلورسانت (تصویر 6-2) که در هر دو مورد از روش سانگر استفاده ميشود در فوق آمده است.
الف) توالی یابی شاتگان (Shotgun Approach) (BAC-based sequencing)
در اين روش، DNA كروموزمها در كتابخانههاي BAC قطعه قطعه شده و جاي داده ميشود. قطعات موجود در BAC اندازههايي بين 45 تا ۳۰۰ كيلوباز دارند كه حدي متوسط بين كتابخانههاي كاسميدي و YAC است. بعلاوه، در اين روش، نياز چنداني به نقشههاي ژنتيكي و فيزيكي نيست، بلكه ميتوان با تعيين توالي دو انتهاي هر قطعه كلون شده در ناقل BAC و تعيين موقعيت آن در روي كروموزوم يك نقشه STC به دست آورد كه خود مبناي توالي دارد. در قدم بعدي، هر كلون BAC به قطعات كوچكتر همپوشان تقسيم كرده و در ناقلها پلاسميدي جاي ميدهند. سپس بهطور تصادفي كلونهايي را انتخاب و تعيين توالي ميكنند. اين كار آنقدر ادامه مييابد تا تواليهاي هم پوشان متعددي براي يک منطقه به دست آيد (شكل 7-2). بدين لحاظ، اين روش را روش شليك تصادفي (Shot-gun seq) نيز مينامند. براي هر سري تعيين توالي به اين روش، بهطور معمول يك منطقه ۱۰تا ۳۰ بار تعيين توالي ميشود. ولي از آنجا كه زمان و هزينهاي براي انتخاب كلونها صرف نميشود و روش تا حد زيادي قابليت خودكار شدن دارد، در مجموع اين روش سريعتر و ارزانتر تمام ميشود.
34-فصل دوم
هدف: سر هم کردن توالیهای کوچک به دست آمده از روش پایاندهی زنجیره و ایجاد توالی اصلی است.
– به توالیهای کوچک کانتیک میگویند و با اتصال کانتیکها قطعات اسکفولد ایجاد میشوند.
– توسط مناطق همپوشان بین کانتیکها توالی اصلی را مییابیم.
مراحل روش شات گان:
1- استخراج ¬DNA 2- شکستن DNA با امواج صوتی به قطعات کوچک ¬ 3- شناسایی قطعات مناسب برای توالییابی (قطعات الکتروفورز میشوند آنهایی که بین 6/1 تا 2 کیلو باز هستند از ژل جدا میشوند) ¬ 4- کلون کردن قطعات به منظور تکثیر (برای اطمینان از حضور قطعه در کلون PCR انجام میدهند) ¬ 5- جداسازی و خالصسازی قطعه کلون شده ¬ 6- توالییابی با روش اتومات ختم زنجیره ¬ 7- سر هم کردن کانتیکهای 6/1 تا 2 توسط قسمتهای همپوشان (اگر کل طول توالیهای همپوشان 6 تا 10 برابر باشد میتوان اطمینان پیدا کرد). از نرمافزارهای Phred و Phrap برای مقایسه قطعات توالییابی شده، پیدا کردن مناطق همپوشان و مرتب کردن آنها میتوان استفاده کرد. اگر قسمتی توالییابی نشده بود
35-ژنومیکس
با استفاده از بخشی که توالی آن را شناختیم آن قسمت را توالییابی میکنیم (به این کار Fishing میگویند).
ب) توالی یابی سلسلهمراتبی (Hierarchical Approach) (Map-based sequencing)
این روش، تعيين توالي از بالا به پايين (Top-down seq) و تعيين توالي كلون به كلون (Clone-by-clone seq) نيز ناميده ميشود. در اين روش، كروموزومها را به قطعات نسبتا بزرگي (حدود يك مگاباز) همپوشان تقسيم كرده و يك كتابخانه ژنومي از نوع YAC (Yeast Artificial Chromosomes) ميسازند. پس از تطبيق كلونهاي اين كتابخانه با نقشه كروموزومي، آنها را به قطعاتي كوچكتر (چند صد كيلوبازي) شكسته و در كاسميدها كلون مينمايند. سپس كلونهاي كاسميدي را در كتابخانههاي لامبدا (10 تا 25 كيلوبازي) و يا پلاسميدي (1 تا ۱۵ كيلوبازي) تقسيم ميكنند. كلونهاي اخير قابل توالييابي هستند.
پس از تعيين نقشه يك كروموزوم و تعيين توالي اين كلونها، با كنار هر چيدن تواليها، مسير معكوس از كلون پلاسميدي به كاسميدي، به YAC و بالاخره به كروموزم دنبال ميشود. به عبارت ديگر، تكه تواليها بزرگ و بزرگتر شده و به اندازه كروموزوم برسند. اين روشي بود كه تا سال ۱۹۹۸ بهطور عمده در تعیين تواليهاي ژنومها به كار ميرفت. اما در حين انجام پروژه ژنوم انسان (اولين پروژه ژنوم) اشكالات زير به خوبي مشخص گرديد.
* غيرقابل همسانهسازي برخي تواليها و در نتيجه باقي ماندن فاصلهها در برخي مناطق كروموزومي.
* غير ممكن بودن تعيين توالي برخي مناطق ژنومي با ساختارهای خاص بویژه در توالیهای غنی از G/C.
* ميزان بالاي بازترتيبي (rearrangement) همسانههاي كتابخانههاي ژنومي YAC.
دستيابي به فناوري ساخت كتابخانههاي BAC تا حد زيادي اين سه مشكل را حل نمود. زيرا تا به حال بازترتيبي در همسانههاي BAC نشان داده نشده است. علاوه بر آن، تعيين توالي دو انتهاي هر همسانه با استفاده از آغازگرهاي (primers) مبتني بر توالي ناقل اجازه ميداد تا همسانههاي ارتباط دهنده فواصل خالي با استفاده از توالیهای هم پوشان (شكل زیر) به راحتي پيدا شوند. بدين لحاظ توالي دو انتهاي اين همسانهها را تواليهاي نشانمندساز پيوند دهنده (Sequence Tag Connectors) يا STC ناميدند. همانطور كه در بالا گفته شد، تهيه نقشه بر مبناي تواليهاي دو انتهاي همسانههاي كتابخانههاي BAC را STC map ناميدند كه علاوه بر پر كردن فواصل خالي، نقشهاي با قدرت تمايز مطلوب (تا 50 کیلو باز) را فراهم ميآورد.
36-فصل دوم
– این نوع توالییابی نسبت به روش شات گان کندتر و پرهزینهتر میباشد اما بعد از تهیه نقشه تجمع توالیها آسانتر است.
– توالییابی سلسله مراتبی شبیه شاتگان است اما در مقیاس کوچکتری از ژنوم انجام میشود، یعنی ژنوم به صورت بخش به بخش توالییابی میشود و سپس نتایج به هم متصل میشوند تا به کل توالی دست یافت.
1- کروموزومها با استفاده از راهبرد نقشهیابی فیزیکی نقشهیابی میشوند.
2- سپس قطعات 100 تا 30 کیلو بازی به دست آمده در حاملهای BAC کلون میشوند.
3- براساس نقشهیابی فیزیکی مکانها ترتیب BACها تعیین میشود. BACهای مرتب شده توالییابی میشوند.
4- هر کلون BAC با روش شاتگان توالییابی میشود.
توالی یابی شاتگان برای توالی یابی ژنومهای کوچک مفید و کاراست ولی برای ژنومهای پیچیده یوکاریوتی خطاپذیر است و فاصلههای فراوانی در توالیهای حاصله به هنگام سرهم کردن کردن قطعات هم پوشان باقی میگذارد. امروزه برای توالییابی ژنومهای بزرگ (یوکاریوتها) از ترکیب دو روش استفاده میشود اگر پژوهشگران مجبور به انتخاب یکی از دو روش برای بررسی ژنوم یوکاریوتی باشند روش سلسله مراتبی کاراتر میباشد.
مشکلات روش سلسله مراتبی
– مشکل آلودگیها توسط توالیهای ناقل که توسط برنامهای قبل از سر هم کردن توالیها میتوان آلودگیها را از بین برد.
– مشکل قسمتهای تکراری توسط برنامههایی مثل Repeat Masker و روش Forward-Reverse Constraint میتوان از بین برد. Vec Screen برنامهای اینترنتی برای شناسایی توالیهای حامل باکتریایی در بین توالیهای تعیین توالی شده.
37-ژنومیکس
– مشکل قسمتهای تکراری توسط برنامههایی مثل Repeat Masker و روش Forward-Reverse Constraint میتوان از بین برد. Vec Screen برنامهای اینترنتی برای شناسایی توالیهای حامل باکتریایی در بین توالیهای تعیین توالی شده. TIGR Assembler در پایگاه TIGR وجود دارد و برای سرهمبندی توالیهای بزرگ از محدودیت Forward-Reverse استفاده میکند. در این نرم افزار سرهمبندی توسط الگوریتم اسمیت– واترمن انجام میشود. ARACHANE برنامهای برای سرهمبندی توالیهای کل ژنوم میباشد که از یک روش تجربی استفاده میکند.
ج) تعيين توالي در مقياس انبوه (Large-Scale Sequencing)
تکنولوژی توالییابی الکتروفورز موئینه (CE) سنگر بهطور گسترده در آزمایشگاههای سراسر دنیا بهکار گرفته شده است، اما محدودیتهای داخلی در توان عملیاتی، مقیاسپذیری، سرعت و تفکیکپذیری مانعی است که موجب جلوگیری دانشمندان از دسترسی به اطلاعات اساسی مورد نیاز شده است. برای غلبه براین موانع، یک تکنولوژی جدید (next-generation sequencing (NGS)) مورد نیاز است، این تکنولوژی اساساً یک رویکرد متفاوت در توالییابی است که کشفهای متعددی را باعث شده و تحولی را در علوم ژنومیک ایجاد کرده است. شركت Roche اخيرا فناوري جديدي را معرفي كرده است كه مدعي است با استفاده از دستگاه Genome Sequencer FLX و گرايش Sequencing 454 (مبتني بر روش Pyrosequencing) ميتوان با يك پژوهشگر و در عرض ۳ روز با صرف حدود ۱۰۰ هزار دلار تا ۵۰ مگاباز (محدوده اندازه ژنومهاي باكتريايي) را تعيين توالي نمود.
در اين روش ابتدا يك كتابخانه ژنومي متصل به ذرات (و نه ناقل) ايجاد ميشود كه در حفرات بسيار ريز (در حد پيكومتر) توزيع ميشوند. سپس واكنش pyrosequencing در حضور هر يك از بازها بهطور مجزا انجام ميشود. ثبت تصاوير از نقاط فلورسانس در هر دور و تجزيه و تحليل تواليهاي كوتاه (۲۰۰ تا ۳۰۰ جفت باز) توسط نرمافزار باعث توليد توالي سرهمبندی شده با طولهاي بلند (۵۰ مگاباز) و با درجه صحت بالا میشود. گذشت پنج سال از ارائه تکنولوژی NGS (بهعنوان تحول اساسی در مسیر استخراج اطلاعات ژنتیکی از سیستمهای بیولوژیکی) جنبههای بیحد و حصری از ژنوم، رونویسی و اپیژنوم گونهها را آشکار کرده است. این قابلیت تعدادی از موانع مهم را برطرف کرده و حوزههایی از علوم و تحقیقات در مورد بیماریهای انسان تا کشاورزی و علوم تکاملی را توسعه داده است. مفهوم تکنولوژی NGS اساساً شبیه به CE میباشد، بازهای قطعات کوچک DNA بهوسیله سیگنالهای منتشر شده در زمان سنتز هر قطعه (از روی رشته DNA الگو) تشخیص داده میشود. NGS این فرآیند را بهجای یک یا تعداد کمی از قطعات DNA، با میلیونها واکنش موازی انجام میدهد. این پیشرفت، تعیین توالی سریع مناطق بزرگی از جفت بازهای DNA در سراسر ژنوم را مقدور ساخته است.
gDNA در ابتدا به کتابخانهای از قطعات کوچک تقسیم میشود که بهدرستی و بهصورت یکسان به میلیونها واکنش موازی توالییابی میشود. سپس رشتهای که توالییابی میشود (reads) با استفاده از یک ژنوم مرجع شناخته شده (توالییابی مجدد) و یا در غیاب ژنوم مرجع (توالییابی جدید) دوباره چیده میشود. مجموعه کامل readsهای چیده شده توالی کاملی از هر کروموزوم را در نمونه gDNA آشکار میسازد. پلتفرم های مختلفی از NGS توسط شرکتها ارائه شده است که در برخی از معیارها همچون طول reads و یا مدت زمان انجام کار با هم تفاوت دارند که برخی از این موارد در جدول زیر آمده است.
یک محقق برای انجام مطالعات دقیقتر میتواند پوشش ایجاد شده برای نوع خاصی از آزمایش را تغییر دهد. اصطلاح پوشش بهطور عمومی به میانگین تعداد خواندنهای توالی اشاره میکند که برای هر باز در نمونه DNA در یک ردیف قرار میگیرند. برای مثال، کل ژنومی که با پوشش 30x توالییابی شده است به این معنی است که بهطور میانگین، هر باز در ژنوم 30 بار خوانده شده است.
طبیعت دیجیتال NGS یک دامنه پویای نامحدود را حمایت میکند و حساسیت بسیار بالایی را برای استفادههای کمی از قبیل آنالیز بیان ژن فراهم میآورد. دانشمندان با NGS میتوانند فعالیت RNA را با دقتی بالاتر از روشهای مبتنی بر microarray کمی سازی کنند که برای درک تغییرات ظریف بیان ژن که در ارتباط با فرآیندهای بیولوژیکی بسیار اهمیت دارد.
توالییابی کل ژنوم
39-ژنومیکس
حتی برای ژنوم ویروسی نسبتاً جمع و جور با ژنهای بههم فشرده، تعیین توالی کل ژنوم با استفاده از تکنولوژی مبتنی بر CE سنگر نیازمند زمان و منابع زیادی است. برای مثال، توالییابی De Novo کل ژنوم ویروس آبله گاوی (DNA پیچیده و بزرگ ویروسی در حدود 200 کیلو باز) با استفاده از روش مبتنی بر CE، حدود 4000 واکنش تعیین توالی را به همراه دارد (با پوشش x10 و طول خواندن bp500) که هر کدام در لولهها یا چاهکهای جداگانه انجام میشود. اما پروژه تعیین توالی مشابه با استفاده از تکنولوژی NGS میتواند تنها در عرض چند روز و با یک دوره توالییابی و با پوشش x30 یا بیشتر انجام گیرد.
چالش ما برای تعیین توالی ژنومهای کوچک بهخاطر در دسترس نبودن مرجع ژنومی برای بسیاری از گونههاست. این بدان معنی است که تعیین توالی کل ژنوم بایستی بهصورت De Novo انجام گیرد. کیفیت پوشش مجموعه دادههای تعیین توالی
De Novo وابسته به کیفیت contigها (توالیهای پشت سرهم ایجاد شده توسط خواندن توالی همپوشانی شده) میباشد. سایز و تداوم کانتینگ (contig) بر روی تعداد شکافهای موجود در داده اثر میگذارد. مشکل تعیین توالی De Novo این است که طول خواندن کوتاه که با NGS ایجاد شده است میتواند منجر به تعداد بالایی از شکافها (مناطقی که چیدمان خواندن ندارند) شود. این موضوع بهخصوص در مورد مناطقی از ژنوم که حاوی عناصر تکراری میباشند نیز صدق میکند. برای غلبه بر این چالش بعضی از پلت فرمهای NGS، پروتکل تعیین توالی (Paired-End) PE را پیشنهاد کردهاند (تصویر 12-2)، در این پروتکل هر دو انتهای قطعه DNA تعیین توالی میشود و عکس زمانی است که فقط از یک انتها تعیین توالی صورت میگیرد. خواندن PE منجر به یک چیدمان بهتر در اطراف نواحی با توالی تکراری شده و با پر کردن شکافها در توالی مورد توافق کانتینگهای بلندتری را برای تعیین توالی De Novo ایجاد میکند که منجر به پوشش سراسری کاملی میشود.
توالییابی هدفدار
با تعیین توالی هدفدار، تنها زیر گروهی از ژنها یا مناطق مشخص شده در ژنوم توالییابی میشوند و اینکار به دانشمندان اجازه میدهد تا بر روی زمان، هزینه و دادههای مناطقی از ژنوم که بیشتر مدنظر هستند،
40-فصل دوم
متمرکز شوند. به منظور تعیین توالی هدفدار دو روش متفاوت (توالییابی آمپلیکون و غنیسازی هدف) برای ساخت کتابخانه وجود دارد.
بانکهای آنلاین دادههای NGS و آنالیز دادهها:
پایگاه SRA که در سایت NCBI قرار دارد محلی میباشد که دادههای حاصل از NGS در آن ذخیره میشوند و پژوهشگران به این دادهها دسترسی کامل دارند. همچنین پایگاه ENA که در سایت EBI به آدرس ebi.ac.uk/ena قرار دارد دادههای مختلف سکوئنسینگ از جمله دادههای NGS را در خود دارد. پایگاه TRACE به آدرس trace.ddbj.nig.ac.jp که در ژاپن واقع میباشد نیز حاوی دادههای NGS میباشد. یک پایگاه به نام deepBase وجود دارد که دادههای NGS مربوط به microRNAها در آن ذخیره میشود. پایگاه GEO به جمعآوری دادههای بیان ژن میپردازد و اکثر دادههای موجود در این پایگاه مربوط به دادههای حاصل از میکرواری میباشند اما دادههای مربوط به RNAseq نیز در این پایگاه موجود و قابل دریافتند. پایگاهی تحت عنوان TCGA وجو دارد که به جمع آوری دادههای NGS مربوط به سرطانهای مختلف پرداخته است و تعداد زیادی داده خام با اطلاعات کامل پزشکی و اطلاعات آزمایشگاهی آنها در این بانک موجود میباشد، آدرس دسترسی به این پایگاه tcga-data.nci.nih.gov/tcga میباشد.
در تمام پایگاههای ذکر شده دادههای NGS همراه با آدرس دسترسی به مقاله مرتبط به آن پژوهش وجود دارد، اکثر دادها با فرمت FASTQ موجود میباشند و کاربر میتواند با دانلود این دادها توسط ابزارهای مختلف به آنالیز این دادها بپردازد یکی از نرم افزارهایی که کار آنالیز دادهای NGS را راحت کرده است نرم افزار CLC میباشد. در مرحله اول آنالیز این دادها باید کیفیت دیتا چک شود و معمولا به ازای کل خوانش ها و به ازای هر پوزیشن کنترل کیفیت انجام میشود. در مرحله بعد باید توالی آداپتورها که هنگام توالییابی به توالیها اضافه شدهاند حذف شوند. بعد از نرمال کردن نمونهها مپینگ با رفرنس را انجام میدهیم و بعد از انجام این مراحل میتوانیم توسط الگوریتمهای مختلف واریانتها را چک کنیم و کارهای متنوع دیگری را که میخواهیم انجام دهیم را با الگوریتمها و ابزارهای مختلف انجام دهیم.
هم اكنون پروژه ژنوم اغلب موجودات مدل و انسان به اتمام رسيده است و هر ساله چند پروژه ژنوم ديگر به اتمام ميرسد. همگام با انجام پروژههاي ژنوم، پايگاههاي اطلاعاتي و نرم افزارهاي متعددي جهت در دسترسي قرار دادن اين اطلاعات به شيوهاي مناسب و سريع و بهطور رايگان طراحي و راهاندازي شدهاند. به اين منظور مراكزي تحت عنوان
Genome Warehouse راهاندازي شدند تا كليه اطلاعات موجود اعم از نقشه، توالي، فنوتيپ، علائم بيماري، متون (مقالات، گزارشها و…) و هر گونه اطلاعات ژنوتيپي و فنوتيپي را جمعآوري نموده و با هم مرتبط سازند که در فصلهای آینده با Genome Warehouseها آشنا خواهید شد. همچنين اين اطلاعات بايستي قابل بازيابي و قابل درك باشند. به كليه اين مراحل قابل نمايش يا Visualization اطلاعات ميگويند.
3-1-2 تفسیر ژنوم (مستندسازی) Genome Annotation
41-ژنومیکس
قبل از ارائه توالیها به بانکهای اطلاعاتی پژوهشگران توالیها را مورد تجزیه و تحلیل قرار میدهند. فرایند مستندسازی شامل دو مرحله پیشبینی ژن و بررسی عملکرد میباشد.
بررسی عملکردی:
ابتدا ساختار ژنی توسط برنامههای پیشبینی کننده اگزونی ab initio مانند GeneScanو Fgenes H پیشبینی میشود (در بیوانفورماتیک ab initio یک روش برای پیشبینی در مورد ویژگیهای بیولوژیکی با استفاده از تنها یک مدل محاسباتی میباشد)¬ سپس توسط BLAST تایید میشوند ¬ ژنهای پیشبینی شده با توالیهای EST و cDNA مقایسه میشوند. (توسط برنامههایی مثل Spidey SIM4 و EST2 Genome و (Gene Wise ¬ پیشبینی توسط یک فرد ماهر بررسی میشوند ¬
بعد از تعیین ORFها بررسیهای عملکردی توسط BLAST و یا جستوجوی موتیفهای اختصاصی توسط PFam و InterPro انجام میشود.
همانطور که شرح داده شد دو راه اساسي برای بررسی عملکرد در دسترس است، راه حل اول استفاده از جستوجوي BLAST میباشد و راه حل دوم استفاده از جستوجوي موتیفهای اختصاصی خانوادههاي پروتئيني میباشد. راه اول متكي بر دادههاي موجود در پايگاه تواليهاي اوليه مانند GenBank است كه با دو مشكل روبهرو است: مشکل اول ناكافي بودن اطلاعات در اين پايگاهها. بهطور مثال، هنگامي كه پروژه ژنوم گياه مدل Arabidopsis به انتها رسيد، تنها ۹ درصد اطلاعات آن با تواليهاي موجود در GenBank مشابهت داشت. براي حل اين مشكل از روشهاي آزمايشگاهي و نرمافزاري متعددي استفاده شده است كه در فصل ترانسكريپتوميكس تشريح خواهند شد. مشکل دوم زائد و تكراري بودن ركوردهاي GenBank، میباشد که براي حل اين مشكل، پايگاه NCBI اقدام به ساخت سه پايگاه UniGene، RefSeq و
Entrez Gene نمود. در اين پايگاهها، هم دادهها غير تكراري هستند و هم تجمعي از دادههاي مختلف مربوط به يك ژن يا لوكوس آورده ميشود. جرئيات بیشتري در مورد اين پايگاهها در فصل بعد آورده شده است برای مثال Uni Gene براساس ترنسکریپتهایی برای یک لکوس یکسان حاصل از دادههای مختلف مثل ESTها تشکیل شده است. راه دوم متكي بر دادههاي موجود در پايگاه تواليهاي ثانويه است. در واقع، وقتي جستوجو بر مبناي توالي همولوگ امكانپذير نيست، جستوجوي موتيفها ميتواند ما را به اين كه توالي مجهول مربوط به كدام خانواده پروتئيني است رهنمون باشد.
پیشبینی ژن:
روشها و راهبردهای مختلفی در پیشبینی ژنها وجود دارد که عمده ترین آنها به شرح زیر میباشند.
1: روشهای آزمایشگاهی.
از جمله روشهای آزمایشگاهی پیشبینی ژن دورگهگیری mRNA و cDNA میباشد که، بیشتر توسط روش نودرن بلات انجام میشده است و هماکنون نیز رواج دارد اما در دهههای اخیر بررسی RNAها تحت عنوان پروژههای EST انجام میشود.
2: روشهای غیر آزمایشگاهی.
42-فصل دوم
از جمله این روشها میتوان به شناسایی ORFها توسط نرم افزارهای مختلف اشاره کرد. از روشهای دیگر میتوان به شناسایی نواحی رمز کننده با استفاده از ابزارهای بررسی کننده تشابه مثل BLASTX نام برد. روشهای آماری مختلفی هم برای شناسایی ORFها وجود دارند که مهمترین آنها شبکههای عصبی و مدل مخفی مارکوف است. همچنین در رابطه با پیدا کردن ساختار اینترون و اگزون سه راهبرد وجود دارد که به نامهای “روشهای مبتنی بر محتوا”، “روشهای مبتنی بر جایگاه” و “روشهای مقایسهای” شناخته میشوند.
برنامههای پیشبینی ژن:
بهطور کلی برنامههای کنونی پیشبینی ژن در دو دسته اصلی با رویکردهای مبتنی بر ab initio و مبتنی بر همولوژی تقسیمبندی شدهاند. در رویکرد ab initio ژنها را تنها بر اساس توالیهای خاص پیشبینی میکند. اساسیترین موارد، توجه به سیگنالهای ژنی است که شامل کدون های شروع و خاتمه، سیگنالهای قطع اینترون، مکانهای اتصال فاکتورهای رونویسی، مکانهای اتصال ریبوزومی و مکانهای پلی آدنیلاسیون میباشند. دومین خصوصیت که توسط رویکرد ab initio استفاده میگردد شاخصههای آماری میباشد بهطوری که میتوان گفت ترکیب نوکلئوتیدی و الگوهای آماری مناطق کد کننده تمایل دارند که نسبت به مناطق غیرکدکننده به مقدار قابل توجهی متغیر باشند. این شاخصه منحصر به فرد را میتوان با به کار بردن مدلهای احتمالی چون مدل مارکوف (HMM) که به تشخیص مناطق کد کننده از مناطق غیر کد کننده کمک میکنند شناسایی نمود. مدل مبتنی بر هومولوژی پیشبینیها را بر اساس جورشدگی معنا دار با توالی مورد جستوجو انجام میدهد. به عنوان مثال اگر یک توالی ترجمه شده DNA شبیه به یک پروتئین شناخته شده باشد این میتواند یک شاهد قوی بر این مدعا باشد که این قسمت ناحیه کد کننده یک پروتئین است. از ابزارهای پیشبینی ژن میتوان به GENSCAN GENEWISE، GeneID، FGENEH، GRAIL و GeneMar اشاره کرد.
برنامههای مبتنی بر ab initio:
هدف برنامههای پیشبینی ژن ab initio این است که اگزونها را از توالیهای غیرکدکننده تمایز دهند و سپس اگزونها را با ترتیب صحیح به یکدیگر متصل کنند. پیشبینی اگزونها متکی بر سیگنالهای ژن و محتوی ژن است. علاوه بر HMM که قبلا اشاره شد الگوریتمهای مبتنی بر شبکههای عصبی نیز در زمینه پیشبینی ژن رایج هستند. شبکههای عصبی شبیه به سیستم عصبی بیولوژیک است و حاوی متغییرها و گرههایی است که به وسیله توابع وزندهی که آنالوگ سیناپسها هستند به هم متصل میگردند. ویژگی این مدل توانایی آن در یادگیری است. شبکه قادر است که اطلاعات را پردازش نماید و پارامترهای توابع وزندهی بین متغییرها را در طول مرحله ارتقا تغییر داده و پیشبینیهایی را انجام دهد.
الگوریتم شبکههای عصبی در پیشبینی ژن یک شبکه نورال چندین لایه ایجاد میکنند. لایههای ورودی، خروجی و مخفی. ورودی شامل توالی ژن با سیگنالهای اینترون و اگرون است. خروجی احتمال یک ساختار اگزون میباشد. بین ورودی و خروجی learning اتفاق می افتد و ممکن است یک یا چندین لایه مخفی وجود داشته باشد. طی فرایند learning، اطلاعات ساختار ژنی به وسیله شاخصههایی نظیر تکرارهای هگزامری، محلهای برش، محتوی GC ارزیابی و انتقال مییابد. برنامههای ab initio از شبکههای نورال، HMM، و سایر برنامههای مترقی مثل GDA، LDA استفاده میکنند.
43-ژنومیکس
GRAIL یک برنامه تحت وب میباشد که بر اساس شبکههای نورال میباشد. GENSCAN یک برنامه تحت وب میباشد که پیشبینیهایی براساس HMM درجه پنجم انجام میدهد. برنامه HMMgene یک برنامه تحت وب است که از شاخصهای conditional maximum likelihood برای تشخیص شاخصههای کد کننده از غیرکدکننده استفاده مینماید و سپس یک پیشبینی HMM در مناطق دستهبندی شده اجرا میشود و امتداد آن تا بقیه مناطق کد کننده ژن ادامه مییابد. این برنامه بر اساس الگوریتم هیبرید میباشد که هم از شاخصهای مبتنی بر ab initio و هم از شاخص مبتنی بر هومولوژی استفاده مینماید.
برنامههای مبتنی بر همولوژی:
این برنامهها مقایسه توالی مورد مطالعه با نزدیکترین هومولوگ پروتئینی آن در بانک اطلاعاتی را انجام میدهند. نقص این روش اتکای آن بر حضور همولوگها در بانک اطلاعاتی است که اگر هومولوگی موجود نباشد این روش ناکارآمد خواهد بود. GenomeScan یک ابزار تحت وب است که نتایج پیشبینی GENSCAN را با ابزارBLASTX تلفیق مینماید. برنامه EST2genome یک برنامه تحت وب میباشد که یک توالی EST را با یک توالی DNA ژنومی که حاوی ژن مربوطه است مقایسه مینماید. توانایی این ابزار در شناسایی اگزونهای بسیار کوچک و اگزونهای بریده شده است.
برنامههای مبتنی بر Consensus:
چون برنامههای مختلف پیشبینی ژن سطوح متفاوتی از حساسیت و اختصاصیت را دارند پس مطلوب است نتایج حاصل از چندین برنامه را با هم تلفیق کنیم که باعث ایجاد الگوریتمهایی مبتنی بر consensus شده است.
GeneComber یک برنامه تحت وب است که نتایج پیشبینی حاصل از Genescan و HMMgene را با هم تلفیق مینمایند. DIGIT از سه برنامه ab initio یعنی FGENESH، GENESCAN و HMMgene استفاده میکند. این برنامه در ابتدا تمام اگزونهای حاصل از این سه برنامه را گردآوری نموده و ORFها را براساس نمرات مرتب تعیین مینماید.
44-فصل دوم
پیشبینی ژن در پروکاریوتها:
پروکاریوتها ژنوم کوچکی دارند و تراکم ژنی در ژنوم آنها بالاست و توالیهای تکراری بسیار کمی دارند. وجود کدونهای شروع روی DNA شاخص شفافی از محل شروع نسخه برداری نخواهد بود. برای کمک به شناسایی کدون شروع شاخصهای دیگری که مرتبط با ترجمه هستند نیز مورد استفاده قرار میگیرند که یک مورد از آنها توالی شاین دلگارنو است که یک توالی غنی از پورین و مکمل 16Sr-RNA در ریبوزوم میباشد. در انتهای منطقه کدکننده پروتئین و در انتهای هر اپرون یک منطقه خاتمه وجود دارد که میتوانند در پیشبینی ژن کمک نمایند. همچنین برای تشخیص ژنهای پروکاریوتی باید ORFها را شناسایی کرد. همچنین با توجه به این که به ازای هر 20 کدون یک کدون خاتمه به صورت رندوم در یک منطقه غیر کد کننده ژن واقع شده است، لذا یک قالب بلندتر از 20 کدون (بدون یک کدون توقف) میتواند به عنوان یک منطقه کد کننده ژن پیشنهاد گردد، اگر چه حد آستانه برای ORF بهطور معمول یک مجموعه کدونی بزرگتر از 50 یا 60 میباشد. قالب مورد توافق سپس به وسیله حضور سیگنالهای دیگری چون کدون شروع یا توالی شاین- دلگارنو تایید میگردد. یک ORF را میتوانیم در بانکهای پروتئینی جستوجو کنیم و اگر پروتئین همولوگ پیدا کردیم با اطمینان بیشتر میتوانیم بگوییم ORF مورد نظر یک قالب کد کننده پروتئین است.
مدلهای مارکوف میتوانند در پیشبینی آماری یک ژن بسیار مناسب باشند. در مدل مارکوف احتمال یک موقعیت خاص توالی به موقعیت قبلی k بستگی دارد. در اینجا، k درجه مدل مارکوف است. در مدل مارکوف درجه صفر نشان دهنده وقوع هر باز بهطور مستقل از بقیه میباشد. در مدل مارکوف درجه اول وقوع هر باز به باز قبلی آن بستگی دارد و در مدل مارکوف درجه دوم به دو باز قبلی نگاه میکنند که این بیشتر شاخصههای کدونها در یک توالی کد کننده میباشد. هرچه واحد اولیگومر بلندتر باشد به احتمال بیشتری توالی مربوط به یک ناحیه کدکننده میباشد. هرچه درجه مدل مارکوف بزرگتر باشد با صحت بیشتری میتواند ژن را پیشبینی نماید. در توالیهای ژنی کوتاه از یک مدل مارکوف با طول متغییر به نام IMM استفاده میشود و انعطافپذیری بیشتری نسبت به سایر مدلهای مارکوف دارد. از مدلهای با درجات بالاتر معمولاً زمانی استفاده میکنیم که توالی بلند باشد و از مدلهای با درجات پایین زمانی استفاده میکنیم که توالی کوتاه باشد.
نرم افزار GeneMark از برنامههای پیشبینی ژن بر اساس HMMدرجه پنج است. برای توالی مربوط به ارگانیسمی که هنوز مشخص نشده است نزدیکترین ارگانیسم به آن میتواند به عنوان پایهای برای محاسبه مورد استفاده قرار بگیرد. نوعی از GeneMark برای توالیهای یوکاریوتی هم وجود دارد. Glimmer یک برنامه UNIX از TIGER است که از الگوریتم IMM برای پیشبینی مناطق بالقوه کدکننده استفاده مینماید. FGENESB یه برنامه تحت وب است که براساس HMM درجه پنج کار میکند.
یک روش دیگر به نام TESTCODE این حقیقت را استنتاج میکند که بازهای Wobble در منطقه کد کننده تمایل به تکرار دارند، لذا با الگوهای تکراری نوکلئوتیدها میتوان مناطق کدکننده و غیرکدکننده را تمایز داد.
45-ژنومیکس
پیشبینی ژن در یوکاریوتها:
ژنوم هسته یوکاریوتها بسیار بزرگتر از پروکاریوتها و با تراکم ژنی کم میباشد. حد فاصل ژنها بسیار بزرگ بوده و غنی از توالیهای تکراری عناصر قابل جابهجایی (ترنسپوزونها) است. بحث اصلی در تشخیص ژنهای یوکاریوتی تشخیص اگزونها، اینترونها، و محلهای برش است. چندین شاخصه حفاظت شده در ژنهای یوکاریوتی وجود دارند که میتوان با استفاده از آنها پیشبینی محاسباتی کرد، به عنوان مثال برش و اتصال اینترونها و اگزونها به وسیله قانون GT-AG انجام میگیرد که در انتهای اینترون توالی GTAAGTو در انتهای توالی (py)12NCAG وجود دارد. بیشتر ژنهای مهره داران یک توالی منحصر به فرد به نام کزاک به شرح CCGCCATGG دارند. علاوه بر این بیشتر این ژنها تراکمی از توالی CpG دارند که به شناسایی محل شروع نسخهبرداری ژن یوکاریوتی کمک میکنند. سیگنال poly-A نیز به تعیین محل توالی کدکننده انتهایی کمک میکند.
پیشبینی و تجزیه و تحلیل راهاندازها و عناصر تنظیمی:
ارتباط معنیداری بین شناسایی ژن با پیشبینی راهانداز وجود دارد، چنان که اگر یک راهانداز به درستی پیشبینی شود مرزهای ژن به خوبی تعیین خواهد شد و کمک زیادی به پیشبینی ژن خواهد کرد و همچنین اگر یک ژن به خوبی پیشبینی شود کمک زیادی برای پیشگویی راهاندازها خواهد کرد. با توجه به این که تجزیه و تحلیل راهاندازها و عناصر تنظیمی از دو جنبه پیشبینی نواحی راهانداز در توالی ژنومی و تعیین خصوصیات نواحی راهانداز از راه شناسایی نگارههای متصل به عوامل رونویسی باید مد نظر قرار بگیرد دو نوع الگوریتم برای این موضوع وجود دارد:
1: الگوریتمهای وابسته به الگو.
شامل روشهایی است که مبتنی بر ab initio بوده و پیشبینی de novo را با اسکن کردن یک توالی انجام میدهد. از این نوع الگوریتمها برای جستوجوی توالیهای ژنومی برای شناسایی الگوهای تنظیم کننده شناخته شده، استفاده میشود.
2:الگوریتمهای وابسته به توالی.
شامل روشهای مبتنی بر تشابه(هومولوژی) میباشد که پیشبینی را بر اساس همردیفی توالیهای هومولوگ انجام میدهند و همچنین روشهای مبتنی بر پروفایل بیان ژن میباشند که از پروفایل بیان ژنهایی که با یکدیگر در همان موجود بیان میشوند استفاده میکنند. پیشبینی مبتنی بر تشابه را انگشت نگاری فیلوژنتیکی نیز مینامند. از الگوریتمهای وابسته به توالی به منظور کشف الگوهای ناشناخته در گروهی از توالیهایی که از نظر عملکردی به یکدیگر وابسته هستند استفاده میشود.
پیشبینی پروموتر در پروکاریوتها:
یکی از جنبههای ویژه در پیشبینی پروموتر پروکاریوتها تعیین ساختار اپرونها است چون اپرونها دارای یک پروموتر مشترک میباشند. روشهایی برای پیشبینی اپرونهای پروکاریوتی وجود دارند که دقیقترین آنها به وسیله wang و همکارانش ارائه گردید. این روشها بر دو نوع اطلاعات اتکا دارند. جهت ژن و فاصله بین ژنی یک جفت از ژنهای مورد نظر و linkage بین آنها.
46-فصل دوم
BPROMیک برنامه تحت وب رایج در رابطه با پیشگویی پروموترهای یوکاریوتی است و نرم افزار FindTermیک برنامه برای جستوجوی سیگنالهای خاتمه دهنده باکتریایی مستقل از “رو” که در انتهای اپرون قرار گرفتهاند میباشند.
پیشبینی پروموتر در یوکاریوتها:
روش ab initio برای پیشبینی پروموترها و عناصر تنظیمی در یوکاریوتها بر جور شدن الگوهای مشترک پروموترها و عناصر تنظیمی شناخته شده اتکا دارد. الگوهای consensus از محلهای اتصال به DNA که بهطور تجربی تعیین شدهاند به دست میآیند. این مکانهای اتصال در پروفایلها جمعآوری شده و در یک بانک اطلاعاتی ذخیره شدهاند. برای افزایش اختصاصیت پیشبینی، از شاخصه منحصر به فرد CpG یوکاریوتی استفاده شده است. با تشخیص جزایر CpG میتوانیم بلافاصله در جزایر بالادست این مناطق به دنبال پروموتر باشیم. CpGProD یک برنامه تحت وب میباشد که پروموترهای حاوی تراکم بالایی از جزایر CpG در توالیهای ژنوم پستانداران هستند را شناسایی میکنند. Eponine یک برنامه تحت وب است که محلهای شروع نسخهبرداری را براساس یک سری از PSSMهایی که از قبل به وسیله چندین محل تنظیمی نظیر جعبه TATA، جعبه CCAAT و جزایر CpG ایجاد شده است پیشبینی مینماید. Cluster-Buster یک برنامه تحت وب مبتنی بر HMM است که جهت یافتن دستههایی از محلهای اتصال تنظیمی طراحی شده است. McPromoter یک برنامه تحت وب است که از یک شبکه نورال جهت پیشبینی پروموتر استفاده مینماید.
روشهای فیلوژنتیک بر اساس Footprinting:
تشخیص عناصر محافظت شده غیرکدکننده DNA که نقشهای حیاتیای را بر عهده دارند Phylogenetic footprinting میگویند و این عناصر را phylogenetic footprints مینامند. این روش میتواند هم در پروکاریوتها و هم یوکاریوتها استفاده گردد. در این روش به فاصله تکاملی در مقایسه توالی منطقه غیرکدکننده در فرادست ژنها توجه میشود که باعث میگردد از بروز مثبتهای کاذب پرهیز شود.
ConSite یک سرور تحت وب است که عناصر عمومی پروموتر را از طریق مقایسه دو توالی اورتولوگ شناسایی مینماید. rVISTA یک ابزار مشابه مقایسه بین گونهای برای شناسایی پروموتر است. PromH یک برنامه تحت وب که محلهای تنظیمی را با استفاده از مقایسه توالی دو به دو شناسایی مینماید. Bayesaligner یک برنامه footprinting و تحت وب است. این برنامه دو توالی را با استفاده از الگوریتم Bayesian که یک روش مقایسه توالی منحصر به فرد است مقایسه مینماید.
روشهای مبتنی بر پروفایل بیان:
47-ژنومیکس
ژنهایی که در بررسی میکرواری پروفایل بیانی مشابهای داشته باشند بهطور هم زمان بیان میگردند. به نظر میرسد علت بیان هم زمان این ژنها اشتراک پروموتر و یا عناصر تنظیمی میباشد. توالی بالادست ژنهایی که بیان هم زمان دارند را میتوانیم با یکدیگر مقایسه کنیم تا یک عنصر تنظیمی مشترک را که به وسیله فاکتورهای نسخه برداری خاص قابل تشخیص هستند را معین کنیم.
MEME یک برنامه مبتنی بر EM است. همانطور که در فصلهای بعد خواهید خواند EM یک روش برای یافتن موتیفهای پروتئینی است اما این روش میتواند برای یافتن موتیف DNA نیز استفاده شود. AlignACE یک برنامه تحت وب است که از الگوریتم نمونهگیری Gibbs جهت یافتن موتیفهای مشترک استفاده مینماید. Melina یک برنامه تحت وب است که بهطور هم زمان از چهار الگوریتم منفرد MEME، Gibbs، Consensus و Coresearch استفاده مینماید. INCLUSive یک ابزار مناسب شبکه است که برای تسهیل نمودن فرایند تجمیع دادههای microarray و یافتن موتیف توالی طراحی شده است.
پايگاه RefSeq
اين پايگاه حاوي اطلاعات مرجع غيرتكراري ژنومي، ژني و پروتئين حاصل مربوط به برخي از موجودات مهم است. حتي در برخي موارد فهرستي از موتيفهاي موجود در پروتئين نيز آورده ميشود. هم اكنون، دادههاي اين پايگاه به عنوان قسمتي از يك ركورد Entrez Gene ارائه ميشود.
پايگاه Gene
هر ركورد اين پايگاه مخزني از كليه اطلاعات مربوط به يك لوكوس است. نگاهي به فهرست مطالب (Table of Contebnts) نشان ميدهد اين اطلاعات شامل تواليهاي ژنومي، ژني و پروتئين، مقالات، نشانگرها، توالي مرجع، بيان ژن، موقعيت نقشهاي يا لوكوس، موتيفها و اتصال به پايگاههاي ديگر حاوي اطلاعات مربوط است (تصویر 14-2). پیشتر این پایگاه با نماد
Entrez Gene نمایش داده میشد اما حالا با نماد Gene نمایش داده میشود.
48-فصل دوم
طرح ENCODE
تعیین هویت تمامی عناصر وظیفهدار ژنوم به میزان زیادی شناخت ما از حوادث مولکولی موجود در زمینه نمو، سلامتی و بیماری انسانی را توسعه خواهد داد. برای این منظور، در اواخر سال 2003، مؤسسه ملی تحقیق ژنوم انسانی (NHGRI) طرح دایرهالمعارف عناصر DNA (NECODE) را آغاز نمود. ENCODE که پایه آن در دانشگاه کالیفرنیا و سانتاکروز میباشد، یک تلاش مشارکتی است که رهیافتهای آزمایشگاهی و کامپیوتری را با یکدیگر ترکیب میکند تا هر عنصر وظیفهدار موجود در ژنوم انسانی را شناسایی نمایند. محققین اتحادیه، با زمینهها و تجارب متنوع، برای ایجاد و ارزیابی تکنیکها، فناوریها و راهکارهای جدید با عملکرد بالا تشریک مساعی خواهند نمود تا نقصهای موجود در توانایی خود برای شناسایی عناصر وظیفهدار را برطرف کنند. در طی فاز پایلوت، ENCODE حدود 1% (Mb30) ژنوم انسانی را برای آنالیز دقیق کامپیوتری و تجربی مورد بررسی قرار خواهد داد. این اتحادیه با چالشهای زیادی روبرو است. علاوه بر اندازه بزرگ ژنوم انسانی و ماهیت مرموز بیشتر توالی آن، دانشمندان میبایست از عهده تنوع عملکرد ژنوم که انواع مختلف سلولها و مراحل متفاوت نمو را مشخص میکنند، برآیند. با توجه به پیچیدگی موضوع، واضح است که هیچ رهیافت تجربی واحدی یا یک نوع سلول برای مرور کامل ارتباطات بین توالی، معیاری و فعالیت ژنومی کافی نخواهد بود.
4-1-2 انتولوژی ژن
با جمعآوري اطلاعات توالي و نامگذاري ميليونها ژن مشكل ديگري بروز كرد و آن ناهمگوني واژههاي بكار برده شده توسط زيستشناسان مختلف بود. علاوه بر آن، عملكردهاي متفاوت براي يك ژن باعث شده بود يك توالي با نامهاي متفاوتي ذخيره شود. بنابراين وقت زيادي توسط پژوهشگران براي تطبيق اطلاعات و واژهها صرف ميشود. آز آن گذشته، خودكار نمودن و
49-ژنومیکس
رايانهاي نمودن بسياري از دادهپردازيها دچار مشكل ميشود. با توجه به توضیحات ذکر شده باید توصیفهای عملکردی پروتئینها استاندارد باشد. این موضوع باعث ایجاد پروژه انتولوژن ژن(GO) شد. علت سردرگمی این میباشد که پژوهشگرانی که بر روی موجودات مختلف کار میکنند تمایل دارند تا از اصطلاحات متفاوت برای یک ژن یا پروتئین استفاده کنند. پايگاه Gene ontology يا AmiGO دائره المعارفي از اطلاعات براي توضيح ژن و محصولات آن است كه سعي بر يكنواخت سازي نامگذاريها و واژهشناسيها دارد. توصیف GO سه دسته اطلاعات به ما میدهد که شامل فرآیندهای زیستی، اجزای سلول و عملکرد مولکول میباشد.
در واقع هر محصول ژني با توجه به موقعيت سلولي (Cellular component) در يك فرايند زيستي خاص
(Biological process) درگير بوده و در نتيجه عملكرد خاصي (Molecular function) را در سلول انجام ميدهد. براي مثال، سيتوكروم C با توجه به موقعيتهاي ماتريكس ميتوكندريايي و غشاي دروني ميتوكندري با عملكرد اكسيدوردوكتازي در فرايندهاي زيستي فسفوريلاسيون اكسيداتيو و مرگ سلولي درگير است. با توجه به مفاهيم ذكر شده پروژه Gene Ontology در سال 1998 توسط پژوهشگران مطالعه ژنوم پايهگذاري شد و به عبارتي كنسرسيوم Gene Ontology شكل گرفت. AmiGO در واقع ابزار قدرتمندي براي جستوجو و بازيابي اطلاعات از پايگاه دادهاي Gene ontology است. براي ورود به اين پايگاه بايد از آدرس http://www.geneontology.org/amigo استفاده كرد. براي جستوجو ميتوان از نام ژن، محصول ژن، توالي ژن مورد جستوجو و نام GO ژن استفاده كرد.
50-فصل دوم
5-1-2 مستندسازی خودکار
با توجه به میزان زیاد دادههای ژنومی برای مستندسازی روشهای خودکار نیاز است. روش کار براساس شناسایی نواحی دارای همولوژی میباشد. اگر توالی یک ژن یا محصول آن ژن شباهت معنیداری با توالی موجود در پایگاه اطلاعاتی داشته باشد انتقال بررسیهای عملکردی رخ میدهد.
Gene Quiz یک سرور اینترنتی برای مستندسازی یک توالی پروتئین است. قادر به بررسی شباهت توالی مورد تقاضا و مستندهای عملکردی پروتئین بر اساس چندین خصوصیت است. این نرم افزار توالی را با توالیهای درون بانک ها با الگوریتمهای BLAST و FASTA مقایسه میکند. همچنین تجزیه و تحلیلهای دمینها با کمک Blocks و PROSITE انجام میشود.
6-1-2 مستندسازی پروتئینهای فرضی
عملکرد حدود 40% از ژنهایی که در ژنومهای تازه توالییابی شده پیدا شدهاند معلوم نیست و از آنها تنها میتوان به عنوان ژنهایی که رمز کننده پروتئینهای فرضی هستند یاد کرد. شناسایی آزمایشگاهی این پروتئینهای فرضی کاری وقتگیر و پر هزینه است. به این دلیل بررسی را توسط ابزارهایی که همولوژی جزیی را بررسی میکنند انجام میدهند. شناسایی همولوژی جزئی شامل کلاسیفیکیشن دمینهای پروتئین، پیشبینی ساختار دوم و سوم، مکان سلولی پروتئین و اینترکشن پروتئین- پروتئین میباشد.
7-1-2 ساختار ژنوم
تجزیه و تحلیل ساختار ژنوم در موجودات مختلف توسط اندازهگیریهای آماری انجام میشود. تجزیه و تحلیل ساختار ژنوم شامل اندازه، ترکیب نوکلئوتیدها، فراوانی رمزهای ژنتیک، تعیین نواحی حفاظت شده میباشد. فراوانی GC و AT بین موجودات مختلف متفاوت است. محتوی GC و AT در جریان تکامل دچار تغییرات اساسی شده است. همچنین رمزهای اسید آمینههای مشابه در موجودات مختلف یکسان نیست. تحقیقات نشان داده است که سازماندهی ژنوم انسان و موش مشابه است. براس تشریح تشابه بین قطعات کروموزومی اصطلاحات متعددی تعریف شده است.
ژنهای سینتنیک: چنانچه دو یا چند ژن بر روی یک کروموزوم قرار داشته باشند احتمالاً این ژنها به هم پیوسته هستند و سینتنیک میباشند.
سینتنی: اگر ژنهای سینتنیک پروتئینهای ارتولوگ در یک کروموزوم منفرد در گونههای مخلتف حفظ شده باشد از اصطلاح سینتینی استفاده میشود. ترتیب ژنها در کروموزومها مورد توجه نیست.
لینکاژ: اگر ترتیب ژنها در کروموزومها حفظ شده باشد به آن نواحی قطعات حفظ شده یا لینکاژ گویند.
8-1-2 گروههای پروتئینی ارتولوگ
با کامل شدن پروژههای توالییابی ژنومهای مختلف توجه به تجزیه و تحلیل و گروهبندی ژنهای پیشبینی شده و توجه به عملکرد آنها بیشتر شده. با توجه به این که مقایسه کل ژنوم یا پروتئوم بسیار سخت است بستههای تجاری 51(مثل برنامه Gen Light) ایجاد شده است که امکان مقایسه مجموعه دادههای توالیهای بزرگ را میدهد.
51-ژنومیکس
روش خوشهبندی دیگر برای گروهبندی پروتئینها، تولید خوشههای پروتئینی ارتولوگ (COG) است. از نظر تکامل همه پروتئینهای داخل یک COG از یک جد مشترک اولیه یا فرایند گونهزایی یا مضاعفشدگی به وجود آمدهاند. تولید COG ها به وسیله مقایسه جفتی توالی همه پروتئینهای مورد مطالعه و تجزیه و تحلیلهای بعدی شبکه روابط حاصله صورت میگیرد. تعیین پروتئین های ارتولوگ در یک گروه از گونهها از مهمترین کارهای بررسی تکامل و شناسایی عملکرد پروتئینهای ناشناخته است.
سیستمهای پیچیدهای برای گروهبندی پروتئین های ارتولوگ به وجود آمدهاند که یکی از بهترینها COG در NCBI است. در حال حاضر در این پایگاه اطلاعاتی 9724 خوشه پروتئین ارتولوگ از 73 ژنوم که توالییابی کامل شدهاند وجود دارد. پایگاه MBGD محاسبه پویایی خوشهها را طبق پارامترهای تنظیم شده به وسیله کاربر تسهیل میکند.
COGs یک سیستم طبیعی خانوادههای ژنی از ژنومهای کامل است. بهطوریکه خوشههای گروههای ارتولوگ به وسیلهی مقایسه توالی پروتئینی در 43 ژنوم کامل رسم شده است. از آنجا که هر COG شامل پروتئینهای خاص یا گروهی از پارالوگها مربوط به حداقل 3 دودمان هستند، بنابراین با دمین حفاظت شده قدیمی تطابق دارند.
9-1-2 نواحی رمز کننده
نواحی غیر رمز کننده در پروکاریوتها کم میباشد و شناسایی و تعیین ژنها در پروکاریوتها به صورت مقایسهای آسان است. بیش از 80 درصد ژنوم پروکاریوتها رمزکننده پروتئین و RNA است. نواحی غیررمز شده در یوکاریوتها زیاد است و شناسایی ژنها دشوار است. همچنین فرایند پردازش و وجود اینترونها که باعث میشوند انواع مختلفی پروتئین ایجاد شود کار را دشوارتر میکند.
10-1-2 نواحی غیررمز کننده
نواحی غیر رمز کننده از این لحاظ که میتوانند در تنظیم نواحی ژنومی تاثیرگذار باشند مهم میباشند. زمانی که دو ژنوم خیلی بزرگ نزدیک بههم با همدیگر مقایسه و مشابهتهایی بین نواحی غیررمزکنندیشان پیدا میشود احتمال شناسایی حوزههای تنظیمی بیشتر میشود.
11-1-2 تعداد ژنها در ژنوم
تعداد ژنها در انسان در حال بررسی میباشد و کار پیچیدهای است. در ابتدا تصور بر این بود که حدود 120 هزار ژن در ژنوم انسان وجود دارد. بعد از توالییابی کامل و با استفاده از ابزارهای مشخص کننده ژنها، تعداد ژنهای انسان بین 25 تا 30 هزار عدد برآورد شده. تا به حال تعداد دقیق ژنهای انسان مشخص نشده است و بعضی از پژوهشها تعداد ژنهای انسانی را 18 هزار عدد اعلام میکنند. تعداد ژنهای ژنوم برنج دو برابر ژنوم انسان است که این دیدگاه را که انسان گونه غالب زمین است را به چالش کشیده است. اما باید توجه کرد پیچیدگی ژنوم را نمیتوان از راه تعداد ژنها توجیه و بررسی کرد.
52-فصل دوم
12-1-2 اقتصاد ژنوم
با استفاده از آنالیز ESTها مشخص شده در حدود 100 هزار پروتئین در انسان بیان میشود. در حالی که بررسیهای ژنوم حدود 30 هزار ژن را مشخص کرده است. ساز و کار پیشبینی شده بسیار پیچیده میباشد و برای بیوانفورماتیک یک چالش محسوب میشود. ساز و کار اصلی مسئول تنوع پروتئین، پردازش متفاوت است. سنتز پروتئینهای بیشتر با وجود تعداد کمی ژن، یکی از راهبردهای بسیار مهم است که موجودات یوکاریوتی برای رسیدن به حداکثر تنوع فنوتیپی از آن استفاده میکنند. اگزونهای متفاوت به صورت متفاوت به هم متصل میشوند و پروتئینهای مختلف ایجاد میکنند. سازوکار دیگری همچون اتصال اگزونهای متفاوت تحت عنوان Exon Shuffling (برخورد اگزونی)وجود دارد که در این ساز و کار دوم اگزونهای مختلف از ژنهای مختلف به یکدیگر متصل میشوند. از سایر ساز و کارها میتوان پردازش ترانس و پدیده ژن داخل ژن را نام برد. حدود 66% ژنهای انسان در هنگام بیان، پدیدههای پردازش متفاوت و برخورد اگزونی را نشان میدهند و بیش از 90% کل پروتئینها را تولید میکنند. در مگس سرکه ژن DSCAM، 115 اگزون دارد و با پردازش متفاوت 38 هزار پروتئین متفاوت تولید میکند. این توانایی بسیار بالا برای تولید پروتئینهای متفاوت، پیچیدگی واقعی یک ژنوم محسوب میشود نه تعداد ژنها. پایگاههای اطلاعاتی Prosplicer پایگاه اطلاعاتی نسخههای حاصل از پردازش متفاوت ژنهای انسان است. پردازشهای متفاوت یک ژن با استفاده از برنامههای SIM4 و TBLASN شناسایی میشوند.
53-ژنومیکس
2-2 ژنومیکس مقایسهای
مقایسه کل ژنومهای موجودات مختلف با یکدیگر را ژنومیکس مقایسهای مینامند. ژنومیکس مقایسهای شامل مقایسه تعداد ژن، محل ژن و محتوی ژن میباشد. ژنومیکس مقایسهای به شناسایی مناطق حفظ شده بین ژنومها کمک میکند. میتوان اطلاعاتی درباره ساز و کار تکامل ژنوم و انتقال افقی ژن بین ژنومهای مختلف به دست آورد و همچنین ژنومیکس مقایسهای به ما در مهندسی مسیرهای متابولیسمی کمک میکند.
مباحثی که در ژنومیکس مقایسهای مورد بحث قرار میگیرند به پنج دسته زیر تقسیم میشوند:
1) همردیفی کل ژنومها
2) انتقال افقی ژنها
3) روش درون ژنومی
4) مقایسه ترتیب ژنها بین دو موجود
5) ترسیم ژنومهای حداقل
1-2-2 همردیفی کل ژنومها
با افزایش تعداد ژنومهای توالییابی شده میتوان توالیهای حفظ شده بین ژنومها را که به مشخص شدن حضور عناصر عملکردی حفظ شده کمک میکند، به وسیله هم ردیفی کل ژنومها با یکدیگر شناسایی کرد. برنامههای همردیفی معمولی برای مقایسه توالیهای بسیار بزرگ استفاده نمیشود و همچنین و به علت طویل بودن توالی نمایش نتیجه چالش برانگیز است. (بحث همردیفی در فصل ششم به صورت تفصیلی آمده است).
MVMmer یک ابزار در پایگاه TIGR میباشد که برای هم ردیفی دو توالی ژنومی کامل و مقایسه مکان ارتولوگها به کار میرود، همردیفی کل ژنوم به صورت پلات نقطهای که با خطوطی از نقطهها به هم وصل شدهاند نمایش داده میشود. این برنامه شکل تغییر یافته BLAST است.
BLASTZ یک ابزار تغییر شکل یافته BLAST است که بعد از یافتن نواحی همردیفی شده با یک روش وزندهی و همچنین با تغییرات حداقل همردیفی را نمایش میدهد.
LAGAN ابزاری است که ابتدا نواحی کوتاه که کامل جفت میشوند را پیدا میکند در ادامه هم ردیفی با الگوریتم نیدلمن وانچ انجام میشود.
Pip Marker ابزاری است که با استفاده از روش تجربی BLASTZ نواحی مشابه را پیدا میکند.
MAVID ابزاری است که براساس الگوریتم پیشرونده Clustal عمل میکند. لنگرگاههای بین توالی با الگوریتم اسمیت واترمن انجام میشود.
Genom Vista یک برنامه جوستجوگر در ژنوم انسان، موش، موش صحرایی و دروزوفیلا است. از برنامهای به نام BLAT برای پیدا کردن لنگرگاهها استفاده میشود. سپس همردیفی را از نواحی لنگرگاه توسط برنامه AVID ادامه میدهد.
2-2-2 انتقال افقی ژن
بیشتر در ژنومهای پروکاریوتی دیده میشود و توسط روشهایی مثل ترانسفورماسیون، کونجوگیشن و ترنسداکشن صورت میپذیرد گروه بندی غیر طبیعی که در درخت فیلوژنتیک رخ میدهد بیانگر امکان انتقال افقی ژنها، بین گونه های مورد بررسی است.
54-فصل دوم
3-2-2 روش درون ژنومی
این روش نواحی از یک ژنوم غیرمعمول را شناسایی میکند. آمارههای نوکلئوتیدی غیرمعمول در نواحی ژنومی به شناسایی ژنهای خارجی در ژنوم کمک میکند. از پارامتر انحراف، GC به عنوان آماره نشان دهنده وجود عناصر ژنتیکی کسب شده استفاده میشود که از طریق فرمول به دست میآید.
ACT برنامهای است که ژنومها را برای بررسی حذف و اضافهشدگی بررسی میکند.
SWaap برنامهای است که نواحی رمزکننده را از نواحی غیررمز کننده جدا میکند و انحراف GC را نشان میدهد.
4-2-2 مقایسه ترتیب ژنها
هنگامی که ترتیب گروهی از ژنها در بین ژنومهای مختلف حفظ شده باشند به این حالت سینتنی گویند اگر روابط سیتنی برای ژنهای معینی در بین پروکاریوتهای منشعب از هم مشاهده شود آنها کلید مهمی برای نشان دادن روابط عملکردی است (مثل اپرونها).
Genorder برنامهای است که مقایسه توالیهای ژنومی را انجام میدهد.
5-2-2 یافتن ژنوم حداقل
تعریف ژنوم حداقل یعنی تعدادی ژن از کل ژنوم که برای سلول یک زندگی حداقلی را فراهم میآورند.
– پیدا کردن ژنومهای حداقل به فهم ژنهای دخیل در مسیرهای متابولیسمی کلیدی که برای حیات سلول ضروریاند کمک میکند.
– در این تجزیه و تحلیل ژنهای ارتولوگ که بین تعدادی از ژنومهای دور از هم مشترکند، شناسایی میشوند.
Coregenes برنامه ای است که هسته های ژنی را بر اساس مقایسه چهار ژنوم کوتاه شناسایی میکند. این برنامه از ابزار Iterativ BLAST برای پیدا کردن ژنهای ارتولوگ استفاده میکند.
55-ژنومیکس
3-2 ژنومیکس عملکردی
با تعیین توالی ژنوم، اطلاعات در مورد ژنها و بیان آنها فراهم میشود اما نمیتوان به وظیفه و عمل ژنها پیبرد. از ژنومیکس عملکردی برای بررسی الگوهای متفاوت بیان ژنها در مراحل تکوین و یا محیطی متفاوت استفاده میشود. به دلیل اینکه مقدار پروتئین اغلب از روی میزان mRNA تولید شده در سلول قابل پیشبینی نیست و همچنین تغییرات پس از ترجمهای که در پروتئین رخ میدهد را نیز نمیتوان از روی mRNAها تشخیص داد نتیجه میگیریم مطالعه پروتئینها ضروری میباشد در این راستا پژوهشگران از طریق مطالعه پروتئین ها به تجزیه و تحلیل عملکرد پروتئینها در بافتها میپردازند. روشهایی که در ژنومیک عملکردی استفاده میشوند اطلاعات تعداد زیادی از بانکهای اطلاعاتی را فراهم کردهاند که در این قسمت با برخی از مهمترین روشها همچون ESTها، SAGE (تجزیه ترتیبی بیان ژن)، ریز آرایه، Realtim PCR، مطالعه پروتئین ها، بررسی تغییرات بعد از ترجمه، دستهبندی پروتئینها و جایابی، متابولومیکس، سیستم بیولوژی، تجزیه و تحلیل مقایسهای متابولیک، پایگاه اطلاعاتی مولکولهای شیمیایی آشنا خواهید شد. در فصلهای آینده هر کدام از این مباحث به تفصیل شرح داده میشوند.
1-3-2 ESTها
يكي از بهترين و قابل اعتمادترين راههاي شناسايي واحدهاي رونويسي، استفاده از روش مشهور به تعيين شناسه تواليهاي رونويسي يا EST ميباشد. این توالیها کوتاه بوده و از یک يا هر دو انتهای هر همسانه با یکبار توالییابی مشخص میشوند
(در فصل نهم این روش با تفصیل شرح داده شده است). در عمل، با استفاده از آغازگرهاي مبتني بر توالي ناقل اقدام به تعيين توالي انتهاهاي قطعه درون يك همسانه از كتابخانه cDNA ميشود كه بهطور تصادفي برداشته شده است. در صورتي كه توالي داراي حداقل طول 100 bp با كمتر از ۳ درصد نوكلئوتيد نامشخص (N) باشد، آن توالي در پايگاه GenBAnk يا مشابه آن ذخيره ميشود.
2-3-2 تجزیه ترتیبی بیان ژن (SAGE)
در این فناوری، قطعات cDNA با برچسبهایی به هم متصل شده و تعیین توالی میشوند. در صورتی که تعداد کافی از برچسبها تعیین توالی شوند، محقق میتواند از نظر کمی میزان یک mRNA ویژه را در یک سلول اندازهگیری کند.
(در فصل نهم این روش با تفصیل شرح داده شده است.)
3-3-2 میکرواری
ریزآرایهها اسلایدهای میکروسکوپی هستند که دارای سریهای مرتبی میباشند. انواع ریزآرایه داریم به نامهای ریزآرایه DNA، ریزآرایه RNA و ریزآرایه پروتئین که این اسامی بستگی به مادهای دارد که روی اسلاید قرار میگیرد. سطح اسلایدها دارای گروههای شیمیایی فعال میباشند که موجب پایدار کردن و پیوند DNA بر روی اسلاید میشوند. فناوری دیگری به نام فتولیتوگرافیک مولکول DNA را بهطور مستقیم بر روی اسلاید میسازد. میتوان توسط فناوری ریزآرایه SNPها را بررسی کرد اما کاربرد اصلی ریزآرایهها تعیین سطح بیان ژن در نمونه است. دادههای میکرواری در سه پایگاه در دسترس هستند در EBI در بخش Array Express در NCBI در بخش GEO و در DDBJ در بخش CIBEX. (در فصل نهم این روش با تفصیل شرح داده شده است.)
56-فصل دوم
4-3-2 Real Time PCR
توسط این روش با دقت و سرعت بالایی در حین واکنش PCR میتوان مقدار DNA ساخته شده را اندازهگیری کرد. در این روش به راحتی میتوان محاسبات کمی را انجام داد. حساسیت این روش 1000 برابر بیشتر از روش هیبریداسیون دات بلات است. PCR زمان واقعی تجمع محصولات را در فاز تصاعدی تعیین میکند. یکی از روشهای پرکاربرد در Real Time PCR براساس استفاده از رنگهای فلورسنس متصل شونده به DNA دو رشتهای است. سه روش دیگر نیز وجود دارد که استفاده از شناساگرهای مولکولی است که به رنگ فلورسانس متصل هستند.
5-3-2 مطالعه پروتئینها
ژنها قطعاتی از DNA هستند که به خودی خود فاقد عملکرد بیوشیمیایی هستند. در فاصله بین تبدیل اطلاعات نهفته در یک ژن به یک عملکرد بیوشیمیایی خاص وقایع مختلف رخ میدهد که سرانجام فعالیت ژن یا پروتئین حاصل، محل ایفای نقش آن و نوع آن را مشخص میکند. بروز یک فنوتیپ در بیشتر حالات محصول یک ژن نیست به ویژه در مورد صفات کمی، اثرات اپیستازی و پلیوتروپیک بین ژنها و همچنین میانکنشهای فراوانی بین پروتئینهای مختلف در تعامل با شرایط محیطی در نهایت یک فنوتیپ خاص را ایجاد میکند. در الکتروفورز دو بعدی نقاطی از ژل (لکههای رنگآمیزی شده) که با ژل کنترل تفاوت دارند (در اندازه لکه یا شدت رنگ) از ژل جدا میشوند و مورد هضم آنزیمی قرار میگیرد (اکثرا توسط تریپسین) محلول پپتیدی حاصل را توسط طیفسنجی جرمی مورد بررسی قرار میدهند و وزنهای پپتیدها به دست میآید. این جرمها را در بانکهای جرمی جستوجو میکنند تا بفهمند لکه مربوط به چه پروتئینی بوده است. (در فصل هشتم این موضوع به همراه بحث پروتئومیک پرداخته شده است.)
6-3-2 بررسی تغییرات بعد از ترجمه
بسیاری از پروتئینها بعد از ترجمه دچار گلیکوزیلاسیون و یا فرایندهای دیگری میشوند که به این فرایندها تغییرات پس از ترجمه میگویند. در تجزیه و تحلیل پروتئومها بررسی تغییرات بعد از ترجمه بسیار مهم است.
7-3-2 دستهبندی و جابهجایی پروتئینها
مطالعه سازوکار انتقال پروتئینها Protein Sorthing نامیده میشود.
8-3-2 متابولومیکس
امروزه بیش از 2000 متابولیت در انسان شناسایی شده. خزانه متابولیکی کل سلول متابولوم نامیده میشود. همانند پروتئومیکس و یا ترنسکریپتومیکس فناوریای وجود ندارد که بتواند کل متابولیتها را یکجا بررسی کند. اسپکتروسکوپی NMR روشی است که اطلاعاتی در خصوص خصوصیات فیزیکی و شیمیایی متابولیتها در اختیار قرار میدهد (در فصل دهم به تفصیل به موضوع متابولومیکس پرداخته شده است.)
9-3-2 سیستم بیولوژی
در سیستم بیولوژی با کمک تلفیق دادههای ژنومیک، پروتئومیک، ترنسکریپتومیکس، متابولومیکس سعی میشود سیستم سلولی شناخته شود و رفتارهای سلول فرمولیزه شود و مدل سلولی طراحی میشود. در سیستم بیولوژی نه تنها به رفتارها و شبکههای داخل سلول توجه میشود بلکه رفتار سلول و ارتباطات آن با سلولهای مجاور و ارتباط سلول با محیط نیر بررسی میشود. هدف بعدی این است که با استفاده از ابزارهای کامپیوتری و الگوریتمهای ریاضیاتی مراحلی از فرایندهای سلول که شناسایی شده است تکمیل شود (مثلا فرایند فاگوسیتوز). در نهایت با فورمولیزه کردن کل فرایندهای سلول به یک سیستم جامع دست خواهیم یافت که درک ما را نسبت به سلول و فرایندهای آن کاملتر خواهد کرد (در فصل چهاردهم به تفصیل به جنبههای مختلف سیستم بیولوژی پرداخته شده است)
57-ژنومیکس
– SBML یک زبان کامپیوتری مبتنی به XML است که در سیستم بیولوژی کاربرد دارد.
– پایگاه اطلاعات Biomodels در EBI حاوی مدلهای کامپیوتری مربوط به سیستم بیولوژی میباشد.
10-3-2 تجزیه و تحلیل مقایسهای متابولیکی
برای پیشبینی ژن، تاکید ویژه بر ژنهایی است که در مسیرهای متابولیسمی نقش دارند. با استفاده از پیشبینی ژن میتوان مشخص کرد که آیا این موجود چرخه متابولیکی مورد نظرمان را دارد یا نه. پایگاههای Reactom , Ecocyc , KEGG برای مقایسه متابولومها و چرخههای متابولیسمی کاربرد فراوانی دارند.
11-3-2 پایگاه اطلاعاتی مولکولهای شیمیایی
پایگاه Pabchem در NCBI یک پایگاه اطلاعاتی مولکولهای شیمیایی است. که به سه بخش کلی تقسیم میشود Pubchem Substance، Pubchem Compound و Pubchem BioAssoy.