بیوانفورماتیک و سیستم بیولوژی آوینه » فصل چهارم-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها کتاب بیونفورماتیک سلولی و مولکولی

فصل چهارم-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها کتاب بیونفورماتیک سلولی و مولکولی

شرح فصل و نکات ویژه: * در این فصل به بانک‌های اطلاعاتی ای که هدف خود را معطوف به توالی‌های اسیدآمینه کرده‌اند خواهیم پرداخت و همچنین بانک‌هایی معرفی می‌شوند که به ارائه ساختارهای سه بعدی پروتئین‌ها می‌پردازند. * بانک‌ها و ابزارهایی که معرفی می‌شوند را در اینترنت بازبینی کنید و با آن‌ها کار کنید. * ساختار سوم بسیاری از پروتئین‌ها که توسط روش‌های آزمایشگاهی کشف شده‌اند به صورت رایگان در بانک‌ها قابل دریافت می‌باشد. * بحث در[…]

شرح فصل و نکات ویژه:

* در این فصل به بانک‌های اطلاعاتی ای که هدف خود را معطوف به توالی‌های اسیدآمینه کرده‌اند خواهیم پرداخت و همچنین بانک‌هایی معرفی می‌شوند که به ارائه ساختارهای سه بعدی پروتئین‌ها می‌پردازند.

* بانک‌ها و ابزارهایی که معرفی می‌شوند را در اینترنت بازبینی کنید و با آن‌ها کار کنید.

* ساختار سوم بسیاری از پروتئین‌ها که توسط روش‌های آزمایشگاهی کشف شده‌اند به صورت رایگان در بانک‌ها قابل دریافت می‌باشد.

* بحث در رابطه با پیشگویی ساختار سوم پروتئین‌ها در فصل دوازدهم انجام شده است.

73-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها

برای دریافت نسخه چاپی و به روز کتاب با انتشارات دکتر خلیلی تماس بگیرید. 02166568621

در بخش اول این فصل تعدادی از پایگاه‌های توالی‌های پروتئینی و روش جست‌وجو در آن‌ها توضیح داده می‌شود. داده‌هاي موجود در اين پايگاه‌ها عمدتا از ترجمه دستي يا خودكار توالي‌هاي نوكلئوتيدي موجود در پايگاه‌هاي ديگر سرچشمه گرفته است.

1-4 پایگاه‌های داده‌ی توالی آمینو اسیدی

مارگارت دیهوف در بنیاد ملی پژوهش زیست‌پزشکی (NBRF) در واشینگتن، در جمع‌آوری توالی‌های تمام آمینواسیدهای موجود فعال‌ترین پژوهش‌گر بود و اولین اطلاعات را در اطلس توالی‌ها و ساختارهای پروتئینی از 1968 تا 1978 منتشر کرد.

مجموعه “اطلس توالی‌ها و ساختارهای پروتئینی“:
مفهوم ابرخانواده‌های پروتئینی از این مجموعه پدید آمده و ماتریس داده‌های جهش، معروف به MDMVA یا PAM براساس فراوانی جهش‌های مشاهده شده در آمینواسیدها تدوین شد.
در حدود سال 1980 یعنی زمانی که رقابت برای تاسیس یک پایگاه داده ملی DNA در آمریکا وجود داشت، این مجموعه محاسباتی رایانه‌ای شد و پایگاه توالی پروتئینی NBRF نام‌گذاری شد.
پایگاه داده‌ی منبع اطلاعات پروتئین Protein Information Resource (PIR) که در 1984 و با حمایت NIH تاسیس شد از پایگاه NBRF منشا گرفت.
از 1988، PIR برای ایجاد پایگاه بین‌المللی توالی پروتئین PIR با مرکز اطلاعات مونیخ برای توالی‌های پروتئین
MIPS (Munich information Center for Protein Sequences) و پایگاه بین‌المللی داده توالی ژاپن JIPID (Japanese International Protein Sequence Database.) همکاری می‌کند.
بنیاد پژوهش پروتئین PRF (Fundation Protein Research) در ازاکا ژاپن از سال 1975 تاکنون یک نشریه‌ی چاپی Peptid information منتشر کرده است که شامل فهرست‌های کتاب‌شناسی از گزارش‌های مربوط به پپتیدها و پروتئین‌هاست. این پایگاه داده رایانه‌ای شده LITDB نام دارد.
مدت‌ها قبل از این‌که NCBI اتصال‌های بانک‌های مدلاین را معرفی کند، LITDB و SEQDB از ابتدا با یک‌دیگر ارتباط داشتند و از منابع مشترک استفاده می‌کردند.
SEQDB غیر از داده‌های مربوط به توالی اطلاعات دیگری ندارد و هم‌چنان مجموعه‌ی منحصر به‌فردی است که حیطه‌ی توالی‌یابی پروتئین را پوشش می‌دهد.
NBRF و PRF پایگاه‌های داده‌ی خود را با دیدگاهی متفاوت ایجاد کردند.
NBRF: توالی آمینو اسیدی را یک هستی زیست‌شناختی می‌دانست. بخش اصلی کوشش NBRF بر حاشیه‌نویسی، رده‌بندی ابرخانواده‌ها و حذف ورودی‌های تکراری متمرکز کرد که متاسفانه سبب شد نتواند با سرعت افزایش داده‌ها همگام شود.
PRF: توالی آمینو اسیدی را بخشی از اطلاعات کتاب‌شناسی و مانند چکیده‌ی مقالات می‌دانست. این پایگاه در مقابل افزایش داده‌ها موفق بود اما کارایی پایگاه داده محدود بود.
SWISS-PROT پایگاه داده توالی پروتئین دیگری بود که در سال 1986 در دانشگاه ژنو ایجاد شده اما خیلی زود از لحاظ کیفیت داده‌ها تبدیل به بهترین شد. داشتن ویژگی‌هایی هم‌چون حاشیه‌نویسی قوی، تصحیح مداوم و دقیق داده‌ها و ارتباط با بسیاری از پایگاه‌های داده‌ی دیگر از خصوصیات بارز این پایگاه می‌باشد. Swiss-Prot با EMBL (آزمایشگاه زیست‌شناسی مولکولی اروپا) همکاری کرده است و ترجمه‌ی توالی نوکلئوتیدی پایگاه داده EMBL یعنی (TREMBL) برای تکمیل Swiss-Prot استفاده شده است. در حال حاضر موسسه بیوانفورماتیک سوئیس (SIB) و موسسه‌ی اروپایی بیوانفورماتیک EBI به‌طور مشترک Swiss-Prot را اداره می‌کنند.

1-1-4 جست‌وجو در بانک پروتئین NCBI:

در فصل گذشته با تعدادی از بانک‌های پایگاه NCBI آشنا شدید ودر این فصل با دو بانک دیگر از این پایگاه آشنا می‌شویم به نام بانک‌های Protein و Structure. در اینجا بانک Protein شرح داده می‌شود و در انتهای فصل به بانک structure خواهیم پرداخت.

74-فصل چهارم

تصویر 1-4: نمایش لینک بانک‌های Protein و Structure در منوی کشویی پایگاه NCBI.

توالی‌های اسید آمینه ای در این بانک ذخیره می‌شوند. جست‌وجو در بانک پروتئین همانند بانک نوکلئوتید می‌باشد که در تصویر زیر مشاهده می‌کنید.ابتدا بانک protein را از منوی کشویی انتخاب کرده و در کادر روبه‌روی آن موضوع مورد جست‌وجو را نوشته و روی search کلیک کنید.

تصویر 2-4: نتیجه جست‌وجوی بانک protein

صفحه نتایج همانند صفحه نتایج بانک نوکلئوتید می‌باشد که در تصویر 3-4 می‌بینید که شامل سه بخش Header، Features و توالی می‌باشد.

75-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها

تصویر 3-4: یک نمونه رکورد بانک Protein.

2-1-4 پایگاه اطلاعات پروتئینی SwissProt

پایگاه توالی پروتئینی SwissProt در سال 1989 پایه‌گذاری شده است. این پایگاه حاوی اطلاعات توالی است که با ساختار ویژه به نمایش گذاشته می‌شود. يعني هر فيلد در يك سطر قرار داده مي‌شود. دو حرف اول هر سطر گوياي نوع فيلد مي‌باشد. درج اطلاعات به اين شيوه اجازه تبادل آن‌ها بين نرم‌افزارهاي مختلف را مي‌دهد.

SwissProt دارای سه ویژگی است:

نام‌گذاري و تفسیر توالی‌های پروتئینی موجود.
کم‌ترین تکرار (Non-redundancy).
ارتباط منسجم (Integration) با بانک‌های داده دیگر (با حداقل 60 پایگاه اطلاعاتی ارتباط دارد).

76-فصل چهارم

تصویر 4-4: نمایش ارتباط پایگاه توالی پروتئینی SwissProt با سایر بانک‌ها.

در این پایگاه دو گروه داده وجود دارد:

داده‌هاي اصلي (Core data) شامل داده‌های توالی، اطلاعات مربوط به citation، داده‌های تاکسونومي.
داده‌های بدست آمده از نام‌گذاري و تفسیر توالی‌ها شامل عملکرد پروتئین، تغییرات پس از ترجمه، دامین‌ها و جایگاه‌های مهم در توالی، ساختار دوم، ساختار سوم، شباهت با پروتئین‌های دیگر، بیماری‌های مرتبط با پروتئین و واریانت‌های آن.

برای جست‌وجو در این پایگاه وارد سایت http://expasy.org شوید و در این صفحه All databases را برای کلید واژه دلخواه مورد جست‌وجو قرار دهید.

تصویر 5-4: تصویری از صفحه نخست پایگاه expasy و منوی کشویی آن که بانک‌های فراوانی را در خود جای داده است.

77-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها

در نتیجه جست‌وجو برای کسب اطلاعات در رابطه با پروتئین مورد نظر بر روی لینک uniprotKB کلیک میکنیم تا به این پایگاه منتقل شویم و سایر اطلاعات را در این پایگاه مشاهده خواهید کرد. لازم به ذکر است داده‌های بانک Swiss prot در UniprotKB نمایش داده می‌شود. علت این که ابتدا از طریق پایگاه EXPASY جست‌وجو را شروع کردیم این بوده است که با پایگاه ExPASY آشنا شوید. این پایگاه شامل بانک‌های زیادی می‌باشد که اکثراً در زمینه اطلاعات پروتئینی می‌باشند.

تصویر 6-4: لیست نتایج جست‌وجو در پایگاه uniprotKB .

از لیست موجود براساس نام پروتئین و ارگانیسم بر روی نام پروتئین مورد نظر کلیک میکنیم و اطلاعات در صفحه‌ای نسبتا طولانی نمایش داده می‌شود که شامل موارد زیر می‌شود. یعنی برای هر پروتئین تمام اطلاعات سیزده‌گانه زیر را نمایش می‌دهد و توسط لینک‌های فراوان کاربران را به سایر بانک‌ها راهنمایی می‌کند.

1: Names

2: Attributes

3: General annotation·

4: Ontologies·

5: Interactions

6: Alt products

7: Sequence annotation

8: Sequences

9: References

10: Web links

11: Cross-refs

12: Entry info

13: Documents

معرفیUniProt :

منبع عمومی پروتئین (The Universal Protein Resource) جامع ترین کاتالوگ جهانی پروتئین‌هاست. این پایگاه محل ذخیره کلیه توالی‌های پروتئینی و عملکرد آنهاست که از اشتراک داده‌های SWissPort، TrEMBL و PIR به وجود آمده است. داده‌ها به‌طور دستی (با دخالت کارکنان مربوط) نام گذاری می‌شود و داده‌ها در پایگاهی به نام UniPort Knowledgebase یا UniProtKB ذخیره می‌شوند. اگر نتیجه جستجوی شما حاصل یک ترجمه کامپیوتری از روی توالی‌های DNA باشد با علامت یا متن مخصوصی این مورد را به شما تذکر خواهد داد. بخشی از این پایگاه تحت عنوان UniRef (The Uniprot Reference Clusters)
داده‌های توالی‌های پروتئین‌ را براساس شباهت، خوشه‌بندی (Cluster) کرده است. همچنین بخشی دیگر تحت عنوان UniParc (The Uniprot Archive) در UniProt وجود دارد که داده‌های غیرتکراری پروتئین‌ها را ارائه می‌دهد.

پایگاه اطلاعات پروتئینی PIR(protein information resource):

78-فصل چهارم

مخزن اطلاعات پروتئینی (The protein Information Resource) در بنیاد ملی تحقیقات بیوشیمی (NBRF) دانشگاه جورج تاون قرار دارد و مرکزیتی برای بانک‌های اطلاعات پژوهش‌های ژنومیک و پروتئومیک می‌باشد.

پایگاه داده‌های زیر در جایگاه PIR وجود دارد:

iProClass

PIRSF

PIR-PSD

PIR-NRF

UniProt

3-1-4 معرفی iProClass

این پایگاه اطلاعات ارزشمندی را برای uniProtKB و بخش پروتئینی NCBI فراهم می‌‌کند. در این پایگاه توالی‌های غیرتکراری (non-redundan) پروتئینی ساماندهی شده و با بیش از 90 پایگاه داده‌های دیگر ارتباط متقابل دارد.

کاربرد‌های پایگاه iProClass به قرار زیر است:

نام گذاری توالی پروتئین
تهیه اطلاعات به روز با تفسیر برای هر پروتئین
تهیه نقشه تشخیص هویت پروتئین (protein ID maping)

تصویر 7-4: نمایش ارتباط بانک iProClass با سایر بانک‌ها و پایگاه‌ها.

از منوی databases بر روی iProClass کلیک کنید .وارد صفحه زیر می‌شوید.

79-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها

تصویر 8-4: نمایش لینک دسترسی به iProClass و سه بانک اصلی دیگر در پایگاهPIR.

در سمت راست صفحه بر روی text search کلیک کنید.

تصویر 9-4: نمایش نحوه‌های مختلف جست‌وجو در iProClass .

در صفحه‌ای که باز می‌شود پروتئین مورد نظر را جست‌وجو کنید.

80-فصل چهارم

تصویر 10-4: نحوی جست‌وجوی Text در iProClass.

نتیجه به صورت زیر نمایش داده می‌شود.

تصویر 11-4: لیست نتایج جست‌وجوی iProClass.

اگر بر روی uniport کلیک کنید به بانک uniport منتقل می‌شوید و اگر بر روی iProClass کلیک کنید اطلاعات مربوط به این بانک نمایش داده می‌شود که در تصویر 12-4 یک نمونه رکورد iProClass را مشاهده می‌کنید.

81-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها

تصویر 12-4: یک نمونه رکورد iProClass.

4-1-4 معرفی OWL

OWL یک بانک اطلاعات پروتئینی غیرتکرای است براساس SWISS-PROT به اضافه‌ی توالی‌های مربوط به
NBRF /PIR، GenPept و پایگاه ساختار سه‌بعدی PDB (NRL3D) است. OWL در دانشگاه لیدز (انگلستان) و با همکاری Bleasby از HGMRRC (مرکز مرجع پروژه‌ی نقشه‌یابی ژنوم انسان) نگهداری می‌شود. متاسفانه این پایگاه تقریبا هر سه ماه یک‌بار گزارش می‌دهد و به صورت منظم به‌روز رسانی نمی‌شود.

2-4 پایگاه داده‌های ساختار فضایی پروتئین‌ها

يكي از كارهاي جالب بشري به تصوير كشيدن مفاهيم علمي است. تصاوير، مفاهيم علمي را گوياتر و جذاب‌تر مي‌كنند. زيست‌شناسان و محققين علم ژنتيك نيز از اين ابزار به خوبي بهره برده و از آن در كارهاي تحقيقاتي و انتقال مفاهيم به دانش‌اندوزان استفاده كرده‌اند. دستاوردهاي زيادي در همكاري مهندسين كامپيوتر با دانشمندان زيست‌شناس حاصل شده است كه اين تلاشها در خور تقدير است.

تجسم پيچ‌و خم‌هاي DNA و ماكرومولكولهاي مرموزي چون پروتئين‌ها و درك ويژگي‌هاي وابسته به اين ساختارها، براي انسان بسيار مشكل است. در اين زمينه تصاوير سه بعدي بسيار راه‌گشا و پر فايده هستند. تصاوير و انيميشن‌هاي زيادي به همراه نرم‌افزارهاي باارزشي كه اين تصاوير را نمايش دهند به وجود آمده‌اند كه در اين فصل به نمونه‌اي از آنها توجه خواهيم كرد. پژوهشگران به روش‌هاي مختلفي از جمله تابش اشعه ايكس ساختار سه بعدي پروتئين‌ها را مورد بررسي قرار مي‌دهند. نتايج حاصل از اين پرتونگاري‌ها، اطلاعاتي است كه در به تصوير كشيدن اين ساختارها مورد نياز است.

82-فصل چهارم

1-2-4 :(Protein Data Bank) PDB

در این پایگاه اطلاعات مربوط به ساختار سه بعدی ماکروملکول‌های زیستی ذخیره شده است. در این پایگاه هم اکنون چند هزار ساختمان DNA، پروتئین یا هردو ذخیره شده است که همگی با روش‌های آزمایشگاهی نظیر
NMR, X-ray diffraction, electron microscopy و مانند آن به دست آمده‌اند.

بانک داده پروتئین PDB در سال 1971 در آزمایشگاه‌ ملی بروک‌هَوِن ^[1]BNL به عنوان پایگاهی، ساختارهای سه‌بعدی درشت‌مولکول‌های زیستی که به‌طور تجربی تعیین شده‌اند ایجاد شد. در 1999 فعالیت PDB به ^[2]RCSB منتقل شد. PDB هم‌چنین حاوی داده‌های ساختاری مربوط به پروتئین‌ها، RNAها، قطعات کوتاه DNA، کربوهیدرات‌ها، کمپلکس‌های مولکولی و نیز ویروس‌ها را دربرمی‌گیرد. PDB هر مدخل شامل مختصات اتمی، فهرست‌های کتاب‌شناسی، اطلاعات ساختار اولیه و ثانویه، همراه با فاکتورهای ساختاریابی بلورنگاری و داده‌های تجربی NMR است. داده‌های این پایگاه به‌صورت روزافزون در حال افزایش می‌باشد که در تصویر 13-4 این رشد اطلاعاتی را مشاهده می‌کنید.

تصویر 13-4: نمایش نمودار رشد اطلاعات پایگاه PDB (March 2010)

برای ورود به این پایگاه به آدرس www.rcsb.orgمراجعه کنید.

[1] Brookhaven National Laboratory

[1] Research Collaboraory for Structural Bioinformatics

83-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها

تصویر 14-4: صفحه اصلی پایگاه PDB.

هنگام جست‌وجو در PDB همچون سایر بانک‌های اطلاعاتی می‌توانید نام پروتئین مورد نظرتان را در باکس مخصوص جست‌وجو تایپ کنید. ما در این‌جا پروتئین P53 را مورد جست‌وجو قرار دهیم.

تصویر 15-4: لیست نتایج جست‌وجوی پایگاه PDB.

هر ركورد PDB شامل اطلاعات شناسنامه‌اي (مانند عنوان، نام نويسندگان و …)، اطلاعات آزمايش انجام شده (نام روش، ميزان تمايز و…) و بالاخره تصوير ثابت (still image) و ساختمان سه بعدي قابل دست‌ورزي پروتئين (3D-Structure) است.

84-فصل چهارم

تصویر 16-4: یک نمونه رکورد PDB.

برای دست‌یابی به توالی اسید آمینه با فرمت FASTA و همچنین مشاهده ساختار دوم پروتئین می‌توان وارد سربرگ Seqence شد.

تصویر 17-4: نمایش ساختار دوم در رکوردهای PDB.

برای مشاهده ساختمان سه بعدی و چرخش آن نیاز به نرم افزارهای نمایشگر(PDB viewer) است. برخی از آن‌ها مانند Chime MICE, Rasmol و VRML به طور مستقیم از همین پایگاه قابل دریافت است. از طریق ابزار Jmol که به صورت آنلاین در دسترس است، می‌توان ساختار سوم را به‌طور دقیق مشاهده کرد. برای مشاهده توسط Jmol شما نیاز دارید که JAVA بر روی سیستم شما نصب باشد.

85-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها

تصویر 18-4: دسترسی به نر افزار نمایش سه بعدی ساختار پروتئین به صورت آنلاین.

در صورتی که نرم‌افزار java بر روی کامپیوتر شما نصب باشد، ساختار سه بعدی پروتئین نمایش داده می‌شود که نمونه‌ای از آن را در تصویر 19-4 می‌بینید.

تصویر 19-4: نمایش ساختار سوم پروتئین توسط Jmol.

2-2-4 ساختار سه بعدي پروتئين‌ها در NCBI

يك گروه از پايگاه داده‌ها به نام Structure توسط NCBI تدارك ديده شده است كه اطلاعات مربوط به ساختار سه بعدي پروتئين‌ها را در خود نگه مي‌دارد. اين گروه شامل موارد زير است:

MMDB: پايگاه داده‌اي شامل ساختار سه بعدي ماكرومولكول‌ها (The Molecular Modeling DataBase) به همراه ابزارهايي براي نمايش و مقايسه اين ساختارها است. ساختار سه بعدي اين پروتئين‌ها به روش‌هاي تجربي و از پروتئين‌هاي موجود در پايگاه داده PDB (پايگاه داده پروتئين‌ها) حاصل شده است. نرم‌افزاري به نام Cn3d توسط NCBI تدارك ديده شده است كه به وسيله آن مي‌توان اين ساختار‌هاي سه بعدي را مشاهده كرد. شما مي‌توانيد با توالي يك پروتئين‌ شروع نماييد و با استفاده از BLAST تمام پروتئين‌هايي كه با آن توالی شباهت دارند را مشخص نماييد و سپس ساختار سه بعدي هر يك را كه تاكنون شناخته شده‌ است را توسط ابزارهای نمایشگر مشاهده نماييد.

PubVats: پايگاه داده‌اي حاوي نتايج مقايسهStructure-Structure در مورد پروتئين‌ها است. هر زنجيره پروتئيني به همراه دامين سه بعدي موجود در پايگاه MMDB با تمام پروتئين‌هاي ديگر به وسيله الگوريتم VAST مقايسه مي‌شود. ليستي از پروتئين‌هاي مشابه حاصل از اين مقايسه، از طريق لينك‌هاي موجود در صفحات اينترنتي پايگاه داده MMDB بخش Summary موجود است كه در اين فصل در مورد آن‌ها و نحوه استفاده از آن توضيح خواهيم داد.

PubChem: پايگاه داده‌اي حاوي اطلاعاتي در مورد فعاليت‌هاي بيولوژي مولكول‌هاي كوچك می‌باشد.

:CDD پايگاه داده دامين‌هاي حفظ شده (Conserved Domain Database) می‌باشد.

آيا مي‌توان عملكرد يا ساختار پروتئين‌هاي ناشناخته را پيش‌بيني كرد؟ آيا پروتئين‌هاي ناشناخته عملكرد مشابه آنچه كه در مورد پروتئين‌هاي ديگر مي‌دانيم دارند؟ آيا پروتئين‌هاي با ساختار‌هاي مشابه، عملكرد مشابهي دارند؟ و برعكس. اين‌ها

86-فصل چهارم

سوال‌هايي است كه در ذهن بسياري از محققين وجود دارد. نمايش سه بعدي پروتئين‌ها از اهميت خاصي برخوردار است. از اين پايگاه داده مي‌توان جهت مقايسه پروتئين‌ها با يكديگر استفاده كرد. با مقايسه ساختار پروتئين‌ها و يافتن الگوهاي مشابه، مي‌توان در مورد عملكرد آن‌ها پيش‌بيني كرد يا با عملكرد‌هاي مشابه پي به ساختارهاي مشابه برد. این‌جا با نحوه استفاده از اين پايگاه داده‌ها آشنا می‌شوید.

پايگاه داده Structure

براي دسترسي به پايگاه داده Structure وارد سايت NCBI شوید و از طریق منوی کشویی وارد پايگاه داده Structure شوید. در جلوي عبارت Structure كادر سفيدي را مشاهده مي‌نماييد كه محل تايپ نام پروتئيني است كه در نظر داريد آن را جست‌وجو نماييد. نمونه‌اي را به عنوان جست‌وجو براي شما در نظر گرفته‌ايم تا روش استفاده از اين پايگاه داده را فرابگيريد. ما هموگلوبين (hemoglobin) را به عنوان پروتئين مورد جست‌و‌جو انتخاب كرده‌ايم و نام آن را در كادر اول تايپ كرده و بر روي كلمه Search كليك نموده‌ايم تا صفحه زير باز گردد.

تصویر 20-4: نمایش لیست جست‌وجو در پایگاه Structure.

همچنان كه در تصوير مشاهده مي‌‌نماييد تعداد 756 ركورد در مورد اين پروتئين يافت شده است. در اين صفحه تعداد 20 ركورد از 756 ركورد نمايش داده شده است. اين 20 ركورد با شماره از يكديگر جدا شده‌اند. در كنار هر شماره كدي را مشاهده مي‌نماييد كه كد اين پروتئين در پايگاه داده PDB است. مثلا در مورد ركورد اول، كد اين پروتئين 3UBV است.

در انتهاي هر ركورد كد اين پروتئين در پايگاه داده MMDB است كه مثلا در مورد ركورد اول به صورت
MMDB ID : 98348 نمايش داده شده است. اكنون آماده‌ايم تا اطلاعات بيش‌تري در مورد هر ركورد كسب نماييم. براي اين منظور بر روي نام پروتئين كه به صورت لينك و آبي‌رنگ است كليك نماييد. به عنوان نمونه بر روي اولين ركورد كه كد آن 3UBV است، كليك مي‌كنيم كه نتيجه را در تصوير بعد مشاهده خواهيد کرد. اين صفحه به‌علت طولانی بودن در دوتصویر تقسیم شده است.

87-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها

تصویر 21-4:یک نمونه رکورد پایگاه Structure. (قسمت اول)

عنوان پايگاه داده MMDB را در بالاي صفحه مشاهده مي‌نماييد. به اين صفحه اينترنتي در مورد ساختار هر پروتئين، صفحه Summary گفته مي‌شود كه در زير عنوان نام اين پايگاه داده به صورت Summary مشاهده مي‌كنيد. در اين صفحه خلاصه‌اي از ساختار اين پروتئين را مي‌بينيد كه در ادامه جزييات هر بخش را شرح مي‌دهيم:

Reference: لينك به مقاله‌اي در پايگاه داده PubMed

Description: نام و توصيف خلاصه‌اي از پروتئين، تاريخ ثبت اطلاعات اين پروتئين درون PDB و ليست افرادي كه ساختار پروتئين را تعيين كرده‌اند در این قسمت آمده است.

Source Organism: تاكسانومي‌هاي مربوط به هر زنجير پروتئين را ليست مي‌كند.

MMDB ID: كد يكتاي ساختار اين پروتئين در پايگاه داده MMDB تنها با داشتن اين كد مي‌توانيد اختصاصا به اطلاعات و ساختار اين پروتئين دست يابيد. هرگاه پروتئين جديدي وارد اين پايگاه مي‌شود، كد منحصر به فرد و جديدي را دريافت مي‌كند.

PDB ID: كد چهار حرفي اين پروتئين در پايگاه داده پروتئين‌ها. اگر بر روي اين كد كليك نماييد اطلاعات مربوط به اين پروتئين را در پايگاه داده پروتئين‌ها مشاهده خواهيد كرد.

در قسمت بعد كه با دكمهView 3D Structure مشخص شده است. مي‌توانيد فايل مربوط به ساختار سه بعدي پروتئين را كه در نمايش آن به وسيله نرم‌افزار Cn3D مورد نياز است دانلود كنيد.

جزييات بيش‌تر پروتئين در پايين‌ صفحه اينترنتي به صورت گرافيكي نمايش داده شده است که به نام
Molecules and interactions مشخص شده است. در قسمتی که پروتئین را به صورت نوارهای قرمز و صورتی مشخص شده است روی Show annotation کلیک کنید با تصویر زیر مواجه می‌شوید.

88-فصل چهارم

تصویر 22-4: بخش Molecules and interactions در یک رکورد پایگاه Structure. (قسمت دوم)

همان‌طور که در تصویر 22-4 مشاهده می‌کنید نوارها با جزئیات بیش‌تر مشخص شده‌اند و یک خط کش به تصویر اضافه شده است و اگر بر روی اين نوار درجه‌بندي شده كليك نماييد شما را به پايگاه داده PubVast متصل مي‌كند و در تصویر میبینید که تمام پروتئين‌هايي را كه از نظر ساختاري شباهتي به هموگلوبين دارند را ليست کرده است.

تصویر 23-4: پايگاه داده PubVast.

89-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها

در بالاي تصویر 23-4 لوگوي پايگاه داده VAST را مشاهده مي‌نماييد كه عبارت simllar Structure در اين قسمت اشاره به محتواي اين پايگاه داده دارد. وظيفه اين پايگاه يافتن پروتئين‌هاي مشابه از نظر ساختاري با استفاده از الگوريتم VAST است. محققيني كه بر روي ارتباط پروتئين‌ها با يكديگر از نظر ساختاري كار مي‌كنند اين صفحه براي آن‌ها حايز اهميت است.

در بالاي اين تصوير با عنوان VAST related structures for: MMDB 98348, 3UBV sequence A. نشان داده شده است. يعني اين كه در این صفحه، پروتئين‌هاي مشابه (از نظر ساختاري) با اين كد را ليست كرده است. در اين قسمت از صفحه كنترل‌هاي لازم براي مقايسه ساختار يا توالي پروتئين‌ها با يكديگر قرار داده شده است. براي استفاده از اين كنترل‌ها بايد با مفاهيم و الگوريتم‌هاي BLAST كردن آشنا باشيد. در پایین صفحه پروتئین‌های مشابه به صورت نوارهای قرمزی وجود دارند که اگر بر روي نام هر يك از پروتئين‌ها‌ كليك نماييد صفحه ای باز مي‌شود(تصویر 7-4) و زنجيرها و ديگر اطلاعات اين پروتئين را نمايش مي‌دهد.

تصویر 24-4:بخشی از رکورد پايگاه داده PubVast.

3-2-4 CSD

CSD (پایگاه داده‌ی ساختاری کمبریج[1]) شامل داده‌های ساختار سه‌بعدی ترکیبات آلی و آلی – فلزی است که بعضی‌ از آن‌ها از لحاظ زیست‌شناختی اهمیت دارند. CSD به‌وسیله‌ی مرکز داده‌های بلورنگاری کمبریج (CCDC) که در سال 1965 در دانشگاه کمبریج آغاز به کار کرده و در سال 1989 یک موسسه‌ی غیرانتفاعی شده، تهیه شده است. ساختارهای سه‌بعدی موجود در CSD توسط پراش اشعه x و پراش نوترون مشخص شده‌اند. بانک CSD با سرعت 15000 ساختار در سال افزایش می‌یابد.

3-4 بانک‌های اطلاعاتی خودکار

[1] Cambridge Structural Database

90-فصل چهارم

این بانک‌ها به‌وسیله‌ی رایانه تولید شده و حاوی ترجمه‌ی توالی‌های رمزکننده (CoDing Sequence = CDS) از یک بانک خاص حاوی داده‌های DNA است:

TrEMBL: مجموعه‌ای از CDSها از EMBL، به استثنای توالی‌هایی که قبلا در SWISS-PROT بوده‌اند، که در
EMBL-EBI با همکاری دانشگاه جنوا و موسسه‌ی سوییسی بیوانفورماتیک نگهداری می‌شود. هر سه ماه گزارش داده و هفتگی به‌روز رسانی می‌شود. دو قسمت در این بانک داده وجود دارد:

SP-TrEMBL: توالی‌هایی که برای وارد شدن به گزارش بعدی SWISS-PROT انتخاب شده‌اند.

REM-TrEMBL: توالی‌هایی که وارد SWISS-PROT نمی‌شوند (مانند واریانت‌های فرعی توالی‌های یکسان، قطعات کوچک، توالی‌هایی مشکوک، توالی‌های مصنوعی).

GenPept: مجموعه‌ای از CDSها از GenBank، که در NCI-FCRDC (موسسه‌ی ملی سرطان؛ مرکز توسعه و تحقیق سرطان فردریک؛ مریلند، آمریکا) نگهداری می‌شود. هر دو ماه گزارش می‌دهد و هر روز به‌روز رسانی می‌شود.

تفاوت‌هایی در هدف و کیفیت میان این بانک‌های داده وجود دارد برای نمونه SWISS-PROT بانک اطلاعاتی با مراقبت‌های بالا است که حاوی مستندهای بسیار خوبی است. به‌طور سیستماتیک واریانت‌ها و قطعات را در یک ورودی (entry) منفرد ادغام می‌کند اما بعد از رشد بانک‌های داده‌ای DNA، روند آن کند شده است. PIR حاوی توالی‌های بیش‌تری است که شامل الیگوپپتیدهای توالی‌یابی شده‌ی واقعی مختلفی است اما به خوبی کنترل نمی‌شود. بانک‌های داده‌ای خودکار مانند TrEMBL و GenPept حتی بزرگ‌تر هستند اما مستندهای کمی دارند و گاهی اوقات شامل ترجمه‌های خیالی هستند که به‌طور واقعی در طبیعت وجود ندارند.

» فصل چهارم-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها کتاب بیونفورماتیک سلولی و مولکولی

73-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها

برای دریافت نسخه چاپی و به روز کتاب با انتشارات دکتر خلیلی تماس بگیرید. 02166568621

74-فصل چهارم

75-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها

76-فصل چهارم

77-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها

78-فصل چهارم

79-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها

80-فصل چهارم

81-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها

82-فصل چهارم

83-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها

84-فصل چهارم

85-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها

86-فصل چهارم

87-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها

88-فصل چهارم

90-فصل چهارم

بابک باباعباسی

مطالب مرتبط

مطالب بیشتر»

فصل چهارم-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها کتاب بیونفورماتیک سلولی و مولکولی

پر بیننده ترین

کتاب درک الگوریتم؛ راهنمای تصویری برای برنامه‌نو یس‌ها و افراد کنجکاو دانلود

دانلود رایگان کتاب بیوانفورماتیک سلولی و مولکولی بابک باباعباسی

فصل ششم-هم‌ردیفی توالی‌ها کتاب بیونفورماتیک سلولی و مولکولی

شروعی دوباره

فصل دوازدهم-پیشگویی ساختار دوم و سوم پروتئین کتاب بیونفورماتیک سلولی و مولکولی

بیوانفورماتیک سلولی و مولکولی کتاب بیونفورماتیک سلولی و مولکولی

کارشناسی ارشد بیوانفورماتیک پزشکی

سیستم بیولوژی یا بیوانفورماتیک مسئله این است؟!

مقایسه زبان python و R برای کار در حوزره علم داده

فصل سوم-پایگاه‌های اطلاعات اولیه توالی‌های اسید نوکلئیک کتاب بیونفورماتیک سلولی و مولکولی

آخرین مطالب

کارشناسی ارشد بیوانفورماتیک پزشکی

دانلود رایگان کتاب “کاربرد شبکه ها در بیوانفورماتیک” دکتر محی الدین جعفری

“بیوانفورماتیک دان” بودن یا “بیوانفورماتیک کار” بودن مسئله این است!!!

مقاله کامل در زمینه زیست شناسی شبکه ها 2024

معرفی نسخه اول نشریه علمی تخصصی بیوانفورماتیک در حوزه زیست تحقیقاتی

نسخه جدید کتاب بانک سوالات کنکور دکتری درس بیوانفورماتیک برای وزارت بهداشت و علوم چاپ شد تا سال 1403

ارزش بازار خدمات بیوانفورماتیک در سال 2024 بالغ بر 16.36 میلیارد دلار برآورد شده است و پیش‌بینی می‌شود تا سال 2029 به 23.97 میلیارد دلار برسد.

3: ساختار دادها در R

2: شرط ها و حلقه ها در R

1: مقدمه و شروع برنامه نویسی با R

دیدگاهتان را بنویسید لغو پاسخ