- 668
- 2023/04/26 - 06:10
- 60 بازدید
شرح فصل و نکات ویژه: * در این فصل به بانکهای اطلاعاتی ای که هدف خود را معطوف به توالیهای اسیدآمینه کردهاند خواهیم پرداخت و همچنین بانکهایی معرفی میشوند که به ارائه ساختارهای سه بعدی پروتئینها میپردازند. * بانکها و ابزارهایی که معرفی میشوند را در اینترنت بازبینی کنید و با آنها کار کنید. * ساختار سوم بسیاری از پروتئینها که توسط روشهای آزمایشگاهی کشف شدهاند به صورت رایگان در بانکها قابل دریافت میباشد. * بحث در[…]
شرح فصل و نکات ویژه:
* در این فصل به بانکهای اطلاعاتی ای که هدف خود را معطوف به توالیهای اسیدآمینه کردهاند خواهیم پرداخت و همچنین بانکهایی معرفی میشوند که به ارائه ساختارهای سه بعدی پروتئینها میپردازند.
* بانکها و ابزارهایی که معرفی میشوند را در اینترنت بازبینی کنید و با آنها کار کنید.
* ساختار سوم بسیاری از پروتئینها که توسط روشهای آزمایشگاهی کشف شدهاند به صورت رایگان در بانکها قابل دریافت میباشد.
* بحث در رابطه با پیشگویی ساختار سوم پروتئینها در فصل دوازدهم انجام شده است.
73-پایگاههای اطلاعات اولیه توالیهای اسیدآمینه و ساختار فضایی پروتئینها
برای دریافت نسخه چاپی و به روز کتاب با انتشارات دکتر خلیلی تماس بگیرید. 02166568621
در بخش اول این فصل تعدادی از پایگاههای توالیهای پروتئینی و روش جستوجو در آنها توضیح داده میشود. دادههاي موجود در اين پايگاهها عمدتا از ترجمه دستي يا خودكار تواليهاي نوكلئوتيدي موجود در پايگاههاي ديگر سرچشمه گرفته است.
1-4 پایگاههای دادهی توالی آمینو اسیدی
مارگارت دیهوف در بنیاد ملی پژوهش زیستپزشکی (NBRF) در واشینگتن، در جمعآوری توالیهای تمام آمینواسیدهای موجود فعالترین پژوهشگر بود و اولین اطلاعات را در اطلس توالیها و ساختارهای پروتئینی از 1968 تا 1978 منتشر کرد.
- مجموعه “اطلس توالیها و ساختارهای پروتئینی“:
- مفهوم ابرخانوادههای پروتئینی از این مجموعه پدید آمده و ماتریس دادههای جهش، معروف به MDMVA یا PAM براساس فراوانی جهشهای مشاهده شده در آمینواسیدها تدوین شد.
- در حدود سال 1980 یعنی زمانی که رقابت برای تاسیس یک پایگاه داده ملی DNA در آمریکا وجود داشت، این مجموعه محاسباتی رایانهای شد و پایگاه توالی پروتئینی NBRF نامگذاری شد.
- پایگاه دادهی منبع اطلاعات پروتئین Protein Information Resource (PIR) که در 1984 و با حمایت NIH تاسیس شد از پایگاه NBRF منشا گرفت.
- از 1988، PIR برای ایجاد پایگاه بینالمللی توالی پروتئین PIR با مرکز اطلاعات مونیخ برای توالیهای پروتئین
MIPS (Munich information Center for Protein Sequences) و پایگاه بینالمللی داده توالی ژاپن JIPID (Japanese International Protein Sequence Database.) همکاری میکند. - بنیاد پژوهش پروتئین PRF (Fundation Protein Research) در ازاکا ژاپن از سال 1975 تاکنون یک نشریهی چاپی Peptid information منتشر کرده است که شامل فهرستهای کتابشناسی از گزارشهای مربوط به پپتیدها و پروتئینهاست. این پایگاه داده رایانهای شده LITDB نام دارد.
- مدتها قبل از اینکه NCBI اتصالهای بانکهای مدلاین را معرفی کند، LITDB و SEQDB از ابتدا با یکدیگر ارتباط داشتند و از منابع مشترک استفاده میکردند.
- SEQDB غیر از دادههای مربوط به توالی اطلاعات دیگری ندارد و همچنان مجموعهی منحصر بهفردی است که حیطهی توالییابی پروتئین را پوشش میدهد.
- NBRF و PRF پایگاههای دادهی خود را با دیدگاهی متفاوت ایجاد کردند.
- NBRF: توالی آمینو اسیدی را یک هستی زیستشناختی میدانست. بخش اصلی کوشش NBRF بر حاشیهنویسی، ردهبندی ابرخانوادهها و حذف ورودیهای تکراری متمرکز کرد که متاسفانه سبب شد نتواند با سرعت افزایش دادهها همگام شود.
- PRF: توالی آمینو اسیدی را بخشی از اطلاعات کتابشناسی و مانند چکیدهی مقالات میدانست. این پایگاه در مقابل افزایش دادهها موفق بود اما کارایی پایگاه داده محدود بود.
- SWISS-PROT پایگاه داده توالی پروتئین دیگری بود که در سال 1986 در دانشگاه ژنو ایجاد شده اما خیلی زود از لحاظ کیفیت دادهها تبدیل به بهترین شد. داشتن ویژگیهایی همچون حاشیهنویسی قوی، تصحیح مداوم و دقیق دادهها و ارتباط با بسیاری از پایگاههای دادهی دیگر از خصوصیات بارز این پایگاه میباشد. Swiss-Prot با EMBL (آزمایشگاه زیستشناسی مولکولی اروپا) همکاری کرده است و ترجمهی توالی نوکلئوتیدی پایگاه داده EMBL یعنی (TREMBL) برای تکمیل Swiss-Prot استفاده شده است. در حال حاضر موسسه بیوانفورماتیک سوئیس (SIB) و موسسهی اروپایی بیوانفورماتیک EBI بهطور مشترک Swiss-Prot را اداره میکنند.
1-1-4 جستوجو در بانک پروتئین NCBI:
در فصل گذشته با تعدادی از بانکهای پایگاه NCBI آشنا شدید ودر این فصل با دو بانک دیگر از این پایگاه آشنا میشویم به نام بانکهای Protein و Structure. در اینجا بانک Protein شرح داده میشود و در انتهای فصل به بانک structure خواهیم پرداخت.
74-فصل چهارم
تصویر 1-4: نمایش لینک بانکهای Protein و Structure در منوی کشویی پایگاه NCBI.
توالیهای اسید آمینه ای در این بانک ذخیره میشوند. جستوجو در بانک پروتئین همانند بانک نوکلئوتید میباشد که در تصویر زیر مشاهده میکنید.ابتدا بانک protein را از منوی کشویی انتخاب کرده و در کادر روبهروی آن موضوع مورد جستوجو را نوشته و روی search کلیک کنید.
تصویر 2-4: نتیجه جستوجوی بانک protein
صفحه نتایج همانند صفحه نتایج بانک نوکلئوتید میباشد که در تصویر 3-4 میبینید که شامل سه بخش Header، Features و توالی میباشد.
75-پایگاههای اطلاعات اولیه توالیهای اسیدآمینه و ساختار فضایی پروتئینها
تصویر 3-4: یک نمونه رکورد بانک Protein.
2-1-4 پایگاه اطلاعات پروتئینی SwissProt
پایگاه توالی پروتئینی SwissProt در سال 1989 پایهگذاری شده است. این پایگاه حاوی اطلاعات توالی است که با ساختار ویژه به نمایش گذاشته میشود. يعني هر فيلد در يك سطر قرار داده ميشود. دو حرف اول هر سطر گوياي نوع فيلد ميباشد. درج اطلاعات به اين شيوه اجازه تبادل آنها بين نرمافزارهاي مختلف را ميدهد.
SwissProt دارای سه ویژگی است:
- نامگذاري و تفسیر توالیهای پروتئینی موجود.
- کمترین تکرار (Non-redundancy).
- ارتباط منسجم (Integration) با بانکهای داده دیگر (با حداقل 60 پایگاه اطلاعاتی ارتباط دارد).
76-فصل چهارم
تصویر 4-4: نمایش ارتباط پایگاه توالی پروتئینی SwissProt با سایر بانکها.
در این پایگاه دو گروه داده وجود دارد:
- دادههاي اصلي (Core data) شامل دادههای توالی، اطلاعات مربوط به citation، دادههای تاکسونومي.
- دادههای بدست آمده از نامگذاري و تفسیر توالیها شامل عملکرد پروتئین، تغییرات پس از ترجمه، دامینها و جایگاههای مهم در توالی، ساختار دوم، ساختار سوم، شباهت با پروتئینهای دیگر، بیماریهای مرتبط با پروتئین و واریانتهای آن.
برای جستوجو در این پایگاه وارد سایت http://expasy.org شوید و در این صفحه All databases را برای کلید واژه دلخواه مورد جستوجو قرار دهید.
تصویر 5-4: تصویری از صفحه نخست پایگاه expasy و منوی کشویی آن که بانکهای فراوانی را در خود جای داده است.
77-پایگاههای اطلاعات اولیه توالیهای اسیدآمینه و ساختار فضایی پروتئینها
در نتیجه جستوجو برای کسب اطلاعات در رابطه با پروتئین مورد نظر بر روی لینک uniprotKB کلیک میکنیم تا به این پایگاه منتقل شویم و سایر اطلاعات را در این پایگاه مشاهده خواهید کرد. لازم به ذکر است دادههای بانک Swiss prot در UniprotKB نمایش داده میشود. علت این که ابتدا از طریق پایگاه EXPASY جستوجو را شروع کردیم این بوده است که با پایگاه ExPASY آشنا شوید. این پایگاه شامل بانکهای زیادی میباشد که اکثراً در زمینه اطلاعات پروتئینی میباشند.
تصویر 6-4: لیست نتایج جستوجو در پایگاه uniprotKB .
از لیست موجود براساس نام پروتئین و ارگانیسم بر روی نام پروتئین مورد نظر کلیک میکنیم و اطلاعات در صفحهای نسبتا طولانی نمایش داده میشود که شامل موارد زیر میشود. یعنی برای هر پروتئین تمام اطلاعات سیزدهگانه زیر را نمایش میدهد و توسط لینکهای فراوان کاربران را به سایر بانکها راهنمایی میکند.
1: Names
2: Attributes
4: Ontologies·
5: Interactions
6: Alt products
8: Sequences
9: References
10: Web links
11: Cross-refs
12: Entry info
13: Documents
معرفیUniProt :
منبع عمومی پروتئین (The Universal Protein Resource) جامع ترین کاتالوگ جهانی پروتئینهاست. این پایگاه محل ذخیره کلیه توالیهای پروتئینی و عملکرد آنهاست که از اشتراک دادههای SWissPort، TrEMBL و PIR به وجود آمده است. دادهها بهطور دستی (با دخالت کارکنان مربوط) نام گذاری میشود و دادهها در پایگاهی به نام UniPort Knowledgebase یا UniProtKB ذخیره میشوند. اگر نتیجه جستجوی شما حاصل یک ترجمه کامپیوتری از روی توالیهای DNA باشد با علامت یا متن مخصوصی این مورد را به شما تذکر خواهد داد. بخشی از این پایگاه تحت عنوان UniRef (The Uniprot Reference Clusters)
دادههای توالیهای پروتئین را براساس شباهت، خوشهبندی (Cluster) کرده است. همچنین بخشی دیگر تحت عنوان UniParc (The Uniprot Archive) در UniProt وجود دارد که دادههای غیرتکراری پروتئینها را ارائه میدهد.
پایگاه اطلاعات پروتئینی PIR(protein information resource):
78-فصل چهارم
مخزن اطلاعات پروتئینی (The protein Information Resource) در بنیاد ملی تحقیقات بیوشیمی (NBRF) دانشگاه جورج تاون قرار دارد و مرکزیتی برای بانکهای اطلاعات پژوهشهای ژنومیک و پروتئومیک میباشد.
پایگاه دادههای زیر در جایگاه PIR وجود دارد:
iProClass
PIRSF
PIR-PSD
PIR-NRF
UniProt
3-1-4 معرفی iProClass
این پایگاه اطلاعات ارزشمندی را برای uniProtKB و بخش پروتئینی NCBI فراهم میکند. در این پایگاه توالیهای غیرتکراری (non-redundan) پروتئینی ساماندهی شده و با بیش از 90 پایگاه دادههای دیگر ارتباط متقابل دارد.
کاربردهای پایگاه iProClass به قرار زیر است:
- نام گذاری توالی پروتئین
- تهیه اطلاعات به روز با تفسیر برای هر پروتئین
- تهیه نقشه تشخیص هویت پروتئین (protein ID maping)
تصویر 7-4: نمایش ارتباط بانک iProClass با سایر بانکها و پایگاهها.
از منوی databases بر روی iProClass کلیک کنید .وارد صفحه زیر میشوید.
79-پایگاههای اطلاعات اولیه توالیهای اسیدآمینه و ساختار فضایی پروتئینها
تصویر 8-4: نمایش لینک دسترسی به iProClass و سه بانک اصلی دیگر در پایگاهPIR.
در سمت راست صفحه بر روی text search کلیک کنید.
تصویر 9-4: نمایش نحوههای مختلف جستوجو در iProClass .
در صفحهای که باز میشود پروتئین مورد نظر را جستوجو کنید.
80-فصل چهارم
تصویر 10-4: نحوی جستوجوی Text در iProClass.
نتیجه به صورت زیر نمایش داده میشود.
تصویر 11-4: لیست نتایج جستوجوی iProClass.
اگر بر روی uniport کلیک کنید به بانک uniport منتقل میشوید و اگر بر روی iProClass کلیک کنید اطلاعات مربوط به این بانک نمایش داده میشود که در تصویر 12-4 یک نمونه رکورد iProClass را مشاهده میکنید.
81-پایگاههای اطلاعات اولیه توالیهای اسیدآمینه و ساختار فضایی پروتئینها
تصویر 12-4: یک نمونه رکورد iProClass.
4-1-4 معرفی OWL
OWL یک بانک اطلاعات پروتئینی غیرتکرای است براساس SWISS-PROT به اضافهی توالیهای مربوط به
NBRF /PIR، GenPept و پایگاه ساختار سهبعدی PDB (NRL3D) است. OWL در دانشگاه لیدز (انگلستان) و با همکاری Bleasby از HGMRRC (مرکز مرجع پروژهی نقشهیابی ژنوم انسان) نگهداری میشود. متاسفانه این پایگاه تقریبا هر سه ماه یکبار گزارش میدهد و به صورت منظم بهروز رسانی نمیشود.
2-4 پایگاه دادههای ساختار فضایی پروتئینها
يكي از كارهاي جالب بشري به تصوير كشيدن مفاهيم علمي است. تصاوير، مفاهيم علمي را گوياتر و جذابتر ميكنند. زيستشناسان و محققين علم ژنتيك نيز از اين ابزار به خوبي بهره برده و از آن در كارهاي تحقيقاتي و انتقال مفاهيم به دانشاندوزان استفاده كردهاند. دستاوردهاي زيادي در همكاري مهندسين كامپيوتر با دانشمندان زيستشناس حاصل شده است كه اين تلاشها در خور تقدير است.
تجسم پيچو خمهاي DNA و ماكرومولكولهاي مرموزي چون پروتئينها و درك ويژگيهاي وابسته به اين ساختارها، براي انسان بسيار مشكل است. در اين زمينه تصاوير سه بعدي بسيار راهگشا و پر فايده هستند. تصاوير و انيميشنهاي زيادي به همراه نرمافزارهاي باارزشي كه اين تصاوير را نمايش دهند به وجود آمدهاند كه در اين فصل به نمونهاي از آنها توجه خواهيم كرد. پژوهشگران به روشهاي مختلفي از جمله تابش اشعه ايكس ساختار سه بعدي پروتئينها را مورد بررسي قرار ميدهند. نتايج حاصل از اين پرتونگاريها، اطلاعاتي است كه در به تصوير كشيدن اين ساختارها مورد نياز است.
82-فصل چهارم
1-2-4 :(Protein Data Bank) PDB
در این پایگاه اطلاعات مربوط به ساختار سه بعدی ماکروملکولهای زیستی ذخیره شده است. در این پایگاه هم اکنون چند هزار ساختمان DNA، پروتئین یا هردو ذخیره شده است که همگی با روشهای آزمایشگاهی نظیر
NMR, X-ray diffraction, electron microscopy و مانند آن به دست آمدهاند.
بانک داده پروتئین PDB در سال 1971 در آزمایشگاه ملی بروکهَوِن [1]BNL به عنوان پایگاهی، ساختارهای سهبعدی درشتمولکولهای زیستی که بهطور تجربی تعیین شدهاند ایجاد شد. در 1999 فعالیت PDB به [2]RCSB منتقل شد. PDB همچنین حاوی دادههای ساختاری مربوط به پروتئینها، RNAها، قطعات کوتاه DNA، کربوهیدراتها، کمپلکسهای مولکولی و نیز ویروسها را دربرمیگیرد. PDB هر مدخل شامل مختصات اتمی، فهرستهای کتابشناسی، اطلاعات ساختار اولیه و ثانویه، همراه با فاکتورهای ساختاریابی بلورنگاری و دادههای تجربی NMR است. دادههای این پایگاه بهصورت روزافزون در حال افزایش میباشد که در تصویر 13-4 این رشد اطلاعاتی را مشاهده میکنید.
تصویر 13-4: نمایش نمودار رشد اطلاعات پایگاه PDB (March 2010)
برای ورود به این پایگاه به آدرس www.rcsb.orgمراجعه کنید.
[1] Brookhaven National Laboratory
[1] Research Collaboraory for Structural Bioinformatics
83-پایگاههای اطلاعات اولیه توالیهای اسیدآمینه و ساختار فضایی پروتئینها
تصویر 14-4: صفحه اصلی پایگاه PDB.
هنگام جستوجو در PDB همچون سایر بانکهای اطلاعاتی میتوانید نام پروتئین مورد نظرتان را در باکس مخصوص جستوجو تایپ کنید. ما در اینجا پروتئین P53 را مورد جستوجو قرار دهیم.
تصویر 15-4: لیست نتایج جستوجوی پایگاه PDB.
هر ركورد PDB شامل اطلاعات شناسنامهاي (مانند عنوان، نام نويسندگان و …)، اطلاعات آزمايش انجام شده (نام روش، ميزان تمايز و…) و بالاخره تصوير ثابت (still image) و ساختمان سه بعدي قابل دستورزي پروتئين (3D-Structure) است.
84-فصل چهارم
تصویر 16-4: یک نمونه رکورد PDB.
برای دستیابی به توالی اسید آمینه با فرمت FASTA و همچنین مشاهده ساختار دوم پروتئین میتوان وارد سربرگ Seqence شد.
تصویر 17-4: نمایش ساختار دوم در رکوردهای PDB.
برای مشاهده ساختمان سه بعدی و چرخش آن نیاز به نرم افزارهای نمایشگر(PDB viewer) است. برخی از آنها مانند Chime MICE, Rasmol و VRML به طور مستقیم از همین پایگاه قابل دریافت است. از طریق ابزار Jmol که به صورت آنلاین در دسترس است، میتوان ساختار سوم را بهطور دقیق مشاهده کرد. برای مشاهده توسط Jmol شما نیاز دارید که JAVA بر روی سیستم شما نصب باشد.
85-پایگاههای اطلاعات اولیه توالیهای اسیدآمینه و ساختار فضایی پروتئینها
تصویر 18-4: دسترسی به نر افزار نمایش سه بعدی ساختار پروتئین به صورت آنلاین.
در صورتی که نرمافزار java بر روی کامپیوتر شما نصب باشد، ساختار سه بعدی پروتئین نمایش داده میشود که نمونهای از آن را در تصویر 19-4 میبینید.
تصویر 19-4: نمایش ساختار سوم پروتئین توسط Jmol.
2-2-4 ساختار سه بعدي پروتئينها در NCBI
يك گروه از پايگاه دادهها به نام Structure توسط NCBI تدارك ديده شده است كه اطلاعات مربوط به ساختار سه بعدي پروتئينها را در خود نگه ميدارد. اين گروه شامل موارد زير است:
MMDB: پايگاه دادهاي شامل ساختار سه بعدي ماكرومولكولها (The Molecular Modeling DataBase) به همراه ابزارهايي براي نمايش و مقايسه اين ساختارها است. ساختار سه بعدي اين پروتئينها به روشهاي تجربي و از پروتئينهاي موجود در پايگاه داده PDB (پايگاه داده پروتئينها) حاصل شده است. نرمافزاري به نام Cn3d توسط NCBI تدارك ديده شده است كه به وسيله آن ميتوان اين ساختارهاي سه بعدي را مشاهده كرد. شما ميتوانيد با توالي يك پروتئين شروع نماييد و با استفاده از BLAST تمام پروتئينهايي كه با آن توالی شباهت دارند را مشخص نماييد و سپس ساختار سه بعدي هر يك را كه تاكنون شناخته شده است را توسط ابزارهای نمایشگر مشاهده نماييد.
PubVats: پايگاه دادهاي حاوي نتايج مقايسهStructure-Structure در مورد پروتئينها است. هر زنجيره پروتئيني به همراه دامين سه بعدي موجود در پايگاه MMDB با تمام پروتئينهاي ديگر به وسيله الگوريتم VAST مقايسه ميشود. ليستي از پروتئينهاي مشابه حاصل از اين مقايسه، از طريق لينكهاي موجود در صفحات اينترنتي پايگاه داده MMDB بخش Summary موجود است كه در اين فصل در مورد آنها و نحوه استفاده از آن توضيح خواهيم داد.
PubChem: پايگاه دادهاي حاوي اطلاعاتي در مورد فعاليتهاي بيولوژي مولكولهاي كوچك میباشد.
:CDD پايگاه داده دامينهاي حفظ شده (Conserved Domain Database) میباشد.
آيا ميتوان عملكرد يا ساختار پروتئينهاي ناشناخته را پيشبيني كرد؟ آيا پروتئينهاي ناشناخته عملكرد مشابه آنچه كه در مورد پروتئينهاي ديگر ميدانيم دارند؟ آيا پروتئينهاي با ساختارهاي مشابه، عملكرد مشابهي دارند؟ و برعكس. اينها
86-فصل چهارم
سوالهايي است كه در ذهن بسياري از محققين وجود دارد. نمايش سه بعدي پروتئينها از اهميت خاصي برخوردار است. از اين پايگاه داده ميتوان جهت مقايسه پروتئينها با يكديگر استفاده كرد. با مقايسه ساختار پروتئينها و يافتن الگوهاي مشابه، ميتوان در مورد عملكرد آنها پيشبيني كرد يا با عملكردهاي مشابه پي به ساختارهاي مشابه برد. اینجا با نحوه استفاده از اين پايگاه دادهها آشنا میشوید.
پايگاه داده Structure
براي دسترسي به پايگاه داده Structure وارد سايت NCBI شوید و از طریق منوی کشویی وارد پايگاه داده Structure شوید. در جلوي عبارت Structure كادر سفيدي را مشاهده مينماييد كه محل تايپ نام پروتئيني است كه در نظر داريد آن را جستوجو نماييد. نمونهاي را به عنوان جستوجو براي شما در نظر گرفتهايم تا روش استفاده از اين پايگاه داده را فرابگيريد. ما هموگلوبين (hemoglobin) را به عنوان پروتئين مورد جستوجو انتخاب كردهايم و نام آن را در كادر اول تايپ كرده و بر روي كلمه Search كليك نمودهايم تا صفحه زير باز گردد.
تصویر 20-4: نمایش لیست جستوجو در پایگاه Structure.
همچنان كه در تصوير مشاهده مينماييد تعداد 756 ركورد در مورد اين پروتئين يافت شده است. در اين صفحه تعداد 20 ركورد از 756 ركورد نمايش داده شده است. اين 20 ركورد با شماره از يكديگر جدا شدهاند. در كنار هر شماره كدي را مشاهده مينماييد كه كد اين پروتئين در پايگاه داده PDB است. مثلا در مورد ركورد اول، كد اين پروتئين 3UBV است.
در انتهاي هر ركورد كد اين پروتئين در پايگاه داده MMDB است كه مثلا در مورد ركورد اول به صورت
MMDB ID : 98348 نمايش داده شده است. اكنون آمادهايم تا اطلاعات بيشتري در مورد هر ركورد كسب نماييم. براي اين منظور بر روي نام پروتئين كه به صورت لينك و آبيرنگ است كليك نماييد. به عنوان نمونه بر روي اولين ركورد كه كد آن 3UBV است، كليك ميكنيم كه نتيجه را در تصوير بعد مشاهده خواهيد کرد. اين صفحه بهعلت طولانی بودن در دوتصویر تقسیم شده است.
87-پایگاههای اطلاعات اولیه توالیهای اسیدآمینه و ساختار فضایی پروتئینها
تصویر 21-4:یک نمونه رکورد پایگاه Structure. (قسمت اول)
عنوان پايگاه داده MMDB را در بالاي صفحه مشاهده مينماييد. به اين صفحه اينترنتي در مورد ساختار هر پروتئين، صفحه Summary گفته ميشود كه در زير عنوان نام اين پايگاه داده به صورت Summary مشاهده ميكنيد. در اين صفحه خلاصهاي از ساختار اين پروتئين را ميبينيد كه در ادامه جزييات هر بخش را شرح ميدهيم:
Reference: لينك به مقالهاي در پايگاه داده PubMed
Description: نام و توصيف خلاصهاي از پروتئين، تاريخ ثبت اطلاعات اين پروتئين درون PDB و ليست افرادي كه ساختار پروتئين را تعيين كردهاند در این قسمت آمده است.
Source Organism: تاكسانوميهاي مربوط به هر زنجير پروتئين را ليست ميكند.
MMDB ID: كد يكتاي ساختار اين پروتئين در پايگاه داده MMDB تنها با داشتن اين كد ميتوانيد اختصاصا به اطلاعات و ساختار اين پروتئين دست يابيد. هرگاه پروتئين جديدي وارد اين پايگاه ميشود، كد منحصر به فرد و جديدي را دريافت ميكند.
PDB ID: كد چهار حرفي اين پروتئين در پايگاه داده پروتئينها. اگر بر روي اين كد كليك نماييد اطلاعات مربوط به اين پروتئين را در پايگاه داده پروتئينها مشاهده خواهيد كرد.
در قسمت بعد كه با دكمهView 3D Structure مشخص شده است. ميتوانيد فايل مربوط به ساختار سه بعدي پروتئين را كه در نمايش آن به وسيله نرمافزار Cn3D مورد نياز است دانلود كنيد.
جزييات بيشتر پروتئين در پايين صفحه اينترنتي به صورت گرافيكي نمايش داده شده است که به نام
Molecules and interactions مشخص شده است. در قسمتی که پروتئین را به صورت نوارهای قرمز و صورتی مشخص شده است روی Show annotation کلیک کنید با تصویر زیر مواجه میشوید.
88-فصل چهارم
تصویر 22-4: بخش Molecules and interactions در یک رکورد پایگاه Structure. (قسمت دوم)
همانطور که در تصویر 22-4 مشاهده میکنید نوارها با جزئیات بیشتر مشخص شدهاند و یک خط کش به تصویر اضافه شده است و اگر بر روی اين نوار درجهبندي شده كليك نماييد شما را به پايگاه داده PubVast متصل ميكند و در تصویر میبینید که تمام پروتئينهايي را كه از نظر ساختاري شباهتي به هموگلوبين دارند را ليست کرده است.
تصویر 23-4: پايگاه داده PubVast.
89-پایگاههای اطلاعات اولیه توالیهای اسیدآمینه و ساختار فضایی پروتئینها
در بالاي تصویر 23-4 لوگوي پايگاه داده VAST را مشاهده مينماييد كه عبارت simllar Structure در اين قسمت اشاره به محتواي اين پايگاه داده دارد. وظيفه اين پايگاه يافتن پروتئينهاي مشابه از نظر ساختاري با استفاده از الگوريتم VAST است. محققيني كه بر روي ارتباط پروتئينها با يكديگر از نظر ساختاري كار ميكنند اين صفحه براي آنها حايز اهميت است.
در بالاي اين تصوير با عنوان VAST related structures for: MMDB 98348, 3UBV sequence A. نشان داده شده است. يعني اين كه در این صفحه، پروتئينهاي مشابه (از نظر ساختاري) با اين كد را ليست كرده است. در اين قسمت از صفحه كنترلهاي لازم براي مقايسه ساختار يا توالي پروتئينها با يكديگر قرار داده شده است. براي استفاده از اين كنترلها بايد با مفاهيم و الگوريتمهاي BLAST كردن آشنا باشيد. در پایین صفحه پروتئینهای مشابه به صورت نوارهای قرمزی وجود دارند که اگر بر روي نام هر يك از پروتئينها كليك نماييد صفحه ای باز ميشود(تصویر 7-4) و زنجيرها و ديگر اطلاعات اين پروتئين را نمايش ميدهد.
تصویر 24-4:بخشی از رکورد پايگاه داده PubVast.
3-2-4 CSD
CSD (پایگاه دادهی ساختاری کمبریج[1]) شامل دادههای ساختار سهبعدی ترکیبات آلی و آلی – فلزی است که بعضی از آنها از لحاظ زیستشناختی اهمیت دارند. CSD بهوسیلهی مرکز دادههای بلورنگاری کمبریج (CCDC) که در سال 1965 در دانشگاه کمبریج آغاز به کار کرده و در سال 1989 یک موسسهی غیرانتفاعی شده، تهیه شده است. ساختارهای سهبعدی موجود در CSD توسط پراش اشعه x و پراش نوترون مشخص شدهاند. بانک CSD با سرعت 15000 ساختار در سال افزایش مییابد.
3-4 بانکهای اطلاعاتی خودکار
[1] Cambridge Structural Database
90-فصل چهارم
این بانکها بهوسیلهی رایانه تولید شده و حاوی ترجمهی توالیهای رمزکننده (CoDing Sequence = CDS) از یک بانک خاص حاوی دادههای DNA است:
TrEMBL: مجموعهای از CDSها از EMBL، به استثنای توالیهایی که قبلا در SWISS-PROT بودهاند، که در
EMBL-EBI با همکاری دانشگاه جنوا و موسسهی سوییسی بیوانفورماتیک نگهداری میشود. هر سه ماه گزارش داده و هفتگی بهروز رسانی میشود. دو قسمت در این بانک داده وجود دارد:
SP-TrEMBL: توالیهایی که برای وارد شدن به گزارش بعدی SWISS-PROT انتخاب شدهاند.
REM-TrEMBL: توالیهایی که وارد SWISS-PROT نمیشوند (مانند واریانتهای فرعی توالیهای یکسان، قطعات کوچک، توالیهایی مشکوک، توالیهای مصنوعی).
GenPept: مجموعهای از CDSها از GenBank، که در NCI-FCRDC (موسسهی ملی سرطان؛ مرکز توسعه و تحقیق سرطان فردریک؛ مریلند، آمریکا) نگهداری میشود. هر دو ماه گزارش میدهد و هر روز بهروز رسانی میشود.
تفاوتهایی در هدف و کیفیت میان این بانکهای داده وجود دارد برای نمونه SWISS-PROT بانک اطلاعاتی با مراقبتهای بالا است که حاوی مستندهای بسیار خوبی است. بهطور سیستماتیک واریانتها و قطعات را در یک ورودی (entry) منفرد ادغام میکند اما بعد از رشد بانکهای دادهای DNA، روند آن کند شده است. PIR حاوی توالیهای بیشتری است که شامل الیگوپپتیدهای توالییابی شدهی واقعی مختلفی است اما به خوبی کنترل نمیشود. بانکهای دادهای خودکار مانند TrEMBL و GenPept حتی بزرگتر هستند اما مستندهای کمی دارند و گاهی اوقات شامل ترجمههای خیالی هستند که بهطور واقعی در طبیعت وجود ندارند.