ข้อมูล

ฐานข้อมูลโปรตีนของมนุษย์ที่รู้จัก

ฐานข้อมูลโปรตีนของมนุษย์ที่รู้จัก



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

มีฐานข้อมูลล่าสุดเกี่ยวกับโปรตีนของมนุษย์ที่รู้จักซึ่งเข้าถึงได้ง่ายโดยใช้ไลบรารี Python หรือไม่


GenBank รวมโปรตีนของมนุษย์และจัดเตรียม API สำหรับการสร้างคำขอ HTTP เพื่อทำการค้นหา ตัวอย่างมีให้ใน Perl แต่ถ้าคุณต้องการภาษาการเขียนโปรแกรมหรือภาษาสคริปต์อื่น คุณควรเขียนภาษาของคุณเอง:

คำขอ HTTP ที่เทียบเท่าสามารถสร้างได้ในภาษาโปรแกรมที่ทันสมัยมากมาย ทั้งหมดที่จำเป็นคือความสามารถในการสร้างและโพสต์คำขอ HTTP

วิธีนี้ช่วยฉันได้เสมอมา

Uniprot ดูเหมือนคล้ายกันในแง่นี้

SwissProt จัดทำแพ็คเกจสำหรับ BioPython ที่อาจสนใจ ฉันไม่รู้ว่านี่คือห้องสมุดที่คุณอ้างถึงหรือเปล่า คุณไม่ได้พูด และฉันไม่ได้ใช้ Python


สามารถดึงโปรตีนโปรตีโอมของมนุษย์ได้จาก UniProt Knowledgebase (http://www.uniprot.org/help/human_proteome)

ข้อมูลทั้งหมดบนเว็บไซต์ UniProt สามารถเข้าถึงได้โดยทางโปรแกรมผ่าน REST API เอกสารประกอบ http://www.uniprot.org/help/programmatic_access ยังรวมถึงตัวอย่างโค้ดหลามบางส่วนด้วย (ท่ามกลางภาษาโปรแกรมอื่นๆ)

โปรดอย่าลังเลที่จะติดต่อฝ่ายช่วยเหลือของ UniProt หากคุณมีคำถามเพิ่มเติม


ฐานข้อมูลโปรตีนของมนุษย์ที่รู้จัก - ชีววิทยา

เลือกโครโมโซมเพื่อเข้าถึงโปรแกรมดูข้อมูลจีโนม


เหตุผล

การจัดลำดับจีโนมช่วยให้นักวิทยาศาสตร์สามารถระบุยีนส่วนใหญ่ที่เข้ารหัสในแต่ละสิ่งมีชีวิตได้ หน้าที่ของโปรตีนที่แปลแล้วจำนวนมาก โดยปกติ 50% สามารถอนุมานได้จากการเปรียบเทียบลำดับกับลำดับที่มีลักษณะเฉพาะก่อนหน้านี้ อย่างไรก็ตาม การกำหนดหน้าที่โดยความคล้ายคลึงกันทำให้เข้าใจเพียงบางส่วนเกี่ยวกับบทบาทของโปรตีนภายในเซลล์เท่านั้น ความเข้าใจที่สมบูรณ์ยิ่งขึ้นเกี่ยวกับหน้าที่ของโปรตีนจำเป็นต้องมีการระบุคู่ที่มีปฏิสัมพันธ์: หน่วยย่อยที่มีปฏิสัมพันธ์หากโปรตีนเป็นส่วนประกอบของโมเลกุลเชิงซ้อน และสมาชิกทางเดินถ้าโปรตีนมีส่วนร่วมในเส้นทางการเผาผลาญหรือส่งสัญญาณ [1] ความรู้เกี่ยวกับความสัมพันธ์เหล่านี้ ซึ่งเราจะเรียกว่า 'การเชื่อมโยงเชิงหน้าที่' เป็นข้อกำหนดเบื้องต้นสำหรับการทำความเข้าใจสรีรวิทยาและพยาธิวิทยา

ความเข้าใจที่เพิ่มขึ้นเกี่ยวกับความสัมพันธ์ทางกายภาพและการทำงานระหว่างโปรตีนสามารถทำได้โดยการใช้วิธีการที่ไม่ยึดตามหลักการ [2, 3] วิธีการเหล่านี้อนุมานความเชื่อมโยงเชิงหน้าที่ระหว่างโปรตีนโดยการระบุคู่ของโปรตีนที่ไม่เป็นเนื้อเดียวกันที่มีการวิวัฒนาการร่วมกัน แรงกดดันจากวิวัฒนาการบอกว่าคู่ของโปรตีนที่ทำงานร่วมกันมักจะมีอยู่หรือทั้งสองอย่างไม่มีอยู่ในจีโนม (วิธีโปรไฟล์สายวิวัฒนาการ) มีแนวโน้มที่จะเข้ารหัสในจีโนมหลายตัว (วิธียีนเพื่อนบ้าน) อาจถูกหลอมรวมเป็นโปรตีนตัวเดียวในสิ่งมีชีวิตบางชนิด (วิธี Rosetta Stone) หรือเป็นส่วนประกอบของโอเปอรอน (วิธีคลัสเตอร์ยีน) ในทางตรงกันข้าม โปรตีนที่ไม่สัมพันธ์กันตามหน้าที่ไม่จำเป็นต้องปรากฏร่วมกันหรือแสดงความใกล้ชิดเชิงพื้นที่ในจีโนม การจัดลำดับที่สมบูรณ์ของจีโนมมากกว่า 100 ตัวให้สื่อสมบูรณ์ซึ่งใช้อนุมานถึงการเชื่อมโยงและการทำงานของโปรตีนโดยการวิเคราะห์คุณสมบัติของคู่โดยใช้วิธีการเหล่านี้ การเชื่อมโยงการทำงานของโปรตีนอาจถูกอนุมานจากการทำเหมืองข้อความอัตโนมัติ ที่นี่เราใช้อัลกอริธึมอย่างง่าย (TextLinks) เพื่อระบุโปรตีนที่มักพบร่วมกันในบทคัดย่อทางวิทยาศาสตร์ [4]

ในบทความนี้ เราจะอธิบายฐานข้อมูลใหม่ที่เปิดเผยต่อสาธารณะ - Prolinks - และเครื่องมือ Proteome Navigator ที่เกี่ยวข้องซึ่งรวมการเชื่อมโยงแบบคู่ที่สร้างขึ้นจากวิธีการอนุมานแต่ละวิธีที่กล่าวมาข้างต้น เครื่องมือนี้อนุญาตให้ผู้ใช้สำรวจการเชื่อมโยงโปรตีนที่สร้างขึ้นสำหรับสิ่งมีชีวิตจุลินทรีย์ 83 แบบโต้ตอบ ลำดับ ความคล้ายคลึงของลำดับ และคำอธิบายประกอบแบบสาธารณะ รวมถึง Kyoto Encyclopedia of Genes and Genomes (KEGG), Clusters of Orthologous Groups (COG) และคำอธิบายของศูนย์ข้อมูลเทคโนโลยีชีวภาพแห่งชาติ (NCBI) มีให้สำหรับโปรตีนแต่ละชนิด เครือข่ายของการเชื่อมโยงที่คาดการณ์ไว้สามารถปรับได้ โดยอิงจากขีดจำกัดความเชื่อมั่นที่ปรับได้ เครือข่ายมีโหนด 'คลิกได้' ที่อนุญาตให้นำทางอย่างรวดเร็ว แม้ว่านี่ไม่ใช่ฐานข้อมูลแรกที่วิเคราะห์การวิวัฒนาการร่วมกันของโปรตีน แต่ก็มีความแตกต่างจากเครื่องมือที่มีอยู่หลายประการ [5, 6] ในส่วนการสนทนา เราจะวิเคราะห์ความแตกต่างเหล่านี้ นอกจากนี้เรายังแสดงให้เห็นว่า Proteome Navigator อาจถูกใช้เพื่อกู้คืนการเชื่อมโยงระหว่างโปรตีนที่เกี่ยวข้องกับหน้าที่การใช้งานและระหว่างโปรตีนที่อยู่ภายในคอมเพล็กซ์โปรตีน กล่าวโดยย่อ ฐานข้อมูลนี้ขยายมูลค่าของเครื่องมือที่มีอยู่สำหรับคำอธิบายประกอบจีโนม


ผลลัพธ์และการอภิปราย

อัลกอริทึมการทำนาย

เพื่อระบุสารตกค้างในโปรตีนที่เกี่ยวข้องกับปฏิกิริยาของโปรตีน เราได้คิดค้นวิธีการที่รวมข้อมูลโครงสร้างและข้อมูลการทดลอง ใช้ ผมฐานข้อมูล Pfam [16] ของโดเมนโต้ตอบที่รู้จัก ก่อนอื่นเราเลือกภูมิภาคของโดเมนบนโปรตีนเป้าหมายทั้งหมดที่มีโครงสร้างคล้ายคลึงกันรวมถึงพันธมิตรที่มีปฏิสัมพันธ์ใน PDB [17] (ดูวัสดุและวิธีการ) จากนั้นเราเลือกตำแหน่งที่สร้างการสัมผัสระหว่างเรซิดิวกับเรซิดิวระหว่างสายโพลีเปปไทด์ที่แตกต่างกันในแม่แบบโครงสร้างเหล่านี้ และบันทึกตำแหน่งที่สอดคล้องกันในโปรตีนเป้าหมายเป็นเรซิดิวที่อาจมีปฏิกิริยาต่อกัน

เราจำเป็นต้องเลือกฟังก์ชันการให้คะแนนที่แยกแยะระหว่างสารตกค้างที่เกี่ยวข้องจริงๆ และสำคัญมากสำหรับการโต้ตอบกับสิ่งที่ไม่เกี่ยวข้อง ด้วยเหตุนี้ เราจึงทดสอบผลกระทบของตัวแปร 2 ตัวที่ต่างกันต่อความแม่นยำในการทำนาย

เปอร์เซ็นต์เอกลักษณ์ของลำดับกับแม่แบบโครงสร้าง

มีความสัมพันธ์ที่รู้จักกันดีระหว่างความคล้ายคลึงของลำดับและความคล้ายคลึงกันของโครงสร้าง [18] ซึ่งขยายไปถึงโดเมนที่มีปฏิสัมพันธ์ [19] ด้วย ปฏิสัมพันธ์มีแนวโน้มที่จะถูกอนุรักษ์ไว้และแสดงโทโพโลยีที่คล้ายคลึงกันเมื่อลำดับมีความคล้ายคลึงกันสูง แม้ว่าเราจะพบว่าเปอร์เซ็นต์เอกลักษณ์นั้นไม่ใช่ตัวทำนายที่ดีถึงความสำคัญของสารตกค้างสำหรับการโต้ตอบ แต่ก็สามารถปรับปรุงความแม่นยำในการทำนายได้เล็กน้อยเมื่อรวมกับเกณฑ์อื่น (รูปที่ 1)

ความแตกต่างในการอนุรักษ์ระหว่างเรซิดิวชนิดไวด์และเรซิดิวที่กลายพันธุ์ ฮิสโตแกรมของการอนุรักษ์ชนิดป่าและสารตกค้างที่กลายพันธุ์ สามเหลี่ยมแสดงถึงความถี่ในการอนุรักษ์สารตกค้างของสารตกค้างทั้งหมดในบริเวณโปรตีนโรคที่แมปกับ ผมโดเมน Pfam วงกลมแสดงการอนุรักษ์อัลลีลที่ทำให้เกิดโรค (ดูวัสดุและวิธีการ) เส้นแนวโน้มจะถูกเพิ่มเพื่ออธิบายการแจกแจงแบบปกติ

การอนุรักษ์สารตกค้างที่กลายพันธุ์

สำหรับการกลายพันธุ์ที่เกี่ยวข้องกับการโต้ตอบที่ระบุทั้งหมด เราได้คำนวณคะแนนการอนุรักษ์ (ดูวัสดุและวิธีการ) คะแนนนี้สะท้อนถึงความถี่ที่กรดอะมิโนเกิดขึ้นที่ตำแหน่งที่กำหนดในตระกูลโปรตีน ที่สัมพันธ์กับการกระจายพื้นหลังที่เป็นสากล หากเราดูความถี่ของคะแนนการอนุรักษ์สำหรับอัลลีลแบบไวด์ทั้งหมดเมื่อเทียบกับอัลลีลที่กลายพันธุ์ทั้งหมด (รูปที่ 1) เราพบว่าคะแนนสำหรับทั้งประเภทไวด์และอัลลีลที่กลายพันธุ์นั้นดูเหมือนจะเป็นไปตามการกระจายแบบปกติ อย่างไรก็ตาม คะแนนหลังมีคะแนนการอนุรักษ์เฉลี่ยน้อยกว่าอย่างเห็นได้ชัด (2.4 เทียบกับ -2.2 รูปที่ 2) ดังนั้น เรซิดิวที่พบในโปรตีนชนิดธรรมชาติโดยทั่วไปจะถูกอนุรักษ์ไว้มากกว่าเรซิดิวที่พบในเวอร์ชันกลายพันธุ์ [20] ดังนั้นเราจึงทดสอบว่าการอนุรักษ์สามารถใช้เป็นตัวบ่งชี้ถึงความสำคัญเชิงหน้าที่ของสารตกค้างได้หรือไม่ แม้กระทั่งกับสารตกค้างที่สัมผัสกับพื้นผิวเช่นเดียวกับที่อยู่ภายใต้การตรวจสอบที่นี่

กราฟ ROC ที่คำนวณจากชุดการทดลองสแกนอะลานีน เส้นสีแดงแสดงถึงประสิทธิภาพของอัลกอริธึมของเราเมื่อเปลี่ยนเฉพาะเกณฑ์การอนุรักษ์ โดยไม่มีการตัดทอนข้อมูลประจำตัวเป็นเปอร์เซ็นต์ เส้นสีเขียวแสดงประสิทธิภาพโดยใช้ข้อมูลเฉพาะตัวเป็นเปอร์เซ็นต์เป็นเกณฑ์ เส้นสีน้ำเงินแสดงถึงประสิทธิภาพโดยใช้การอนุรักษ์เป็นเกณฑ์ แต่ใช้ตัวกรองเอกลักษณ์ของลำดับ 30% ช่วงความเชื่อมั่นที่คำนวณโดยใช้โมดูล Statistics::ROC Perl [59]

ความแม่นยำในการทำนาย

ในการประมาณความถูกต้องของวิธีการทำนายของเรา เราใช้ฐานข้อมูล ASEdb ของการทดลองพลังงานสแกนอะลานีนในการจับโปรตีน [21] เป็นชุดทดสอบ 'มาตรฐานทองคำ' (ดูวัสดุและวิธีการ) ในการสแกนอะลานีนดังกล่าว สารตกค้างในส่วนต่อประสานการจับของโปรตีนจะถูกกลายพันธุ์เป็นอะลานีนโดยการทำให้เกิดการกลายพันธุ์ที่ควบคุมตำแหน่ง [22] ความแตกต่างในการผูกมัดพลังงานอิสระ (ΔΔNS) ระหว่าง wild-type (ΔNS0) และกลายพันธุ์ (ΔNS NS) โปรตีนอธิบายการมีส่วนร่วมของสารตกค้างเฉพาะที่ตำแหน่ง ผม ต่อพลังงานที่ผูกมัดทั้งหมด:

ΔΔNS ผม= .NS โอ- NSNS,ผม

เราประเมินว่าวิธีการของเราสามารถทำนายสิ่งตกค้างที่มีการเปลี่ยนแปลงอย่างมากใน Δ . ได้ดีเพียงใดNS เมื่อกลายพันธุ์ Randles และคณะ [23] แสดงให้เห็นว่าสำหรับโปรตีนแบบจำลองสองตัว ΔΔNS มีความสัมพันธ์กับความรุนแรงของโรค พวกเขาแสดงให้เห็นว่าแม้การเปลี่ยนแปลง <2 กิโลแคลอรี/โมลอาจทำให้เกิดการหยุดชะงักของการจับโปรตีน ในที่นี้ เรากำหนดสารตกค้างตามที่ระบุอย่างถูกต้อง (ผลบวกจริง) ถ้า ΔΔNS > 2.5. เกณฑ์นี้ยังใช้ในสิ่งพิมพ์ล่าสุดอีกฉบับหนึ่ง [24] สารตกค้างที่ต่ำกว่าเกณฑ์นี้ถือว่าเป็นกลาง (ผลบวกเท็จ) เกณฑ์นี้อาจก่อให้เกิด 'ผลลบเท็จ' ในตัวมันเอง นั่นคือ สารตกค้างบางส่วนอาจมีความสำคัญต่อการทำงานของโปรตีน แม้ว่าจะมีการวัดค่า ΔΔNS < 2.5 แต่เราถือว่าเกณฑ์อนุรักษ์นิยมดีกว่า

รูปที่ 1 แสดงเส้นโค้งลักษณะตัวดำเนินการผู้รับ (ROC) [25] ซึ่งเป็นพล็อตของความถี่ของค่าบวกจริงเหนือความถี่ของการทำนายผลบวกลวงสำหรับอัลกอริธึมที่กำหนด จากซ้ายไปขวา คะแนนจะทำเครื่องหมายเกณฑ์คะแนนที่ลดลง จนกว่าจะไม่มีการใช้เกณฑ์ใดๆ อีกต่อไป และทั้งอัตราการบวกจริงและผลบวกลวงจะถึง 100% ที่มุมขวาบน

เส้นสีเขียวและสีแดงแสดงถึงประสิทธิภาพของอัลกอริทึมของเราโดยใช้การระบุลำดับเปอร์เซ็นต์ (สีเขียว) หรือการอนุรักษ์สิ่งตกค้าง (สีแดง) เพื่อทำคะแนนการคาดคะเน ด้วยวิธีการให้คะแนนทั้งสองวิธี วิธีการของเราจะดึงข้อมูลเชิงบวกที่แท้จริงมากกว่าที่คาดโดยบังเอิญ อย่างไรก็ตาม เกณฑ์การอนุรักษ์นั้นเหนือกว่ามากในการแยกความแตกต่างระหว่างความจริงและผลบวกลวง ที่อัตราบวกลวง ≈20% เราสามารถบรรลุอัตราบวกจริงเกือบ 60% ผลการวัดประสิทธิภาพเหล่านี้เน้นย้ำว่าเราสามารถระบุการกลายพันธุ์ที่รบกวนการโต้ตอบด้วยความมั่นใจที่สมเหตุสมผล ความแม่นยำที่แท้จริงอาจสูงกว่าที่วัดได้ในที่นี้ เมื่อพิจารณาจากแนวคิดอนุรักษ์นิยม ΔΔNS ทางลัดที่เราเลือกที่จะกำหนดสารตกค้างที่เป็นบวกที่แท้จริง

เรายังทดสอบการรวมกันของการวัดทั้งสอง ซึ่งแสดงด้วยเส้นสีน้ำเงินในรูปที่ 1 ในกรณีนี้ เกณฑ์การอนุรักษ์สารตกค้างถูกรวมเข้ากับจุดตัดเอกลักษณ์ของลำดับที่คงที่ 30% ประสิทธิภาพดีขึ้นเล็กน้อยในบริเวณที่มีผลบวกลวงต่ำ ทำให้ได้อัตราบวกจริง 40% ที่อัตราบวกลวงเพียง 7% ตามเกณฑ์มาตรฐานนี้ เราตัดสินใจเลือกเกณฑ์การอนุรักษ์สารตกค้างที่ >2 ร่วมกับการตัดเอกลักษณ์ของลำดับ 30% สำหรับการวิเคราะห์ที่ตามมาทั้งหมด เพื่อให้อัลกอริทึมของเราใช้งานได้โดยทั่วไป มีการใช้ตัวกรองอีกสองตัว: โปรตีนเป้าหมายต้องมีลำดับที่คล้ายคลึงกัน (ค่า BLAST e น้อยกว่า 10 -6 ) ในหนึ่งในสี่แหล่งเก็บข้อมูลหลักสำหรับข้อมูลปฏิสัมพันธ์ของโปรตีน (IntAct [26] , BioGRID [27], MPact [28] หรือ HPRD [29]). ต่อจากนั้น โปรตีนเป้าหมายจะถูกแยกออกหากไม่มีปฏิกิริยาระหว่างการทดลองที่คล้ายคลึงกันซึ่งเกี่ยวข้องกับการโต้ตอบทั้งคู่ ผมโดเมน Pfam ที่เห็นในเทมเพลตโครงสร้าง

การประยุกต์ใช้กับการกลายพันธุ์ของโรค

เราใช้อัลกอริธึมการทำนายตามที่อธิบายไว้ข้างต้นกับการกลายพันธุ์ของโรคที่มีสารตกค้างเดียวที่สกัดจาก OMIM และ UniProt (ดูวัสดุและวิธีการ) ในกรณีของการกลายพันธุ์ของโรค ทราบลักษณะการก่อกวนของการกลายพันธุ์ของสารตกค้างแล้ว อย่างไรก็ตาม ยังไม่มีความชัดเจนว่าการโต้ตอบเกิดขึ้นจริงหรือไม่ และมีแนวโน้มที่จะเป็นสื่อกลางโดยโดเมนที่เป็นปัญหา ตามที่อธิบายไว้ข้างต้น มีการรายงานการกลายพันธุ์ ดังนั้น เฉพาะในกรณีที่โปรตีนที่เกี่ยวข้องกับโรคมีโฮโมล็อกที่ใกล้เคียงที่ได้รับการพิสูจน์แล้วว่ามีปฏิสัมพันธ์กับโปรตีนที่มีโดเมนของคู่จับที่เหมือนกันตามที่เห็นในโครงสร้าง PDB อันตรกิริยาถูกจำลองจาก ( 'เทมเพลตโครงสร้าง') ตัวอย่างเช่น [OMIM:+264900.0011] เป็นการกลายพันธุ์ Ser576Arg ของปัจจัยการแข็งตัวของเลือดของมนุษย์ IX (PTA) สารตกค้างเป็นส่วนหนึ่งของโดเมนทริปซินและพบว่ามีปฏิกิริยากับ Ecotin อย่างไรก็ตาม การโต้ตอบระหว่าง PTA และ Ecotin ยังไม่ได้บันทึกในฐานข้อมูลการโต้ตอบใดๆ ดังนั้นจึงไม่สามารถรวมการกลายพันธุ์ในการคาดการณ์ของเราได้

เมื่อใช้เกณฑ์เหล่านี้ คาดการณ์ว่าการกลายพันธุ์ 1,428 ครั้งจาก 264 โปรตีนเกี่ยวข้องกับการโต้ตอบ (รูปที่ 3) รายการทั้งหมดมีอยู่ในไฟล์ข้อมูลเพิ่มเติม 1 โดยรวมแล้ว เรารวบรวมการกลายพันธุ์ 25,322 รายการจาก OMIM และ UniProt ซึ่งหมายความว่าประมาณ 4% ของการกลายพันธุ์ทั้งหมดสามารถเชื่อมโยงกับปฏิกิริยาของโปรตีน

ขั้นตอนการรวมข้อมูลสำหรับการทำนายสารตกค้างแบบโต้ตอบ แผนผังของการรวมข้อมูลสำหรับการทำนายการโต้ตอบสารตกค้าง การกลายพันธุ์จาก OMIM และ UniProt ซึ่งมีการเลือกสารตกค้างในโครงสร้างที่คล้ายคลึงกันในการโต้ตอบถูกเลือก ชุดนี้ถูกจำกัดเพิ่มเติมโดยการค้นหาโปรตีนที่คล้ายคลึงกันที่มีปฏิสัมพันธ์ที่รู้จัก ซึ่งนำมาจากฐานข้อมูลปฏิสัมพันธ์ของโปรตีนช่วงต่างๆ เราต้องการให้โปรตีนที่มีปฏิสัมพันธ์คล้ายคลึงกันมีโดเมน Pfam คู่เดียวกันกับที่พบในเทมเพลตโครงสร้าง ซึ่งส่งผลให้มีการกลายพันธุ์ที่เกี่ยวข้องกับการโต้ตอบ 1,428 ชุด

ในบรรดาการกลายพันธุ์เหล่านี้ 454 แมปกับโครงสร้างที่แสดงปฏิกิริยาระหว่างโปรตีนที่แตกต่างกัน (ปฏิกิริยาแบบเฮเทอโร) ในขณะที่การกลายพันธุ์ 1,094 รายการจับคู่กับโครงสร้างที่มีปฏิสัมพันธ์ระหว่างโปรตีนสองชนิดที่เหมือนกัน (ปฏิกิริยาระหว่างมนุษย์) ซึ่งหมายความว่าพบการกลายพันธุ์ 120 ครั้งในโครงสร้างของปฏิกิริยาระหว่างโฮโมและเฮเทอโร สัดส่วนที่มากของการโต้ตอบแบบ homo-interactions สามารถอธิบายได้โดยการแสดงแทนการโต้ตอบแบบ homo-interaction มากเกินไปในชุดแม่แบบโครงสร้าง: 70% ของคู่โปรตีนที่แตกต่างกันทั้งหมดใน ผมPfam เป็นปฏิกิริยาระหว่างคนรักร่วมเพศ ซึ่งสอดคล้องกับผลการวิจัยล่าสุดที่ว่าการมีปฏิสัมพันธ์ระหว่างคนรักร่วมเพศนั้นพบได้บ่อยกว่าการโต้ตอบแบบต่างเพศ [30]

คุณสมบัติของการกลายพันธุ์ในส่วนต่อประสานการโต้ตอบ

ชุดการกลายพันธุ์ที่เกี่ยวข้องกับการโต้ตอบที่ดูแลจัดการ

นอกจากข้อมูลที่ได้รับมาโดยอัตโนมัติแล้ว เราเก็บรวบรวมการกลายพันธุ์ 119 ครั้งใน 65 โรคที่แตกต่างกันจากเอกสารทางวิทยาศาสตร์ซึ่งมีหลักฐานว่าพวกมันเปลี่ยนการโต้ตอบของโปรตีนที่เกิดขึ้น (ดูวัสดุและวิธีการ) เราเรียกสิ่งนี้ว่า 'ชุดที่ดูแลจัดการอย่างดี' ของการกลายพันธุ์ที่เกี่ยวข้องกับการโต้ตอบ (ไฟล์ข้อมูลเพิ่มเติม 2) ตามความรู้ของเรา มันแสดงถึงคอลเลกชันที่ใหญ่ที่สุดของการกลายพันธุ์ที่เกี่ยวข้องกับการโต้ตอบที่มีความมั่นใจสูงจนถึงปัจจุบัน

ด้านล่างนี้ เราสำรวจความแตกต่างระหว่างการกลายพันธุ์ที่เกี่ยวข้องกับการโต้ตอบและการกลายพันธุ์ที่ไม่เกี่ยวกับการโต้ตอบ เรามุ่งเน้นไปที่กลไกของการกลายพันธุ์ โหมดการสืบทอด และองค์ประกอบตกค้าง สำหรับการกลายพันธุ์ 1,428 รายการส่วนใหญ่จากชุดที่สร้างขึ้นโดยอัตโนมัติ ไม่มีข้อมูลเกี่ยวกับโหมดการสืบทอดหรือกลไกการทำงานของพวกมันในทันที เพื่อให้เปรียบเทียบกับชุดที่ดูแลจัดการด้วยตนเอง เราสุ่มตัวอย่าง 100 การกลายพันธุ์แบบสุ่ม และทำการค้นหาวรรณกรรมด้วยตนเองเพื่ออธิบายคุณสมบัติของการกลายพันธุ์

จำแนกตามหน้าที่

เราขอแนะนำการจัดประเภทที่จัดกลุ่มการกลายพันธุ์ตามผลกระทบของการกลายพันธุ์เป็นการสูญเสียการทำงาน (LOF) และการรับหน้าที่ (GOF) ภายใต้ความแตกต่างที่กว้างนี้ การกลายพันธุ์ของ GOF สามารถแบ่งออกเป็นสองกลุ่มเพิ่มเติม: การรวมกลุ่มทางพยาธิวิทยาและการรับรู้ที่ผิดปกติ ในทำนองเดียวกัน การกลายพันธุ์ของ LOF สามารถแบ่งออกเป็นคลาสหนึ่งที่ขัดขวางการโต้ตอบระหว่างหน่วยย่อยของโปรตีนและคลาสอื่นที่รบกวนการโต้ตอบชั่วคราว

จากชุดการกลายพันธุ์ที่เกี่ยวข้องกับการโต้ตอบที่ดูแล 95 การกลายพันธุ์ส่งผลให้เกิด LOF 17 รายการใน GOF มีการรายงานการกลายพันธุ์ 4 ครั้งเพื่อเปลี่ยนการตั้งค่าการโต้ตอบของโปรตีน และ 3 ไม่สามารถกำหนดได้ คลาสของการกลายพันธุ์ของ GOF ที่ส่งผลให้เกิดการรวมตัวของโปรตีนประกอบด้วย 12 กรณี ซึ่งประกอบด้วยโรคอะไมลอยด์ เช่น อัลไซเมอร์หรือครอยซ์เฟลดต์-จาค็อบ แต่ยังรวมถึง ตัวอย่างเช่น โรคโลหิตจางชนิดเคียว [OMIM:+141900.0243] ห้ากรณีส่งผลให้เกิดการจดจำที่ผิดปกติ ตัวอย่างเช่น การกลายพันธุ์ Gly233Val ในไกลโคโปรตีน Ib ที่นำไปสู่โรคฟอนวิลเลอแบรนด์ [OMIM:*606672.0003] โดยการเพิ่มความสัมพันธ์สำหรับปัจจัยฟอนวิลเลอแบรนด์

ในบรรดาการกลายพันธุ์ของ LOF 61 ส่งผลกระทบต่อปฏิสัมพันธ์ชั่วคราวและ 34 ส่งผลกระทบต่อการโต้ตอบที่มีภาระผูกพัน อย่างหลังมักจะทำให้โปรตีนทำงานผิดปกติ ตัวอย่างเช่น ในกรณีของการขาดไลโปเอไมด์ ดีไฮโดรจีเนสที่เกิดจากการทำให้เป็นไดเมอร์ที่บกพร่อง [31] การกลายพันธุ์ของ LOF ในการโต้ตอบแบบชั่วคราวทำให้เกิดการเปลี่ยนแปลงในการโลคัลไลซ์เซชันหรือการส่งข้อมูล ยกตัวอย่างโดยการกลายพันธุ์ใน BRCA2 ยีนที่จูงใจให้ผู้หญิงเป็นมะเร็งเต้านมในระยะเริ่มต้น: การกลายพันธุ์ของ Tyr42Cys ใน BRCA2 ยับยั้งการทำงานร่วมกันของ BRCA2 กับโปรตีนการจำลองแบบ A ซึ่งเป็นโปรตีนที่จำเป็นสำหรับการซ่อมแซม การจำลองแบบ และการรวมตัวของ DNA การขาดปฏิสัมพันธ์นี้ยับยั้งการจัดหาโปรตีนซ่อมแซมการแตกหักแบบสองสายและในที่สุดก็นำไปสู่การสะสมของการเปลี่ยนแปลง DNA ของสารก่อมะเร็ง

โหมดการสืบทอด

เราตรวจสอบโหมดการสืบทอดสำหรับการกลายพันธุ์ทั้งหมดในชุดที่ดูแล หากมีข้อมูลอยู่ในเอกสารประกอบ การกลายพันธุ์ของ GOF ทั้งหมดแสดงให้เห็นถึงการถ่ายทอดทางพันธุกรรมที่เด่นชัด (การกลายพันธุ์ของเฮโมโกลบินสองครั้งแสดงการครอบงำที่ไม่สมบูรณ์) จากการกลายพันธุ์ของ LOF 61 รายการซึ่งมีข้อมูลการสืบทอด 24 รายการเป็นแบบ autosomal dominant และ 37 รายการเป็นแบบด้อย ฆิเมเนซ-ซานเชซ และคณะ [33] ศึกษารูปแบบการถ่ายทอดยีนโรคของมนุษย์ ตามที่พวกเขากล่าวไว้ การกลายพันธุ์ในเอนไซม์นั้นด้อยกว่าในขณะที่การกลายพันธุ์ในตัวรับปัจจัยการถอดรหัสและโปรตีนโครงสร้างมักจะมีความโดดเด่น โดยรวมแล้วพบว่ามีอัตราส่วน 188:335 ของโรคเด่นต่อโรคถอย ในชุดข้อมูลของเรา อัตราส่วนของการกลายพันธุ์ที่โดดเด่นต่อการกลายพันธุ์แบบถอยคือ 41:37 (31:29 ในแง่ของโรค) การเพิ่มคุณค่าสำหรับการกลายพันธุ์ที่โดดเด่นนี้มีนัยสำคัญทางสถิติ ตามที่กำหนดโดยการทดสอบสองด้านเพื่อความเท่าเทียมกันของสัดส่วน (NS-ค่า < 0.014) การเพิ่มขึ้นนี้เห็นได้จากหมวดหมู่การทำงานของยีน Ontology ในเอนไซม์ เช่นเดียวกับสารควบคุมและโปรตีนส่งสัญญาณ (ไม่แสดงข้อมูล) ในการกลายพันธุ์ที่สุ่มเลือก 100 รายการจากชุดที่คาดการณ์ เราพบอัตราส่วนของการกลายพันธุ์ที่โดดเด่นต่อการกลายพันธุ์แบบถอยที่ 38:41 ซึ่งคล้ายกับอัตราส่วนที่สังเกตพบในชุดที่ดูแลจัดการอย่างดี (การทดสอบสองด้านเพื่อความเท่าเทียมกันของสัดส่วน NS-ค่า > 0.68 สมมติฐานความแตกต่างในสัดส่วนที่ถูกปฏิเสธ)

ในการกลายพันธุ์ของ GOF การถ่ายทอดทางพันธุกรรมที่โดดเด่นนั้นไม่น่าแปลกใจ แต่สัดส่วนที่สูง (39%) ของการกลายพันธุ์ LOF ที่โดดเด่นนั้นน่าสังเกต การสืบทอดที่เด่นชัดในการกลายพันธุ์ของ LOF สามารถอธิบายได้โดยความไม่เพียงพอของฮาบลอยน์หรือผลกระทบด้านลบที่เด่นชัด [34] ในยีสต์ มีการแสดงความไวของปริมาณยาของสมาชิกของโปรตีนเชิงซ้อน [35] ตามสิ่งที่แปป และคณะ เรียกว่า 'สมมติฐานสมดุล' ความไม่สมดุลของปริมาณสัมพันธ์มีผลเสียต่อการทำงานของโปรตีนเชิงซ้อน การครอบงำจะเป็นผลมาจากการขาดหน่วยย่อยของโปรตีนที่ใช้งานได้

ผลกระทบด้านลบที่เด่นชัดอันเป็นผลมาจากการเติมเต็มระหว่างอัลเลลิกอาจเป็นคำอธิบายทางเลือกสำหรับการเสริมสมรรถนะของการกลายพันธุ์ที่เด่นชัดที่สังเกตได้ ตัวอย่างเช่น การกลายพันธุ์ของฟีนิลอะลานีนไฮดรอกซีเลสสามารถนำไปสู่ฟีนิลคีโตนูเรีย [36] โดยการยับยั้งการเปลี่ยนแปลงโครงสร้างที่จำเป็นระหว่างโมโนเมอร์ ในกรณีดังกล่าวโดยที่ฟังก์ชันโปรตีนอาศัยปฏิสัมพันธ์แบบไดนามิกระหว่างหน่วยย่อย การกลายพันธุ์ในส่วนต่อประสานการจับตัวใดตัวหนึ่งสามารถยับยั้งการทำงานของสมาชิกที่ถูกผูกไว้อื่นๆ ของสารเชิงซ้อนอย่างแข็งขัน การวิเคราะห์เชิงทดลองโดยละเอียดของการกลายพันธุ์ LOF ที่โดดเด่นสามารถเปิดเผยความสำคัญสัมพัทธ์ของผลกระทบเชิงลบที่โดดเด่นเมื่อเปรียบเทียบกับความไม่เพียงพอของฮาโพลเนื่องจากความไม่สมดุลของปริมาณสารสัมพันธ์

ความถี่ของสารตกค้าง

ความถี่เรซิดิวของการกลายพันธุ์ที่เกี่ยวข้องกับการโต้ตอบที่คาดการณ์ไว้ถูกเปรียบเทียบกับความถี่ของเรซิดิวเหนือการกลายพันธุ์ทั้งหมดใน OMIM และ UniProt [37] เราพบว่าการกระจายความถี่ของสารตกค้างประเภทไวด์ในการกลายพันธุ์ที่เกี่ยวข้องกับปฏิสัมพันธ์นั้นส่วนใหญ่คล้ายกับสเปกตรัมการกลายพันธุ์โดยรวม ยกเว้นการเสริมคุณค่าที่สำคัญในไกลซีนและความถี่ที่สูงกว่าของทริปโตเฟนและกลูตามีนและ ลดความถี่ของอะลานีน ซีรีน และวาลีน (รูปในไฟล์ข้อมูลเพิ่มเติม 3) การเพิ่มคุณค่าในไกลซีนไม่สามารถอธิบายได้โดยง่ายโดยองค์ประกอบของสารตกค้างบนผิวโปรตีนหรือในส่วนต่อประสานอันตรกิริยา [38, 39] แต่อาจเนื่องมาจากลักษณะก่อกวนของสารตกค้างที่ไกลซีนมีแนวโน้มมากที่สุดที่จะกลายพันธุ์เป็น อาร์จินีน ซีรีน และแอสพาเทต [37].

ตัวอย่างของการกลายพันธุ์ที่เกี่ยวข้องกับการสมมุติฐาน

ในส่วนต่อไปนี้ เราจะอธิบายโรคสามโรคที่ระบุโดยวิธีการของเรา ซึ่งดูเหมือนว่าจะเกี่ยวข้องกับการเปลี่ยนแปลงในปฏิกิริยาของโปรตีน

โรค Griscelli ชนิดที่ 2 [OMIM:#607624]

โรค Griscelli เป็นโรคที่มีลักษณะผิดปกติของผิวและผมสี รวมทั้งในบางกรณี ภาวะภูมิคุ้มกันบกพร่องเนื่องจากขาดแกมมาโกลบูลินและการกระตุ้นลิมโฟไซต์ไม่เพียงพอ หากไม่มีการปลูกถ่ายไขกระดูก โรคนี้มักจะถึงแก่ชีวิตภายในปีแรกของชีวิต [40] รูปแบบที่ 2 ของโรค Griscelli มักจะจับคู่กับยีน Rab-27A [41] โดเมน RAS ของ Rab-27A ใช้ความเหมือนกันของลำดับ 46.8% กับโดเมนเดียวกันในโปรตีน Rab-3A ที่เกี่ยวข้องกับ Ras จาก รัตตัส นอร์เวจิคัส. โครงสร้างผลึกของ Rab-3A ที่โต้ตอบกับ Rabphilin-3A ได้รับการแก้ไขโดย Ostermeier และ Brunger [42] (PDB:1ZBD รูปที่ 4) เราพบว่าการกลายพันธุ์ของ Trp73Gly ใน Rab-27A ส่งผลกระทบต่อสารตกค้างที่มีการอนุรักษ์อย่างสูง (คะแนน 5.62 สำหรับทริปโตเฟนและ -1.84 สำหรับไกลซีน) และในใจกลางของส่วนต่อประสานการโต้ตอบ มีหลักฐานชัดเจนว่า Rab-27A มีปฏิสัมพันธ์กับ Myophillin [43] ด้วยเหตุผลเหล่านี้ การกลายพันธุ์ของ Trp73Gly จึงมีแนวโน้มที่จะส่งผลต่อการขนส่งถุงน้ำโดยการลดความสัมพันธ์ของ Rab-27A กับ Myophilin

โครงสร้างของ รัตตัส นอร์เวจิคัส โปรตีนที่เกี่ยวข้องกับ Rab-3A [PDB:1ZBD] โปรตีน G Rab3A ขนาดเล็กที่มี GTP ที่ถูกผูกไว้ซึ่งโต้ตอบกับโดเมนเอฟเฟกเตอร์ของแรบฟิลิน-3A สารตกค้างที่สอดคล้องกับ Trp73 ที่กลายพันธุ์จาก RAB27A ของมนุษย์จะถูกเน้นด้วยสีแดง ในขณะที่สารตกค้างทั้งสองที่สัมผัสกับมันเป็นสีเขียว

การขาดฮอร์โมน Adrenocorticotropin [OMIM:#201400]

การขาดฮอร์โมน Adrenocorticotropin มีลักษณะเฉพาะโดยการลดลงของฮอร์โมนต่อมใต้สมอง adrenocorticotropin และสเตียรอยด์อื่น ๆ อาการต่างๆ ได้แก่ น้ำหนักลด อาการเบื่ออาหาร และความดันโลหิตต่ำ ลาโมเล็ต และคณะ [44] ระบุการกลายพันธุ์ของ Ser128Phe ในปัจจัยการถอดรหัส T-box TBX19 ที่นำไปสู่ฟีโนไทป์ LOF ที่โดดเด่น [UniProt:O60806, VAR_018387] โครงสร้างผลึกของโดเมน T-Box ที่คล้ายคลึงกันจาก Xenopus laevis ปัจจัยการถอดรหัส Brachyury [45] (ความเหมือนกันของลำดับ 81% กับโปรตีน TBX19 ของมนุษย์ [PDB:1XBR]) แสดงให้เห็นว่าเรซิดิวเฉพาะนี้อยู่ที่แกนกลางของส่วนต่อประสานไดเมอไรเซชัน (รูปที่ 5) การกลายพันธุ์แทนที่ขั้วเล็ก ๆ ด้วยโซ่ข้างอะโรมาติกขนาดใหญ่ ดังนั้น สารตกค้างจึงมีการอนุรักษ์ที่ดี ในขณะที่ฟีนิลอะลานีนหายากมากที่ตำแหน่งนี้ (คะแนน 3.31 และ -1.78 สำหรับซีรีนและฟีนิลอะลานีน ตามลำดับ) ปูลิชิโน และคณะ [46] รายงานว่าการกลายพันธุ์ของ Ser128Phe แทบไม่มีความสัมพันธ์ที่มีผลผูกพันกับ DNA เราคาดการณ์ว่าการสูญเสียความสัมพันธ์นี้เกิดจากการที่พลังงานอิสระที่ยึดเหนี่ยวลดลงระหว่างโมโนเมอร์และ DNA เมื่อเปรียบเทียบกับไดเมอร์

โครงสร้างของ X. laevis โปรตีนเบรชูรี [PDB:1XBR] โครงสร้างผลึกของโดเมน T จาก X. laevis ผูกพันกับดีเอ็นเอ สารตกค้างที่เน้นสีแดงคือ Ser128 ที่กลายพันธุ์ โดยมีสารตกค้างสีเขียวแสดงถึงสารตกค้างที่สัมผัสในโปรตีนคู่ เส้นประสีน้ำเงินแสดงหน้าสัมผัสสารตกค้าง

กลุ่มอาการ Baller-Gerold [OMIM:#218600]

Baller-Gerold syndrome เป็นโรคที่มีมาแต่กำเนิดที่หาได้ยาก โดยมีลักษณะผิดปกติของกะโหลกศีรษะและใบหน้า รวมทั้งกระดูกของปลายแขนและมือ โรคนี้ซ้ำซ้อนกับความผิดปกติอื่นๆ เช่น โรค Rothmund-Thomson หรือกลุ่มอาการ Saethre-Chotzen เซโตะ และคณะ [47] รายงานกรณีของโรค Baller-Gerold ซึ่งรวมถึงคุณลักษณะของ Saethre-Chotzen syndrome พวกเขาระบุการแทนที่ไอโซลิวซีนเป็นวาลีนที่ตำแหน่ง 156 ของโปรตีน H-Twist เป็นการกลายพันธุ์เชิงสาเหตุ การศึกษาทดลองโดยใช้การทดสอบยีสต์-ทู-ไฮบริดได้รายงานการสูญเสียความสามารถในการทำให้เป็นไดเมอร์ของ H-Twist/E12 อันเป็นสาเหตุที่เป็นไปได้ของโรค Saethre-Chotzen [48]

โดเมน helix-loop-helix พื้นฐานของ H-Twist มีความเหมือนกันของลำดับ 45% กับปัจจัยการถอดรหัส c-Myc ที่ตกผลึกโดย Nair และคณะ [49] (รูปที่ 6) โครงสร้างแสดงไดเมอร์ของ c-Myc และ Max ที่จับกับ DNA c-Myc/Max dimerization จำเป็นสำหรับการควบคุมการถอดรหัส การกลายพันธุ์ของ Ile156Val อยู่ที่แกนหลักของอินเทอร์เฟซการโต้ตอบ แม้ว่าการกลายพันธุ์ของ Ile156Val จะถือเป็นการแทนที่ที่คล้ายกันทางชีวเคมี ซึ่งสะท้อนโดยความถี่ที่ค่อนข้างสูงของ valine ที่ตำแหน่งนี้ในโปรตีน helix-loop-helix อื่น ๆ (คะแนนการอนุรักษ์ 2.76 สำหรับไอโซลิวซีนและ 1.23 สำหรับวาลีน) การเปลี่ยนแปลงของปริมาตรอาจเปลี่ยนปฏิสัมพันธ์เล็กน้อย นิสัยชอบ. ในทำนองเดียวกัน การกลายพันธุ์ของ Ile156Val ทำให้เกิดโรค Baller-Gerold ในรูปแบบที่ไม่รุนแรง

โครงสร้างของ Myc/Max transcription factor complex binding DNA [PDB:1NKP] ทั้ง Myc-c และ Max เป็นบรรทัดฐาน helix-loop-helix พวกมันหรี่ลงเป็นส่วนใหญ่ผ่านบริเวณเกลียว II ที่ขยายออก สารตกค้างที่สอดคล้องกับ Ile156 ใน H-Twist คือ Ile550 แสดงเป็นสีแดง สารตกค้างอยู่ที่ตำแหน่งสำคัญของอินเทอร์เฟซ สร้างพันธะกับสารตกค้างเจ็ดใน Max แสดงเป็นสีเขียว


PTMD: ฐานข้อมูลการปรับเปลี่ยนหลังการแปลที่เกี่ยวข้องกับโรคของมนุษย์

การปรับเปลี่ยนภายหลังการแปลที่หลากหลาย (PTM) มีส่วนร่วมในเกือบทุกด้านของกระบวนการทางชีววิทยาโดยการควบคุมการทำงานของโปรตีน และสภาวะผิดปกติของ PTM มักเกี่ยวข้องกับโรคในมนุษย์ ดังนั้นแหล่งข้อมูลที่สำคัญของสมาคมโรค PTM (PDA) จะช่วยได้มากสำหรับทั้งการวิจัยเชิงวิชาการและการใช้งานทางคลินิก ในงานนี้ เรารายงาน PTMD ซึ่งเป็นฐานข้อมูลที่ได้รับการดูแลเป็นอย่างดีซึ่งมี PTM ที่เกี่ยวข้องกับโรคของมนุษย์ เรารวบรวมพีดีเอที่รู้จักในปี 1950 ด้วยตนเองในโปรตีน 749 ชนิดสำหรับ PTM 23 ชนิดและโรค 275 ชนิดจากวรรณกรรม การวิเคราะห์ฐานข้อมูลแสดงให้เห็นว่าฟอสโฟรีเลชั่นมีความสัมพันธ์ของโรคมากที่สุด ในขณะที่โรคทางระบบประสาทมีจำนวนสมาคม PTM มากที่สุด เราจำแนก PDA ที่รู้จักทั้งหมดออกเป็น 6 ประเภทตามสถานะ PTM ในโรค และแสดงให้เห็นว่าการควบคุมและการมีอยู่ของเหตุการณ์ PTM มีส่วนสำคัญในเหตุการณ์ PTM ที่เกี่ยวข้องกับโรค โดยการสร้างเครือข่ายยีนโรคขึ้นใหม่ เราสังเกตว่ามะเร็งเต้านมมีจำนวน PTM ที่เกี่ยวข้องมากที่สุด และ AKT1 มี PTM ที่เกี่ยวข้องกับโรคมากที่สุด สุดท้าย ฐานข้อมูล PTMD ได้รับการพัฒนาพร้อมคำอธิบายประกอบโดยละเอียด และสามารถเป็นแหล่งข้อมูลที่มีประโยชน์สำหรับการวิเคราะห์ความสัมพันธ์ระหว่าง PTM กับโรคของมนุษย์เพิ่มเติม PTMD สามารถเข้าถึงได้ฟรีที่ http://ptmd.biocuckoo.org

คำสำคัญ: AKT1 โรค–เครือข่ายยีน PTM–การเชื่อมโยงโรค Phosphorylation Posttranslational modified


ดาวน์โหลด: Ligands

โดยการป้อนรหัสส่วนประกอบทางเคมี ไฟล์ SDF ที่มีพิกัดลิแกนด์สามารถดาวน์โหลดได้

  • พิกัดของส่วนประกอบทางเคมีตัวแรกจากรายการ PDB แต่ละรายการ
  • พิกัดของอินสแตนซ์ส่วนประกอบทางเคมีทั้งหมดจากรายการ PDB แต่ละรายการ
  • พิกัดในอุดมคติจากพจนานุกรมส่วนประกอบทางเคมี

บริการดาวน์โหลดไฟล์

การค้นหาและรายงานที่ดำเนินการบนเว็บไซต์ RCSB PDB นี้ใช้ข้อมูลจากไฟล์เก็บถาวร PDB ไฟล์เก็บถาวร PDB ได้รับการดูแลโดย wwPDB ที่ไฟล์เก็บถาวรหลัก ftp.wwpdb.org (รายละเอียดการดาวน์โหลดข้อมูล) และไฟล์เก็บถาวรที่มีเวอร์ชัน ftp-versioned.wwpdb.org (รายละเอียดเวอร์ชัน)

  • ไดเร็กทอรี pub/pdb  เป็นไดเร็กทอรีรายการสำหรับไฟล์เก็บถาวร PDB
  • ไดเรกทอรี pub/pdb/data/structures/divided มีเนื้อหา PDB ปัจจุบันรวมถึงไฟล์พิกัดรูปแบบ PDB, mmCIF และ PDBML/XML ปัจจัยโครงสร้างและข้อจำกัด NMR

สแนปชอตประจำปีของ PDB Archive พร้อมใช้งานแล้ว 

บริการเว็บ

การเข้าถึงแบบเป็นโปรแกรมสำหรับโครงสร้างแต่ละรายการและ/หรือรายการข้อมูลเฉพาะมีให้ผ่าน Web Service Application Program Interfaces (APIs)

ติดต่อ RCSB PDB  พร้อมคำแนะนำคำถามสำหรับบริการเฉพาะ

การสำรวจระดับโมเลกุลผ่านชีววิทยาและการแพทย์

PDB-101 เป็นพอร์ทัลออนไลน์สำหรับครู นักเรียน และบุคคลทั่วไปเพื่อส่งเสริมการสำรวจในโลกของโปรตีนและกรดนิวคลีอิก

เรียกดูแหล่งข้อมูล PDB-101 ทั้งหมดตามหัวข้อทางชีววิทยาหรือเริ่มสำรวจ:

โมเลกุลของเดือน

นำเสนอบัญชีสั้นเกี่ยวกับโมเลกุลที่เลือกจากธนาคารข้อมูลโปรตีน

ข่าวสารและกิจกรรม

การประชุมและกิจกรรมที่จะเกิดขึ้น RCSB จะจัดขึ้น

ทรัพยากรทางการศึกษา

เข้าถึงวัสดุที่ส่งเสริมการสำรวจในโลกของโปรตีนและกรดนิวคลีอิก

คำแนะนำเกี่ยวกับข้อมูล PDB

การทำความเข้าใจข้อมูล PDB เป็นข้อมูลอ้างอิงเพื่อช่วยสำรวจและตีความรายการ PDB แต่ละรายการ

หลักสูตร

สื่อการสอนแบบลงมือปฏิบัติจริง กิจกรรมแบบตัวต่อตัวและแบบกลุ่ม

Geis Digital Archive

ดูภาพประกอบอันเป็นสัญลักษณ์โดยศิลปินผู้มีพรสวรรค์ Irving Geis (1908-1997) ในบริบทที่มีโครงสร้าง PDB และข้อมูลการศึกษา


HomoKinase: ฐานข้อมูล Curated ของโปรตีน Kinases ของมนุษย์

ฐานข้อมูล HomoKinase เป็นคอลเลกชั่นที่ครอบคลุมของไคเนสโปรตีนของมนุษย์ที่ได้รับการดูแล และข้อมูลทางชีววิทยาที่เกี่ยวข้อง รายการในฐานข้อมูลได้รับการจัดระเบียบตามเกณฑ์สามประการ: การอนุมัติ HGNC, กระบวนการทางชีววิทยาที่อิงยีน ontology (โปรตีนฟอสโฟรีเลชัน) และการทำงานของโมเลกุล (การจับ ATP และการทำงานของไคเนส) สำหรับชื่อโปรตีนไคเนสของแบบสอบถามที่กำหนด ฐานข้อมูลได้จัดเตรียมสัญลักษณ์อย่างเป็นทางการ ชื่อเต็ม นามแฝงอื่น ๆ ที่รู้จัก ลำดับกรดอะมิโน โดเมนที่ใช้งานได้ ภววิทยาของยีน การกำหนดเส้นทาง และสารประกอบของยา นอกจากนี้ ในฐานะเครื่องมือค้นหา ยังช่วยให้สามารถดึงโปรตีนไคเนสที่คล้ายคลึงกันด้วยชุดค่าผสมของตระกูล อนุวงศ์ กลุ่ม และโดเมนที่เฉพาะเจาะจง และจัดตารางข้อมูล เวอร์ชันปัจจุบันประกอบด้วยไคเนสโปรตีนของมนุษย์ที่ดูแลแล้ว 498 ตัวและลิงก์ไปยังฐานข้อมูลยอดนิยมอื่นๆ

1. บทนำ

ในจีโนมของมนุษย์ โปรตีนไคเนสเป็นหนึ่งในตระกูลโปรตีนที่ใหญ่ที่สุดที่ได้รับการยอมรับ ซึ่งควบคุมกระบวนการทางชีววิทยาหลายอย่างโดยหลังการแปลผลฟอสโฟรีเลชั่นของซีรีน ทรีโอนีน และไทโรซีนเรซิดิว [1] จีโนมมนุษย์ประกอบด้วยโปรตีนไคเนส 500 ยีนซึ่งประกอบขึ้นเป็นประมาณ 2% ของยีนทั้งหมด [2] โปรตีนไคเนสประมาณ 2,000 ตัวถูกเข้ารหัสโดยจีโนมของมนุษย์ โปรตีนไคเนสและฟอสฟาเตสมีบทบาทสำคัญในการควบคุมและประสานงานด้านเมตาบอลิซึม การเติบโตของเซลล์ การเคลื่อนที่ของเซลล์ การแยกเซลล์และการแบ่งตัวของเซลล์ และเส้นทางการส่งสัญญาณที่เกี่ยวข้องกับการพัฒนาและโรคตามปกติ [3] ในจีโนมมนุษย์ โปรตีน 30% ถึง 50% อาจได้รับฟอสโฟรีเลชัน ดังนั้น การทำงานของไคเนสที่ไม่เหมาะสมอาจนำไปสู่โรคต่างๆ ของมนุษย์ได้ [4] การเปิดและปิดโปรตีนไคเนสและฟอสฟาเตสช่วยรักษาหน้าที่ของชีวิตเซลล์อย่างเป็นระบบ นอกจากนี้ โปรตีนไคเนสยังเกี่ยวข้องกับการควบคุมกระบวนการต่างๆ ดังนั้นจึงเชื่อมโยงกับโรคต่างๆ และทำหน้าที่เป็นเป้าหมายสำหรับการออกแบบยา โปรตีนไคเนสเป็นกลุ่มของเอนไซม์ที่ใช้โดเมนตัวเร่งปฏิกิริยาที่อนุรักษ์ไว้ซึ่งเกี่ยวข้องกับการกระตุ้นการเร่งปฏิกิริยาของเอนไซม์และทำหน้าที่เป็นแหล่งจับกับ ATP ส่งผลให้ความต้องการและความพร้อมใช้งานของฐานข้อมูลเฉพาะสำหรับโปรตีนไคเนส

มีฐานข้อมูลมากมายสำหรับโปรตีนไคเนส ซึ่งรวมถึงข้อมูลไคเนสโปรตีนของมนุษย์ด้วย [2, 5, 6] ตัวอย่างเช่น KinBase [2] มี kinomes ที่ดูแลด้วยตนเองตามการจัดประเภท Hanks และ Hunter สำหรับจีโนมเก้าตัวรวมทั้งมนุษย์ KinG [5] contains protein kinases entries for 40 genomes that have been classified by kinome-based sequence search methods. KinWeb [6] is a specific collection of protein kinases encoded in the human genome, and the classification is based on the same orthologous groups present in human and other similar lineages. However, none of the above databases offers high accuracy in classification of human protein kinases due to their underlying classification algorithm. Further, they do not have the options for the retrieval of protein kinases with specific family, subfamily, group, and domain combinations with easy-to-use interface. In this present work, we developed curated human protein kinases database known as “HomoKinase.” First, each entry in the database was checked with HGNC to confirm whether it is approved or not. The HGNC approved entry was further confirmed by gene ontology (GO) information based on the presence of three GO terms: (i) ATP binding, (ii) kinase activity, and (iii) protein phosphorylation. The easy-to-use web interface of HomoKinase is shown in Figure 1.


2. วัสดุและวิธีการ

The HomoKinase database creation involves several steps. First, human genes with their known aliases were downloaded from Entrez Gene (http://www.ncbi.nlm.nih.gov/gene) using the query term “(โฮโมเซเปียนส์ [Organism]) AND HGNC.” Next, the retrieved gene list was crosschecked with the HUGO Gene Nomenclature Committee (HGNC) (http://www.genenames.org/) database to include only the genes with HGNC approved gene name for building the database [7]. The other genes in the list such as pseudogenes, noncoding RNAs, and phenotype which have no HGNC approved name were eliminated.

Finally, gene ontology based refinement was performed to classify the protein kinase genes from the HGNC approved list of human protein-coding genes. In general, GO is mainly focused on three significant ontology terms such as molecular function, cellular component, and biological process. A single gene product may be annotated to multiple GO terms, detailing a range of functional attributes, using both manual and electronic annotation methods [8, 9]. The conserved protein kinase core consists of two lobes: a smaller N-terminal lobe (N-lobe) with ATP binding site and a larger C-terminal lobe (C-lobe) with catalytic site responsible for kinase activity [3, 10]. In addition, the biological processes correspond to protein phosphorylation. These three unique terms of gene ontology (GO) provide precise information about the annotated gene, gene products, and other terms which in turn provide a deep insight about kinases to the researchers. So, we classify the HGNC approved human genes which confirms these three GO terms: (i) ATP binding, (ii) kinase activity, and (iii) protein phosphorylation as true protein kinases. Gene ontology search was performed using two web tools, namely, Quick Go [11] and Amigo Go [12] with automated PHP scripts. The HGNC approved human genes, which satisfy all these three GO criteria, were classified as human protein kinases and used to build the database.

The predicted list of protein kinases were further divided into groups, families, subfamilies, and domains. The group classifications were done using the PhosphoSite database [13], whereas the superfamily, family, subfamily, and domain level classifications were retrieved from UniProt [14]. In addition, various biological information such as official symbol, full name, biological IDs, other known aliases, amino acid sequences, functional domain, gene ontology, pathway assignments, and drug compounds were extracted from various biological databases such as (i) NCBI, (ii) UniProt, (iii) Amigo Go, (iv) KEGG, and (v) DrugBank. Figure 2 depicts a schematic summary of the HomoKinase data warehouse creation process.


The curated human protein kinase names and their related information retrieved from other databases were used to develop the HomoKinase database. The HomoKinase database is implemented as client/server architecture with easy-to-use web interface. The server is made of MySQL database, and the web client and programs for the human protein kinase retrieval, annotation, and query interface were designed using PHP programming language.

3. ผลลัพธ์

Entrez Gene stores information on 1,93,709 genes specific to โฮโมเซเปียนส์ (as on October 2012). We retrieved 33,489 human genes/proteins specific to our query term “(โฮโมเซเปียนส์ [Organism] AND HGNC).” On further comparison with HGNC database, only the 19,026 genes have official HGNC gene symbol, and the remaining were 8399 pseudogenes, 4230 noncoding RNAs, 707 phenotype, and 1127 other genes.

The 19,032 HGNC approved human genes were further classified into protein kinases by checking the presence of three GO annotation terms (i) ATP binding property, (ii) kinase activity, and (iii) protein phosphorylation property. The HGNC approved genes fulfilling the above three GO properties (e.g., CDK1, MARK1) were classified as protein kinases and included in the database. Protein kinases missing any one of the above GO properties were filtered and eliminated as nonprotein kinase. The examples of proteins with missing kinase information were (i) absence of ATP binding (e.g., PRKAG2, ADCK4), (ii) absence of kinase activity (e.g., ACTR2, EPHA8), and (iii) absence of protein phosphorylation (e.g., RIOK1, TRIB2). In addition, few genes with lipid kinase activity (e.g., PIK3C2B) and nonprotein kinase (e.g., CKM) were also filtered out. The GO curation and filtration resulted in 498 human genes marked as validated human protein kinases which were included in the final HomoKinase database.

The HomoKinase database was compared with KinBase [2] and KinWeb [6], the two currently available databases which include human protein kinases. KinBase consists of 506 entries, whereas KinWeb contains 508 entries. HomoKinase excludes the genes which were not approved by HGNC (e.g., NIM1, MST4 in KinBase ZAK, SgK223 in KinWeb) and genes without proper GO kinase annotation (e.g., ADCK4, TRRAP in KinBase BRDT, SRM in KinWeb). As a result the number of entries in HomoKinase is reduced into 498. In addition, some of the other common mistakes identified in both databases include (i) gene ID replaced with another gene ID (e.g., SPEG in KinBase TAO2, Trad in KinWeb), (ii) genes without information on Entrez Gene ID (e.g., sgk424 in KinBase and KinWeb), and (iii) pseudogenes (e.g., PRKY in KinBase and KinWeb). In total, we identified 31 genes with incomplete information (such as error in gene ID and gene name) in KinBase and 8 genes in KinWeb. Table 1 shows the overall comparison of the three databases.

4. การอภิปราย

We have developed a curated database of human protein kinases. The salient feature of HomoKinase database is that it provides individual protein name search as well as group search (e.g., family, subfamily, domain, etc.). Individual search can be carried out by giving official symbol (provided by HGNC), Entrez Gene ID, HGNC ID, Ensembl ID, and UniProt ID) and other aliases/designations. The group search can be carried out by classification of protein kinases into different kinase groups, families, subfamilies, and domains. The different group classification of protein kinases in HomoKinase is discussed below.

The 498 human protein kinases entries in the database were classified into 10 groups, 1 superfamily, 22 families, 66 subfamilies, and 115 domains. All 498 protein kinases fall in any one of the 10 groups. However, only 482 proteins were classified into 22 families, and 14 proteins do not belong to any family. Further, 358 proteins belong to 66 subfamilies, whereas for 140 proteins, the subfamily information is missing. In addition, each protein has one-to-many domains, and in total, 115 domains were found among 496 kinases. The database group search can be performed using any one of the above classes. The group search lists out all protein kinases that belong to that search category in a tabular form from which individual protein search can be carried out. The HomoKinase database classification and organization is shown in Figure 3.


5. สรุป

In summary, HomoKinase is an easy-to-use interface to a curated database of human protein kinases. We plan for the future expansion of the database which includes high number of eukaryotic species for relative comparison. In addition, there are plans for expansion with inclusion of protein secondary and tertiary structure and pathway information on kinases. Protein structure information is vital in understanding protein function and evolutionary relationships, and pathway information will help to understand the various metabolic and signaling pathways in which the kinases were involved.

ความพร้อมใช้งาน

The database is hosted and available online at http://www.biomining-bu.in/homokinase/.

รับทราบ

This work is supported by Grant from the Department of Information Technology (DIT), Government of India (no. DIT/R&D/BIO/15(22)/2008). Suresh Subramani and Raja Kalpana acknowledge the support received from the grant.

อ้างอิง

  1. G. Manning, G. D. Plowman, T. Hunter, and S. Sudarsanam, “Evolution of protein kinase signaling from yeast to man,” แนวโน้มในวิทยาศาสตร์ชีวเคมีฉบับที่ 27 ไม่ 10, pp. 514–520, 2002. View at: Publisher Site | Google Scholar
  2. G. Manning, D. B. Whyte, R. Martinez, T. Hunter, and S. Sudarsanam, “The protein kinase complement of the human genome,” ศาสตร์ฉบับที่ 298, no. 5600, pp. 1912–1934, 2002. View at: Publisher Site | Google Scholar
  3. L. N. Johnson, M. E. M. Noble, and D. J. Owen, “Active and inactive protein kinases: structural basis for regulation,” เซลล์ฉบับที่ 85 ไม่ใช่ 2, pp. 149–158, 1996. View at: Publisher Site | Google Scholar
  4. C. Y. Yang, C. H. Chang, Y. L. Yu et al., “PhosphoPOINT: a comprehensive human kinase interactome and phospho-protein database,” ชีวสารสนเทศศาสตร์ฉบับที่ 24 ไม่ 16, pp. i14–i20, 2008. View at: Google Scholar
  5. A. Krupa, K. R. Abhinandan, and N. Srinivasan, “KinG: a database of protein kinases in genomes,” การวิจัยกรดนิวคลีอิกฉบับที่ 32, pp. D513–D515, 2004. View at: Google Scholar
  6. L. Milanesi, M. Petrillo, L. Sepe et al., “Systematic analysis of human kinase genes: a large number of genes and alternative splicing events result in functional and structural diversity,” BMC ชีวสารสนเทศฉบับที่ 6 ไม่ 4, article S20, 2005. View at: Publisher Site | Google Scholar
  7. R. L. Seal, S. M. Gordon, M. J. Lush, M. W. Wright, and E. A. Bruford, “Genenames.org: the HGNC resources in 2011,” การวิจัยกรดนิวคลีอิกฉบับที่ 39 ไม่มี 1, pp. D514–D519, 2011. View at: Publisher Site | Google Scholar
  8. D. Binns, E. Dimmer, R. Huntley, D. Barrell, C. O'Donovan, and R. Apweiler, “QuickGO: a web-based tool for Gene Ontology searching,” ชีวสารสนเทศศาสตร์ฉบับที่ 25 ไม่ 22, pp. 3045–3046, 2009. View at: Publisher Site | Google Scholar
  9. M. Ashburner, C. A. Ball, J. A. Blake et al., “Gene ontology: tool for the unification of biology. The Gene Ontology Consortium,” พันธุศาสตร์ธรรมชาติฉบับที่ 25 ไม่ 1, pp. 25–29, 2000. View at: Google Scholar
  10. S. S. Taylor, E. Radzio-Andzelm, Madhusudan, X. Cheng, L. Ten Eyck, and N. Narayana, “Catalytic subunit of cyclic AMP-dependent protein kinasestructure and dynamics of the active site cleft,” Pharmacology and Therapeuticsฉบับที่ 82 หมายเลข 2-3, pp. 133–141, 1999. View at: Publisher Site | Google Scholar
  11. QuickGO, 2013, http://www.ebi.ac.uk/QuickGO.
  12. AmiGO, 2013, http://amigo.geneontology.org.
  13. PhophoSitePlus, 2013, http://www.phosphosite.org .
  14. UniProt, 2013, http://www.uniprot.org.

ลิขสิทธิ์

Copyright © 2013 Suresh Subramani et al. นี่เป็นบทความการเข้าถึงแบบเปิดที่เผยแพร่ภายใต้ใบอนุญาต Creative Commons Attribution ซึ่งอนุญาตให้ใช้ แจกจ่าย และทำซ้ำได้ไม่จำกัดในสื่อใดๆ โดยต้องอ้างอิงงานต้นฉบับอย่างเหมาะสม


เชิงนามธรรม

Epigenetics refers to stable and long-term alterations of cellular traits that are not caused by changes in the DNA sequence ต่อตัว . Rather, covalent modifications of DNA and histones affect gene expression and genome stability ทาง proteins that recognize and act upon such modifications. Many enzymes that catalyse epigenetic modifications or are critical for enzymatic complexes have been discovered, and this is encouraging investigators to study the role of these proteins in diverse normal and pathological processes. Rapidly growing knowledge in the area has resulted in the need for a resource that compiles, organizes and presents curated information to the researchers in an easily accessible and user-friendly form. Here we present EpiFactors, a manually curated database providing information about epigenetic regulators, their complexes, targets and products. EpiFactors contains information on 815 proteins, including 95 histones and protamines. For 789 of these genes, we include expressions values across several samples, in particular a collection of 458 human primary cell samples (for approximately 200 cell types, in many cases from three individual donors), covering most mammalian cell steady states, 255 different cancer cell lines (representing approximately 150 cancer subtypes) and 134 human postmortem tissues. Expression values were obtained by the FANTOM5 consortium using Cap Analysis of Gene Expression technique. EpiFactors also contains information on 69 protein complexes that are involved in epigenetic regulation. The resource is practical for a wide range of users, including biologists, pharmacologists and clinicians.


สารบัญ

[For a complete background, please refer to Autophagy].

Autophagy is the process by which the cells in an organism destroy non-functional or unnecessary self-components. [3] Specifically, autophagy is a catabolic process involving the degradation of a cell's own components through the lysosomal machinery. [1] Autophagy is also crucial for instances of starvation and removal of potentially dangerous cellular materials, indicating its necessity in maintaining life. [1] As seen in the associated figure ออโตฟาจี, cellular products are degraded by destructive cellular components, such as lysosomes, to produce new materials for the cell to use. Research into autophagy and its related processes has exploded over recent years, however, many of these processes are not completely understood and homologs have not been found in different species for many of these proteins. [1] Its molecular mechanisms have not been fully elucidated, despite dramatic advances in the field as evidenced by hundreds of autophagy-related genes and proteins reported. [1] As such, there was a demonstrated need for a database to characterize human autophagy proteins and components and/or their homologs, as well as orthologs in other species.

Autophagy database is a product of the National Institute of Genetics (NIG) [4] NIG was founded in June 1949 by the ministry of Education, Science, Sports, and Culture, with Prof. Kan Oguma being elected the first director. [4] Over time, many departments have been added for various applications such as Genetics, Genomics, DNA Research, and, most notably for our purposes, the DNA Data Bank. [4] NIG is a division of the Japanese Research Organization of Information and Systems, and is currently under the supervision of its ninth director. [4] NIG aims to conduct top-level research in the pursuit of streamlining of information, as well as the dissemination of information from research into societal application. [4] A tool created by this organization for this purpose is the Autophagy database.

NS Autophagy database is a database of proteins involved in autophagy. NS Autophagy database intends to collect all relevant information, organize it, and make it publicly available so that its users can easily get up-to-date knowledge. โดยเฉพาะ Autophagy database offers a "free-for-all" tool for those with interests, research and otherwise, in autophagy. [3] To better accomplish this aim, the available Autophagy database from NIG calls for users of the database to disseminate and share information, so that autophagy-related data can be available for free to all who need it. [1] For an interested research community, this model of research dissemination holds promise. As of April 2018 3 years ago ( 2018-04 ) , there were 582 reviewed proteins available in this database. [3] Including autophagic proteins available in HomoloGene, NCBI, there are over 52,000 total proteins. [3] Autophagy database offers comparison of homologous proteins between 41 different species to search new and old autophagy-related proteins, so that current autophagy research can be streamlined. [1] The database was made publicly available in March 2010 and currently includes 7,444 genes/proteins in 82 eukaryotes.

Human autophagy database is a product of the Luxembourg Institute of Health (LIH). [5] LIH has several branches throughout Luxembourg available for Biomonitoring, Infection and Immunity, Health administration, Oncology, Sports Medicine, and Biobank. Each of these departments aims to support the LIH mission statement, which is "to generate and translate research knowledge into clinical applications with an impact on the future challenges of health care and personalised medicine." [5] It offered tools. [5] The Laboratory of Experimental Cancer Research of LIH helped to establish one of these tools, that tool being the database known as Human autophagy database.

Human autophagy database (HADb) is another available autophagy resource. [2] Unlike Autophagy database, Human autophagy database only compares those proteins found in humans. HADb is the first human-only autophagy database, where researchers may find an updated listing of directly and indirectly related autophagic proteins, given no consistent database previously available to compensate for a huge expansion in autophagy research. [2] HADb does not only provide information on the gene of interest, but also aims to evolve into a database which can be used to analyze the gene of interest. [2] For this purpose, HADb was made as complete as possible in terms of autophagy-related proteins, though newly discovered proteins and genes may be submitted by different users to the Submission ส่วน. The information provided by Human autophagy database can be used further in bioinformatics applications.

Given that these databases are a large store of biological information, these can be used in bioinformatics applications to simplify information collection and analysis. Bioinformatics looks to pair biological discoveries with big data, to aid in improved scientific discoveries. Each database can be utilized to study an autophagic protein or gene of interest, where these databases are maintained by user submissions. Information for each gene can be used to access Entrez, Ensembl, and PubMed. FASTA sequence is also available for sequence analysis using sites such as BLAST. Specific uses available to Autophagy database และ Human autophagy database are shown below.

Autophagy database has several available functions to search for autophagy-related proteins in different species.

A user may access Autophagy database at http://www.tanpaku.org/autophagy/index.html. The image given, "Options for ADb", showcases the variety of options available for this database. All unhighlighted tabs offer additional information and contact information unrelated to gene search. A user may refer to:

  • NS Protein list, highlighted yellow, where the user may select an organism and search for คำพ้องความหมาย, Gene ID, และ Protein accession, among other functions. These function offer the user multiple options on how to search for information on genes of interest. The options available on Autophagy database สำหรับ Protein list can be seen in the example given to the right Protein list given to the right. Selecting various options, such as คำพ้องความหมาย, allows the user to search using specific queries.
  • matches of autophagy-related proteins amongst homologs and orthologs under the Homologs tab, highlighted in green. This can be used according to the image to the right, Homologs, where orthologs and homologs can be compared between different organisms and taxa by selecting the required boxes.
  • search for specific genes. This may be accomplished using Keyword search, highlighted in blue, and may also be used to match a known gene of interest to a certain species. This helps to determine potential orthologs.
  • homologs and orthologs to a gene of interest. Homology search, highlighted in orange, can be used to search a FASTA or unformatted text sequence of a known gene. This may aid in finding connected autophagy-related proteins, or in finding homologs or orthologs. Homologs and orthologs can be compared by the user within or amongst species, given different species and taxa options as seen in the associated figure.
  • analyze connections between one gene and autophagy genes available in the database. Original Analyses, highlighted in grey, may be used to find potential autophagy-related gene matches to a known gene. To best utilize these functions, the user should refer to the "Download" tab to download all gene files, so that function of Autophagy database can be fully utilized.

Human autophagy database has available functions for Look for gene และ การจัดกลุ่ม. [2]

When accessing http://autophagy.lu/index.html, these options can be accessed. Interested parties may also Submit new human autophagy proteins to the database. A user may utilize the database according to the following options:

  • A user may search for a gene by name in Look for gene หมวดหมู่. A gene may be sought for using its gene symbol, Ensembl accession number, chromosome location, or a relevant keyword. Simple instructions for how to access a gene of interest using this method are given in the figure for "Look for gene: HADb". Briefly, the user would access the website, select the highlighted tab, and search for their gene of interest using the available tabs given in the associated image. Specifically, the user would select which option they would like to use in the associated table, and then fill in the information for the desired tab, whether it be Symbol or Synonym, โครโมโซม, Accession number, หรือ คำสำคัญ. Once the tab is selected, information can be entered and searched to determine any linked autophagy-related proteins.
  • The user may also refer to การจัดกลุ่ม where genes may be viewed in alphabetical order. A simplified map of how to conduct this search is shown in image "Clustering: HADb". The user would first refer to http://autophagy.lu/index.html, after which they would select the highlighted tab in the "Clustering" image to access their gene of interest. The user can then select their gene of interest alphabetically to gather further information. Though this database contains only human autophagy genes, the user need not download a database for use, and can find genes and proteins involved in the complex process of autophagy.

Each database offers its own strengths and weaknesses.

  • Autophagy database: Conceptually, Autophagy database offers the opportunity to easily access information on autophagy-related proteins in a variety of species. [3] However, there are some issues in using this database. The user may try the assortment of tab options available Options for ADb, though these options cannot be utilized without downloading content from Autophagy database. Though the user can access the ดาวน์โหลด tab (seen in "Options for ADb" in white), this offers only text output when using U.S.-based wifi service. As such, the user cannot access the variety of options mentioned above in a GUI format, but rather must search text output. The user may download the Autophagy database, but these files may be difficult to access using Apple OS. This complicates the ease of use for the U.S.-based user, reducing Autophagy database's utility. This is a potential complication of an internationally available database, that complicates its ease of use.
  • Human autophagy database: Though also an internationally available database, ease of use for Human autophagy database is considerably improved. All available options, though limited, can be accessed using a U.S.-based wifi service. Human autophagy database is limited in the array of options available for data collection and analysis, as there are fewer options available than those offered by Autophagy database. The database also stores only human autophagy-related genes and proteins, [2] whereas Autophagy database has information on autophagy-related genes and proteins available for a variety of different species.

Though each database has its own strengths and weaknesses, they each help to fill a gap. [3] Further additions may help to improve these databases in the future. Though there may be databases available that appear more complete for general gene or protein searches, such as NCBI, HADb and Autophagy database offer the most complete information on autophagy-related genes and proteins. The GUI is not fully refined for each, and may be harder to access, but each of these databases maintains focus on autophagy, whereas NCBI does not use the same focused approach on autophagy. As such, HADb and Autophagy database may offer an interesting route for exploration of autophagy-related genes and proteins.


Below is a list of articles on human chromosomes, each of which contains an incomplete list of genes located on that chromosome.

The lists below constitute a complete list of all known human protein-coding genes.

Human protein-coding gene pages:
•Python code for maintaining the list
•List of human protein-coding genes page 1 covers genes A1BG–ENTPD6
•List of human protein-coding genes page 2 covers genes ENTPD7–MTIF2
•List of human protein-coding genes page 3 covers genes MTIF3–SLC22A5
•List of human protein-coding genes page 4 covers genes SLC22A6–ZZZ3
NB: Each list page contains 5000 human protein-coding genes, sorted alphanumerically by the HGNC-approved gene symbol.
ติดตาม Python code link for information about updates to the list of genes on these pages.

This is a list of 1639 genes which encode proteins that are known or expected to function as human transcription factors.


ดูวิดีโอ: التحاليل الطبية. تحليل وظائف الكلى. وظائف الكلى في جسم الانسان. RFT RENAL FUNCTION TEST (สิงหาคม 2022).