การดูฐานข้อมูล F1 ของแผนกการโฆษณาของ Google จากกระดาษ VLDB

คลิกที่ "ด้านบน"บินทั้งหมดแชทได้",เลือกที่จะปฏิบัติตามหมายเลขสาธารณะ

ใช้เวลาประมาณ20นาทีในการอ่านข้อความ


เมื่อเร็วๆนี้บางส่วนของเอกสาร VLDB ได้รับการอ่านเพราะการทำงานของพวกเขา ซึ่งรวมถึงการวิเคราะห์ฐานข้อมูล F1 ที่เผยแพร่ใหม่ของ Google ไม่ใช่เรื่องง่ายที่จะอ่านเอกสารของ Google เพราะว่า Google ได้กล่าวไว้ครึ่งหนึ่งที่ซ่อนอยู่เสมอ กระดาษนี้ค่อนข้างเปิดในการเขียนหรือไม่สามารถหลีกเลี่ยงหยาบคาย


กระดาษนี้เป็นการติดตามผลของ Google ๒๐๑๓ VLDB f1: ฐานข้อมูล SQL แบบกระจายซึ่งมีรูปภาพที่ครอบคลุมว่าฐานข้อมูล F1 ของ Google มีการพัฒนาในช่วงหลายปีอย่างไร กระดาษนี้ได้รับการกล่าวถึงในรายละเอียดในเอกสารนี้


F1 และพื้นหลังของคู่แข่ง

ลองทบทวนประวัติของ F1 F1 เป็นระบบแบบสอบถามข้อมูลที่สนับสนุนหลายแหล่งข้อมูล ตอนแรกเกิดขึ้นในแขนโฆษณาของ Google วัตถุประสงค์หลักของวัตถุประสงค์เดิมคือการแทนที่คลัสเตอร์ mySQL ของระบบการโฆษณาในเวลานั้น. F1 ได้รับการวางตำแหน่งเป็นกลไกจัดการแบบสอบถามจากจุดเริ่มต้น, การใช้หลักการแยกการจัดเก็บการคำนวณที่เข้มงวด. ระบบจัดเก็บข้อมูลที่อยู่ด้านล่างเป็นประแจรุ่นถัดไปของ BigTable ซึ่งได้รับการพัฒนาในแบบคู่ขนาน


จากนั้น, ใน๒๐๑๔, VLDB Google ตีพิมพ์ Mesa, ระบบคลังข้อมูลส่วนกลางสำหรับศูนย์ข้อมูลหลาย. เมซากลายเป็นระบบที่สองในการเชื่อมต่อหลัก F1's F1 ได้พัฒนาไปยังวันปัจจุบันเป็นระบบที่สามารถสนับสนุนการสอบถามข้อมูลสหพันธรัฐสำหรับข้อมูลจากไฟล์ CSV ไปยัง BigTable ไปยังประแจ.


หลังจากหลายปีของการพัฒนา Google ยังได้สร้างระบบประมวลผลข้อมูลจำนวนหนึ่ง ระบบฐานข้อมูลเหล่านี้เองมีความสัมพันธ์ในการแข่งขันที่แข็งแกร่ง ในคำอื่นๆที่ฉันสามารถคว้าลูกค้าจากคุณและทีมงานของฉันจะมีขนาดใหญ่ F1, เป็นระบบการเจริญเติบโตภายใน Google, ยังเป็นผู้ชนะของความสัมพันธ์ที่แข่งขันนี้.


การเข้าใจประวัติศาสตร์และผู้ชมการให้บริการของฐานข้อมูลเหล่านี้เป็นสิ่งสำคัญสำหรับเราที่จะได้รับความเข้าใจที่ลึกซึ้งของการสนับสนุนทางธุรกิจและตัวเลือกทางเทคนิคของระบบ F1 ดังนั้นด้านล่างฉันและเข้าใจ F1 กระดาษนี้เกี่ยวข้องกับบางส่วนของระบบฐานข้อมูลอื่นๆของ Google เพื่อทำการแนะนำ.


F1 ถูกวางตำแหน่งเดิมเพื่อแทนที่ลูกสนคลัสเตอร์ mySQL กับส่วนโฆษณาของ Google. ประแจเป็นระบบพื้นฐานของ F1 เป็นระดับการจัดเก็บข้อมูลที่รองรับการประมวลผลการทำธุรกรรม (ดำเนินการโดยใช้ระยะการล็อค 2) และ F1 ที่มีอยู่เป็นเครื่องมือคำนวณ


แต่หลังจากที่ทีมประแจตัวเองพัฒนาชั้นจัดเก็บ, มันเริ่มที่จะทำให้การสอบถามข้อมูลและการพัฒนาระบบการสอบถามภายในที่เรียกว่าบริษัท วิธีการที่มีการพัฒนาของประแจลงในกระดาษระบบ SQL ที่สมบูรณ์แบบที่ตีพิมพ์ใน SIGMOD ๒๐๑๗. นี้นำไปสู่ความสัมพันธ์ที่แข่งขันระหว่าง F1 และประแจ. ในวันนี้การแข่งขันระหว่างสองทีมภายใน Google ยังคงรุนแรง


Dremel เป็นระบบคลังข้อมูลในองค์กรสำหรับ Google Google ได้ใช้ Dremel เชิงพาณิชย์ชื่อว่า Big Query Dremel ใช้แบบจำลองข้อมูลกึ่งโครงสร้างกับรูปแบบคอลัมน์ซึ่งเป็นรุ่นแรกที่เป็น ColumnIO


รูปแบบที่สองของการสร้าง Capactior ได้รับการแนะนำหลังจากการค้า. ทั้งสองรูปแบบเป็นแหล่งข้อมูลภายนอกที่รองรับโดย F1 ความสำเร็จที่ผิดปกติของ dremel ภายใน Google ในวันที่ BigQuery ยังคงเป็นผลิตภัณฑ์ข้อมูลขนาดใหญ่ที่ประสบความสำเร็จมากที่สุดบนระบบคลาวด์ของ Google


Flume เป็นการอัปเกรดเป็นกรอบ MapReduce ภายในของ Google แต่เดิมได้รับการพัฒนาเฉพาะบน Java, มันถูกเรียกว่า Flume Java, และต่อมาก็ยังมีอยู่ใน C. Flume เปลี่ยนรูปแบบการพัฒนาสำหรับแผนที่และลดลงที่เขียนในกรอบ MapReduce, แนะนำ APIs ระดับสูงมากขึ้น, ซึ่งได้รับการพัฒนาเช่น Spark.


ในสภาพแวดล้อมการดำเนินการที่อยู่ภายใต้ Flume ยังเปลี่ยนโหมดเข้มของ MapReduce เพื่อสนับสนุนรูปแบบเช่นแผนที่-ลด-ลด ประโยชน์ของมันคือว่ามันมีความยืดหยุ่นมากที่จะเขียนความหลากหลายของท่อประมวลผลข้อมูล, ข้อเสียเป็นสิ่งที่ง่ายยังมีการเขียนจำนวนมากของรหัส, ไม่ง่ายเป็น SQL.


การวางตำแหน่งธุรกิจ F1's

ระบบ F1 สนับสนุนสามวิธีที่แตกต่างกันของการสอบถามข้อมูล:

1. แบบสอบถามที่มีผลต่อระเบียน OLTP เพียงไม่กี่รายการ

2. การสอบถาม OLAP ที่ต่ำ-แฝงที่เกี่ยวข้องกับข้อมูลจำนวนมาก

3ที่มีขนาดใหญ่ ETL Pileline


กระดาษ F1's ไม่ได้ให้การวิเคราะห์วิธีการสอบถามข้อมูลที่แตกต่างกันสามเหล่านี้ ผมรวมกระดาษ F1 ๒๐๑๓และพื้นหลังอื่นๆเพื่อวิเคราะห์เหตุผลสำหรับสามวิธีการสอบถามข้อมูลที่แตกต่างกันของผู้สนับสนุน F1


ประเภท OLTP ของแบบสอบถามที่เกิดจากเป้าหมายเดิม F1'S: การแทนที่กลุ่ม MYSQL ในธุรกิจโฆษณา ตามที่๒๐๑๓ของกระดาษ F1, การสนับสนุน OLTP มีจำกัด แบบสอบถาม OLTP ในระบบ F1 คือการอ่านหลายการดำเนินการตามด้วยการเขียน0ถึง1 อำนาจการประมวลผลธุรกรรมของ OLTP ของระบบ F1 อาศัยการสนับสนุนของการใช้งานของประแจสำหรับการประมวลผลของสิ่งต่างๆ


ในกระดาษ๒๐๑๘ผู้เขียนไม่ได้ให้คำอธิบายโดยละเอียดของชนิด OLTP ของแบบสอบถาม อย่างไรก็ตามการวิเคราะห์ความรู้สึกทั่วไปจะไม่สามารถแยกโปรแกรมสอบถามแบบไม่ระบุสัญชาติที่ต้องการสนับสนุนการประมวลผลทรานแซคชันได้จากการสนับสนุนที่เก็บข้อมูลต้นแบบสำหรับสิ่งต่างๆ ดังนั้นเครื่องยนต์ F1 อย่างเห็นได้ชัดไม่สามารถทำการประมวลผลทรานแซคชันสำหรับแหล่งข้อมูลใดๆที่เชื่อมต่อกับ ระบุว่าใช้ตัวจัดการการสอบถามข้อมูล, มีการสนับสนุนสำหรับการประมวลผลสิ่งที่. ในเรื่องนี้ F1 และประแจมีความสัมพันธ์ที่ชัดเจนในการแข่งขัน


เวลาแฝงต่ำและการสอบถาม OLAP ที่เกี่ยวข้องกับข้อมูลจำนวนมากมีตำแหน่งเหมือน BigQuery การดำเนินงานของมันยังมีการใช้งาน BigQuery ส่วนใหญ่ผ่านทางท่อวิธีการสอบถามและส่งกลับผลลัพธ์ข้อมูล


ตามการวิเคราะห์ของบทความนี้, ซึ่งนำเสนอตัวเองและคู่แข่งอื่นๆภายใน Google, ธุรกิจถูกย้ายไป Bigquery หรือ F1 หลังจากที่ระบบ Google เรียกว่า Tenzing ปิดลงในช่วงต้นปี. เราสามารถเข้าใจได้ว่า BigQuery และ F1 เป็นคู่แข่งในแบบสอบถามชนิดนี้ ในทางปฏิบัติ BigQuery จะประสบความสำเร็จมากขึ้น


ในวันแรก, ภายใน Google, ขนาดใหญ่ ETL ไปป์ไลน์ได้รับความสำเร็จส่วนใหญ่โดยชุดของภารกิจ MapReduce. ด้วย Flume, ธุรกิจเหล่านี้ได้ย้ายไป Flume. แต่ Flume เป็นระบบที่ไม่ดีมากและมันใช้เวลามากของรหัสที่จะทำให้การสอบถามข้อมูลที่เรียบง่าย ในกระดาษนี้ผู้เขียนจะทำให้การอ้างอิงอย่างชัดเจนเพื่อ F1's ที่ประสบความสำเร็จในการทดแทน Flume ในบางธุรกิจ


รวมกับการวิเคราะห์ข้างต้นเราก็สามารถมาสรุปต่อไปได้ ธุรกิจ OLTP ใน F1 ภายในของ Google เป็นหลักเป้าหมายของ F1's ปีแรก F1 อาศัยการสนับสนุนของประแจสำหรับ OLTP จากนั้นก็มีการพัฒนาเครื่องยนต์ที่คล้ายกัน นี้ไม่สอดคล้องกับสิ่งที่ฉันเคยได้ยินเกี่ยวกับ F1, ซึ่งเป็นหลักที่ใช้โดยแผนกโฆษณา, และแผนกที่ไม่ใช่โฆษณา, ซึ่งใช้ประแจอย่างหนัก.


ในการสอบถาม OLAP ที่มีเวลาแฝงต่ำการแข่งขันหลักสำหรับ F1 คือ BigQuery ด้วยความสำเร็จของ BigQuery ในวันนี้ F1 ควรมีฐานธุรกิจในแผนกโฆษณาที่บ้านเท่านั้น


Flume เป็นระบบผสมขึ้นภายใน Google ดีกว่า MapReduce แต่ไม่ใช้งานง่าย F1 เป็นแรงในธุรกิจ ETL และสามารถจับภาพส่วนหนึ่งของตลาด. จากจุดสถาปัตยกรรมทางเทคนิคของมุมมอง, วิธีการที่จะบรรลุการใช้งานที่ดีกว่าของ ETL เป็นกระดาษ๒๐๑๘ของทีม F1 เทคโนโลยีที่สำคัญมากขึ้น.


สถาปัตยกรรมระบบ F1's

ภาพต่อไปนี้เป็นแผนภาพสถาปัตยกรรมของระบบ F1 ในกระดาษ๒๐๑๘:

 

                            

ภาพต่อไปนี้เป็นแผนภาพสถาปัตยกรรมระบบ F1 ในกระดาษ๒๐๑๓:



ระบบ F1 สามารถนำไปใช้กับศูนย์ข้อมูลที่แตกต่างกันแต่แต่ละศูนย์ข้อมูลมีชุดของคลัสเตอร์ที่สมบูรณ์ คลัสเตอร์ประกอบด้วย 1 F1Master เป็นบริการที่ไม่ได้เลือกตั้งโหนดหนึ่งซึ่งไม่ซ้ำกับแต่ละศูนย์ข้อมูล มันเป็นหลักในการตรวจสอบการดำเนินการของการสอบถามและจัดการทั้งหมด F1Servers ระบบประกอบด้วยเซิร์ฟเวอร์ F1 หลายที่จัดการคำขอแบบสอบถามที่แท้จริง


นอกจากนี้ยังมีสระว่ายน้ำสำหรับผู้ปฏิบัติงาน F1 ผู้ปฏิบัติงานเหล่านี้จะใช้ในการดำเนินการแบบสอบถามคู่ขนานและเซิร์ฟเวอร์ F1 ที่สอดคล้องกันจะกลายเป็นรหัสของแบบสอบถาม คนงานเรียกว่าทาสในแผนภาพสถาปัตยกรรมระบบ๒๐๑๓ มันเป็นเพียงชื่อที่แตกต่างกัน. ความรับผิดชอบที่แท้จริงของเซิร์ฟเวอร์ F1 กล่าวชัดเจนมากขึ้นในกระดาษ๒๐๑๓


นอกจากนี้ระบบยังมีบริการแค็ตตาล็อกและเซิร์ฟเวอร์ UDF สิ่งเหล่านี้สัมพันธ์กับการเพิ่มของสถาปนิกระบบในกระดาษ๒๐๑๓ บริการแค็ตตาล็อกเป็นบริการ metadata ที่กำหนดข้อมูลในแหล่งข้อมูลที่แตกต่างกันเป็นลักษณะที่ปรากฏ เราสามารถเห็นได้ว่าในสถาปัตยกรรมระบบของ๒๐๑๓, เพียงแค่ประแจ, แต่ในกระดาษ๒๐๑๘, แหล่งข้อมูลที่มีความหลากหลาย. ดังนั้นแค็ตตาล็อกบริการเป็นบริการที่จำเป็นเพื่อให้กลายเป็นหลายแหล่งข้อมูลเครื่องยนต์แบบสอบถามของรัฐบาลกลางในการพัฒนาของ F1


เซิร์ฟเวอร์ UDF เป็นสิ่งใหม่ F1 จะเปิดเผยในกระดาษ๒๐๑๘. ความสำคัญหลักของมันคือเพื่อให้บรรลุการสนับสนุนสำหรับการเปลี่ยน ETL และ flume เราจะครอบคลุมในรายละเอียดเพิ่มเติมในภายหลัง

โหมดแบบสอบถาม F1's

รูปแบบสอบถาม F1's สามารถแบ่งได้อย่างง่ายดายเป็นแบบโต้ตอบและไม่โต้ตอบ การรวมกันของ๒๐๑๓และ๒๐๑๘เอกสาร การดำเนินการแบบโต้ตอบเป็นหลักสำหรับแบบสอบถามที่มีผลต่อเพียงไม่กี่ระเบียนของชนิด OLTP และสำหรับการสอบถาม OLAP เวลาแฝงต่ำที่เกี่ยวข้องกับข้อมูลจำนวนมาก ระบบดำเนินการกับแบบสอบถามทั้งสองชนิดผ่านทางเซิร์ฟเวอร์ F1


แผนการดำเนินการจะถูกสร้างขึ้นหลังจากที่ F1 เซิร์ฟเวอร์การคอมไพล์และเพิ่มประสิทธิภาพการสอบถาม มีสองประเภทของแผนการดำเนินการ: การดำเนินการแบบเกลียวเดี่ยวและการดำเนินการแบบขนาน อดีตจะดำเนินการโดยตรงโดยเซิร์ฟเวอร์ เซิร์ฟเวอร์หลังกลายเป็นแบบสอบถามคู่ขนานทั้งหมดดำเนินการโดยผู้ปฏิบัติงานการเรียก RPC เอกสารนี้กล่าวถึงการตัดสินใจเกี่ยวกับกลยุทธ์การแบ่งพาร์ทิชันของระบบและวิธีปรับปรุงประสิทธิภาพของระบบส่วนใหญ่สำหรับการเอียงข้อมูลและรูปแบบที่ไม่ได้เข้าถึง การปฏิบัติเป็นเรื่องปกติในฐานข้อมูลแบบกระจาย ผู้ที่สนใจสามารถอ่านกระดาษได้ มันจะไม่เริ่มต้นอีกต่อไป.

ผู้เขียนทราบว่าการดำเนินการแบบโต้ตอบมีความเสถียรเป็นเวลาประมาณหนึ่งชั่วโมงหรือดังนั้นจึงอาจล้มเหลว ตามกระดาษการดำเนินการโต้ตอบแบบกระจาย F1's ไม่มีการยอมรับข้อบกพร่องตัวเองแต่ไคลเอ็นต์ F1 มีฟังก์ชันลองใหม่ สำหรับระบบที่เป็นผู้ใหญ่, นี้เป็นค่อนข้างสงสาร.

การดำเนินการที่ไม่ใช่แบบโต้ตอบถูกใช้เป็นหลักสำหรับการสอบถามเวลานาน มันต้องอาศัยกรอบ MapReduce ของ Google. แบบสอบถามถูกคอมไพล์เป็นแผนแบบสอบถามและเก็บไว้ในการลงทะเบียนแบบสอบถาม แบบสอบถาม Registry เป็นฐานข้อมูลที่กระจายอยู่ทั่วโลกในศูนย์ข้อมูลที่ติดตามข้อมูลเมตาสำหรับแบบสอบถามในโหมดชุดงานทั้งหมด นอกจากนี้ยังมีการบริการตัวแทนจำหน่ายศูนย์ข้อมูลข้ามส่วนกลางซึ่งกำหนดแผนการสอบถามไปยังศูนย์ข้อมูลที่ดำเนินการแบบสอบถามโดยใช้กรอบ MapReduce

在MapReduce的查询框架里,F1的优化引入了Map-Reduce-Reduce的模式,这个和Map-Reduce的框架不符合。F1团队的解决方式是把这个翻译成Map-Reduce后跟一个Map<identity>-Reduce任务。这显然不是最高效的办法。由此可见,长查询通过MapReduce来执行并非最有效的方式。而F1也无法摆脱执行框架的限制。


F1's เพิ่มประสิทธิภาพ

โครงสร้างของการเพิ่มประสิทธิภาพของ F1 จะแสดงด้านล่าง นี่คือกระบวนการเพิ่มประสิทธิภาพการสอบถามที่คลาสสิกมากขึ้น เพิ่มประสิทธิภาพได้รับ AST จากคอมไพเลอร์เป็นอินพุตแรกแปลงเป็นแผนแบบสอบถามตรรกะและจากนั้นหลังจากการปรับให้เหมาะสมตรรกะสร้างแผนการสอบถามทางกายภาพ แผนการสอบถามนี้จะถูกสร้างขึ้นโดยโปรแกรมสร้างแผนการดำเนินการเพื่อสร้างแผนการดำเนินการ

การเพิ่มประสิทธิภาพทางตรรกะเป็นส่วนใหญ่ผ่านตรรกะของพีชคณิตเชิงสัมพันธ์แผนแบบสอบถามตรรกะการป้อนข้อมูลลงในโปรแกรมที่ดีที่สุดตามการแก้พฤติกรรมการเพิ่มประสิทธิภาพที่พบบ่อยเช่นเพรดิเคต pushdown จะดำเนินการที่นี่ แผนการสอบถามทางกายภาพจะรับผิดชอบในการแปลแผนโลจิคัลเป็นแผนจริง ตัวสร้างกำหนดการที่ค้างอยู่มากที่สุดเซ็กเมนต์แผนจริงกับแต่ละเซ็กเมนต์กลายเป็นหน่วยการดำเนินการล่าสุดและแทรกตัวดำเนินการแลกเปลี่ยนระหว่างหน่วยการดำเนินการเพื่อ repartition ข้อมูล ปัญหาการเกิดพร้อมกันสำหรับแต่ละหน่วยการดำเนินการจะถูกกำหนดที่นี่


เพิ่มประสิทธิภาพ F1 เป็นทั้งเป็นตัวเพิ่มประสิทธิภาพค่อนข้างดั้งเดิม. ตัวเพิ่มประสิทธิภาพทั้งหมดจะขึ้นอยู่กับกฎทั้งหมดโดยไม่มีการเพิ่มประสิทธิภาพฐานค่าใช้จ่าย เมื่อเทียบกับระบบคลังสินค้าข้อมูลทั่วไปนี้ต้องมีการปรับปรุงมาก


การปรับขยายของ F1

F1 สนับสนุนฟังก์ชันที่ผู้ใช้กำหนดเอง (UDF), ฟังก์ชันการรวมที่กำหนดโดยผู้ใช้ (UDA) และฟังก์ชันค่าตาราง (TVF) นี่คือส่วนขยายปกติภายในระบบฐานข้อมูล ส่วนขยายที่ผู้ใช้กำหนดเหล่านี้สามารถดำเนินการโดยใช้สคริปต์ SQL หรือ LUA โดยทั่วไปการใช้งานเหล่านี้เป็นการดำเนินการที่คลาสสิกในฐานข้อมูล


แต่สิ่งที่เป็นพิเศษมากขึ้นใน F1 คือการแนะนำของลูกชายเซิร์ฟเวอร์ uDF ส่วนใหญ่จะใช้ในการดำเนินการที่ซับซ้อนมากขึ้น TVF เซิร์ฟเวอร์ UDF เป็นบริการที่สามารถนำมาใช้ในภาษาใดๆและจะให้ F1 กับอินเตอร์เฟซที่ฟังก์ชั่นสำหรับ TVF นอกเหนือจากการส่งอินพุตที่สอดคล้องกันและได้รับผลในขณะที่ทำงาน, อินเทอร์เฟซเหล่านี้ F1 ให้ข้อมูลเพิ่มเติมไปยังคอมไพเลอร์และเพิ่มประสิทธิภาพเมื่อสอบถามการคอมไพล์ ตัวอย่างเช่นสิ่งที่เป็นเค้าร่างเอาต์พุต, ไม่ว่า TVF สามารถแบ่งพาร์ติชันหลังจากแต่ละคนเพียงอย่างเดียวที่จะดำเนินการและอื่นๆ.


เซิร์ฟเวอร์ UDF มีหมึกน้อยมากในบทความแต่ผมคิดว่านี่คือความแตกต่างที่สำคัญที่สุดระหว่าง๒๐๑๘ F1 กระดาษและกระดาษ๒๐๑๓ ด้วยเซิร์ฟเวอร์ UDF ตรรกะ ETL ที่ซับซ้อนเป็นไปได้ เซิร์ฟเวอร์ UDF ยังแก้ปัญหาเก่าของโดเมนฐานข้อมูลด้วย UDF: การจัดการทรัพยากร ถ้าผมจะเลือกหนึ่งในสิ่งที่สว่างที่จะทำให้ผมคิดว่ามันเป็นเซิร์ฟเวอร์ UDF


ผมเชื่อว่านักพัฒนา F1 ของ Google ควรตระหนักดีถึงความสำคัญของเซิร์ฟเวอร์ UDF แต่มีอีกเล็กน้อยที่จะเขียนเกี่ยวกับในกระดาษ มันเป็นไปไม่ได้ที่จะบอกว่าสิ่งนี้อาจได้รับความตั้งใจ


การใช้เซิร์ฟเวอร์ UDF ทำให้สามารถ F1 เพื่อรองรับ ETL ที่ซับซ้อน ในเวลาเดียวกันตรรกะการประมวลผลข้อมูลมาตรฐานใน ETL สามารถดำเนินการโดยตรงโดยการเขียน SQL ในเวลาเดียวกันเนื่องจากเซิร์ฟเวอร์ UDF เป็นบริการแยกต่างหากปัญหาการจัดการแหล่งทรัพยากรทั่วไปของ UDF ยังได้รับการแก้ไข


สรุป

กระดาษ VLDB F1 ในสถาปัตยกรรมและการพัฒนาของฐานข้อมูล F1 ของ Google. ๒๐๑๘ F1 ได้พัฒนาในขณะนี้เป็นโปรแกรมแบบสอบถามข้อมูลที่สนับสนุนความสามารถของข้อมูลหลายสำหรับแหล่งข้อมูลหลาย. การสอบถามระดับ OLTP เป็นหลักเน้นงานเริ่มต้น, แทนที่ mySQL. แบบสอบถาม OLAP ที่มีความหน่วงต่ำเป็นส่วนใหญ่แข่งขันกับ Dremel และเป้าหมายในการสนับสนุน ETL ซับซ้อนมีวัตถุประสงค์หลักที่ Flume.


F1 มีสามโหมดการดำเนินการ: เธรดเดียว, การดำเนินการแบบโต้ตอบกระจาย, และการดำเนินการที่ไม่ใช่แบบโต้ตอบตาม MapReduce. มันเป็นความสงสารที่กระจายการโต้ตอบดำเนินการโดยไม่ล้มเหลว-การกู้คืน. ประสิทธิภาพการทำงานของการดำเนินการที่ไม่ใช่แบบโต้ตอบตาม MapReduce มีห้องสำหรับการเพิ่มประสิทธิภาพต่อไป


เพิ่มประสิทธิภาพของ F1 เป็นฐานข้อมูลคลาสสิกเพิ่มประสิทธิภาพเฉพาะการเพิ่มประสิทธิภาพของกฎฐานไม่ใช่การเพิ่มประสิทธิภาพของต้นทุนฐาน ดังนั้นฉันจึงไม่คิดว่าการปรับให้เหมาะสมเช่นการรวม-การสั่งซื้อสามารถทำได้ เพิ่มประสิทธิภาพนี้ค่อนข้างง่ายและมีจำนวนมากของห้องพักสำหรับการปรับปรุง


ในแง่ของการปรับขยายวิธีการขยายของ UDF, UDA และ TVF เป็นส่วนขยายฐานข้อมูลคลาสสิกทั้งหมด เซิร์ฟเวอร์ UDF ของมันเป็นสิ่งประดิษฐ์ที่สำคัญมาก. ผมคิดว่าทุกสิ่งในบทความนี้ที่มีค่าอ้างอิงที่ดี แต่บทความนี้เห็นได้ชัดว่าละเว้นชิ้นนี้


สถาปัตยกรรม F1's จะถูกเปรียบเทียบกับ๒๐๑๓ที่มีการเพิ่มบริการข้อมูลเมตาแค็ตตาล็อก แค็ตตาล็อกมีบทบาทสำคัญในการจัดฉากทะเลสาบข้อมูล ทั้งการค้นพบและการแบ่งปันข้อมูลเป็นสิ่งจำเป็น เมื่อพูดถึงการจัดการสิทธิ์บทบาทของบริการข้อมูลเมตาทั่วโลกจะไม่สามารถแทนที่ได้ การเพิ่มประสิทธิภาพพื้นฐานของต้นทุนยังต้องการบริการตามข้อมูลเมตา มันเป็นความสงสารที่ดีที่ F1 ไม่ได้กล่าวถึงเพิ่มเติมใหม่กับกระดาษ๒๐๑๘นี้



ยินดีต้อนรับสู่แผนภูมิกดยาวเพื่อทำตามหมายเลขการสมัครสมาชิกบินทั้งหมดแชทได้หากต้องการดูข้อมูลเพิ่มเติม


บทความที่เกี่ยวข้อง:

Sightedness และความกังวลใกล้เคียง

วิธีการรู้ว่าผู้นำคิดอย่างไรกับคุณ

การสื่อสาร tcp handshake, เท่ากับเงินและความตาย

ผู้นำสำคัญที่สุด

ไม่เป็นที่รู้หนังสือทางธุรกิจ

กวาดบ้านและกวาดโลก

สิ่งที่หายไปมากที่สุดจากนักเรียนที่จะรหัสเกษตรกร

ยินดีต้อนรับสู่โลกความรู้ทั้งหมด