Military Lessons: The U.S. Military in the Post-Vietnam Era (1999)
جدول المحتويات:
نظرًا لأن الكمبيوترات العملاقة تنمو بقوة أكبر ، فإنها ستصبح أيضًا أكثر عرضة للفشل ، وذلك بفضل زيادة عدد المكونات المضمنة. قدم عدد قليل من الباحثين في مؤتمر SC12 الأخير في الأسبوع الماضي في مدينة سولت ليك بولاية يوتا حلولًا ممكنة لهذه المشكلة المتنامية.
يمكن أن تحتوي أنظمة الحوسبة عالية الأداء (HPC) اليوم على 100000 عقدة أو أكثر - مع كل عقدة مبنية من عدة مكونات الذاكرة والمعالجات والحافلات والدوائر الأخرى. من الناحية الإحصائية ، ستفشل كل هذه المكونات في مرحلة ما ، وتوقف العمليات عندما تفعل ذلك ، كما يقول ديفيد فيالا ، طالب دكتوراه في جامعة ولاية كارولينا الشمالية ، خلال حديث في مؤتمر SC12.
المشكلة ليست واحدة جديدة ، بالطبع. عندما دخل مختبر لورنس لي Liverرمور الوطني ذو الـ600 عقدة ASCI (مبادرة الحوسبة الاستراتيجية المتسارعة) الحاسوب العملاق الأبيض على الإنترنت في عام 2001 ، كان متوسط الوقت بين الفشل (MTBF) خمس ساعات فقط ، ويرجع ذلك جزئياً إلى فشل المكونات. وقال فيالا إن جهود التنقيح في وقت لاحق عززت MTBF من ASCI White إلى 55 ساعة.
ولكن مع نمو عدد الحواسيب العملاقة ، ستزداد المشكلة كذلك. وقال فيالا "يجب عمل شيء حيال ذلك. سيزداد الأمر سوءا مع انتقالنا إلى إكساسكيل" في اشارة إلى ما يتوقع من أجهزة الكمبيوتر العملاقة في العقد القادم أن تزيد عشرة أضعاف من القوة الحسابية التي تستخدمها نماذج اليوم.
تقنيات اليوم وقال فيالا إن التعامل مع فشل النظام قد لا يتغير بشكل جيد. وأشار إلى نقطة تفتيش ، حيث يتم إيقاف تشغيل البرنامج مؤقتًا وحفظ حالته على القرص. في حالة تعطل البرنامج ، يمكن للنظام إعادة تشغيل المهمة من نقطة التفتيش الأخيرة.
NCSUDavid Fiala
المشكلة مع نقاط التفتيش ، وفقًا لـ Fiala ، هي أنه مع زيادة عدد العقد ، فإن مقدار الحمل فوق النظام الحاجة إلى القيام بعمليات تفتيش ، تنمو بشكل جيد وتنمو بمعدل أسي. على الحاسوب العملاق 100000 عقدة ، على سبيل المثال ، لن يشارك سوى حوالي 35 في المئة من النشاط في إجراء العمل. أما الباقي فستتم معالجته عن طريق نقاط التفتيش ، وفي حالة حدوث عمليات استعادة النظام ، يقدر Fiala.بسبب كل الأجهزة الإضافية اللازمة لأنظمة exascale ، والتي يمكن بناؤها من مليون عنصر أو أكثر ، فإن موثوقية النظام من أجل الحفاظ على نفس MTBF الذي يتمتع به الحواسيب العملاقة اليوم ، قال فيالا. > . تعالج التقنية مشكلة فساد البيانات الصامت ، عندما تقوم الأنظمة بعمل أخطاء غير مكتشفة تقوم بكتابة البيانات إلى القرص.
بشكل أساسي ، يتألف منهج الباحثين من تشغيل نسخ متعددة ، أو "استنساخ" للبرنامج ، في وقت واحد ثم مقارنة الإجابات. يتم تشغيل البرنامج ، المسمى RedMPI ، بالاقتران مع واجهة تمرير الرسائل (MPI) ، وهي مكتبة لتقسيم التطبيقات قيد التشغيل عبر عدة ملقمات بحيث يمكن تنفيذ الأجزاء المختلفة من البرنامج بشكل متوازٍ.
RedMPI يقوم باعتراض ونسخ كل MPI رسالة يرسلها أحد التطبيقات ، ويرسل نسخًا من الرسالة إلى النسخ (أو النسخ) للبرنامج. إذا قامت النُسخ المختلفة بحساب إجابات مختلفة ، فيمكن إعادة حساب الأرقام على الطاير ، الأمر الذي سيوفر الوقت والموارد من تشغيل البرنامج بأكمله مرة أخرى.
"تطبيق التكرار ليس مكلفًا. قد يكون عاليًا في عدد التهم الأساسية التي تحتاجها ، لكنها تتجنب الحاجة إلى إعادة الكتابة مع إعادة تشغيل نقطة التفتيش ، "قال فيالا. "البديل هو ، بالطبع ، إعادة تشغيل الوظائف ببساطة إلى أن تعتقد أن لديك الإجابة الصحيحة."
أوصى Fiala بتشغيل نسختين احتياطيتين لكل برنامج ، للتكرار الثلاثي. على الرغم من أن تشغيل نسخ متعددة من برنامج ما سيحتاج في البداية إلى المزيد من الموارد ، إلا أنه في الواقع قد يكون أكثر كفاءة في الواقع ، وذلك بسبب حقيقة أن البرامج لن تحتاج إلى إعادة التحقق من الإجابات. أيضا ، قد لا تكون هناك حاجة للحاجز عند تشغيل نسخ متعددة ، والتي من شأنها أيضا أن توفر على موارد النظام
وقال إيثان ميلر ، وهو أحد أعضاء فريق UCSCEthan Miller
، أعتقد أن فكرة التكرار هي فكرة عظيمة. [للحسابات الكبيرة جدًا ، التي تنطوي على مئات الآلاف من العقد ، من المؤكد أن هناك فرصة لتسلل الأخطاء. أستاذ علوم الكمبيوتر بجامعة كاليفورنيا سانتا كروز ، الذي حضر العرض. لكنه قال إن هذا النهج قد لا يكون مناسبًا نظرًا لحجم حركة مرور الشبكة التي قد تنشأ مثل هذا التكرار. واقترح تشغيل جميع التطبيقات على نفس مجموعة العقد ، والتي يمكن أن تقلل حركة المرور الداخلي.
> في عرض تقديمي آخر ، قدمت أنا Gainaru ، طالب دكتوراه من جامعة إلينوي في أوربانا شامبان ، تقنية تحليل سجل ملفات للتنبؤ عند حدوث فشل النظام.يجمع العمل تحليل الإشارات مع استخراج البيانات. يستخدم تحليل الإشارة لتوصيف السلوك الطبيعي ، لذلك عندما يحدث الفشل ، يمكن رصده بسهولة. يبحث استخراج البيانات عن الارتباطات بين حالات فشل منفصلة تم الإبلاغ عنها. وقد أظهر باحثون آخرون أن الفشل المتكرر في بعض الأحيان يرتبط ببعضها البعض ، لأن الفشل في إحدى التقنيات قد يؤثر على الأداء في تقنيات أخرى ، وفقًا لجاينارو. على سبيل المثال ، عندما تفشل بطاقة الشبكة ، فإنها ستعوق عمليات النظام الأخرى التي تعتمد على الاتصال بالشبكة.
وجد الباحثون أن 70 بالمئة من حالات الفشل المتراصة توفر نافذة فرصة لأكثر من 10 ثوانٍ. بعبارة أخرى ، عند اكتشاف أول علامة على فشل ، قد يكون للنظام ما يصل إلى 10 ثوانٍ لحفظ عمله ، أو نقل العمل إلى عقدة أخرى ، قبل حدوث فشل أكثر حرجًا. وقال جاينارو: "يمكن دمج التنبؤات الفاشلة بتقنيات التسامح الأخرى".
يغطّي جواب جاكسون برمجيات الشركات والتكنولوجيا العامة الأخبار العاجلة عنThe IDG News Service
. اتبع Joab على تويتر علىJoab_Jackson. عنوان البريد الإلكتروني لـ Joab هو [email protected]
الحواسب العملاقة الأكثر كفاءة في العالم I> ستستخدم وكالة الفضاء اليابانية أسرع حاسوب في البلاد لمحاكاة إطلاق الصواريخ p> عمليات إطلاق الأقمار الصناعية هي قضية صاخبة وخاصة بالنسبة للقمر الصناعي فوق الصاروخ. يمكن للاهتزاز والضوضاء ، ما لم يتم تعويضهم ، أن يجعلها عديمة الفائدة قبل أن تصل إلى المدار ، لذلك يقضي الباحثون الكثير من الوقت في عمليات المحاكاة الحاسوبية المعقدة التي تساعدهم على عزل الطائرة الحساسة. الآن هذه المحاكاة على وشك الحصول على أكثر دقة بفضل كمبيوتر جديد رائع بدأ العم
تم افتتاح جهاز الكمبيوتر Fujitsu FX1 يوم الأربعاء من قبل وكالة استكشاف الفضاء اليابانية. لديها 3،008 عقدة كل منها يحتوي على المعالج الصغري Sparc64 VII 4-core. الجهاز يحتوي على 94 تيرابايت من الذاكرة وأداء أعلى من 120 تيرافلوب (وهو تريلوبس هو عمليات تريليون نقطة عائمة في الثانية).
أيهما أفضل لأعمالك؟ إذا كنت تفكر في ترقية إعداد تكنولوجيا المعلومات لديك ، سأوصي بشدة باستخدام جهاز Mac ، حتى إذا كنت بحاجة إلى تشغيل جهاز كمبيوتر.
للبدء ، أريد أن أخبرك أنه حتى 2006 كنت مستخدم كمبيوتر متعطشا. بدءا من جهاز الكمبيوتر الخاص بي الأول عندما كان عمري خمسة ، IBM نموذج PS2 30 (دون القرص الصلب) ، لقد كنت مخلصا. لقد بدأت مع دوس ، ثم ويندوز 3 ، 3.1 ، 95 ، ثم إكس بي. ثم جاء فيستا. قبل فيستا ، قضيت الكثير من الوقت في إعادة التشغيل ولكن كان أكثر أو أقل احتمالاً. بعد فيستا ، الذي يعتبر أسوأ نظام تشغيل على الإطلاق ، كان علي أن أجد حلاً آخر. b> في عام 2006 ، قمت بترقية حوالي 80٪ من أجهزة الكمبيوتر الخاصة بشركتي إلى أجهزة ماكنتوش. نحن وك
إلغاء الإعلانات المستهدفة بشدة ، يقول محامو الخصوصية
ويقول محامو الخصوصية إنه من الصعب جدًا على المستخدمين عبر الإنترنت إلغاء الاشتراك في جميع أنظمة الدعاية السلوكية.