المواقع

برنامج جديد يكتشف Bots Scraping Web Site Data

طريقة عمل نظام مراقبة بأبسط الادوات - علي هادي علي

طريقة عمل نظام مراقبة بأبسط الادوات - علي هادي علي
Anonim

تواجه مواقع الويب مثل لوحات العمل مشكلة دائمة: يتم سرقة بياناتها باستمرار بواسطة برامج التتبع الآلية.

تنتهي البيانات على لوحات العمل المنافسة الأخرى ، التي سرقت المحتوى. إنها مشكلة تصيب أي موقع ويب يجب نشر ملكيته الفكرية بشكل عام مجانًا ، أو حتى أولئك الذين لديهم نماذج اشتراك.

لكن شركة أمان مقرها في أتلانتا تتخصص في اكتشاف البوتات طورت برامج يمكنها اكتشاف تلك الكشاشة

[المزيد من القراءة: كيفية إزالة البرامج الضارة من جهاز الكمبيوتر الذي يعمل بنظام تشغيل Windows]

يكشف منتج برامانا الرئيسي ، HumanPresent ، عن برامج التتبع الآلية التي ، على سبيل المثال ، إدخال البريد العشوائي في النماذج المستندة إلى الويب أو التسجيل مجانًا استخدام حسابات البريد الإلكتروني للبريد العشوائي.

وقد وضعت الآن برامانا وحدة تسمى "التنقيب عن البيانات ومنع كشط الشاشة" HumanPresent. ويقول ديفيد كرودر ، الرئيس التنفيذي لشركة برامانا: "إنه يعمل على العديد من المبادئ نفسها كمنتجه الأساسي ، لكن تم تعديله لسيناريوهات استخراج البيانات.

يستطيع HumanPresent اكتشاف البوتات من خلال ملاحظة الاختلافات في الطريقة التي يتفاعل بها الإنسان عادة مع الويب الصفحة وتناقض ذلك مع سلوك سلوك البوتات. فهو ينظر إلى أكثر من 30 مقياسًا ، مثل ضربات لوحة المفاتيح ونقرات الماوس وتوقيت تلك الإجراءات.

يتناول HumanPresent المعاملات الفردية ، ولكن تم تعديل وحدة استخراج البيانات للبحث عن فترة زمنية عندما يكون أو على الإنترنت ، قال كراودر.

يميل برنامج تتبع البيانات إلى التحايل تمامًا على واجهة مستخدم المتصفح. على سبيل المثال ، قد يطلب برنامج التتبع صفحة ويب تحتوي على الكثير والكثير من البيانات ، ولكن لا يقوم بالتمرير أو النقر فوق أية صفحة. إذا تم فتح سلسلة من الصفحات وعرضها بهذه الطريقة ، فقد يعني ذلك وصول روبوت تعدين البيانات.

تقوم برامانا بتعيين معرف فريد للزائر ، وبعد تحليل سلوك الزائر ، يمكن اتخاذ قرار بشأن التسمية الزائر بوت أم لا. هناك عدة طرق مختلفة يمكن لمشغل موقع الويب بعدها أن يختار التعامل مع الموقف.

يمكن منع عنوان IP (بروتوكول الإنترنت) الخاص بجهاز كمبيوتر bot بشكل دائم. قرر أحد مواقع مزاد السيارات الذي يختبر وحدة تعدين البيانات في برامانا نقل البوتات المشتبه بها إلى "صندوق رمل" حيث يتم تقديم بيانات كاذبة تمامًا.

"إنهم بالفعل استخراج البيانات - إنه أمر خاطئ تمامًا" ، قال كراودر.

تتضمن الخيارات الأخرى مطالبة زائر موقع الويب بالتحدي أو المهمة ، والتي لا تستطيع بعض برامج التتبع إكمالها.

تكاليف استخراج البيانات تكلف الكثير من الشركات. وستجد الشركات التي تبيع بيانات ممتازة أن منافسيها سيشترون اشتراكًا ثم يستخدمون برامج تتبع آلية لسرقة البيانات لمواقعهم الخاصة. في أحد الأمثلة ، وجد موقع ويب يحتوي على غيغابايت من البيانات على أسعار السيارات المستعملة أن بياناته قد كشطت وأنها معروضة للبيع على موقع ئي باي.

"إنهم يتنافسون في الواقع مع محتواهم الخاص" ، قال كراودر. تحتوي مواقع الويب على تصميمات ضعيفة تجعل من عملية تجريف البيانات أسهل بكثير. وقال كراودر إن موقع السيارة المستعملة يحتوي على عناوين URL (يمكن تحديد مواقع الموارد الموحدة) بشكل متسلسل لكشف المزيد من البيانات.

سوف يتم لف وحدة استخراج البيانات في منتج HumanPresent حتى الآن ، ولكن في بداية العام القادم تخطط شركة برامانا لبيعها. بشكل منفصل ، قال كراودر. تقدم برامانا HumanPresent إما كجهاز داخل الشركة أو كتكوين للبرنامج كخدمة.

بالنسبة لبرنامج SaaS (برنامج كخدمة) ، يتم دمج تقنية Pramana في تطبيق ويب ويتم إرسال معلومات الجلسة مرة أخرى إلى برامانا للتحليل. وقال كراودر إن برامانا تمكنت من خفض وقت الاستجابة بشكل كبير في أحدث إصدار لها. بالنسبة إلى العملاء الذين يحتاجون إلى المزيد من السرعة ، يتوفر الجهاز.