Car-tech

Google: 129 مليون كتاب مختلف تم نشر

What we learned from 5 million books

What we learned from 5 million books
Anonim

بالنسبة لأولئك الذين تساءلت عن كيفية العديد من الكتب المختلفة هناك في العالم، وجوجل لديه الجواب لكم: 129864880، وفقا ليونيد Taycher، مهندس البرمجيات جوجل الذي يعمل على مشروع كتب جوجل

تقدير العدد. من الكتب في العالم أكثر من مجرد ممارسة في الفضول لعملاق البحث: كما أنه يوفر خريطة طريق لبعض الأعمال التي لا يزال يتعين القيام بها في تحقيق هدف الشركة الطموح المتمثل في تنظيم جميع المعلومات في العالم.

"عندما إنك جزء من شركة تحاول رقمنة جميع الكتب في العالم ، والسؤال الأول الذي غالباً ما تحصل عليه هو: "كم عدد الكتب الموجودة هناك؟" ، أوضح تاشر في مقال على المدونة يعلن عن التقدير. > [المزيد من القراءة: أفضل خدمات البث التلفزيوني]

من أجل التوصل إلى تقدير تقريبي معقول ، بدأت الشركة من خلال استيعاب معلومات الكتاب من أنظمة الفهرسة المتعددة ، مثل الأرقام القياسية الدولية للكتاب (ISBN).

هذه الكتالوجات ، على الرغم من كونها مفيدة ، لا توفر عددًا نهائيًا ، ومع ذلك. على سبيل المثال ، تم تعيين أرقام ISBN فقط للكتب منذ ستينيات القرن العشرين ، وغالبًا ما يتم استخدامها فقط في البلدان الغربية.

كما تم تعيين العديد من الكتب إلى أرقام ISBN الفردية ، وتعيين الناشر أرقام ISBN إلى عناصر أخرى غير الكتب ،

لذا قام مهندسو Google بكتابة برامج لتمشيط حوالي 150 من هذه الأدلة والدلائل ، وإلغاء العديد من الإدخالات المكررة التي يمكن العثور عليها.

كان على الشركة أيضًا إنشاء عدد من قرارات صعبة حول ما هو وليس كتابا ، أوضح تايلر.

على سبيل المثال ، يتم عد الغطاء الناعم والطبقات الصعبة من النص ككتبي ، وكذلك العديد من الإصدارات المختلفة للنص الشعبي ، مثل شكسبير "هاملت" ، بسبب المداخلات والتعليقات التي قد تحتوي عليها. قد يتم اعتبار المسلسلات ككتب فردية أو كمجموعة تم جمعها.

اعتبارًا من يونيو ، قامت الشركة بفحص 12 مليون كتاب ، وفقًا للعرض التقديمي الذي قدمه مدير الهندسة في كتب Google جون أوروانت في المؤتمر التقني السنوي لشركة USENIX في بوسطن. تمت كتابة هذه الكتب في حوالي 480 لغة (بما في ذلك 3 كتب في لغة Klingon Star Star-originated).

تخطط الشركة لاستكمال مسح الكتب الموجودة في غضون عقد من الزمن. وستكون المجموعة الافتراضية الناتجة عن أربعة مليارات صفحة واثنان تريليون كلمة ، حسبما قال أوروانت.

حوالي 20 بالمائة من كتب العالم موجودة في المجال العام ، أوضح أوروانت. حوالي 10 إلى 15 في المئة من هذه الكتب مطبوعة. لا تزال الكتب الباقية - الغالبية العظمى من جميع الكتب - خاضعة لحقوق الطبع والنشر ولكنها غير مطبوعة. تعمل Google على استعارة نسخ من هذه الكتب من أجل تحويلها من حوالي 40 مكتبة كبيرة في جميع أنحاء العالم.

هذا هو إجراء مسح ضوئي للكتب غير المطبقة ولكن لا يزال يغطيها حقوق الطبع والنشر التي تم استيفائها مع بعض المقاومة من قبل صناعة النشر.

تنتظر الشركة الآن حكمًا من محكمة المقاطعة الأمريكية للمنطقة الجنوبية من نيويورك ، حول ما إذا كان يمكنها مسح هذه الكتب.

في عام 2005 ، نقابة المؤلفين و رابطة الناشرين الأمريكيين رفعت حدة الدعاوى التي يرفعها ضد عملاق البحث، مؤكدا أن الشركة التعدي على حقوق المؤلف المؤلف عن طريق المسح الضوئي في الكتب.

وادعى جوجل انها تريد بيع نسخ رقمية من هذه خلاف ذلك خارج من- الكتب المطبوعة ، ووضع جانبا إتاوات للمؤلفين للمطالبة. وتأمل الشركة أيضا للكشف عن قصاصات من هذه الكتب في البحث على الشبكة، ويدعي هذا الاستخدام يندرج في إطار عقيدة الولايات المتحدة الاستخدام العادل.

الضوئي في جميع الكتب في العالم سيؤدي إلى فوائد أخرى بالإضافة إلى تحسين عمليات البحث، وأوضح Orwant. بمجرد أن يتم ترقيم جميع هذه المجلدات ، يمكن أن تخضع محتوياتها للتحليل ، مما قد يؤدي إلى رؤى جديدة. يمكن أن يكتشف اللغويون وقت ظهور بعض الكلمات على نطاق واسع ، أو الذين يبدأون في استخدام هذه الكلمات.

يمكن أيضًا أن يساعد بحث الكتب من Google في الإجابة عن بعض الأسئلة التاريخية البارزة: على سبيل المثال ، يمكن أن يفسر الجدل حول ما إذا كان إيزاك نيوتن وجوتفريد ليبنيز - أو شخصًا آخر تمامًا - قد اخترع حساب التفاضل والتكامل.

"يمكننا البحث ليس فقط عن جملة ولكن لمفهوم "، وأوضح Orwant. "يمكننا أن نأخذ جميع الطرق المختلفة [التي يمكن أن تصطدم بها فكرة] اللانهاية ، وترجم ذلك إلى لغات مختلفة ، والقيام بعملية بحث متوازية."

"آمل أن نبدأ في الكشف عن الكثير من هذه المجموعة ، ستسمح للناس بطرح أسئلة كهذه أنهم لم يتمكنوا من طرحها من قبل.

ساهم رئيس قسم الأخبار في الخدمة IDG خوان كارلوس بيريز في هذا التقرير.

Joab Jackson وأخبار التكنولوجيا العامة العاجلة عن

خدمة IDG للأخبار

. اتبع Joab على تويتر علىJoab_Jackson. عنوان البريد الإلكتروني لـ Joab هو [email protected]