Powered By Blogger

الثلاثاء، 25 نوفمبر 2008

الإسترجاع واللغة العربية

من قضايا البحث والاسترجاع في نظم المعلومات العاملة باللغة الطبيعية
( اللغة العربية مثالاً )

أولاً: المقصود بلغات التكشيف indexing languages :
يقصد بلغة التكشيف مجموعة من مصطلحات التكشيف التي تستخدم في أي نظام استرجاع ، وذلك في جميع مراحل معالجة المعلومات ، بدءاً من مرحلة المدخلات التي يتم فيها تكشيف الوثائق المدخلة في النظام ، ثم في مرحلة معالجة ملفات القاعدة من ترتيب وفرز وتصنيف وتحليل ، ثم في مرحلة البحث والاسترجاع أي مرحلة المخرجات .
وتنقسم لغات التكشيف بشكل عام إلى فئتين رئيسيتين هما : اللغات الطبيعية ، واللغات الاصطناعية .

ـ اللغات الاصطناعية ( أو المقيدة ) : Controlled language or Controlled vocabulary
وهى التي يتم تعيينها لمحتويات الوثائق خلال مرحلتي التحليل والاسترجاع. ويتم بالتالي ممارسة نوع من التحكم ، أو التقييد لبعض المصطلحات أو في الصيغ والجمل والعبارات . وقد تكون اللغة الاصطناعية أو المقيدة لفظية مثل : المصطلحات والواصفات الموضوعية المستخدمة في المكانز، وقوائم رؤوس الموضوعات ، وقد تكون اللغة الاصطناعية رمزية مثل : نظم التصنيف الرقمية ، أو الحرفية ، أو الرقمية الحرفية ،.

ـ اللغات الطبيعية ( أو الحرة ) : Free language or uncontrolled vocabulary
ويقصد بها المفردات التي تشتق من الوثائق نفسها عند التكشيف والاسترجاع ، كما في كشافات التباديل أو كشافات الكلمات الدالة في السياق ، أو كما في المستخلصات المكتوبة بلغة طبيعية .

ثانياً : اللغات الطبيعية والاصطناعية بين المزايا والعيوب :
وهناك جدل كبير حول أيهما أفضل في الاستخدام ، الطبيعية أم المقيدة ؟؟؟ ، وإن كانت هناك مؤشرات تشير إلى أن اللغات الطبيعية قد تعطي نتائج أفضل من اللغات المقيدة . ، ولا مجال هنا للخوض في تحديد درجات الأفضلية وأبعادها في كلتا الفئتين ، وسنكتفي بالإشارة إلى أهم مميزات كل من اللغتين ، وأهم عيوبهما تمهيداً للحديث عن مشكلات التي تعوق استخدام اللغة الطبيعية ، باعتبار أن هناك توجه .

أ ـ مميزات استخدام اللغة الاصطناعية :
1- تساعد على المضاهاة بشكل جيد ،وبمعدل مرتفع ، حيث يعبر كل من المكشف والباحث عن نفس المفهوم بنفس الأسلوب .
2- ثبات استخدام المصطلحات بين عدد من المكشفين .
3- تساعد في الإسراع بعملية البحث ، حيث تمكن اللغة المحكمة الباحث بأن يجزم بأن ما يبحث عنه من مواد أو معلومات غير متاح وأنه لا داعي للبحث تحت مترادفات متنوعة .

ب ـ مميزات استخدام اللغة الطبيعية :
تتمثل أهم مميزات اللغة الطبيعية في سهولة عملية التكشيف ، وتوفير الوقت والجهد المستنفد في عملية التكشيف ، حيث يقوم بها النظام تلقائياً ، هذا فضلاً عن السرعة في إعداد الكشافات .

ج ـ عيوب استخدام اللغة الاصطناعية .
1- مهما بلغت قوة تركيبها فهي تظل متقادمة للاستخدام في التكشيف والاسترجاع .
2- لا تواكب اللغات الاصطناعية التطورات العلمية .
3- لا يمكن الاسترجاع بكفاءة للجمل والعبارات ..إلخ .
4- كثيراً لا تتضمن المصطلحات التي تعبر المفاهيم الضيقة التي يمكن أن تظهر في الانتاج الفكري المتخصص جداً أو الحديث .
5- افتقار كثير من اللغات المقيدة إلى التوحيد في المصطلحات ليس على المستوى الدولي بل على المستوى الوطني .

د ـ عيوب استخدام اللغة الطبيعية .
نظراً لأن عملية التكشيف تتم بشكل آلي وبدون تدخل من جانب المكشفين البشر ، فتظهر مشكلات كثيرة مردها ناتج عن الخصائص الدلالية والتركيبية المتصلة بكل لغة والتي ينتج عنها مشكلات أثناء عملية البحث والاسترجاع . ومن ثم تتمثل أهم عيوب اللغة الطبيعية في المشكلات الدلالية والتركيبية التي تتصل بكل لغة ـ والتي سنشير إليها في الفقرات التالية .

ثالثاً : نظم المعلومات العاملة باللغة العربية :
الاسترجاع باللغة العربية يعني الوصول إلى المعلومات المستهدفة عبر سلسلة من الخطوط أثناء البحث في نظم المعلومات ،التي تكون اللغة العربية فيها هي لغة المعالجة في سواء في مرحلة المدخلات أو التجهيز أو المخرجات .
وقد ظهرت خلال السنوات الماضية العديد من البرامج ، وقواعد البيانات والنظم المتكاملة باللغة العربية ، ولكن يتبين أن هناك الكثير من المشكلات التي تعوق عملية البحث والاسترجاع والتي يكون سببها الأساسي هو طبيعة اللغة العربية ذاتها ،واختلاف بعض خصائصها عن خصائص اللغات الأخرى ؛ واتضح أن للغة العربية بخلاف اللغات اللاتينية مثلا ، خصائص دلالية وتركيبية معقدة تؤثر على فعالية ودقة الاسترجاع .

رابعاً : أهم مشكلات استرجاع المعلومات باللغة العربية :
قبل الحديث عن مشكلات الاسترجاع باللغة الطبيعية ، يجب أن نقف عند ملحوظتين ، هما :
ـ الأولي : أن لكل للغة طبيعتها التي تختلف عن اللغات الأخرى ، وحديثنا هنا سيتركز على اللغة العربية .
ـ الثانية : أن استرجاع المعلومات تعتمد أساساً على عملية المضاهاة ، وجميع نظم الاسترجاع يمارس هذه العملية ولا بديل سواها .

المشكــلات
1 ـ التصريف والاشتقاق :
تمتاز اللغة العربية بالثراء في التصريف والاشتقاق ، إلا أن التغيرات الصرفية المعقدة التي تطرأ على الكلمات تقع في كثير من الأحيان في أوائل الكلمات مما يشتت المداخل المتشابهة ، ويعيق البحث والاسترجاع باستخدام الروابط المنطقية ( و ، أو ، باستثناء ) .

بالنسبة للتصريف :
فلنلاحظ مثلاٍ الفعل ( يدير ) ، وكيف يتغير بتغير زمن الجملة ، وطبيعة تركيب الجملة ، وارتباط الفعل بالفاعل ، حيث نلاحظ ما يلي :
صيغة الفعل المضارع ـ المفرد المذكر: يدير
صيغة الفعل المضارع ـ المثنى المذكر: يديران ، يديرا
صيغة الفعل المضارع ـ الجمع المذكر : يديرون ، يديروا
صيغة الفعل المضارع ـ المفرد المؤنث : تدير
صيغة الفعل المضارع ـ المثنى المؤنث : تديران ، تديرا
صيغة الفعل المضارع ـ الجمع المؤنث : تديرن ، تدير
================
Book booked book*
صيغة الفعل الماضي ـ المفرد المذكر: أدار
صيغة الفعل الماضي ـ المثنى المذكر: أداران ، أدارا
صيغة الفعل الماضي ـ الجمع المذكر : أداروا
صيغة الفعل الماضي ـ المفرد المؤنث : أدارت
صيغة الفعل الماضي ـ المثنى المؤنث : أدارتا
صيغة الفعل الماضي ـ الجمع المؤنث : أدارت
================
صيغة الفعل الأمر ـ المفرد المذكر: أدر
صيغة الفعل الأمر ـ المثنى المذكر: أدايرا ، ديرا
صيغة الفعل الأمر ـ الجمع المذكر : أديروا
صيغة الفعل الأمر ـ المفرد المؤنث : أديري
صيغة الفعل الأمر ـ المثنى المؤنث : أديرن
صيغة الفعل الأمر ـ الجمع المؤنث : أديرن ، أديروا

أما بالنسبة للاشتقاق :
لاحظ الفعل نفسه (يدير ) له تصاريف وصيغ إعرابية كثيرة يؤثر تفاوتها على البحث والاسترجاع ،مثل :
اسم الفاعل المفرد : مدير
اسم الفاعل المثنى : مديران
اسم المفعول : مدارة
الصفة : مدارة
الموصوف : مدار
وبعض هذه التصاريف قد يلحقها زوائد متعددة ، مثل حروف الجر المتصلة ، وأل التعريف .
المسلمون
المسلمين
بإلادراة
للإدارة
كالإدارة

ولعل مشكلة المداخل واختلاف ترتيب الكلمات في صيغتي المفرد والجمع ( غير القياسي ) مما يستوجب البحث تحت المصطلحين الدالين على مفهوم واحد ، مثل :
طفل ـ أطفال
سلاح ـ أسلحة
حمض ـ أحماض ، حمضيات ، حوامض
جندي ـ جند ، جنود ، أجناد
Book book*
الملاحظة العامة أن جميع الصيغ مختلفة من حيث شكلها أو شكل كتابتها ، مع
أ نها تتفق من حيث موضوعها .

2 ـ المترادفات :
مشكلة الترادف في الاسترجاع تكمن في انه يؤدي إلى توزيع الكلمات التي تحمل المفهوم نفسه في مواقع متعددة .
قوانين ، تشريعات ، أنظمة ، أحكام
حقول البترول ، آبار البترول
البترول ، النفط
البنوك ، المصارف
الحاسوب ، الحاسب ، الحاسب الآلي ، الكمبيوتر
الأسرة ، العائلة
الغيث ، المطر
النبأ ، الخبر

3 ـ الألفاظ المشتركة ( المشترك اللفظي ) :
المشترك اللفظي يقصد به اللفظ الواحد الدال على معنيين مختلفين أو أكثر ، بحيث تأخذ الكلمة الواحدة في اللغة الطبيعية عدة معان ومفاهيم بحيث لا يمكن تمييز المعنى الصحيح أو المستهدف للكلمة في السياق ، مثلاً :
الدين ( الإسلام )
الدين ( القرض )
العلم ( الحقل أو التخصص )
العلم ( الراية )
السنة ( مذهب )
السنة ( العام )
السنة ( برهة من النوم )
هذا على اعتبار أنه لا يوجد في نظم الاسترجاع علامات التشكيل أو الحركات .

4 ـ التركيب :
تكثر المفاهيم المركبة سواء في اللغات الطبيعية أو الاصطناعية ، مثل :
اختزان المعلومات واسترجاعها
الطب عند العرب
التأمين ضد الحريق
تعليم المرأة
صحة الطفل
كذلك يلاحظ تغير دلالة المفهوم المركب بسبب تبادل مواقع بين المضاف والمضاف إليه ، وأن الربط المزيف بينهما قد يؤدي إلى ضعف التحقيق وزيادة نسبة الاستدعاء ، مثل :
إدارة العلوم ـ علوم الإدارة
كليات المكتبات ـ مكتبات الكليات
سجلات الإعارة ـ إعارة السجلات
تصنيف الوظائف ـ وظائف التصنيف

5 ـ صيغة الفعل ( وبخاصة في عناوين الكتب وغيرها من مصادر المعلومات ) :
قد تأتي المفاهيم على صيغة أفعال ، مثل :
كيف تصوم ؟
هكذا نصوم .
كيف تدعو الناس ؟
كيف تحج ؟
فهنا يلاحظ أن الكلمات الدالة ، هي المشتقة من الأفعال : تصوم ، تدعو ، تحج . فالباحث الذي يرغب في كتب عن المفاهيم السابقة قد لا يتوقع بأنها تأتي في صيغ الأفعال .

6 ـ الإملاء والرسم الإملائي:
تفاوت كتابة بعض الكلمات وبخاصة المعربة من مجتمع إلى مجتمع مما يؤثر على كفاءة الاسترجاع ، مثلاً :
ببليوجرافيا ـ ببليوغرافيا
جوجل ـ غوغل
المسؤولية ـ المسئولية
شؤون ـ شئون
كمبيوتر ـ كومبيوتر
رومانتيكية ـ رومانسية ـ رومانطيقية
حاسب ـ حسّاب ـ حاسوب

7 ـ تفاوت كتابة الأسماء المترجمة :
هناك تفاوت عند كتابة أسماء الهيئات الأشخاص الأجنبية بالحروف العربية ، مثلا :
الاسم ( Michael ) يكتب بعدة صيغ هكذا :
مايكل ، ميكائيل ، ميشيل ، ميخائيل ...
وعند كتابة الأسماء العربية ، مثل الاسم "Mohamad " كتب بعدة صيغ ـ كما رأينا من قبل ـ تكاد تكون مختلفة بالنسبة للحاسب الآلي .

8 ـ الرمز والمجاز :
كثيرا ما يستخدم المؤلفون رموزاً أو مفاهيم مجازية للتعبير عن محتوى ما يؤلفون ، وهذا يكون له أثره على ملية الاسترجاع ، مثلاً :
من المفاهيم مجازية أو الرمزية :
معالم على الطريق
قطر الندى وبل الصدى
كشف الستار عما خفي من أسرار
يا طالع الشجرة
أشواك السلام
زهرة العمر
أنشودة السلام
الكلمات الإنشائية والحشو :
ـ القواعد الذهبية لإتقان اللغة العربية
ـ النور الساطع في قواعد اللغة العربية
ـ أسرار عجائب الشفاء بالحبة السوداء
ـ مبادئ الفهرسة
ـ أصول علم الاجتماع
السجع في كتب التراث ، مثل :
ـ الدر الثمين والمورد المعين
ـ الدرر الكامنة في أعيان المائة الثامنة

أفعل التفضيل :
ـ أحسن القصص
ـ أوضح المسالك إلى ألفية ابن مالك

الأعداد والأرقام :
ـ أربعون درساً في قواعد اللغة العربية
ـ العالم سنة ‏2003‏‏
ـ مائة سؤال عن الإعلام

9 ـ كلمات التوقف :
من المتفق عليه في نظم الاسترجاع أن يتم استبعاد كلمات التوقف أو الكلمات الغير دالة موضوعياً ، مثل :
نحو ، مدخل ، مقدمة ، أساسيات ...
ولكن هنا ملحوظة هامة وهي : أننا نجد في بعض الأحيان أن الكلمة نفسها ترد دالة ، وغير ذات دلالة وفي أحيان أخرى ، مثل :
إدارة الأعمال ـ أعمال نجيب محفوظ
نحو إدارة علمية جديدة ـ نحو اللغة العربية وقواعدها
المدخل إلي علم النحو ـ النحو والصرف .
القطاع العام والخاص ـ قطاع الزراعة

10 ـ أل التعريف وأل الأصلية :
كثيرا لا يستطيع نظام البحث والاسترجاع التفرقة بين أل التعريف ، وأل الأصلية التي هي جزء من الكلمة ، وقد اقترح حل لهذه القضية تتمثل في حذف أل من جميع الكلمات التي ترد في بدايتها ـ ولكن تبين منها الخطأ لأن كثيراً من الكلمات العربية تكون فيها الألف واللام أصلية ، وليست أل التعريف ، مثال ذلك ما يلي :

أل التعريف :
المدرسة
( لو حذفت ال تصبح مدرسة ـ ليس هناك مشكلة لأنها نفس الكلمة )
الجامعة
( لو حذفت ال تصبح جامعة ـ ليس هناك مشكلة لأنها نفس الكلمة )

أل الأصلية :
ألغاز
( لو حذفت ال تصبح غاز ـ وهنا المشكلة لأنها كلمة مختلفة من حيث المعنى اللغوي )
إلهام
( لو حذفت ال تصبح هام ـ وهنا المشكلة لأنها كلمة مختلفة من حيث المعنى اللغوي )
ألبان
(لو حذفت ال تصبح بان ـ وهنا المشكلة لأنها كلمة مختلفة من حيث المعنى اللغوي )

ألياف
( لو حذفت ال تصبح ياف ـ وهنا المشكلة لأنها كلمة مختلفة من حيث المعنى اللغوي )
ألسن
سن
***************************************************
المصدر: أحد محاضرات د. متولي النقيب