أخبار عامة - وكالة أنباء المرأة - اخبار الأدب والفن - وكالة أنباء اليسار - وكالة أنباء العلمانية - وكالة أنباء العمال - وكالة أنباء حقوق الإنسان - اخبار الرياضة - اخبار الاقتصاد - اخبار الطب والعلوم
إذا لديكم مشاكل تقنية في تصفح الحوار المتمدن نرجو النقر هنا لاستخدام الموقع البديل

الصفحة الرئيسية - تقنية المعلمومات و الكومبيوتر - عمر مهديوي - مدخل إلى العلاج الآلي للمعجم العربي















المزيد.....



مدخل إلى العلاج الآلي للمعجم العربي


عمر مهديوي

الحوار المتمدن-العدد: 1518 - 2006 / 4 / 12 - 11:24
المحور: تقنية المعلمومات و الكومبيوتر
    


مدخل إلى العلاج الآلي للمعجم العربي
عمر مهديوي
باحث في علم اللغة الحاسوبي
جامعة الحسن الثاني المغرب
ملخص:1
يطرح العلاج الآلي للغات الطبيعة بشكل عام جملة من الصعوبات ،و تزداد المشكلة تعقيدا عندما يتعلق الأمر ببناء معجم آلي. وتجب الإشارة هنا إلى أن اللغات الأجنبية كالإنجليزية والفرنسية والأسبانية وغيرها قد قطعت أشواطا مهمة في مجال البحث اللساني الحاسوبي والهندسي ،باعتبار بنياتها الداخلية من جهة، وباعتبار السياسات اللغوية المتبعة في البلدان التي تنتمي إليها من جهة أخرى. لكن الوضع بالنسبة للعربية مختلف، إذ الأبحاث اللسانية الآلية والهندسية ما تزال في بداية الطريق.
إذن في ظل هذه الشروط، هل يحق لنا أن نصرح بمشروع العلاج الآلي للعربية عامة، والمعجم العربي على وجه الخصوص ؟.
2- مقدمة:
أصبح من المؤكد اليوم ، أن المعلوميات تعتبر علما دقيقا أكثر من أي علم آخر ( الطاقة مثلا) ، و عليها يتوقف التقدم و التطور السوسيو ثقافي .لهذا أضحى تطوير العلوم و التقنيات و اللغات من الأولويات الأساسية التي تعتمد على المعلوميات وتطبيقاتها .
وعلى هذا الاساس،ليس من المفيد اليوم الاكتفاء بالمعاجم القديمة الورقية الموضوعة على طريقة المناهج التقليدية و المسماة في الأدبيات المعجمية بالصناعة المعجمية أو المعجمية ،لأن تقنيات التخزين و معالجة المعلومات التي توفرها الآلة تمكن من بناء معاجم آلية وفق ضوابط لسانية وحاسوبية صارمة.
3-المعاجم الآلية :الشروط التقنية( الحاسوبية ) واللسانية
قبل أن نتطرق إلى كيفية بناء معاجم حديثة باستعمال تقنية الحاسوب، يجدر بنا إلقاء نظرة سريعة على الخصائص البنيوية و العامة للمعاجم .
تعتبر المعاجم، مثلها كتب الآداب، أداة للتعبير بعمق عن الثقافة و الحضارة و العلم في أي أمة من الأمم.إنها ترتبط أشد الارتباط بتاريخ الآداب، و يتجلى دورها الرئيس في وصف اللغة أو الترجمة من لغة إلى أخرى.إنها تكشف عن التاريخ و الجغرافيا و الفنون و العلوم و التقنيات.إن المعاجم.و بهذا المعنى فهي تمثل منطقة الإحالة القوية المتمثلة أساسا في التراث اللغوي و الثقافي و العلمي العام.
المعجم صنف لغوي و كتاب يمد القارئ أو المستعمل بما يلي:
- معلومات حول العالم، و هذا ينطبق على الموسوعات كالموسوعة الإسلامية المعاصرة و المعاجم ثنائية اللغة أو متعددة اللغة، ووظيفتها تكمن في تحقيق التواصل مع جماعات لغوية أخرى في العالم.
- معلومات حول اللغة الخاصة للمتكلم اللغوي، و هذا ينطبق على المعاجم الأحادية اللغة، التي تسمح للمستعمل بضبط نظامه اللغوي و التواصل مع أفراد جماعته اللغوية.
و هكذا ،"لا نكون في حاجة إلى التأكيد على أهمية المعلوميات في وصف أنظمة اللغات الطبيعية ، فذلك أصبح من بديهيات الأمور في عصرنا الراهن ، كما أن المتنفس الطبيعي لكل النظريات و المناهج اللسانية أصبح هو ما تحققه المعلوميات من تقدم في صياغة البرامج القادرة على تقييس دماغ الإنسان ، و بذلك أصبحت قادرة على صياغة قوانين صورية تقوم بدور مزدوج ، من جهة وصف النظام اللغوي في سائر مستوياته باستعمال لغة عقلانية ، و من جهة أخرى فإن هذه اللغة تصبح قادرة على توليد سائر بنيات اللغة وفق قوانين الاستعمال العادي لها1 .
إذن المعجم هو الذاكرة الحية التي تجيب عن أسئلة القارئ ذات القيمة المقيدة. و على هذا الأساس، فما يقدمه المعجم من معلومات ليس دقيقا فحسب، بل إجباري أيضا، مما يعني أنه يقوم بدور الحفاظ على تراث الأمة من الضياع، و هو مؤسسة اجتماعية تصون تكامل المعارف المقدمة إلى أفراد الجماعة اللغوية.
و تجدر الإشارة إلى أن هناك عنصرا آخر، لا يقل أهمية عما سبق ذكره، ألا وهو المنتج و المؤلف و الناشر، هذه الأشياء برمتها، ينبغي النظر إليها أيضا في ضوء المعطيات المعلوماتية.
و إذا كان المعجم مصدرا للمعلومات - كيفما كانت سعة الكتاب أو غايته - فإنه يتضمن معلومات غير مستمرة ، مرتبة ترتيبا محكما بطريقة ألفائية أو اعتباطية ، و كيفما كان الحال ،فإن هذه المعلومات كثيرة العدد ، و مكثفة الدلالة بشكل مثير للانتباه ، فالمعجم الفرنسي ( Le Petit Robert ) مثلا يحتوي على 47000 ألف مدخلا ، بينما يتوافر ( Le Petit Larousse ) على 70500 مدخلا معجميا .
3-المعلومات اللسانية و غير اللسانية:
إن المعلومات في المعجم تكون ذات طبيعة لسانية في الغالب الأعم، ما عدا الصور و الرسوم التي تمثل المعلومات غير اللسانية، و هي معقدة من حيث التركيب و البنينة .إن مادة المعجم ليست نصا حرا ، و لكنها برنامج بالمعنى التقني للكلمة ، إنها متتالية من المعلومات المنظمة و المصاغة بشكل شمولي و كلي ، على شكل بنية هرمية مزدوجة :
1)- بنية رئيسة على شكل قائمة بالمفردات أو المدخل المترتبة ترتيبا خاصا تمثل الهيكل الرئيس للمعجم.
2)- بنية ثانوية و هي المعلومات المقدمة عن المدخل ، و يمكن لمحتواها أن يتغير بحسب طريقة العرض التي يمكن أن تقترن بصورة موازية، تقوم بدور الشرح ،و تختزل مئات الكلمات .
إذن لبناء معاجم آلية، ينبغي استحضار ثلاثة أمور رئيسية و هي:
أ‌- الكمية الكبيرة و المعقدة من المعلومات .
ب‌- التنظيم النسقي و بنينة المعلومات .
ج- الفحص التوثيقي للنص المعجمي و مراجعته.
إن جمع المعلومات و المواد و إحصاءها في ضوء المناهج التقليدية، يتطلب عدة أفراد لهم كفاءة علمية عالية ، أو بالأحرى مؤسسات و معاهد ترتكز على شخصيات مرموقة و مهمة .في مقابل ذلك ،إن أهم ميزة في المعجم الحديث تتجلى في طابعه الجماعي ،على سبيل المثال ، المعجم الموسوعي الفرنسي ، الذي ظهر سنة 1960 ، يضم حوالي 163270 مادة معجمية ، من بينها أكثر من 40000 مفهوما اصطلاحيا ، و استغرق تحضيره سنوات عدة ،و شارك في إعداده فريق علمي و ثقافي رفيع المستوى أي ما يقارب 2000 فردا.
4-المعلوميات في خدمة المعاجم :
لقد ساعد التطور السريع الذي عرفته تكنولوجيا الحواسيب في الآونة الأخيرة على معالجة المعلومات غير العددية بأقل تكلفة و بأسرع ما يمكن من الوقت ، مما يتصل بالتخزين و البنينة و إنشاء الإرساليات / الرسائل اللسانية انطلاقا من قواعد مضبوطة و صارمة .
كيف نبني قاعدة بيانات معجمية للمفردات اللغوية بنوعيها البسيط والمركب موجهة لخدمة المعاجم الإلكترونية للغة العربية؟
تهدف المعلوميات إلى جمع المعلومات و حفظها في بيانات و معطيات مبنينة و استرجاعها .و في هذا الإطار طبقت تقنيات تخزين المعلومات و معالجة البيانات على بنوك توثيق المعلومات و حفظها ، و يمكن الإشارة في هذا المضمار إلى بنوك المعلومات المصطلحية المنتشرة في مناطق مختلفة من العالم العربي (باسم) بالمملكة العربية السعودية و(مكانز) الشركة العالمية للإلكترونيات بالقاهرة ،(المعربي) Lexar بمعهد الدراسات و الأبحاث للتعريب بالرباط .
تتوجه المعلومة المعجمية المبنينة المراجعة لخدمة تقنيات التخزين .لهذا فالحاسوب يساعد على تخزين الوحدات غير المستمرة و برمجة الذاكرة على المعلومة النحوية الأكثر أو الأقل تعقيدا مقترنة بوحداتها اللسانية ، و يتعرف عليها في معجم اللغة وفق برنامج المؤشرات النحوية وطريقة النطق أو الكلام، وأصول الكلمات (الإيتمولوجيا)، التاريخ و ا لتعريف والأمثلة. إن المعاجم الثنائية اللغة تمدنا بالمقا بلات الضرورية للمصطلحات العلمية و التقنية .في حين ينحصر دور المعاجم الأحادية اللغة في تزويد المستعمل بالمصطلحا ت ا لمعاصرة المرتبطة بكفا يته اللغوية .
5-المعاجم العربية مصدر المعلومة اللسانية׃
تتقسم المعا جم الأحادية اللغة إلى صنفين كبيرين وهما:
أ‌- المعا جم القديمة،وأهم وظيفة تضطلع بها هي القيام بدور الإحالة و المعيار اللساني كلسان العرب (ق14) وتاج العروس على سبيل الذكر لا الحصر.
ب-المعاجم الحديثة مثل متن اللغة لأحمد رضا والمعجم الوسيط. ويتميز هذا الصنف من المعاجم بطابعه الأدبي ،وبوصف الاستعمال اللغوي العربي من القرن الرابع الى القرن العشرين ، وبتوظيف واستعمال التقنية المعاصرة ، لكنه يفتقر إلى وسائط وصف وتفسير الوقائع اللسانية في العالم العربي.
في البداية، لابد من الوقوف عند الأدوات التي تطوع العربية للمعالجة الآلية من قبيل: الشفرة العربية الرومانية (2) والتي تمت صياغتها انطلاقا من نصوص مختلفة: القرآن الكريم ، النثر الكلاسيكي، النصوص المعجمية ، والنصوص المعاصرة (الكفاية اللغوية المعاصرة ) . وللإشارة ، فقد استوعبت هذه النصوص/ الشفرة جميع العمليات بشكل كاف ، وإن كنا لا نتوقع أن تكون مطلقة ، لأن التجربة الطويلة هي التي ستدفع إلى تطوير وبلورة الجزئيات.
فقد وقع اختيارنا التطبيقي على معجم لسان العرب لابن منظور ، لأنه نص معجمي شامل،و يقوم على نظام معجمي واضح، وقابل للدراسة والمعالجة بواسطة الآلة الحاسوبية.
6-الشفرة العربية الرومانية:
الشفرة العربية الرومانية (3) هي حصيلة تجربة مركز الأبحاث و التطبيقات اللسانية العربية ( CRAL ) ، قابلة للتطوير و البلورة فيما بعد. قديما حصروا الأبجدية العربية في 28 علامة ، بدون احتساب لام ألف (لا) . و تمثل هذه العلامات سواء في بداية الكلمة أو وسطها أو آخرها بأشكال مختلفة . على أن هذا النوع من التوظيف ، يرجع إلى طبيعة الكتابة العربية العادية السريعة، المتضمنة للأبجدية العربية بعد 94 ، ينضاف إلى هذا الرقم علامات أخرى : التاءان ( ت- ة) ، الألفان ( ا – ى ) ، الهمزة و مختلف أشكال رسمها : ئ و ؤ أ ء .بل إن القراءة تقتضي ذكر الحركات القصيرة ( فتحة – ضمنة – كسرة ) و تغييب حركة السكون، في مقابل الحركات القصيرة والسكون، التي لم يمثل لها في الأبجدية العربية، لأن القراءة تفرض التمييز بين الحركات الطويلة و الصامتتين ( و / ى ).
إذن، هل من الضروري، التذكير برسوم شكل الحروف من قبيل، الشدة، المدة، الوصلة، و التنوين... التي يتطلبها النص العربي المعاصر ؟ .
ليس من الطبيعي افتراض هذا العدد بمختلف علاماته على الكتابة العربية، باعتبار أن هذه الشفرة ذات خصائص لاتينية. و بناء على مبدأ الاقتصاد،فإن ما يهم النص العربي هو المعلومات الدالة ، بل لا ينبغي أخد بعين الحسبان الاختلاف ( الفرق ) الرمزي للعلامات ، و على العكس ، لا بد أن نميز التاء المربوطة من التاء الطويلة ، و أشكال رسم كتابة الهمزة عن الجزئيات الدالة .
7-الصوامت.
فيما يخص الأبجدية العربية الكلاسيكية ، هناك عدد من الصوامت و الجهيرات (= Sonantes ) ، لها مقابلاتها في اللغات الرومانية ، و لهذا فهي لا تطرح مشاكل على مستوى التشفير ، مما جعلنا ننقلها بحسب استعمالها اليوم ، يبدو أن الكل متفق عليه :
ب B س S ن N
ت T ف F ه H
ج G ق Q و W
د D ك K ي Y
ر R ل L
ز Z م M
على أن أغلب الصوامت معروف في الأبجدية العامة للغات الرومانية، و لكي ننقلها إلى العربية لا بد من صناعة شفرة.
إن نصيب الاعتباطية في هذه المواضعة كبير جدا ، لهذا سنعمل على انتقاء الرموز الأكثر شيوعا تفاديا للرموز المبهمة ، التي من المتوقع أن يلفظ بها وعي المستغرب اللساني ، و فيما يخص هذا الاختيار ، لا بد من استحضار الاعتبارات الرمزية و المعطيات الصوتية ( الفونتيكية) و شروط الشكل ( الرسم ) ، و الأعراف القديمة الخ .
رمزنا للصوامت المفخمة بتكرير الصامت البسيط على النحو الآتي :
إلى جانب ت T توجد ط
إلى جانب د D توجد ض
إلى جانب س S توجد ص
و انطلاقا من التشابه الصوتي ( َAnalogie phonétique ) وظفنا Z Z بالنسبة ل " ظ" و موازاة مع هذه الصوامت ( vélarisés ) ( اللهوية ) رمزنا للصوت الصفيري الحنكي الاحتكاكي "غ" ب RR ، وللصوت الصفيري الحلقي المهموس "ح" ب H H .
و فيما يتعلق بالصفيريات (= Spirantes ) بين الأسنانية ، فقد استعملت مثلها مثل الصوت الشجري "ش" ،أما الصوامت المضعفة فقد أوردناها كما كانت تستعمل في القديم : SH-DH-TH .
لقد دفعتنا بعض الأسباب المتعلقة بالمماثلة الرمزية إلى ضبط الهمزة – بوصفها صامتا مجهورا وشديدا في العربية الكلاسيكية – بالعلامة C ، و حسب رسوم كتابتها أوردناها كما يلي :
ئCY ؤ CW %C ءc
وبناء على هذا النقل ، قبلنا بترميز الصوت الحلقي المجهور (sonore ) "ع" ب "cc " ،إذ اخترنا للتاء المربوطة رمزا خاصا بها يمكن من دراسة T الصغيرة منعزلة عن T ت ، لا اعتبارات صوتية صرفية .
في الواقع نعرف أن التاء المربوطة يمكن أن تختزل باعتبارها صوتا تنفسيا (Aspiratoire ) وضعيفا، و هي على العموم لاحقة للتأنيث. و أخيرا لا بد من التفكير في العناصر و الأدوات الضرورية الممكن استعمالها في لوحة المفاتيح اللاتينية. كتبنا الصوت الرخوي اللهوي ( Spirante vélaire ) "خ" ب J الإسبانية، و إن كانت الx الإغريقية قادرة على الترميز لهذه الظاهرة . لكن فضلنا استعمال لها علامة D .
8– الحركات:
تنقسم الحركات في العربية إلى قصيرة وطويلة ،يمكن التمثيل لها على النحو التالي :
ا A % و U W I Y ي
-- A U - I --
رمزنا إلى الألف المذكورة، و الأكثر ترددا في القرآن ب: P% (ألف صغيرة ) و عند ما يتعلق الأمر بالألف المقصورة ( القصيرة ). فالأمر يبدو معقدا للغاية ، الشيء الذي دفعنا إلى تمثيلها بالحركة E ، و مثل هذا الحل لا يخلو من عمق صوتي (فونتيكي ) بالكاد .أما السكون(الحركة الصفر) أو عدم الحركة ، فقد مثلنا له بمربع صغير  في لوحة مفاتيح الآلة المستعملة .و أما التنوين ، يمكن أن يدرج ضمن الصوامت ، و بما أنه يلحق آخر الصوامت ضمن شروط معينة ،آثرنا تصنيفه في إطار الحركات ، ثم مثلنا له ب " N " مسبوقة بحركة :
- IN - UN - AN


9 - علامات إضافية (تكميلية ):
يظهر أن الصوامت أو المصوتات كافية للقراء ة السليمة في العربية. في حين نجد بعض العلامات تبدو ضرورية بالنسبة للقراءة السهلة و السريعة مثل الشدة و هي تضعيف لصامت ، يمثل لها بالنجمة * . و لإنتاجها من جديد في النص لا ينبغي تمييز التضعيف الجذري كما في سد ، من التضعيف الناتج عن المماثلة التأخيرية أو الرجعية الحاصلة في الصوامت الشمسية المسبوقة بالتعريف مثل : ألسهل . و غني عن البيان ما بين هاتين الحالتين المتباعدتين من فرق، و هناك حالات أخرى للتضعيف وعرة الحل مثل:
اضطرب - عدت
حيث التضعيف صوتي ( فونتيكي ) بالكاد ، و ليس شكلي ، على الرغم من كوننا نفضل معالجة مجموع المشاكل في إطار بحث موجه .
و انطلاقا من قانون اقتصاد الرموز ، وضعنا للوصلة نفس العلامة المعطاة للهمزة الأولى C% .في حين وضعنا الهمزة مخالفة للسكون .أما المدة فهي رسم يرد في الوقائع اللسانية المختلفة، يمثل لها بالرمز آ ( الهمزة ممدة شكل الألف ) ، و للحركة الطويلة ( الفتحة الطويلة ) علامة هي : â و من خلال الشفرة مثلنا لها ب C% A% . و للإشارة فالرسم القرآني للمدة يتطابق مع هذا التحليل، والدليل على ذلك أن ءامنوا ، حيث الرمز ~ يلعب دورا آخر في القرآن ،إنه للاختصار و الإيجاز : يس ، ص ، المص ، ربي ، بني إسرائيل. و في الحالتين معا فقد مثلنا له بخط صغير – .و للإشارة ،فهذا مجرد جزء من الرسم القرآني و باعتبار النص القرآني كتابا مقدسا ،فهو يتطلب مجموعة من الرموز و العلامات التي تستوعب خصائصه الشكلية : معايير النقط ، و التجويد ، المؤشرات الفونتيكية . و إلى جانب هذا، هناك نصوص تحتفظ بقيود التطريز، و تفرض بعض العلامات المنسجمة مع الإيقاع الشعري.
الشفرة العربية الرومانية: الحركات الطويلة
أ % ش SH ا % A
ى E صSS و UW
ء C ض DD ي LY
أ% C طTT العلامات التكميلية
ؤCW ظ ZZ - A
ئCE ع GG - U
ب B غ RR - I
ت T ف F - 
ة PT ق Q - N
ج G ك K - *
ح HH ل L __
خ J م M آc%
د D ن N
ذ DH ه H ء ( هذا) P%
ر R و W
ز Z ي Y
س S
10 - النظام المعجمي للغة العربية:
تتحدد بنية المعجم العربي في عائلات وأسر مورفولوجية تنحدر من أصل اشتقاقي هو المعبر عنه عادة بالجذر . ونظريا، يتحقق الاشتقاق بشكل مباشر انطلاقا من الجذر، وبشكل غير مباشر، انطلاقا من المشتق.وهكذا نصنف المشتقات ونرتبها من خلال علاقتها بالجذر- الأصل(الأم). وبموجب ذلك حصلنا على المشتقات الأولية(primaires= ) المرتبطة مباشرة بالجذر، والمشتقات الثنائية(Secondaires= ) المنبثقة عن المشتقات الأولية. والمشتقات الثلاثية (tertiaires =) المصاغة انطلاقا من الثنائيات الخ.
يمكن تمثيل هذه العملية النظرية في ضوء الاشتقاق والنظام المورفولوجي للغة العربية، على الرسم الهرمي الآتي: ينقسم المعجم العربي على المستوى النحوي، إلى ثلاثة أقسام: فعل ،اسم، حرف أو أداة.و انطلاقا من نظام الاشتقاق (التوليد) والمقولة النحوية للكلمة، سنعالج المعجم العربي في مستويات ثلاثة:
1 – مستوى الفعل المجرد: الفعل الثلاثي، الأداة، الفعل الرباعي، الفعل المزيد.
2 – مستوى المشتقات الفعلية.
3 – مستوى المشتقات الاسمية .
في مرحلة أولى سنتوقف عند الأفعال المجردة ،باعتبارها أصولا نظرية لعائلات مورفولوجية.و يبدو هذا النوع من الاختيار صائبا .إذ يتيح إمكانية تشغيل مدونة الجذور العربية. إن التحليل الكافي لهذه المدونة والتوارد الميكانيكي، طرحا جملة من العراقيل في وجه الباحثين مما يتصل بالترتيب المعجمي أو الترتيب الصوتي(الفونتيكي)، والتى تمثل في سائر الأحوال مجال انشغال اللسانيات العربية والسامية. على أن أي جهد يروم الصوتيات العربية، هو في حد ذاته يمس صميم اللسانيات الصوتية السامية والعامة.


1.10- أسباب اختيار اللسان:
إن اختيار مدونة الأفعال العربية، ينطلق من فكرة دراسة اللغة العربية من وجهة نظر مورفولوجية. ويبدو سهلا ومنطقيا دراسة المورفولوجيا قبل التركيب. فقد اخترنا فحص النصوص المعجمية، ذلك أن المعجمية هي دراسة للوحدات المعجمية والعلاقات والروابط الممكن قيامها فيما بينها. إذن، هذا النوع من النصوص يشكل الموضوع الرئيسي لأبحاثنا [ 4 ].
يعتبر لسان العرب لابن منظور أحد النصوص المعجمية العربية القديمة ، يتميز بكثافة المعلومات وشموليتها، فهو أضحم معجم في اللغة ،ومن مميزاته التطبيقية تصنيفه الألفبائي الذي لا يتطابق مع الترتيب الالفبائي المعاصر، حيث ينطلق من الصامت الختامي، مما يسمح بدارسته على نحو أمثل، بخلاف المعاجم الأخرى كجمهرة اللغة العربية لابن دريد أو التهذيب للأزهري.
2.10-المعلومات و الشفرة :
بعدما حددنا أسباب الاختيار، نقوم بتشفير المعلومات الخاصة بكل وحدة معجمية، و التي بعضها أولي (كرقم الترتيب، الصنف النحوي، عدد الحروف، و البعض الآخر معقد (مركب)، توصلنا إليه من خلال المشاكل اللسانية[5]: تناوب الواو و الياء في الأفعال الجوفاء، كالتبدل الصامتي ، و مطابقة المصوتات للماضي و المضارع الخ .إذن انتقينا مصوت [ أو مصوتات ] الماضي و المضارع، و البدائل الخ.
و على هذا الأساس ،أنشأنا شفرة مطابقة لهذه المعطيات ، يمكن استعمالها في لوحة المفاتيح العددية ( الرقمية ) و الألفبائية للآلات المثقبة ( Performatrices ) .
و فيما يلي الترقيم الوارد في الشفرة على شكل جدول :
3.10- تحليل رموز الشفرة:
الخانة: 1-5: تشير إلى المرجع المدروس، و المختصر للمعلومات المقدمة.
مثل : ل : لسان العرب ، ت : تاج اللغة ،إلخ .
الخانة : 6-10 : رقم الترتيب الألفبائي المعاصر للمواد المعجمية ( الأفعال المجردة و المزيدة الكلمات المسكوكة ، و خارج الاستعمال ،الأدوات الخ
الخانة 11-14 : رقم المشتقات مقرونة ماديا برؤوس المواد ( مصدر الصيغ الفعلية ،الأسماء ،الجموع السالمة و المكسرة الخ ) .
الخانة 15: رقم الحروف ( الصوامت و المصوتات الطويلة ).
0 = أداة أو اسم أكثر من صامتين .
1 = أحادي.
2 = ثنائي .
3 = ثلاثي.
4 = رباعي .
الخانة 16-17: رقم اصطلاحي للصيغ الفعلية:
00 = صيغة غير فعلية .
01 = صيغة أولي .
08 = صيغة ثامنة .
.. = صيغة (ن) .
الخانة : 18-20 : صوائت الأفعال الثلاثية :
3 = فتحة (a )
6 = ضمة (u)
9 = كسرة ( i)
18 : الصائت الثاني .
19 : الصائت الثاني .
20 : الصائت الثالث .
الخانة 21-29 : صوائت الثلاثي في المضارع:
3 = فتحة (a)
6 = ضمة (u)
9 = كسرة ( i)
الخانة : 21-23 : صوامت المضارع المطابقة للصائت الثاني من الخانة 18 .
الخانة : 24-26 : صوائت المضارع المطابقة للصائت الثاني من الخانة 19 .
الخانة : 27-29 : صوائت المضارع المطابقة للصائت الثاني نمن الخانة 20 .
الخانة : 30 : بدائل ( متغيرات ) :
0 = ليست هناك بديلة .
1= بدائل صامتية .
1- = بديلة صائتية للشخص المتكلم و المخاطب مثل
تر يتر تررت .
2- = بديلة الواو و الياء للشخص المتكلم و المخاطب مثل :
ثلا يتلو و تليت .
ملحوظة: يرافق رقم البديلة كتابة الكلمة.
الخانة : 31 : الكتابة الصوتية بحسب الشفرة العربية الرومانية .
الكتابة المزدوجة الموضع: لحرف واحد خانتان، و للفراغ نقطة.
11-مشاكل و حلول :
تبين لنا من خلال الوقفات الأولى عند مواد اللسان، أنه يطرح مجموعة من الصعوبات تتعلق أساسا بالترتيب المطبق عليه، اقترحنا لها بعض الحلول نوردها كما يلي:
- إن ترتيب اللسان ترتيبا أ لفبائيا بحسب الأواخر مهم و أساسي بالنسبة للشعراء في نظم القوافي ، و هو يتعارض مع الترتيب الألفبائي المعاصر ( بحسب الأوائل ) .و لعل الهدف من هذا التعديل هو تسهيل عملية تكوين الملف و الأعمال الأخرى الخاصة بالقوائم .
- حددنا المعلومات الواردة في اللسان، و عندما يتعلق الأمر بخطأ ما في حركة المضارع، فإننا نعود توا إلى الصحاح و القاموس المحيط و تاج اللغة، قصد تصويب الخطأ الخ.
- صنفنا الألف في الأفعال الجوفاء أو المهموزة حسب أصلها في اللسان ،و عندما نصادف خطأ في المعلومات الواردة، فإننا نستند إلى الترتيب المشار إليه أدناه، و لاسيما عندما تختلط الهمزة بالألف مثال :
دعا ____ دعو
أها تظل أها .
- إن قلب الألف في بعض الأفعال إلى واو أو باء ، قد أكثر من عدد مداخل الملف ، مقارنة مع مداخل اللسان ،لأننا عزلنا الصيغة الواردة في الواو ، عن صيغة الياء .
جاءت التاء المربوطة على شكل الهاء مثل : إرة
- الحجج الواردة في اللسان هي جزء منه .
- أسماء الإعلام و الدخيل:
لقد فكرنا في بعض الأحيان وضع أسماء الأعلام و الدخيل حينا،ثم فصلها عن الشرح حينا آخر،و رغم إيجابيات هذا الحل، فإن تحقيقه في الوقت الراهن صعب المنال بالنسبة للأبحاث الإتيمولوجية العربية .ومن جهة أخرى، لم نطرح كمبدأ للبحث فصاحة الأصل المعجمي، بقدر ما اقترحنا صياغة للمعجم العربي من جديد في ضوء الأدوات المعلوماتية. وعلاوة على ذلك، يبدو أن السلوك اللغوي تجاه العناصر الأجنبية و ظواهر الاقتراض، يمكن أن تقدم معلومات حول توظيف و اشتغال اللغة.
- الكلمات الثنائية مثل أب، أخ، يد، فقد تم دمجها في المواد المعجمية، وذلك بذكرها مع الثلاثي تارة، و مع الرباعي تارة أخرى بطريقة أشبه ما تكون نسقية.
12- خاتمة:
تطرقنا في هذه الورقة إلى وضعية المعاجم العربية القديمة والحديثة،والإمكانيات التقنية والإجرائية التي توفرها التقانة الحديثة للسانيات عموما ،وللعلاج الآلي للغات الطبيعية على وجه الخصوص،مما يسمح ببناء معاجم عصرية على أسس ومرتكزات لسانية وحاسوبية صارمة في الآن نفسه.وهكذا فالوضع الحالي للغة الضاد،يفرض أكثر من أي وقت مضى التفكير جديا في بناء معاجم إلكترونية للغة العربية على غرار اللغات الأجنبية،قصد تقليص هوة الفجوة الرقمية بين المعاجم العربية و المعاجم الأجنبية.



13- الهوامش:
1- محمد الحناش : مشروع نظرية حاسوب – لسانية في بناء معاجم آلية للغة العربية مجلة التواصل اللساني مج 2 ، سنة 1990 ، ص402.
2- هذه الشفرة هي حصيلة تجربة مركز الأبحاث و التطبيقات اللسانية العربية ( CRAL ) .

3- ليست هذه المحاولة الأولى من نوعها ،بل هناك محاولات أخرى ،لا تقل أهمية عن هاته ، مثل ما قامت به بعض المؤسسات العربية أو الشركات الأجنبية.

4- مثل أطروحة السلك الثالث في اللسانيات الحاسوبية العربية 1999،أو الدكتوراه:توليد الأسماء من الجذور الثلاثية الصحيحة:مقاربة لسانية حاسوبية قيد الإعداد .
5- - أنظر نشرة م.أ.ت.ل ، ع 18،1972،
14- المراجع المعتمدة:
أ- المراجع العربية:
- اللغة العربية والحاسوب: قراءة سريعة في الهندسة اللسانية د.محمد الحناش ،مجلة التواصل اللساني، مج 9،س 2003.
- توليد الأسماء من الجذور الثلاثية المعتلة: مقاربة لسانية حاسوبية، ذ.عمر مهديوي دكتورة السلك الثالث 1999
- توليد الأسماء من الجذور الثلاثية الصحيحة : مقاربة لسانية حاسوبية، ذ.ع. مهديوي دكتوراه قيد الإعداد
- مشروع نظرية حاسوب لسانية في بناء معاجم آلية للغة العربية، د.الحناش محمد ،مجلة التواصل اللساني ع 2،س 1990
ب- المراجع الأجنبية:
- L’alternance vocalique dans les racines concaves, W.Attalah et Y.Ayach, Centre de recherches et d’Applications Linguistiques, Université Nancy 2, no18, 1972.
-An exploitation of Computational Arabic Morphology, Salah.R.J.Al-Najem.A PhD THEISIS IN Computational Linguistics, University of Essex England, August 1998.
- La binarité en Arabe Classique, Les verbes quadrillitéres, W.Attalah et Y.Ayach, C.R.A.L .Nancy 2 ; 1961.
- Dictionnaires électroniques et Analyse Automatique de textes ; Max Silberztein, Masson ; 1993.
-Introduction Aux Recherches Linguistiques Arabes Sur Machine ; W.Attalah et Y.Ayach ; C.R.A.L.no 23 ; 1973.



#عمر_مهديوي (هاشتاغ)      



اشترك في قناة ‫«الحوار المتمدن» على اليوتيوب
حوار مع الكاتب البحريني هشام عقيل حول الفكر الماركسي والتحديات التي يواجهها اليوم، اجرت الحوار: سوزان امين
حوار مع الكاتبة السودانية شادية عبد المنعم حول الصراع المسلح في السودان وتاثيراته على حياة الجماهير، اجرت الحوار: بيان بدل


كيف تدعم-ين الحوار المتمدن واليسار والعلمانية على الانترنت؟

تابعونا على: الفيسبوك التويتر اليوتيوب RSS الانستغرام لينكدإن تيلكرام بنترست تمبلر بلوكر فليبورد الموبايل



رأيكم مهم للجميع - شارك في الحوار والتعليق على الموضوع
للاطلاع وإضافة التعليقات من خلال الموقع نرجو النقر على - تعليقات الحوار المتمدن -
تعليقات الفيسبوك () تعليقات الحوار المتمدن (0)


| نسخة  قابلة  للطباعة | ارسل هذا الموضوع الى صديق | حفظ - ورد
| حفظ | بحث | إضافة إلى المفضلة | للاتصال بالكاتب-ة
    عدد الموضوعات  المقروءة في الموقع  الى الان : 4,294,967,295





- 3 علامات تحذيرية قبل حدوث النوبة القلبية.. اعرفها
- أمراض خطيرة يشير إليها ارتفاع مستوى الهيموغلوبين
- أزمة منتصف العمر.. اعرف أعراضها وأسبابها ونصائح للتعامل معها ...
- هل مرضى الصرع أكثر عرضة للإصابة بالاكتئاب؟
- التهاب الكبد الحاد عند الأطفال.. الأسباب وطرق العلاج
- كيف تساعد التمارين الرياضية فى تقليل مخاطر الإصابة بالسرطان؟ ...
- من لون بشرتك اعرف مرضك.. السكر والبهاق أبرزها
- -تعد على بيت الله-.. مدرسة عالمية -تختلس- الكهرباء والمياه م ...
- أسهل طريقة أيس كريم في دقايق.. طريقة عمل الآيس كريم الطبيعي ...
- أزمة منتصف العمر.. اعرف أعرضها وأسبابها ونصائح للتعامل معها ...


المزيد.....

- التصدي للاستبداد الرقمي / مرزوق الحلالي
- الغبار الذكي: نظرة عامة كاملة وآثاره المستقبلية / محمد عبد الكريم يوسف
- تقنية النانو والهندسة الإلكترونية / زهير الخويلدي
- تطورات الذكاء الاصطناعي / زهير الخويلدي
- تطور الذكاء الاصطناعي بين الرمزي والعرفاني والعصبي / زهير الخويلدي
- اهلا بالعالم .. من وحي البرمجة / ياسر بامطرف
- مهارات الانترنت / حسن هادي الزيادي
- أدوات وممارسات للأمان الرقمي / الاشتراكيون الثوريون
- الانترنت منظومة عصبية لكوكب الارض / هشام محمد الحرك
- ذاكرة الكمبيوتر / معتز عمر


المزيد.....


الصفحة الرئيسية - تقنية المعلمومات و الكومبيوتر - عمر مهديوي - مدخل إلى العلاج الآلي للمعجم العربي