Google Drive يقدّم خدمة OCR مدمجة منذ سنوات: ارفع ملف PDF أو صورة، اضغط بزر الفأرة الأيمن، ثم “افتح باستخدام Google Docs”، وستجد النص مستخرجاً. الخدمة مجانية، سهلة، ومتاحة للجميع. لكن إذا جرّبتها على كتاب عربي مصوّر، ستكتشف بسرعة أن النتيجة غالباً مخيّبة للآمال.
في هذه المقالة، نشرح لماذا يفشل Google Drive في معالجة العربية، وما البدائل التي تعطي نتائج أفضل.
المشكلة الأولى: التشكيل يضيع
Google Docs OCR يستخرج النص العربي بدون حركات في معظم الحالات. حتى لو كان الكتاب الأصلي يحتوي على تشكيل كامل (كتب الشعر، الكتب الدينية، الكتب التراثية)، النتيجة تأتي بدون فتحة ولا ضمة ولا كسرة.
لماذا هذا مهم؟ لأن التشكيل في العربية ليس زينة — هو يحمل معنى. كلمة “كَتَبَ” (فعل ماضٍ) و”كُتُب” (جمع كتاب) تُكتبان بنفس الحروف بلا تشكيل. أي إزالة للتشكيل تُفقد القارئ معلومات صرفية ودلالية مهمة، خصوصاً في النصوص الكلاسيكية.
المشكلة الثانية: الصفحات المزدوجة (Two-page spreads)
كثير من الكتب العربية المصوّرة تحتوي على صفحتين على ورقة واحدة (صفحة يمنى وصفحة يسرى). Google Docs لا يدرك هذا الترتيب، فيقرأ النص بشكل خاطئ — أحياناً يخلط بين السطور، وأحياناً يقرأ من اليسار إلى اليمين بدل العكس.
النتيجة: الفقرات تأتي مفكّكة، والجمل غير مكتملة، وقد تجد نفسك تقرأ نصف جملة من صفحة وتكملها من صفحة أخرى.
المشكلة الثالثة: الخطوط القديمة
الكتب العربية التراثية مطبوعة بخطوط قديمة (نسخ، ثلث، رقعة بأشكال متنوّعة)، وأحياناً بدقّة طباعة منخفضة. نماذج OCR العامّة مثل Google Vision لم تُدرَّب على هذه الخطوط بشكل كافٍ. النتيجة:
- خطأ في الحروف المتشابهة (د/ذ، ر/ز، س/ش، ح/خ/ج)
- حذف نقاط الإعجام (ب تصبح ت أو ث، ف تصبح ق)
- قراءة الكلمات المتّصلة كحرف واحد طويل
في تجربتنا على كتب من القرن العشرين (دار الهلال، دار المعارف)، Google Docs أعطى نسبة خطأ تقارب 25-30% — أي ربع النص تقريباً يحتاج تصحيحاً يدوياً.
المشكلة الرابعة: لا تصحيح آلي
Google Docs يستخرج النص فقط. لا يوجد أي طبقة تصحيح مبنية على معرفة اللغة العربية. أخطاء الـOCR الشائعة (مثل قراءة “العلم” كـ”العلر”) تبقى كما هي. إذا أردت نتيجة قابلة للقراءة، عليك تصحيحها يدوياً.
البديل: أدوات مصمَّمة للعربية
نسّق أداة مجانية مبنية خصّيصاً للنصوص العربية المصوّرة. الفروقات الجوهرية:
١. حفظ التشكيل نسّق يستخدم نماذج لغوية بصرية حديثة (Vision-Language Models) تحافظ على الحركات في النص الأصلي.
٢. معالجة الصفحات المزدوجة نسّق يكتشف الصفحات المزدوجة تلقائياً ويقسمها بالترتيب الصحيح (اليمنى أوّلاً، ثم اليسرى — كما يقرأ العربي).
٣. طبقة تصحيح عربية مخصّصة بعد استخراج النص الخام، نسّق يمرّره عبر مصحّح إملائي مبني على قاموس عربي ضخم (أكثر من ١١ مليون كلمة)، فيُصلح أخطاء الـOCR الشائعة قبل أن تصل إليك.
٤. الإخراج كـ EPUB أو نص خام بدل نص مفكّك في Google Docs، تحصل على ملف EPUB منظَّم بفصول، أو ملف نص خام نظيف للاستخدام في تطبيقات أخرى.
متى يكفي Google Drive؟
Google Drive OCR مقبول إذا كنت تتعامل مع: - نص واضح بخط حديث - صفحة واحدة (لا spreads) - لا تحتاج تشكيلاً - تقبل بمراجعة يدوية للنص
إذا كان أي من هذه الشروط لا ينطبق، فأنت تحتاج إلى أداة متخصّصة.
جرّب بنفسك
أفضل طريقة لمقارنة الأدوات هي التجربة المباشرة. خذ صفحة واحدة من كتاب عربي تملكه، جرّبها على Google Docs، ثم جرّبها على نسّق. الفرق سيكون واضحاً خصوصاً إذا كان الكتاب فيه تشكيل أو خط قديم.
نسّق مجاني، بدون تسجيل، وبدون رفع بياناتك إلى أي خدمة طرف ثالث.