بررسی زبان فارسی در اینترنت

بررسی زبان فارسی در اینترنتReviewed by گروه آموزشی F1 on Nov 11Rating: 5.0

مقیاس تولید محتوای وب به زبان فارسی در برابر دیگر زبان‌ها، بسیار بیش‌تر از مقیاس فارسی زبانان به انسان‌های استفاده کننده از زبان‌های دیگر است. همین موضوع زبان فارسی را در اینترنت دستخوش تغییراتی کرده است که لازم است تا صاحبان امر و متخصصان زبان فارسی و زبان‌های برنامه‌نویسی وب با دیدی علمی‌تر به آن نگاه کنند.

 

آغاز وب فارسی

گسترش زبان فارسی در وب، با سایت‌هایی نظیر پرشین‌بلاگ که قابلیت ایجاد وبلاگ فارسی را برای کاربران فراهم می‌کردند، آغاز شد.

زمانی که وبلاگ‌نویسی به جامعه‌ی فارسی زبان عرضه شد و زبان فارسی را از انحصار چت‌روم‌ها و تالارهای گفتگو خارج کرد، تجربه‌ی آن به عنوان یک پدیده‌ی جدید، برای مردم و خصوصاً مشتاقان فناوری بسیار هیجان انگیز بود. تا آن جا که وبلاگ‌نویسی به نشانی از فرهیختگی و پوزیشن اجتماعی تبدیل شد و افرادی که وبلاگ‌نویسی را شروع کرده‌بودند، آن را به دیگران هم توصیه می‌کردند.

این موج بعدها با بلاگفا و سایت‌های دانشگاهی تکمیل شد.

در ابتدا این افراد فرهیخته‌ی جامعه بودند که مالکان وب فارسی به شمار می‌رفتند؛ اما رفته رفته با عمومیت پیدا کردن کامیپوترهای خانگی (موسوم به PC) و اینترنت، کاربری آن از انحصار فرهیختگان جامعه خارج و بخش قابل توجهی از آن در دست افراد غیردانشگاهی قرار گرفت. تا آنجا که امروزه می‌کودکان و دانش‌آموزان دوره‌ی ابتدایی هم به فراخور حالشان از اینترنت استفاده می‌کنند. (به نقل از وبلاگ شخصی مدیر بلاگفا؛ علیرضا شیرازی)

ایرانیان جزو اولین کشورهایی بودند که به سمت راه‌اندازی سرویس‌های بومی ارایه‌ی خدمات وبلاگ‌نویسی رفتند. بعضی از سرویس‌های جهانی هستند که وبلاگ‌نویسی را برای اکثر زبان‌های دنیا ارایه می‌کنند؛ مانند وردپرس یا بلاگر. طبیعتاً در چنین سرویس‌هایی، سازگاری با زبان مورد نظر چندان مطلوب نخواهد بود. در مقابل این سرویس‌ها، سرویس‌های بومی قرار دارند. کشور مبدأ و مقصد این سرویس‌ها یکی است و برنامه‌نویسان آن، آن را مناسب با زبان کشور خود برنامه‌ریزی می‌کنند. چین در بومی سازی سرویس های اینترنتی در جهان پیشتاز است. نمونه‌ی این مسأله در کشور ما موتور جستجوگر یوز، سرویس وبلاگ بلاگفا، سرویس ایمیل ایران میل و… است. محیط فارسی و سادگی کار با یک سرویس بومی وبلاگ‌نویسی در ایران، گام بلندی بود برای تضمین ادامه و رواج وبلاگ نویسی فارسی.

 

ایران و مشکل هزاره

سال‌ها پیش؛ در آستانه‌ی آغاز سال ۲۰۰۰ میلادی یکی از بزرگ‌ترین بحران‌ها و دغدغه‌های دنیای تکنولوژی و اینترنت شکل گرفت. این مشکل آن چنان بزرگ بود که کشورهای جهان برای حل آن، بودجه‌های چند میلیون دلاری اختصاص دادند!

اما این مشکل چه بود؟

مسأله ساده بود! در بسیاری از نرم افزارها و در هنگام ثبت یا محاسبه‌ی تاریخ، تنها دو رقم آخر سال نمایش یا محاسبه می‌شود و با شروع هزاره یا سده‌ی جدید، دو رقم آخر سال صفر (۰۰) می‌شد که معلوم نبود دقیقاٌ اشاره به چه سالی دارد؟ در بسیاری از نرم‌افزارها (حتی در نرم افزار ‌‌BIOS مادربردها) در شروع هزاره‌ی جدید، تاریخ به سال ۱۹۰۰ یعنی زمان پیشفرض آن ها، زمان آغازگر دوره باز می گشت (برای درک بهتر یک تسبیح را فرض کنید که دانه‌های آن تمام شده و حالا باز شمارش دانه‌های آن از اول شروع می‌شود). این مشکل «باگ هزاره» یا به اختصار «Y2K» نامیده شد. قضیه وقتی پیچیده‌تر شد که مشخص شد در بسیاری از نرم‌افزارها یا سخت‌افزارهای آن زمان حتی حافظه‌ی لازم برای نگهداری یا اضافه کردن دو رقم اول (یعنی قرن) وجود ندارد. قابل پیش‌بینی بود که چنین مشکلی می‌تواند باعث خطا در بسیاری از نرم‌افزارها و از کار افتادن کامپیوترها شود. به هر حال پس از صرف میلیون‌ها دلار و ساعت‌ها بررسی و اصلاحات نرم‌افزاری و سخت‌افزاری، Y2K بدون مشکل جدی سپری شد.

حالا زبان فارسی نیز با نزدیک شدن به سال ۱۴۰۰ شمسی و صفر شدن دو رقم آخر تاریخ در آستانه‌ی چنین مشکلی است. سال ۹۵ شمسی رو به اتمام است و تنها کمتر از چند سال دیگر برای حل این مشکل فرصت باقی است!

دقت داشته باشید که تاریخ شمسی در اینترنت (منظور زبان‌های برنامه‌نویسی اینترنت است)، بانک‌های ایران، نرم‌افزارهای مالی و حسابرسی و… مانند تاریخ میلادی به صورت DD/MM/YY نوشته می‌شود. تغییر تاریخ‌دهی و حرکت به سوی YYYY/MM/DD می‌تواند تا حدودی این مشکل را حل کند.

 

حروف فارسی، کدپیچ‌ها و یونیکدها در برنامه‌نویسی وب فارسی

سایت‌های خبری، بخش مهمی از محتوای فارسی منتشر شده در اینترنت را به خود اختصاص داده‌اند. محتوای سایـت‌های خبری طبیعتاً از اهمیت زیادی برخوردار است. علاوه بر دسترسی به اخبار روز، مقالات و تحلیل های مرتبط با وقایع روز و دسترسی به محتوای آرشیو شده‌ی این سایت‌ها نیز مفید و گاهی لازم است. با توجه به رایج بودن استفاده از موتورهای جستجو برای دسترسی به اخبار قدیمی‌تر، لازم است که سایت‌های خبری از شیوه‌ای یکسان و استاندارد برای انتشار محتوای متنی خود استفاده کنند. سال‌ها است که یونیکد و کدپیچ UTF-8 به عنوان بهترین انتخاب جهت نمایش و انتشار محتوای فارسی در صفحات وب استفاده می‌شود و بسیاری از سایت‌های خبری نیز از این کدپیچ استفاده می‌کنند؛ اما متأسفانه هنوز سایت‌های خبری مهمی نیز هستند که از کدپیچ Windows-1256 – که در واقع کدپیچ مناسب برای انتشار محتوای عربی با قابلیت پشتیبانی از برخی حروف فارسی (و آن هم نه همه‌ی حروف!) است – استفاده می‌کنند. البته استفاده از کدپیچ Windows-1256 صرفاً بر مبنای عدم آگاهی صاحبان سایت‌ها نبوده و با توجه به پشتیبانی ضعیف‌تر در برخی زبان‌ها و نرم‌افزارهای قدیمی مرتبط با توسعه‌ی نرم‌افزارهای تحت وب از یونیکد، زمانی استفاده از کدپیچ Windows-1256 رایج بوده است؛ ولی وقت آن رسیده است که مدیران فنی این سایت‌ها همت کرده و از کدپیچ مناسب‌تری برای انتشار محتوای فارسی استفاده کنند.

اگرچه ظاهراً نمایش متون فارسی در این کدپیچ (یعنی windows-1256) بدون اشکال است؛ اما برای مثال در این کدپیج برای حرف «ی» فارسی، صورتی در نظر گرفته نشده است و در زمان ثبت اطلاعات یا در متن HTML کد «ي» عربی به جای حرف «ی» فارسی ثبت (احتمالاً) و نمایش (قطعاً) داده می شود.

نکته بسیار مهم دیگر استفاده از «ي» و «ك» عربی به جای «ی» و «ک» فارسی است. لازم به یادآوری است که این دو حرف نه تنها در شکل و نمایش با دو حرف فارسی معادل خود تفاوت دارند؛ بلکه ثبت و نمایش آن‌ها با کدهای متفاوتی صورت می‌گیرد. (کد معادل «ی» فارسی ۱۷۴۰ و برای «ي» عربی ۱۶۱۰ و کد معادل «ک» فارسی ۱۷۰۵ و برای «ك» عربی ۱۶۰۳ می باشد.) این تفاوت به معنای تفاوت در ثبت اطلاعات، ایندکس سازی و جستجو است و از لحاظ فنی جستجوی کلمه ای مانند «کرمانی» با استفاده از حروف فارسی و «كرماني» با حروف عربی مشابه نبوده و می‌تواند نتایج متفاوتی داشته باشد. ممکن است این مسأله در جستجوگر داخلی سایت در نظر گرفته شده باشد یا می توانیم امیدوار باشیم که جستجوگر گوگل نیز که مدتی است نتایج مشابهی برای جستجو عباراتی با این حروف نشان می‌دهد، همچنان از این امکان خود پشتیبانی کند؛ اما همچنان در بسیاری از سایت‌ها و جستجوگرها این مسأله وجود دارد. این مشکلی بسیار رایج در اکثر سایت‌های خبری است؛ به طوری که گاهی یک خبر با حرف «ی» و «ک» فارسی و خبر دیگری با «ي» و «ك» عربی ثبت شده است.

همه ی این ها در حالی است که مسؤولین فنی و طراحان سایت‌ها می‌توانند با تغییر کوچکی در نرم‌افزار سایت و در زمان ثبت داده (data) در بانک اطلاعاتی سایت (database)، این مشکل را حل کنند. جهت یکسان‌سازی کافی است، هنگام درج محتوای فارسی، حروف «ك» و «ي» عربی متن با معادل فارسی آن جایگزین شوند. خوشبختانه این کار در تمام زبان‌های برنامه‌نویسی مرسوم با یک یا چند خط کد امکان‌پذیر است.

سایت‌های خبری ایرانی نیز که نسخه‌ای عربی داشته و اخبار خود را به زبان عربی نیز منتشر می‌کنند، لازم است به این نکته دقت داشته باشند و از حروف «ك» و «ي» عربی در متن اخبار نسخه‌ی عربی خود استفاده کنند. استفاده از شکل فارسی این حروف در یک متن خبری به زبان عربی، می‌تواند مشکلاتی همچون محدودیت دسترسی کاربر عربی (در زمان استفاده از جستجوگرها) به نسخه عربی اخبار سایت‌های ایرانی ایجاد کند.

مشکل خبرگزار‌ی‌های رسمی در استفاده از حروف فارسی، تنها به این مورد ختم نمی‌شود. بسیاری از فارسی‌نویسان اینترنت، هنوز از وجود کاراکتری به نام «نیم‌فاصله» آگاهی ندارند.

برای مثال، کلمه‌ی «سایتها» را در نظر بگیرید. وقتی که روی آن دوبار کلیک می‌کنید، کل واژه (همراه با «ها») آبی می‌شود. این بار «سایت ها» را در نظر بگیرید و این کار را دوباره انجام دهید. نتیجه متفاوت خواهد بود. درست ترین شیوه‌ی نگارش این واژه، استفاده از نیم فاصله است: «سایت‌ها». با دو بار کلیک بر روی این کلمه، کل آن آبی (HighLight) می‌شود. این بدان معنی است که ضمن این که دستور زبان فارسی را رعایت کرده‌ایم و علامت جمع را جدا از کلمه نوشته‌ایم، منظور خود را در قالب تنها یک کلمه به سایت معرفی کرده‌ایم. این کار، نتایج جستجوی بهتری را در بر خواهد داشت.

در کنار این مسأله، اعداد عربی را نیز در نظر بگیرید. اعداد فارسی صرفاً این کاراکترها هستند:

۰…۱…۲…۳…۴…۵…۶…۷…۸…۹
اما بعضاً می‌بینیم که اعداد مشابه زیر جایگزین اعداد بالا می‌شوند که اصلاً مناسب نیست:

اعداد عربیمتأسفانه برخی از سیستم‌های وبلاگ‌نویسی ایرانی هم از این روش استفاده کرده‌اند.

اگر دقت کرده باشید، سرویس‌های ارایه دهنده‌ی وبلاگ در بخش نظرات (comment) خود، برای درج تعداد کامنت‌ها از اعداد انگلیسی استفاده می‌کنند. هر چند دلیل آن استفاده از جاوا اسکریپت باشد؛ اما به هر حال، سایت های ایرانی، باید همه چیزشان ایرانی باشد.

 

رستاخیز زبان فارسی!

چند سالی است که فرهنگستان زبان و ادب فارسی درتکاپوی ساخت واژه‌های فارسی و جایگزینی آن‌ها با واژه‌های انگلیسی در اینترنت و کامپیوتر افتاده است. اما چیزی که پُر واضح است، مقبول نیفتادن این واژه‌ها نزد کاربران است. امروزه کمتر کسی را می‌توان یافت که به جای کلمه mouse pad از واژه‌ی زیرموشی یا به جای کلمه ی cyberware از واژه ثقیل رایا افزار استفاده کند. اما چرا!؟

برای بررسی این موضوع بهتر است به برخی ابداعیات فرهنگستان در زمینه‌ی IT توجه کنیم:

سایت (site) = پایگاه

وبلاگ (weblog) = تارنما

فروم (Forum) = انجمن

ایمیل (email) = رایانامه

لینک (link) = دنبالک

پی ام (pm) = پیام‌های پستی

کلیک (click) = تلیک

فرم (frame) = قابک

فکس (fax) = دورنگار

اسکنر (scanner) = پویشگر

بوت (boot) = راه اندازی مجدد

بلوتوث (Bluetooth) = دندان آبی

این پرسش همواره برای زبان ‌شناسان و افرادی که به زبان و ادبیات فارسی تعصب دارند، مطرح است که چرا مردم به واژه‌های مصوب فرهنگستان زبان و ادبیات فارسی روی خوش نشان نمی ‌دهند و بعضاً حتی پا را فراتر نهاده و این واژه‌ها را مورد تمسخر قرار می‌دهند؟!

کاربرد واژه ی معادل برای برخی کلمات درک‌ معنای کلام را برای شنونده سخت می‌‌کند و به همین دلیل بسیاری از افراد تلفظ لاتین کلمه را به ادای واژه‌ی معادل ترجیح می‌‌دهند.

از طرفی واژه ی معادل در نظر گرفته شده برای برخی کلمات عیناً ترجمه ی فارسی کلمه‌ی بیگانه است، مانند واژه ی پرکاربرد Close که واژه ی معادل آن «بستن» یا Connection که واژه‌ی معادل آن «ارتباط» است. پس آیا بهتر نبود به جای واژه‌ی «معادل» از لفظ «ترجمه» استفاده می‌شد؟

این عوامل در کنار عوامل دیگری مانند عدم فرهنگ‌ سازی ریشه‌ای برای استفاده از لغات فارسی به جای لغات بیگانه، عدم انتخاب واژه‌ی معادل کوتاه و صحیح که به آسانی بر زبان جاری شود (واژه ی لاتین «boot» و معادل آن «راه‌اندازی مجدد» را در نظر بگیرید) و… باعث شده تا اکثر افراد، حتی افراد تحصیل کرده و بسیاری از استادان دانشگاه‌ها به استفاده از واژه‌های معادل توجهی نشان ندهند که این موضوع در حوزه‌ی کامپیوتر و فناوری اطلاعات (IT) مشهودتر است.
عامل بعدی که می خواهم مطرح کنم را می توان با دیگر عوامل یاد شده کمی متفاوت دانست. ریشه این علت را باید در ضعف‌های شخصیتی و فرهنگی جستجو کرد:

تفاخر!

بله! تفاخر. بسیاری از افراد هستند که صرفاً جهت تفاخر به واژه‌های لاتین رو می‌آورند و از واژه‌های فارسی و معادل دوری می‌کنند. حضور این دسته از افراد، در زمینه‌ی IT با توجه به پوزیشن اجتماعی نسبتاً بالای کار آن‌ها، بسیار پر رنگ‌تر از خیلی از رشته‌ها و زمینه‌های دیگر است.

 

سیاست یک بام و دو هوای فرهنگستان

فرهنگستان در نشست‌ها و جلسات گوناگون سعی در واژه‌سازی و رایج کردن آن‌ها در میان عامه‌ی مردم می‌کند. ۸۹۰ واژه دست‌آورد آن‌ها فقط در زمینه‌ی IT است (به نقل از سایت فرهنگستان زبان فارسی). اما وقتی از حداد عادل؛ رییس فرهنگستان، سوال می‌شود که چرا برای واژه‌های عربی، معادل فارسی پیشنهاد نمی‌کنید؛ وی پاسخ می‌دهد:

«واژگان عربی در زبان فارسی، مانند سادات هستند در جامعه‌ی اسلامی!»

آیا وقتی یک کاربر با چنین سیاست و جریانی مواجه می‌شود، نسبت به سایر تصمیم‌ها و واژه گزینی‌های فرهنگستان ناخودآگاه موضع نمی‌گیرد؟ آیا باز تصمیات فرهنگستان را می‌پذیرد؟

سیاست‌های یک بام و دو هوای فرهنگستان به همین جا ختم نمی‌شود! فرهنگستان طی بیانه‌ای در سایت خود اعلام کرد برای واژه‌ی «اینترنت» معادل‌سازی نخواهد کرد؛ زیرا این یک کلمه‌ی بین المللی است و در تمام دنیا و زبان‌ها به همین نام خوانده می‌شود.

خب واکنش فرهنگستان در مورد واژه‌ای مثل «کامپیوتر» چه بود؟

همه می دانیم که «رایانه» واژه‌ی پیشنهادی فرهنگستان است. واژه‌ای که به شدت بر روی آن اصرار دارد و با بخش نامه کردن آن به صدا و سیما در ترویج آن می‌کوشد! اما مگر «کامپیوتر» (computer) همانند اینترنت (internet) یک کلمه‌ی بین المللی نیست؟

بسیارند از این سیاست‌های یک بام و دو هوایی فرهنگستان.

با احترام؛
میثم عربی

نظرات