این توضیحات به یکی از دو روش pop-up و ارجاع به فایل html مجزا، به واژگان کلیدی متن اضافه میشود. مثلا واژه نیروگاه برق ابی در متن دارای یک پیوند به متنی میشود که حاوی شرح مختصری از این مفهوم است. خواننده با کلیک این واژه در متن موقتاً وارد صفحة وب مجزایی میشود که مفهوم را تشریح کرده است و در ضمن دارای ارجاعات بیشتر، مثلاً به انواع نیروگاه، اقتصاد انرژی، و غیره است. خواننده میتواند آنها را نیز کلیک کند و موقتاً وارد صفحات دیگر شود.
در کشورهای صنعتی به جای اصطلاح خدمات غنیسازی وب از اصطلاح خدمات بهینهسازی جستجوگر (search-engine optimization) یا اختصاراً SEO استفاده میشود، که هر دو یکسان هستند.
- کاربردهای غنیسازی وب
کاربردهای اصلی غنیسازی وب را در چهار مقوله میتوان خلاصه کرد:
۱. افزایش ترافیک صفحة غیر از صفحة اول. در تحلیلهای آماری پایگاه آلکسا، اولین تحلیل مهم این است که چند درصد از دیدارگران وب پس از ورود به صفحه نخست پایگاه، حداقل یک پیوند را کلیک کردهاند. از نظر جستجوگرهای وب، این مسئله که دیدارگر پایگاه وب حداقل یک پیوند را کلیک کرده باشد، و حداقل دو دقیقه در آن پایگاه و پیوند باقی مانده باشد، اهمیت بسیار دارد.
بنابر این، پایگاه وبی که دارای رتبة بسیار بالا در کشور یا دنیا باشد، اما درصد زیادی از دیدارگران آن، پیوندی را کلیک نکنند، موردتوجه جستجوگرهای بزرگ مانند گوگل قرار نمیگیرد.
۲. تأمین رضایت دیدارگر وب، که منجر به محبوبیت نشانی (URL popularity) میشود. این رضایت منجر به تبلیغات شفاهی یا اصطلاحاً تبلیغات ویروسی میشود.
۳. ارتقای شخصیت برند (brand personality) که یکی از عوامل اصلی هویت برند (brand equity) محسوب میشود.
۴. چون معمولاً واژگان مهم صفحة وب به عنوان پیوند در غنیسازی به کار میروند، جستجوگرهای وب، این واژگان را همتراز Index-Meta-Data به حساب میآورند. این ویژگی در الگوریتمهای جستجوگرها هرگز تغییر نکرده است، زیرا پایگاههای وب متقلب راهی برای تقلب در پیوندهای واقعی پیدا نمیکنند.
افزایش اعتبار پایگاه وب عملا به چهار کاربرد فوق بستگی دارد.
- فرآیند غنیسازی وب
برنامة پویشگر (scanner) بسیار سادهای وجود دارد که متن سورس صفحة وب را با فرمت html پویش میکند و برحسب دادگان (database) غنیسازی نصب شده در پایگاه، کلیدواژهها را شناسایی میکند و هریک از آنها را به یک توصیفگر (descriptor) تبدیل میکند و یک پیوند HREF یکتا به نقطة حاوی کلیدواژه در صفحة وب میافزاید. هر کلمه مطابق یک جدول هش (hash) فارسی_انگلیسی به نشانی مقصد مرتبط میشود. مثلا دو کلمة کامپیوتر و رایانه به یک توصیفگر یکتا به نام rAyAnh.htm ارجاع میشوند.
اگر کلمة تشخیص داده شده از قبل به عنوان پیوند تعیین شده باشد، پویشگر، پیوند غنیساز را در صفحة مقصد پیوند درج میکند تا اولویت با پیوندهای اولیه باشد.
نصب دادگان غنیسازی در پایگاه یا به صورت فایلهای مجزا و یا به صورت فایلهای الفبایی شده انجام میشود. مثلا کلمة کامپیوتر یا در فایل مستقل rAyAnh.htm ذخیره شده است و یا در مدخل computer از حرف C از یک واژه نامه قرار دارد که دارای یک لنگر (anchor) به صورت <A NAME=computer> و غیره است.
غنیسازی ممکن است به صورت سلسله مراتبی انجام شود. مثلاً با بردن ماوس بر روی کلمه یا عبارت [mouse hover] فقط یک شرح مختصر به صورت ظاهرشونده (pop-up) برای چندثانیه نمایان شود و سپس محو گردد؛ و با کلیک کردن کلمه یا عبارت، موقتاً صفحة وب حاوی شرح نسبتاً مفصل باز شود تا دیدارگر پس از مطالعه با زدن دگمة Back به صفحة اولیه بازگردد.
امروزه که ویکیپدیا به زبان فارسی نیز منتشر میشود، بسیاری از پایگاههای وب مطالب مرجع موردنیاز خود را از این منبع استخراج میکنند و با مختصر ویرایشی با ذکر منبع در پایگاه خود قرار میدهند. بدیهی است که راه بهتر و مطمئن تر، این است که پایگاه وب مطالب مرجع قابل کلیک خود را به طور اختصاصی تهیه کند. بدین ترتیب، به تدریج، ارجاعات پایگاههای دیگر به این مطالب، منجر به افزایش رتبه پایگاه وب میشود.
- دادگان غنیسازی
هر پایگاه وب بزرگ باید دارای تعداد زیادی از مواد دادگان باشد که مطابق فرآیند غنیسازی مورداستفاده قرار گیرند. به عبارت دیگر دادگان غنی سازی از تعدادی فرهنگ (dictionary) تشکیل میشود که به صورت دادگان رابطهای (relative database) با هم ارتباط دارند.
آرشیو پایگاه وب جزو دادگان غنیسازی محسوب نمیشود. مثلاً یک روزنامه ممکن است دارای آرشیوی از مطالب قابل کلیک باشد که دیدارگران وب در هر صفحه از پایگاه بتوانند با کلیک کردن و بدون نیاز به ورود به آرشیو، اطلاعات آرشیوی مورد نظر خود را بیابند. دادگان غنیسازی از دو مجموعه تشکیل میشود:
۱. اصطلاحات علمی و فرهنگی، مانند اصطلاحات مربوط به فناوری هستهای، نشر، ارتباطات، کامپیوتر، مدرکشناسی، و غیره؛
۲. رویدادها و اسمهای خاص، مانند اشخاص مهم، انجمنهای علمی و فرهنگی، روزنامههای نخبه، شهرها و کشورها، تعطیلی ملی کشورها، و غیره. به ویژه اختصارات مرتبط با اسمهای خاص مانند ITU و IAEA از اهمیت ویژهای برخوردار است.
به تدریج میتوان دادگانی از تصاویر دارای شرح و متن Alt پویا تهیه کرد و به مجموعه افزود.
- انواع خدمات غنیسازی وب
در دوران ماقبل اینترنت در ایران شرکتهایی فعالیت داشتند که خدمات بریده جراید در دسترس سازمانهای خصوصی و دولتی قرار میدادند. امروزه این نوع خدمات به صورت اینترنتی در آمده است. در کشورهای صنعتی شرکتهایی با عنوان خبرگزاری علمی (science agency) این نوع خدمات را در دسترس قرار میدادند.
به طور کلی، خدمات غنیسازی وب بر دو نوع میتواند ارائه شود:
۱. پروژة نصب کامل دادگان مرجع و خدمات مستمر پس از نصب کامل؛
۲. آزمایش چند مجموعة کوچک پرکاربرد در مدت زمان کوتاه و سپس ادامة خدمات بر اساس قرارداد بلندمدت.
در صورتی که پایگاه وب، نوع دوم خدمات را ترجیح دهد، سه مرحلة اولیه به عنوان آغاز خدمات پیشنهاد میشود، به طوری که نیاز به قرارداد نباشد، و هزینهها به صورت فاکتور تعیین و پرداخت شوند. چون مبالغ نسبتاً ناچیز هستند، تعهدات طرفین را میتوان در فاکتور منظور کرد. بدیهی است که هر فایل فقط به یک خریدار فروخته میشود و این نکته در فاکتور هزینة خدمات تصریح میگردد.
به تعبیر دیگر، خدمات غنی سازی وب را میتوان همانند قرارداد نشر کتاب فرهنگ یا واژه نامه بین مولف و ناشر تلقی کرد که ناشر در قبال پرداخت حق التالیف یا نشرانه، صاحب حقوق مادی اثر میشود و مولف نمیتواند مطالب داده شده به ناشر را به ناشر دیگر بفروشد.
- مقابله با سوء استفاده
اولین مشکل در نشر الکترونیک، سرقت نشرانه (copyright) است. به همین دلیل است که فقط پایگاههایی توانستهاند در وب باقی بمانند که مطابق اصول مقابله با سرقت نشرانه عمل کردهاند. درج تدریجی اما مستمر و بدون وقفه بهترین راه مقابله با این معضل است. به طوری که اگر محتوا به صورت تدریجی، مثلا ساعت-به-ساعت، اضافه شود، و همزمان، اصول بهینه سازی جستجوگر مراعات شود، پس از مدت کوتاهی، سرقت نشرانه توسط اشخاص سودجو، برعکس، به ارتقای نام تجاری پایگاه کمک میکند. برای نمونه، ویکیپدیا به همین روش به موفقیت دست یافته است، به طوری که هر نوع کپی و استفادة مجاز و غیر مجاز از این پایگاه منجر به افزایش رتبة آن میشود.
روشهای گوناگون دیگری از جمله درج خطای مستعار (dummy error) و درج برنامة اسکریپت مانع شوندة select-copy و Save As نیز وجود دارد. اما بهترین راه همان درج مستمر و تدریجی محتوا است.
- نرمافزارها و مشخصات فنی
با توجه به این که غنی سازی باید به صورت تدریجی انجام شود، برای شروع کار که تعداد مدخلها کم است، تبدیل کلیدواژهها به نقاط قابل کلیک (hotspot) به طور دستی میسر است. همة برنامههای مدیریت محتوا دارای تسهیلات پیوندسازی و ارجاع هستند. هر مدخل در یک فایل مستقل html و در صورت مصور بودن همراه با فایل گرافیکی JPG یا PNG ارائه میشود.
مشخصات فنی ویژة فایلهای وب غنی سازی به شرح زیر است:
۱. مراعات اصول مرتبط با الگوریتمهای رتبهبندی جستجوگرهای بزرگ از جمله گوگل و تدوین پویای META-TAG ها؛
۲. مراعات اصول شیوهنامة نگارش و ویرایش زبان فارسی؛
۳. نامگذاری فایل فارسی باید براساس یک جدول hash فارسی_انگلیسی انجام شود تا اپراتورهای روزآمدسازی صفحههای وب ناچار نباشند که شمارهها یا کدهای ترتیب را حفظ کنند؛
۴. میانگین اندازة مطالب قابل چاپ و نمایش در مرورگرها برای هر مدخل کوچک نوعا حدود 50 کلمه، و میانگین اندازة مطالب قابل چاپ و نمایش در مرورگرها برای هر مدخل متوسط نوعا حدود ۱۰۰ کلمه است. مطلب بزرگ دارای محدودیت اندازه نیست و میتواند همانند مقالات ویکی پدیا بسیار مفصل هم باشد.
m_mohammadifar@mail.com*