• پایان فعالیت بخشهای انجمن: امکان ایجاد موضوع یا نوشته جدید برای عموم کاربران غیرفعال شده است

ساخت فایل robots و sitemap

sirvan20

Registered User
تاریخ عضویت
25 نوامبر 2012
نوشته‌ها
605
لایک‌ها
109
بنام خدا

سلام خدمت دوستان لطفا راهنمایی کنید این دوتا فایل چجوری برای سایتم بسازم با سپاس
 

twitfa

Registered User
تاریخ عضویت
7 نوامبر 2011
نوشته‌ها
483
لایک‌ها
117
محل سکونت
کرج
دروود
cms سایتتون چی هستش ؟
اگه از وردپرس استفاده میکنید که افزونه زیاده
برای فایل robots.txt هم تو شاخه اصلی سایتتون یه فایل به همین نام ایجاد کنید و محتویتشم می تونید هم به پیشنهاد خود گوگل وبمستر انتخاب کنید هم یه سرچی کنید که چه قسمت هایی رو باید باهاش دسترسی بدید یا نه
 

decoweb

Registered User
تاریخ عضویت
13 فوریه 2017
نوشته‌ها
683
لایک‌ها
247
سن
87
محل سکونت
اصفهان
Robots.txt و نحوه استفاده از آن

وظیفه فایل robots.txt محدود کردن دسترسی روبات های گوگل و سایر موتورهای جستجو به محتویات سایت شماست. این روبات ها بصورت کاملا اتوماتیک عمل کرده و قبل از ورود به هر سایت یا صفحه ای از وجود فایل robots.txt بر روی آن و محدود نبودن دسترسی محتوا مطمئن میشوند. تمامی روبات های استاندارد در اینترنت به این قوانین و محدودیت ها احترام گذاشته و صفحات شما را بازدید و ایندکس نخواهند کرد ولی روبات های اسپم توجهی به این فایل نخواهند داشت. اگر تمایل به حفظ امنیت محتوایی خاص و پنهان کردن آن از دید روبات های اینترنتی دارید بهتر است از پسورد گذاری صفحات استفاده کنید.

در عمل استفاده از فایل robots.txt به شما این امکان را میدهد که صفحات سایت را تنها مختص کاربران اینترنتی طراحی کرده و ترسی از محتوای تکراری، وجود لینک های بسیار در آن صفحه و تاثیر منفی بر سئو سایت نداشته باشید. همچنین به شما این امکان را میدهد که صفحات بی ارزش و کم محتوا را از دید موتورهای جستجو پنهان کنید تا زمان روبات ها در سایت شما برای ایندکس کردن این صفحات هدر نرود.
شما تنها زمانیکه قصد محدود کردن روبات های گوگل را داشته باشید از فایل robots.txt استفاده میکنید و اگر از نظر شما تمام صفحات سایت قابلیت و ارزش ایندکس شدن توسط گوگل را داشته باشند نیازی به این فایل نخواهید داشت. حتی قرار دادن یک فایل خالی با همین نام نیز لزومی ندارد.
برای قرار دادن یک فایل robots.txt شما باید به هاست دسترسی داشته و آن را در ریشه اصلی کپی کنید. اگر به هر دلیل دسترسی شما به سرور محدود شده باشد میتوانید با قرار دادن تگ های متا در هدر صفحه دسترسی روبات به آن را محدود کنید.

برای جلوگیری از ورود تمامی روبات های اینترنتی به صفحه از تگ:

<meta name=”robots” content=”noindex” />
و برای محدود کردن روبات های گوگل از تگ:

<meta name=”googlebot” content=”noindex” />​

استفاده کنید. با مشاهده ی این تگ در هدر یک صفحه گوگل بطور کلی آن را از نتایج جستجوی خود خارج خواهد کرد.

آموزش ساخت فایل robots.txt

یک فایل ساده برای مدیریت روبات های اینترنتی از دو قانون اصلی استفاده میکند که عبارتند از:
User-agent: نشان دهنده نوع روباتی است که نباید به صفحه دسترسی داشته باشد.
Disallow: بیانگر آدرس صفحه ای است که میخواهید از دید روبات ها پنهان بماند.

با ترکیب این دو دستور شما میتوانید قوانین مختلفی را برای دسترسی به صفحات داخلی سایت تعریف کنید. بعنوان مثال برای یک user-agent مشخص میتوان چندین آدرس را معرفی نمود و یا برعکس.

لیست تمامی روبات های اینترنتی معتبر در دیتابیس Web Robots Database موجود است و شما میتوانید با قرار دادن نام هریک بعنوان User-agent قوانین مشخصی برای آنها تعریف کنید و یا با استفاده از کاراکتر * به جای نام در فایل robots.txt یک قانون را برای همه روبات ها اعمال کنید. مانند:

User-agent: *

Disallow: /folder1/​

موتور جستجوی گوگل چندیدن نوع روبات مخصوص بخود دارد که معروفترین آنها با نام Googlebot شناخته میشود و وظیفه بررسی و ایندکس صفحات وب را برعهده دارد. روبات Gogglebot-image نیز مسئول بررسی تصاویر سایت ها و ایندکس کردن آنها می باشد.

User-Agent: Googlebot

Disallow: /folder2/​

شما میتوانید به روش های مختلفی قوانین خود را اعمال کنید، میتوان یک صفحه مشخص و یا یک دسته از صفحات را برای یک قانون تعریف نمود. مثال های زیر روش های مختلف استفاده از این قوانین هستند:
برای عدم دسترسی روبات ها به تمام محتویات سایت از کاراکتر / استفاده میکنیم

Disallow: /​

برای عدم دسترسی به یک فولدر یا دسته از سایت نام آن را وارد کنید

Disallow: /blog/​

برای اعمال محدودیت روی یک صفحه خاص آدرس دقیق آن را بدون نام سایت وارد کنید

Disallow: /blog/keyword-planner/​

برای محدود کردن یک تصویر بر روی سایت آدرس آن را بهمراه User-agent مربوط به آن وارد کنید

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg
و برای مخفی کردن تمام تصاویر موجود بر روی سایت از دید موتورهای جستجو از دستور زیر استفاده کنید

User-agent: Googlebot-Image
Disallow: /
همچنین شما میتوانید یک نوع فایل مشخص را از دید موتورهای جستجو مخفی نگه دارید، بعنوان مثال برای تصاویری با فرمت gif

User-agent: Googlebot
Disallow: /*.gif$
توجه داشته باشید که فایل robots.txt نسبت به بزرگ و کوچک بودن حروف انگلیسی حساس بوده و آدرس صفحات باید به دقت وارد شوند. پس از ساخت فایل مورد نظر خود و ذخیره آن در فرمت txt آن را بر روی سرور و در ریشه اصلی کپی کنید. قوانین اعمال شده برای روبات هایی هستند که از این پس به سایت شما وارد میشوند حذف صفحاتی که در گذشته ایندکس شده اند از دیتابیس گوگل نیازمند گذشت زمان خواهد بود.

آزمایش Robots.txt در بخش Blocked URLs وبمستر

وبمستر گوگل قسمت مشخصی را برای نمایش صفحاتی از سایت شما که توسط robots.txt دسترسی روبات به آنها محدود شده، در نظر گرفته است. این صفحه با نام Blocked URLs و بعنوان زیر مجموعه ای از بخش Crawl تعریف شده است.

برای اطمینان از عملکرد صحیح فایل robots.txt به بخش Blocked URLs در اکانت وبمستر خود مراجعه کرده و مانند تصویر زیر در بخش اول محتویات فایل را کپی کنید. در بخش دوم آدرس صفحاتی که قصد دارید میزان محدودیت روبات های گوگل در دسترسی به آنها را بسنجید وارد کنید. (در هر خط یک آدرس)

در بخش انتهایی شما میتوانید یک نوع از روبات های گوگل را علاوه بر روبات اصلی که وظیفه ایندکس صفحات را برعهده دارد انتخاب کنید.


نمایی از صفحه Blocked urls در وبمستر گوگل

با فشردن دکمه Test نتایج آزمون و میزان دسترسی روبات ها به هریک از این آدرس ها به شما نمایش داده خواهد شد.


نمونه ای از نتایج آزمایش فایل Robots.txt

نحوه انتخاب صفحاتی که در فایل robots.txt معرفی میشوند و پنهان کردن آنها از دید موتورهای جستجو وابستگی مستقیم با سیاست های شما در انتشار محتوا و سئو سایت خواهد داشت. قبل از انجام تغییرات اساسی در این فایل حتما با متخصصان سئو مشورت کرده و کدهای وارد شده را چندین بار آزمون و بازنویسی نمایید. در صورتیکه در مورد هریک از موارد عنوان شده در این مقاله سوال یا ابهامی دارید میتوانید در بخش نظرات مطرح کرده و تا حد توان کارشناسان وبسیما پاسخ گوی شما خواهند بود.
 

decoweb

Registered User
تاریخ عضویت
13 فوریه 2017
نوشته‌ها
683
لایک‌ها
247
سن
87
محل سکونت
اصفهان
روش ساخت نقشه سایت گوگل (google sitemap)

نقشه سایت گوگل (google sitemap) یک فایل xml است که حاوی لیستی از صفحات سایت شماست و باعث تسریع در ایندکس شدن در موتورهای جستجو می شود

در سالهای پیش و اوایل فعالیت سایت‌های اینترنتی، معمولا به علت سخت بودن یادگیری بخش‌های سایت، مدیران سایت‌ها صفحاتی با نام نقشه سایت ایجاد می‌کردند و صفحات سایت خود را به صورت درختی و زیر هم در آن صفحه پیوند می کردند.

مزیتی که این روش داشت این بود که بازدیدکنندگان سایت با مراجعه به این صفحه، صفحه مورد نظر خود را راحت تر پیدا می کردند.

نقشه سایت گوگل نیز تقریبا به همین دلیل ایجاد می گردد.

به صورت عادی ربات گوگل به مراجعه به سایت شما آن را بررسی می‌کند و لینک ها و پیوند‌های شما را لیست می کند، درستی یا نادرستی آدرس صفحات را باید تشخیص دهد و پیوند ها با سایت‌های دیگر را از بین آنها جدا کند.

حالا شما یک فایلی با نام نقشه سایت گوگل (google sitemap) ایجاد می کنید و در محلی که به گوگل معرفی می کنید قرار می‌دهید. با ایجاد صفحات جدید در سایت، این لیست بروزرسانی می شود. گوگل هر بار این لیست را بررسی می کند و صفحات جدید را برای ایندکس کردن بررسی می کند.

پس شما مراحل را برای گوگل آسان‌تر کردید.

چگونه برای موتورهای جستجو نقشه سایت بسازیم؟
همانطور که در سوال می‌بینید این نقشه سایت فقط برای گوگل نیست بلکه موتورهای جستجوی دیگر همانند بینگ (bing) نیز همانند گوگل از آن استفاده می کنند.

خوب حالا برای ایجاد باید ابتدا قواعدی را رعایت کنید:

  1. در هر فایل نقشه سایت حداکثر می‌توانید 50000 لینک قرار دهید. (در صورت زیاد شدن باید یک فایل دیگر ایجاد کنید)
  2. حجم هر فایل حداکثر می تواند 10 مگا بایت باشد که در صورت بیشتر شدن باید همانند بند یک فایل دیگری ایجاد کنید.
برای شروع فایل زیر را دانلود کنید:

نمونه فایل نقشه سایت گوگل

فایل فوق را با برنامه notepad باز کنید ساختار زیر را مشاهده می کنید:



<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.google.com/schemas/sitemap/0.90">
<url>
<loc>http://www.domain.com/</loc>
<lastmod>2016-01-27T23:55:42+01:00</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>http://www.domain.com/about.html</loc>
<lastmod>2016-01-26T17:24:27+01:00</lastmod>
<changefreq>daily</changefreq>
<priority>0.5</priority>
</url>
</urlset>
در کد بالا فایل با خط زیر شروع می شود که این خط ورژن فایل xml و همچنین شناسه آن است و مرورگر‌ها با این خط پی به Xmlبودن صفحه می برند.

<?xml version="1.0" encoding="UTF-8"?>
محدوده لینک ها در بخش زیر قرار دارند

<urlset xmlns="http://www.google.com/schemas/sitemap/0.90">
</urlset>​

محدوده هر لینک مثل زیر است و باید به ازای هر لینک و پیوند این بخش کامل تکرار شود:

<url>
<loc>http://www.domain.com/</loc>
<lastmod>2016-01-27T23:55:42+01:00</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
حالا باید این بخش را برای هر لینک کامل کنید.

در بخش بالا المنت‌های مختلف به صورت زیر است:

  • loc: داخل این بخش آدرس کامل صفحه قرار می گیرد.
  • lastmod: تاریخ آخرین ایجاد و آپدیت صفحه در این بخش قرار می گیرد
  • changefreq: محدوده زمان تغییر صفحه در این بخش قرار خواهد گرفت. به طور مثال شما روزانه یک مقاله در سایت خود قرار می دهید که در صفحه اصلی هر روز قرار می گیرد. پس صفحه اصلی سایت شما هر روز تغییر می کند و باید مقدار daily در این بخش قرار بگیرد. مقادیر دیگر به شرح زیر است:
    • always: هر لحظه ممکن است تغییر کند
    • hourly: هر ساعت ممکن است تغییر کند
    • daily: روزانه تغییر می کند
    • weekly: به صورت هفتگی تغییر می کند
    • monthly: ماهانه تغییر داده می شود.
    • yearly: سالانه تغییر می‌کند
    • never: هرگز تغییر داده نمی‌شود.
  • priority: این بخش میزان اهمیت صفحه را برای گوگل مشخص می کند. عدد 1 اهمیت بالاتر و 0.1 اهمیت پایین‌تر است و از اعداد بین 0.1 تا 1 نیز می‌توانید استفاده کنید.


حالا به ازای صفحات سایت خود این بخش‌ها را ویرایش کنید.

نکته: برای بخش changefreq ، تمامی صفحات را در حالت always قرار ندهید به امید اینکه گوگل هر زمان سایت شما را چک کند.

نکته 2: برای بخش priority ، تمامی صفحات را با اهمیت بالا یعنی عدد 1 قرار ندهید. می توانید به شکل زیر قرار دهید:

  • صفحه اصلی سایت خود را عدد 1 قرار دهید.
  • صفحات landing page همانند صفحات دسته‌‍بندی ، صفحه لیست اخبار، لیست مقالات ، پرسش و پاسخ و هر صفحه ای که کاربر از آن صفحه به لیستی از مطالب و صفحات می رسد را 0.8 قرار دهید.
  • سایر صفحات مثل جزئیات اخبار ، جزئیات مقاله ، صفحه درباره ما ، تماس با ما و تمامی صفحات نهایی سایت خود را عدد 0.5 قرار دهید.
حالا فایل فوق را با پسوند .xml ذخیره کنید.

فایل نقشه سایت را در کجای سایت قرار دهیم؟
خوب نقشه سایت به صورت استاندارد در پایین ترین سطح سایت خود با نام sitemap.xml قرار می گیرد به صورتی که با وارد کردن آدرس سایت به شکل زیر فایل فوق در دسترس قرار بگیرد.

http://www.yourdomain.com/sitemap.xml
به جای yourdomain.com نام دامنه خود را قرار دهید.

با قرار دادن در این آدرس تمامی موتورهای جستجو این سایت را می توانند بخوانند. شما می توانید در هرجای سایت خود این فایل را آپلود کنید و در سرویس گوگل وبمستر این آدرس را مشخص کنید.

تا اینجا ایجاد فایل به صورت استاتیک و ایستا را آموختید. آپدیت و تغییرات در این فایل کاملا دستی بوده و هر بار با ایجاد لینک‌های جدید در سایت باید این فایل را ویرایش کنید. اما در صورتی که از نرم افزار‌های مدیریت محتوایی مثل جوملا، وردپرس ، دروپال و ... استفاده می کنید می توانید ماژول‌هایی را در سایت خود نصب کنید که این فایل را کاملا به صورت خودکار ایجاد کند.

نکته: در سرویس وبلاگ‌ها شما دسترسی به هاست ندارید پس این بخش را نمی توانید در وبلاگ خود اعمال کنید.
 
بالا