Thứ Hai, 25 tháng 12, 2017

Lấy dữ liệu của Blogspot và cách ngăn chặn

Lấy dữ liệu của Blogspot và cách ngăn chặn - Dữ liệu hay còn gọi là data, chính là những bài viết và những trang tĩnh trên blog.
Có thể lấy được những dữ liệu này nhờ một tính năng do blogspot cung cấp: Nguồn cấp dữ liệu bài đăng - RSS và ATOM

Lấy dữ liệu của Blogspot và cách ngăn chặn



Vài người lấy dữ liệu từ chính blog của họ để đưa lên các website vệ tinh, cũng có một số người muốn lấy dữ liệu của blog khác. Vậy bằng cách nào để làm được điều đó? Dưới đây là câu trả lời.

1. Xác định tổng số bài viết của blog muốn lấy dữ liệu

Truy cập vào Html, Javascript Checker - Web Design
Copy đoạn code sau và dán vào khung "Enter code" sau đó ấn "Preview"
<script style="text/javascript">
function showpostcount(json) {
document.write('<center>All post: <b>' + parseInt(json.feed.openSearch$totalResults.$t,10)
+ '</b></center>');}</script>
<script src="http://diachi.blogspot.com/feeds/posts/default?alt=json-in-script&callback=showpostcount"></script>
Thay diachi.blogspot.com bằng đường link của blog bạn muốn lấy dữ liệu

Bạn sẽ thấy "All post:" của blog đó. Việc này giúp biết được có thể lấy bao nhiêu bài viết từ trang Blogspot đó, Blogspot chỉ cho import tối đa 500 bài viết một lần.

2. Lấy dữ liệu về máy

Copy đường link dưới:
http://diachi.blogspot.com/atom.xml?redirect=false&start-index=X&max-results=Y

Trong đó:
diachi.blogspot.com: đường link blog mà bạn muốn lấy dữ liệu
X: Bài bắt đầu lấy (Lấy từ bài đầu tiên thì X là 1)
Y: Tổng số bài sẽ lấy tính từ X (Tổng số bài không vượt quá 500)
Ví dụ: Blog muốn lấy dữ liệu có 200 bài viết thì đường link trên sẽ là:
http://diachi.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=200
Để tải dữ liệu về, dán đường link đó vào trình duyệt. Sau khi load xong, click chuột phải chọn "Save as" sẽ lưu được một file .xml

Ví dụ: Blog muốn lấy dữ liệu có 200 bài viết: thay X=1 và Y=200
Nếu là 1000 bài viết thì bạn phải lấy 2 lần. Lần một từ X=1, Y=500, lần hai từ X=501, Y=1000 do mỗi lần chỉ lấy được 500 bài viết.

3. Nhập dữ liệu (import data) vào blog

Đăng nhập Blogger > Cài đặt > Khác > Ấn Nhập Blog

Chọn file .xml vừa tải về để import lên blog > Ấn Nhập blog

Vậy là coi như đã xong!
Khi import xong nên đăng một vài bài để xóa bỏ Mã Capcha, tránh việc import quá nhiều bài cùng một lúc sẽ bị google cho là spam.
Các bạn cũng không nên import quá nhiều bài của cùng 1 blog cùng 1 lúc (khoảng 4000 bài), nếu làm vậy blog của bạn có thể bị xóa. Nên lấy data của nhiều blog, mỗi blog khoảng vài chục bài sẽ tốt hơn.

4. Cách cài đặt để ngăn chặn và bảo vệ dữ liệu của blogspot

Để tránh bị lấy cắp dữ liệu, hãy bảo vệ blog của mình
Đăng nhập blog > Cài đặt > Khác > Tại phần "Cho phép nguồn cấp dữ liệu blog" Chọn "Cho đến dấu ngắt" rồi "Lưu cài đặt" lại

Khi ai đó lấy dữ liệu của blog bạn sẽ chỉ lấy được từ đầu bài viết đến phần có dấu ngắt.
Nếu bắt buộc phải đặt full data thì nên tạo 1 đoạn giới thiệu ,để người đọc biết nguồn của bài viết. Tại phần "Chân trang nguồn cấp dữ liêu bài đăng" chọn thêm và đánh nội dung vào như hình dưới. (Có thể không cần)

Bây giờ, mỗi khi đăng bài, bạn cần chèn dấu ngắt nhảy cho bài viết để khi ai đó lấy dữ liệu thì cũng chỉ lấy được đến dấu ngắt.
Cách chèn dấu ngắt nhảy:
Cách 1:
- Đặt con trỏ chuột vào vị trí cần ngắt, tốt nhất là ở sau bức hình đầu tiên hoặc sau 1 đoạn văn ngắn phần đầu.
- Ấn nút "Chèn dấu ngắt nhảy" trên thanh bài viết

Cách 2:
- Chọn chế độ "HTML", thêm code <!--more--> sau ảnh đầu tiên hoặc sau một đoạn ngắn phần đầu.

Done! chúc các bạn thành công.


Cảm ơn bạn đã ghé thăm Quang Design! Hy vọng bài viết này hữu ích.
Lấy dữ liệu của Blogspot và cách ngăn chặn - By Quang Design


Click to show Emotion iconsClick to show Emotion icons