Lấy dữ liệu của Blogspot và cách ngăn chặn - Dữ liệu hay còn gọi là data, chính là những bài viết và những trang tĩnh trên blog.
Có thể lấy được những dữ liệu này nhờ một tính năng do blogspot cung cấp: Nguồn cấp dữ liệu bài đăng - RSS và ATOM
Vài người lấy dữ liệu từ chính blog của họ để đưa lên các website vệ tinh, cũng có một số người muốn lấy dữ liệu của blog khác. Vậy bằng cách nào để làm được điều đó? Dưới đây là câu trả lời.
1. Xác định tổng số bài viết của blog muốn lấy dữ liệu
Truy cập vào Html, Javascript Checker - Web DesignCopy đoạn code sau và dán vào khung "Enter code" sau đó ấn "Preview"
<script style="text/javascript">
function showpostcount(json) {
document.write('<center>All post: <b>' + parseInt(json.feed.openSearch$totalResults.$t,10)
+ '</b></center>');}</script>
<script src="http://diachi.blogspot.com/feeds/posts/default?alt=json-in-script&callback=showpostcount"></script>
Thay diachi.blogspot.com bằng đường link của blog bạn muốn lấy dữ liệu
Bạn sẽ thấy "All post:" của blog đó. Việc này giúp biết được có thể lấy bao nhiêu bài viết từ trang Blogspot đó, Blogspot chỉ cho import tối đa 500 bài viết một lần.
2. Lấy dữ liệu về máy
Copy đường link dưới:http://diachi.blogspot.com/atom.xml?redirect=false&start-index=X&max-results=Y
Trong đó:
diachi.blogspot.com: đường link blog mà bạn muốn lấy dữ liệu
X: Bài bắt đầu lấy (Lấy từ bài đầu tiên thì X là 1)
Y: Tổng số bài sẽ lấy tính từ X (Tổng số bài không vượt quá 500)
Ví dụ: Blog muốn lấy dữ liệu có 200 bài viết thì đường link trên sẽ là:Để tải dữ liệu về, dán đường link đó vào trình duyệt. Sau khi load xong, click chuột phải chọn "Save as" sẽ lưu được một file .xml
http://diachi.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=200
Ví dụ: Blog muốn lấy dữ liệu có 200 bài viết: thay X=1 và Y=200
Nếu là 1000 bài viết thì bạn phải lấy 2 lần. Lần một từ X=1, Y=500, lần hai từ X=501, Y=1000 do mỗi lần chỉ lấy được 500 bài viết.
3. Nhập dữ liệu (import data) vào blog
Đăng nhập Blogger > Cài đặt > Khác > Ấn Nhập BlogChọn file .xml vừa tải về để import lên blog > Ấn Nhập blog
Vậy là coi như đã xong!
Khi import xong nên đăng một vài bài để xóa bỏ Mã Capcha, tránh việc import quá nhiều bài cùng một lúc sẽ bị google cho là spam.
Các bạn cũng không nên import quá nhiều bài của cùng 1 blog cùng 1 lúc (khoảng 4000 bài), nếu làm vậy blog của bạn có thể bị xóa. Nên lấy data của nhiều blog, mỗi blog khoảng vài chục bài sẽ tốt hơn.
4. Cách cài đặt để ngăn chặn và bảo vệ dữ liệu của blogspot
Để tránh bị lấy cắp dữ liệu, hãy bảo vệ blog của mìnhĐăng nhập blog > Cài đặt > Khác > Tại phần "Cho phép nguồn cấp dữ liệu blog" Chọn "Cho đến dấu ngắt" rồi "Lưu cài đặt" lại
Khi ai đó lấy dữ liệu của blog bạn sẽ chỉ lấy được từ đầu bài viết đến phần có dấu ngắt.
Nếu bắt buộc phải đặt full data thì nên tạo 1 đoạn giới thiệu ,để người đọc biết nguồn của bài viết. Tại phần "Chân trang nguồn cấp dữ liêu bài đăng" chọn thêm và đánh nội dung vào như hình dưới. (Có thể không cần)
Bây giờ, mỗi khi đăng bài, bạn cần chèn dấu ngắt nhảy cho bài viết để khi ai đó lấy dữ liệu thì cũng chỉ lấy được đến dấu ngắt.
Cách chèn dấu ngắt nhảy:
Cách 1:
- Đặt con trỏ chuột vào vị trí cần ngắt, tốt nhất là ở sau bức hình đầu tiên hoặc sau 1 đoạn văn ngắn phần đầu.
- Ấn nút "Chèn dấu ngắt nhảy" trên thanh bài viết
Cách 2:
- Chọn chế độ "HTML", thêm code <!--more--> sau ảnh đầu tiên hoặc sau một đoạn ngắn phần đầu.
Done! chúc các bạn thành công.
Cảm ơn bạn đã ghé thăm Quang Design! Hy vọng bài viết này hữu ích.
Lấy dữ liệu của Blogspot và cách ngăn chặn - By Quang Design
Click to show Emotion iconsClick to show Emotion icons