Laphy的博客: 下载delicious网站上的个人收藏列表

下载delicious网站上的个人收藏列表

发帖者 Laphy 时间： 08:45

delicious是个很不错的网摘收藏与分享的网站，它的标签化管理做的非常出色。我常常用它来收藏自己喜欢的一些文章。

但是我在学校里的用的是教育网，如果访问delicous就必须要用代理，可是一些免费的代理总不是很稳定，偶尔会登录不上去。而我在 delicious上收藏的文章一般都是国内的文章，是没必要代理就可以访问的。所有用delicious就有点不太方便了。而且delicous每页显示的文章链接数只有10条，看完100条链接的话要点击10次，实在让我有点心烦。

因此我用python写了个脚本，可以将某个用户的分享的文章链接全部下载下来，放到一个HTML文件中，这要以后就可以不登记delicious就可以点击这些链接了，也可以算是一种备份吧。

废话不多说了，以下是python的代码。

Python语言: Codee#1012

#encoding=utf-8
import sys,urllib2,re

user = 'laphy'
def tag2html(name,url,description):
    global user
    file_name = "rewen.html"
    f = open(file_name,"a")
    f.write("\t<DT><A HREF=\""+url+"\">"+name+"</A>\n")
    if description:
        f.write("\t<DD>"+description+"</DD>\n")
    f.close()

def main(agrv=None):
    page_num = -1
    base_url = "http://www.zhuaxia.com/indexFrame.php#showPopular(4,25,%d)"
    url = base_url % page_num
    #f = urllib2.urlopen(url)
    #data = f.read()
    #nums_re = '<span id="tagScopeCount">(\d+)</span>'
    #link_count = (int)(re.search(nums_re,data).group(1))
    #page_count = link_count/10 + 1
    #for page_num in range(2,page_count+1):
    
    while page_num<100:
        page_num+=1
        print page_num
        url = base_url % page_num
        data = urllib2.urlopen(url).read()
        print data
        #url_re = 'class="taggedlink " href="(.*)" >(.*)</a>'
        url_re = 'href="(.*)" target="_blank" onclick="__305(500);">(.*)</a>'
        urls = re.findall(url_re, data)
        for i in urls:
            tag2html(i[1],i[0],None)
            print i[1]
        
    
if __name__ == "__main__":
    sys.exit(main())

Laphy的博客

下载delicious网站上的个人收藏列表

0 Comments:

PostRank

Labels

Blog Archive

最新文章

Twitter Updates

Twitter Updates

Google Reader分享

博客链接

Laphy的博客

下载delicious网站上的个人收藏列表

0 Comments:

PostRank

Labels

Blog Archive

最新文章

Twitter Updates

Twitter Updates

Google Reader分享

博客链接

订阅