业余爱好是看电影,电影方面的资料,一般会查imdb和豆瓣电影网站。今天突发奇想……

大侠们能否将这两个网站爬下来,做成mdx,以便离线查询电影资料?
主要是几个字段:
imdb编号或豆瓣编号、评分、片名、年份、简介……之类,至于海报图片,可有可无。

imdb的链接格式是固定的,如下:
https://w w w.i m d b.c o m/t i t l e/t t 0000001/
https://w w w.i m d b.c o m/t i t l e/t t 0000002/
https://w w w.i m d b.c o m/t i t l e/t t 0000003/
……
https://w w w.i m d b.c o m/t i t l e/t t 11626108/

豆瓣电影的链接类似这样子:
https://m o v i e.d o u b a n.c o m/s u b j e c t/1433702/
https://m o v i e.d o u b a n.c o m/s u b j e c t/35215390/
不过我猜不到它的编号逻辑和最小值是多少。

大侠们看看,有搞头不?
我不懂python,总以为只是十几行代码的事儿。
不知猜错了没有?
谢谢!

3 个赞

确实是奇想。

imdb的网址格式是:
https:// + www.imdb.com/title/ + tt + 13317320
最后的数字可能是7—8位,从0000001开始排;

douban的网址格式是:
https:// + movie.douban.com/subject/ + 35215390
最后的数字似乎是随机数无规律。

1 个赞

豆瓣早期的 id 都是书籍的(1291542 及以前),后面的是电影、书籍和音乐,应该递增录入数据的。现在数据已有 3000 万+。

1 个赞

这里有电影资料的mdx。

Index of /尚未整理/共享2020.5.11/content/5_encyclopedia/中文百科/
电影资料大全2011有图版.mdd 03-Nov–2020 07:55 162820438 B / 155.28 MB
电影资料大全2011有图版.mdx 03-Nov–2020 07:54 2425269 B / 2.31 MB

MDX是个筐,什么都能往里装。 :upside_down_face:

2 个赞