使用 wayback cdx 取得頂級域名下的 domain 清單

發表於 2023-10-24

透過查詢 wayback 的索引，取得 domain 清單
範例如下：

1	https://web.archive.org/cdx/search/cdx?url=*.tw/&output=txt&fl=original&collapse=urlkey&limit=10&filter=!original:https?://[^/]%2B/.%2B

當然這樣抓一定不全，但是很快~~而且不用錢~~
真要更全，可能再把抓到的 domain 送到 shodan 查，或是一個一個 knock 吧

參數說明

2023-10-27 共抓到了 912603 筆（未排除已停止運作的網站或已過期 domain）

url 參數用 *.tw 時，無法取得 .com.tw, .edu.tw 等二級域名底下的 domain，需用 *.com.tw, *.edu.tw 才能取得。

目前使用 TWNIC 屬性型網域名稱中的清單來一個一個跑。

如果 limit=10000 + 使用 resumeKey，得到的結果會明顯少於 limit=1000 + 使用 resumeKey
確定後者不是因爲資料重複所以比較多，總之沒搞懂原理