使用 wayback cdx 取得頂級域名下的 domain 清單

https://github.com/internetarchive/wayback/tree/master/wayback-cdx-server

透過查詢 wayback 的索引,取得 domain 清單
範例如下:

1
https://web.archive.org/cdx/search/cdx?url=*.tw/&output=txt&fl=original&collapse=urlkey&limit=10&filter=!original:https?://[^/]%2B/.%2B

當然這樣抓一定不全,但是很快而且不用錢
真要更全,可能再把抓到的 domain 送到 shodan 查,或是一個一個 knock

參數說明

  • url:要搜尋的 url 格式,此處爲任意 .tw 與其 subhost
  • output:輸出格式
  • fl:輸出的欄位與其順序
  • collapse:將欄位值相同的記錄合併,因此處目的爲取得 domain 清單,故只要 urlkey 相同就合併
  • limit:輸出的筆數上限,硬性上限爲 150000,可透過分頁或是 resumeKey 取得更多結果
  • filter:可以欄位值過濾資料,加上!是排除,支援 regex,注意做 url encoding

抓取數量

2023-10-27 共抓到了 912603 筆(未排除已停止運作的網站或已過期 domain)

url 參數

url 參數用 *.tw 時,無法取得 .com.tw, .edu.tw 等二級域名底下的 domain,需用 *.com.tw, *.edu.tw 才能取得。

目前使用 TWNIC 屬性型網域名稱 中的清單來一個一個跑。

limit 參數

如果 limit=10000 + 使用 resumeKey,得到的結果會明顯少於 limit=1000 + 使用 resumeKey
確定後者不是因爲資料重複所以比較多,總之沒搞懂原理