内容は、なぜかバイナリ。
$ hexdump -C search.txt | head 00000000 1f 8b 08 00 00 00 00 00 02 ff d4 58 e9 56 db 48 |...........X.V.H| 00000010 16 7e 15 b5 98 a1 ad c1 96 e5 1d 24 44 8e 59 12 |.~.........$D.Y.| 00000020 08 10 b6 40 e8 a4 d3 39 25 a9 24 15 d6 86 54 c2 |...@...9%.$...T.| 00000030 36 46 6f d0 f3 0c f3 94 f3 7f 6e 55 49 5e 20 30 |6Fo.......nUI^ 0| 00000040 7d e6 df c4 b1 29 dd aa ba 75 97 ef 2e a5 ed 5f |}....)...u....._| 00000050 9c d8 a6 d3 04 4b 3e 0d 83 9d 6d f6 2b 05 28 f2 |.....K>...m.+.(.| 00000060 4c f9 0e c9 f0 8c 91 b3 b3 1d 62 8a 24 db 47 69 |L.........b.$.Gi| 00000070 86 a9 29 5f 7f 7e df d8 94 2b 6a 1c 51 1c 01 b5 |..)_.~...+j.Q...| 00000080 49 42 e4 e1 ac 69 a5 28 72 48 e4 35 bd 38 f6 02 |IB...i.(rH.5.8..| 00000090 ec 35 5b 93 6a f8 23 a3 30 87 52 e7 87 1d 07 71 |.5[.j.#.0.R....q|これは、圧縮データ?と思って、fileコマンドで確認すると、
$ file search.txt search.txt: gzip compressed data, max compressionやっぱり、gzip圧縮データだ。
zcat してみると、HTML文が見えた。
$ zcat search.txt | head <!doctype html><html lang="ja"><head><meta charset="UTF-8"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png"...(省略)ただし、1行で書いてあって、非常に読みにくい。
sedを使って、'</a>'の後に改行を挿入して、<a>タグが1つの行になるようにした。
そうしておいて、'<a 'を含む行をgrepで取り出して、行頭から'<a 'の直前までを削除して、いくつかの行を見てみた。
(日本語がバケバケだったので、nkfも通した)
これは、ハイパーリンクとして使えるやつ。
<a href="/search?inlang=ja&hl=ja&gbv=1&ie=UTF-8&sa=G&q=%E6%97%A5%E6%9C%AC%E8%AA%9E&stick=H4sIAAAAAAAAAOPgE-LQz9U3sDCrMlMCs4zjLYu0VDLKrfST83NyUpNLMvPz9Ivz00rKE4tSrRLLEjNzEpNyUhUy8xaxcj6bvvTZnDUvVs0DAFwBCY9IAAAA&ved=2ahUKEwiUkrSZz8DiAhXEyosBHbkMDdEQmxMwBnoECAsQDA"> <span class="XLloXe AP7Wnd">日本語</span> </a>(インデントを入れたり改行したり、少し整理している)
リンク先は、'/search'になっている。そこからリダイレクトする感じで目的のページに飛んでいくのだろう。
中は、<span>タグだけが入っている。
そして、これはハイパーリンクにならないやつ。
<a href="/url?q=http://w3m.sourceforge.net/index.ja.html&sa=U&ved=2ahUKEwiUkrSZz8DiAhXEyosBHbkMDdEQFjAIegQIBhAB&usg=AOvVaw3hY1zSIhxgTLjnhFncoCW8"> <div class="BNeawe vvjwJb AP7Wnd">W3m - SourceForge</div> <div class="BNeawe UPmit AP7Wnd">w3m.sourceforge.net</div> </a>リンク先は、'/url'で始まっていて異なるが、その後はよく似ている。同じようにリダイレクトするのだろう。
そう考えれば、この<a>には問題は無いのだろう。
他の違うところとしては、その中身が、<div>になっていて、しかも2つあることだ。
この辺が、ハイパーリンクにならない原因か?
とりあえず、今日はここまで。
0 件のコメント:
コメントを投稿