2019年5月29日水曜日

w3mでgoogle検索が使えない#2

w3mで、www.google.comに行って、"w3m"を検索した時のページをALT+Sで保存して、その内容を見てみた。

内容は、なぜかバイナリ。
$ hexdump -C search.txt | head
00000000  1f 8b 08 00 00 00 00 00  02 ff d4 58 e9 56 db 48  |...........X.V.H|
00000010  16 7e 15 b5 98 a1 ad c1  96 e5 1d 24 44 8e 59 12  |.~.........$D.Y.|
00000020  08 10 b6 40 e8 a4 d3 39  25 a9 24 15 d6 86 54 c2  |...@...9%.$...T.|
00000030  36 46 6f d0 f3 0c f3 94  f3 7f 6e 55 49 5e 20 30  |6Fo.......nUI^ 0|
00000040  7d e6 df c4 b1 29 dd aa  ba 75 97 ef 2e a5 ed 5f  |}....)...u....._|
00000050  9c d8 a6 d3 04 4b 3e 0d  83 9d 6d f6 2b 05 28 f2  |.....K>...m.+.(.|
00000060  4c f9 0e c9 f0 8c 91 b3  b3 1d 62 8a 24 db 47 69  |L.........b.$.Gi|
00000070  86 a9 29 5f 7f 7e df d8  94 2b 6a 1c 51 1c 01 b5  |..)_.~...+j.Q...|
00000080  49 42 e4 e1 ac 69 a5 28  72 48 e4 35 bd 38 f6 02  |IB...i.(rH.5.8..|
00000090  ec 35 5b 93 6a f8 23 a3  30 87 52 e7 87 1d 07 71  |.5[.j.#.0.R....q|
これは、圧縮データ?と思って、fileコマンドで確認すると、
$ file search.txt
search.txt: gzip compressed data, max compression
やっぱり、gzip圧縮データだ。

zcat してみると、HTML文が見えた。
$ zcat search.txt | head
<!doctype html><html lang="ja"><head><meta charset="UTF-8"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png"...(省略)
ただし、1行で書いてあって、非常に読みにくい。
sedを使って、'</a>'の後に改行を挿入して、<a>タグが1つの行になるようにした。
そうしておいて、'<a 'を含む行をgrepで取り出して、行頭から'<a 'の直前までを削除して、いくつかの行を見てみた。
(日本語がバケバケだったので、nkfも通した)

これは、ハイパーリンクとして使えるやつ。
<a href="/search?inlang=ja&amp;hl=ja&amp;gbv=1&amp;ie=UTF-8&amp;sa=G&amp;q=%E6%97%A5%E6%9C%AC%E8%AA%9E&stick=H4sIAAAAAAAAAOPgE-LQz9U3sDCrMlMCs4zjLYu0VDLKrfST83NyUpNLMvPz9Ivz00rKE4tSrRLLEjNzEpNyUhUy8xaxcj6bvvTZnDUvVs0DAFwBCY9IAAAA&amp;ved=2ahUKEwiUkrSZz8DiAhXEyosBHbkMDdEQmxMwBnoECAsQDA">
 <span class="XLloXe AP7Wnd">日本語</span>
</a>
(インデントを入れたり改行したり、少し整理している)
リンク先は、'/search'になっている。そこからリダイレクトする感じで目的のページに飛んでいくのだろう。
中は、<span>タグだけが入っている。

そして、これはハイパーリンクにならないやつ。
<a href="/url?q=http://w3m.sourceforge.net/index.ja.html&amp;sa=U&amp;ved=2ahUKEwiUkrSZz8DiAhXEyosBHbkMDdEQFjAIegQIBhAB&amp;usg=AOvVaw3hY1zSIhxgTLjnhFncoCW8">
 <div class="BNeawe vvjwJb AP7Wnd">W3m - SourceForge</div>
 <div class="BNeawe UPmit AP7Wnd">w3m.sourceforge.net</div>
</a>
リンク先は、'/url'で始まっていて異なるが、その後はよく似ている。同じようにリダイレクトするのだろう。
そう考えれば、この<a>には問題は無いのだろう。
他の違うところとしては、その中身が、<div>になっていて、しかも2つあることだ。

この辺が、ハイパーリンクにならない原因か?
とりあえず、今日はここまで。

0 件のコメント:

コメントを投稿