自分方位研究所

日々の活動記録

はてなブログ。記事のエクスポートデータをそのままExcelに取り込むと文字化け

はてなブログ記事のエクスポートファイルは「ブログURL+ export.txt」という名称のテキストファイルになります。

これをExcelに取り込み、加工して記事一覧を作成する予定なのですが、先ず、手動でExcelに取り込んでみます。

Excelの上部メニュー「ファイル」> 「開く」で エクスポートファイルを選択すると、CSVファイル読み込み時と同じ「テキストファイルウイザード」が開きます。
文字コードはデフォルトの「Windows(ANSI)」(SHIFT-JIS)

日本語部分が文字化けしています。

f:id:k-emu:20220215191206j:plain

このまま「次へ」ボタンクリック。

f:id:k-emu:20220215201633j:plain

列のデータ形式を文字列にして「完了」

f:id:k-emu:20220215201644j:plain

Excelシートに出力されますが、上記プレビュー画面のとおりで、日本語部分が文字化けしています。

再度挑戦。今度は文字を 「 Unicode(UTF-8) 」に変更します。
すると、プレビュー画面で、日本語が文字化けせずに表示されています。

f:id:k-emu:20220215202003j:plain

続けて次へ

f:id:k-emu:20220215202010j:plain

列のデータ形式を文字列にして「完了」

f:id:k-emu:20220215202015j:plain

「ファイル全体を読むことができませんでした。」のアラートが出現。

f:id:k-emu:20220215202028j:plain

テキストファイルの容量が大きすぎるからでしょうか?
4795Kbyteあります。

Excelシートには文字化けせずに出力されていますが・・・

f:id:k-emu:20220215202041j:plain

スクロールしていくと、1226行目で途切れています。

f:id:k-emu:20220215202052j:plain

ちなみに、文字コードをデフォルトの「Windows(ANSI)」(SHIFT-JIS)にして、文字化け状態のときは、ちゃんと最終行(57117行)まで出力されていました。(2016/1/1投稿。本ブログ最初の記事) 

f:id:k-emu:20220215202113j:plain

 

試しに、「テキストファイルウイザード」を使わずに、エクスプローラからExcelシートへ直接ドラッグ・アンド・ドロップしてみると・・・

f:id:k-emu:20220215214119j:plain

やはり、文字化けしますが、全記事が出力されています。

「テキストファイルウイザード」で、文字コードをUTF-8にすれば、文字化けは無くなるけれど、記事は途中までしか出力してくれないし・・・さてどうするか。