티스토리 뷰

안녕하세요! 이번에는 웹사이트의 소스코드를 불러오는것에 대해서 간단히 작성해 보려합니다.

 

웹사이트를 접속하고 사이트의 내용을 다운로드 받는데 시각적으로 데이터를 가져오는 것이 아닌 HTML코드를 다운로드 받게 됩니다.

웹사이트의 내용(HTML 평문 코드)을 다운로드 받게되면 브라우저가 시각적으로 처리하게 되는데요. 잘 모르신다면, 간단히 HTML에 대해 공부해 보시는 것을 추천해 드립니다.

 

다수의 웹사이트는 파싱, 크롤링 등의 행위는 웹사이트가 금지하고 있습니다. 이점 주의해 주세요.

 

HTML 코드는 기본적으로 아래와 같은 형태로 있습니다.

<html>
	<head>
    	<title>내 블로그!!</title>
    </head>
    <body>
    	<center>
        	<h2>환영합니다!</h2>
            <br>
            <strong>IT Storage 블로그의 오신 여러분 진심으로 환영합니다.</strong>
        </center>
    </body>
</html>

이와 같은 소스코드는 브라우저의 '소스 코드'를 보는 기능이 존재합니다.

네이버나 구글등의 웹사이트에서 한번 확인해 보세요!

 

그런데 가끔 크롤링이 필요할 때가 있습니다.

제가 생각하기로는.. 어떤 공연에 좌석이 비었을때, 새로운 게시글이 올라올때 등 여러 목적으로 사용하게 되는데요,

이러한 행위는 위에서 말씀 드렸다시피 대부분의 웹사이트에서 금지하고 있습니다. 다만 일회성이라면 괜찮지만, 지속적이고 상업적이라면 절대 안됩니다!

 

지금 한번 파이썬을 통해 웹사이트의 소스코드를 가져오도록 하겠습니다

import urllib2

data = urllib2.urlopen('https://ytdlsj2002.tistory.com').read()
print(data)

제 웹사이트의 소스코드를 가져오게 될 것입니다.

 

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
글 보관함