[Python 2.7] 웹사이트 소스코드 가져오기 #파싱 #크롤링

티스토리 뷰

Programming/Python

[Python 2.7] 웹사이트 소스코드 가져오기 #파싱 #크롤링

Talking1258 2019. 9. 18. 13:06

안녕하세요! 이번에는 웹사이트의 소스코드를 불러오는것에 대해서 간단히 작성해 보려합니다.

웹사이트를 접속하고 사이트의 내용을 다운로드 받는데 시각적으로 데이터를 가져오는 것이 아닌 HTML코드를 다운로드 받게 됩니다.

웹사이트의 내용(HTML 평문 코드)을 다운로드 받게되면 브라우저가 시각적으로 처리하게 되는데요. 잘 모르신다면, 간단히 HTML에 대해 공부해 보시는 것을 추천해 드립니다.

다수의 웹사이트는 파싱, 크롤링 등의 행위는 웹사이트가 금지하고 있습니다. 이점 주의해 주세요.

HTML 코드는 기본적으로 아래와 같은 형태로 있습니다.

<html>
	<head>
    	<title>내 블로그!!</title>
    </head>
    <body>
    	<center>
        	<h2>환영합니다!</h2>
            <br>
            <strong>IT Storage 블로그의 오신 여러분 진심으로 환영합니다.</strong>
        </center>
    </body>
</html>

이와 같은 소스코드는 브라우저의 '소스 코드'를 보는 기능이 존재합니다.

네이버나 구글등의 웹사이트에서 한번 확인해 보세요!

그런데 가끔 크롤링이 필요할 때가 있습니다.

제가 생각하기로는.. 어떤 공연에 좌석이 비었을때, 새로운 게시글이 올라올때 등 여러 목적으로 사용하게 되는데요,

이러한 행위는 위에서 말씀 드렸다시피 대부분의 웹사이트에서 금지하고 있습니다. 다만 일회성이라면 괜찮지만, 지속적이고 상업적이라면 절대 안됩니다!

지금 한번 파이썬을 통해 웹사이트의 소스코드를 가져오도록 하겠습니다

import urllib2

data = urllib2.urlopen('https://ytdlsj2002.tistory.com').read()
print(data)

제 웹사이트의 소스코드를 가져오게 될 것입니다.

저작자표시 변경금지 (새창열림)

'Programming > Python' 카테고리의 다른 글

[Python 2.7] 파이썬 웹 서버 오픈소스 소프트웨어 (1.1.0 / 20191022) (0)	2019.10.22
[Python 2.7] 파이썬 웹 서버 오픈소스 소프트웨어 (1.0 / 20191019) (0)	2019.10.19
[Python3] 자리 바꾸기 프로그램 (0)	2019.10.08
[Python] 멀티 프로세싱 - 병렬 프로그래밍(다중 프로세서 사용) (0)	2019.09.22
[Python] 픽셀값 차를 통한 이미지 유사도 (1)	2019.09.15

공유하기 링크

페이스북
카카오스토리
트위터

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

글 보관함

티스토리 뷰

[Python 2.7] 웹사이트 소스코드 가져오기 #파싱 #크롤링

'Programming > Python' 카테고리의 다른 글

티스토리툴바