'Binary Hacks'에 해당되는 글 19건
- 2011.06.29 [Hack #3] file – 파일 종류 확인 1
- 2011.06.29 [Hack #2] Binary Hack 용어 정리 1
- 2011.06.29 [책소개] Binary Hacks
♧ file 명령을 이용해서 파일 내용, 종류를 조사.
일반적으로 파일 종류를 알기 위해 확장자를 정해 두고 그 종류를 추측하는 방법을 사용하지만,
file 명령은 파일 내용을 읽어 특징적인 데이터(시그니처)를 찾아 그 종류를 결정.
[ 일반적인 file 명령 ] |
$ file /usr/bin/file /usr/bin/file: ELF 32-bit LSB executable, Intel 80386, version 1 (SYSV), dynamically linked (uses shared libs), for GNU/Linux 2.6.15, stripped |
[ -i옵션 : MIME 미디어 타입 문자열로 표시 ] |
$ file -i /usr/bin/file /usr/bin/file: application/x-executable; charset=binary |
[ file명령이 파일 종류를 판별 하는 순서] |
① 디바이스, 디렉토리, 심볼릭 링크 등의 스페셜 파일 체크 |
위의 어떤 경우에도 해당하지 않으면 단순 바이너리 파일로 판단. |
[ magic 데이터베이스에는 시그니처 정보가 기록 ] |
||||
♧ magic 파일 경로 ⊙ /etc/magic
♧ magic 파일 내용 ( ※ 현재 집에 설치되어 있는 "Ubuntu 10.04.2 LTS"로 테스트)
♧ magic 파일의 엔트리는 4개의 필드로 구성
⊙ 여기서 레벨은 오프셋 값의 앞에 적힌 '>'을 의미. '>4'이라고 적혀 있으면, 다시 처음부터 4바이트 떨어진 위치를 읽고 비교. ⊙ 같은 수의 '>'가 나열되어 잇는 경우. 같은 방식으로 이전 레벨로부터의 오프셋 값에 해당 하는 내용을 보고 진행 ⊙ '일치한 엔트리 앞에 '>'가 하나 더 많은('>>') 엔트리가 있으면 계속해서 그 엔트리에 대한 일치처리. |
[ 앞서 살펴본 elf파일에 대한 file 명령 자신을 판별하는 순서. ] |
① 0 string \177ELF ELF 파일의 처음부터 0바이트 떨어진 위치의 문자열이 "\177ELF"와 일치하는지 확인. → 일치하므로 "ELF"라고 표시 ② >4 byte 0 invalid calss 처음부터 4바이트 떨어진 위치의 1바이트가 1임을 확인. → 일치하지 않으므로 다음 행으로 이동. ③ >4 byte 1 32-bit 처음부터 4바이트 떨어진 위치의 1바이트가 1임을 확인. → 일치하므로 "32-bit"라고 표시 ④ 이후 당분간 일치하지 않으므로 계속 진행. ⑤ >5 byte 1 LSB 처음에서부터 5바이트 떨어진 위치의 1바이트가 1임을 확인. → 일치하므로 "LSB"라고 표시. ⑥ 이 과정을 끝까지 반복. |
[ 정리 ]
file 명령을 사용하면 파일 내용으로부터 파일 종류를 판별할 수 있다.
또한 새로운 파일 형식이 생겨나도 그 파일의 고유한 시그니처를 알면
magic 파일에 엔트리를 추가하여 그 파일을 인식할 수 있도록 되어 있다.
(※ 자세한 내용은 man magic 참조)
'컴퓨터 서적 정리 > Binary Hacks' 카테고리의 다른 글
[Hack #6] 정적 라이브러리와 공유 라이브러리 (1) | 2011.07.02 |
---|---|
[Hack #5] Object file - ELF 파일 (0) | 2011.07.01 |
[Hack #4] od - 바이너리 파일 덤프 (0) | 2011.06.29 |
[Hack #2] Binary Hack 용어 정리 (1) | 2011.06.29 |
[책소개] Binary Hacks (0) | 2011.06.29 |
[ ABI(Application Binary Interface) ]
애플리케이션이 지켜야 할 바이너리 레벨의 규약.
함수호출 시 스택 또는 레지스터 사용법, 심볼 name mangling 규칙 등이 정해져 있다.
OS, 프로세서별로 규정되어 있다.
[ API(Application Programming Interface ]
애플리케이션 프로그램에서 OS나 라이브러리의 기능을 이용하기 위한 함수, 데이터 구조 규약.
API를 이용한 프로그래밍은 동일한 API를 지원하는 플랫폼 간 소스코드 호환성을 갖는다는 이점이 있다.
[ BSS 세그먼트(Block Started by Symbol Segment) ]
초기화되지 않은 데이터가 위치하는 세그멘트.
C의 전역 변수로 int global;과 같이 초기값이 지정되지 않은 데이터가 들어간다.
오브젝트 파일 내에서는 크기를 갖지 않고 프로그램 시작 시에 커널에 의해 0으로 초기화 된다.
ELF에서의 명칭은 .bss이다.
[ DSO(Dynamic Shared Object) ]
GNU/리눅스에서는 동적 링크하는 공유 라이브러리를 DSO 라고 한다.
.so라는 확장자를 갖는다
[ DWARF(Debug With Arbitrary Record Format) ]
디버그 정보를 저장하기 위한 데이터 형식.
GNU/리눅스 + GCC 환경에서는 표준으로 사용되고 있다.
DWARF 또는 ELF는 그 이름 때문에 '반지의 제왕'과 관계가 있는 게 아닌지 의심받기도 한다.
[ ELF(Executable and Linking Format) ]
실행 파일, 오브젝트 파일, 공유 라이브러리, 코어 파일에 사용되는 파일 형식 중 하나.
GNU/리눅스, FreeBSD 등에서 사용되고 있다.
[ GCC(GNU Compile Collection) ]
GNU의 각종 컴파일러 모음. 원래는 GNU C Compiler를 의미했다.
GNU C Compiler를 나타낼 때는 gcc라고 표기한다.
[ glibc(GNU C Library) ]
GNU의 C 라이브러리. GNU/리눅스나 Hurd 등의 OS에서 사용되고 있다.
[ GNU(GNU's Not Unix) ]
본래는 GNU 프로젝트가 개발되고 있는 OS를 일컬었으나,
GNU 프로젝트 자체를 GNU로 부르는 경우가 많다
[ GNU/리눅스 ]
리눅스 커널 기반의 시스템.
GNU를 앞에 붙이는 이유는 커널 외의 컴포넌트를 개발하고 있는 GNU 프로젝트에 경의를 표하기 위함.
[ GOT(Global Offset Table) ]
PIC를 실현하기 위해 필요한 데이터.
PIC에서는 전역 데이터로의 접근을 GOT를 이용해 간접적으로 참조한다.
[ LLP64 ]
long long과 포인터가 64비트인 환경.
int와 long은 32비트. 64비트 윈도우에서는 LLP64.
[ LP64 ]
long과 포인터가 64비트인 호나경. int는 32비트. 64비트 리눅스에서는 LP64.
대부분의 유닉스 계열 OS에서는 LP64를 사용.
[ PIC(Position Independent Code) ]
임의의 주소에 로드 가능한 코드.
데이터 액세스나 점프는 상대 주소로 수행한다. 위치 독립 코드.
[ PIE(Position Independent Executable) ]
위치독립인 실행 파일. 최근의 GNU/리눅스에서 작성할 수 있다.
보안 향상 등의 장점이 있다.
[ PLT(Procedure Linkage Table) ]
동적 링크를 실현하기 위해 필요한 데이터.
GOT와 함께 사용해서 동적 링크한 공유 라이브러리 함수를 간접적으로 호출할 수 있다.
[ POSIX(Portable Operating System Inerface for UNIX) ]
시스템콜, 시그널과 같은 OS의 API를 규정하는 규약.
대부분의 유닉스 계열 OS는 POSIX를 기반으로 하고 있다(or POSIX 표준을 따르려 한다).
[ SUS(Single UNIX Specification) ]
유닉스로 불리는 OS를 위한 규격. 최신 버전인 SUSv3는 웹상에서 볼 수 있다.
SUSv3는 POSIX를 포함하고 있다.
[ TLS(Thread Local Storage) ]
여러 스레드에서 동일한 이름의 변수를 사용하더라도 실제로는 각 스레드의 독립된 영역에 저장되는데,
이를 TLS라 한다. GCC에서는 __thread라는 키워드를 사용해서 TLS를 다룬다.
[ prelink ]
동적 링크를 빠르게 하기 위한 방법 중 하나.
실행 파일과 공유 라이브러리를 수정함으로써 동적 링크 시 발생하는 비용을 대부분 삭감한다.
많은 리눅스 배포판에 사용되고 있다.
[ x86 ]
인텔(Intel)사의 8086 계열의 프로세서를 약칭함.
80486 이후 Pentium, Xeon 등의 제품명을 갖는다. IA-32라고도 한다.
[ x86_32 ]
x86_64와 구별하기 위해 32비트의 x86 아키텍처를 x86_32로 표기하는 경우도 있다.
[ x86_364 ]
AMD에서 설계한 x86 상위호환의 64비트 프로세서 아키텍처. AMD64라고도 함.
인텔도 동일한 아키텍처를 채택하고 있다. EM64T는 인텔에서 사용하는 제품명.
[ 인라인 어셈블리 코드(inline assembly code) ]
C와 같은 고급언어 프로그램에 삽입된 어셈블리 코드를 일컬음.
아키텍처 의존적인 처리, 최적화 등에 사용된다.
[ 엔디안(endian) ]
여러 바이트로 된 데이터를 어떤 순서로 저장할지를 정하는 규칙.
바이트 순서라고도 함. 엔디안이라는 명칭은 걸리버 여행기에서 유래함.
[ 오브젝트 파일(object file) ]
컴파일러가 생성한 중간 단계 파일.
실행 파일이나 라이브러리는 오브젝트 파일을 링크해서 만든다.
GNU/리눅스에서는 .o라는 확장자를 갖는다.
넓은 의미로는 실행 파일이나 라이브러리도 오브젝트 파일에 포함하기도 한다.
[ 역어셈블(disassemble) ]
기계어를 어셈블리어로 변환하는 것.
[ 공유 라이브러리(shared library) ]
프로그램 실행 중 메모리상에서 여러 프로그램에 의해 공유되는 라이브러리.
통상 공유 라이브러리는 동적 링크된다. 정적 링크되는 공유 라이브러리도 있으나 드물다.
공유 오브젝트라고도 함.
[ 재배치(relocation) ]
기계어 코드에 포함된 주소를 링크 시에 또는 로드 시에 수정하는 것.
[ 시그널(signal) ]
프로세스에 보내지는 동기적인 또는 비동기적인 이벤트.
POSIX에서는 SIGKILL과 SIGSTOP외의 시그널은 시그널 핸들러로 처리할 수 있다.
[ 시그널 핸들러(signal handler) ]
시그널을 처리하는 함수. sigaction() 또는 signal() 함수로 설정할 수 있다.
[ 시그니처(signature) ]
이름, 인수, 반환 값의 형태에 따라 결정되는 함수의 형식.
보통 C나 C++ 등의 컴파일 언어에서는 이름이 같아도
시그니처가 다른 함수를 호출하려 하면 경고 또는 에러가 발생한다.
[ 시스템콜(system call) ]
유저 레벨의 애플리케이션에서 OS 커널의 기능을 호출하기 위한 방법.
(예: open(), read(), fork(), signal())
[ 심볼(symbol) ]
일반적으로는 기호를 의미하지만,
Binary Hacks의 문맥에서는 링커가 함수나 변수를 식별할 때 사용하는 이름을 말한다.
[ 심볼 테이블(symbol table) ]
오브젝트 파일 등에 포함된 심볼의 표.
명시적으로 삭제하지 않는 한 실행 파일이나 라이브러리에 남아 있다.
[ 스택(stack) ]
스택 프레임을 단계적으로 쌓아가는 메모리 영역. Binary Hacks의 문맥상
스택은 「데이터 구조의 스택」이 아니라 「메모리 영역의 스택」을 가리키는 경우가 많다.
[ 스택 프레임(stack frame) ]
인수나 지역 변수, 보존된 레지스터, 반환 값 주소 등 함수호출에 필요한 정보를 정리한 것.
간단히 프레임이라고도 한다.
[ 스택 포인터(stack pointer) ]
스택 프레임을 조작하기 위해 사용하는 포인터.
x86등은 스택 포인터를 위한 전용 레지스터를 갖고 있다.
RISC 프로세서에서는 범용 레지스터 중에 하나를 스택 포인터로 정해서 사용하는 경우가 많다.
[ 스레드(thread) ]
프로그램 실행 단위의 하나.
프로세스와의 주된 차이점은 자원 공유 방법에 있다.
통상, 프로세스에 비해 스레드 간 자원 공유가 더 쉽다.
하나의 프로세스는 여러 스레드를 갖는다.
[ 스레드 안전(thread safe) ]
멀티스레드 프로그램에서 안전하게 실행할 수 있음을 일컬음.
대개의 경우 static 변수를 내부에 지닌 함수는 스레드에 안전하지 않다.
[ 세그먼테이션 폴트(segmentation fault) ]
접근 불가한 주소 영역에 접근하거나 쓰기 불가능한 주소 영역에 쓰기를 할 경우 발생하는 에러.
C, C++ 프로그래머는 자주 접하게 된다. 세그먼트 위반이라고도 한다.
[ 실행 파일(executable file) ]
실행 가능한 파일. GNU/리눅스에서는 /bin, /usr/bin등에 있다.
[ 정적 라이브러리(static library) ]
정적 링크되는 라이브러리. GNU/리눅스에서는 .a라는 확장자를 갖는다.
[ 정적 링크(static link) ]
실행 파일을 생성할 때 라이브러리를 링크하는 것.
대개 라이브러리 내용을 실행 파일내에 포함시키기 때문에 실행 시에는 라이브러리 파일이 필요 없다.
[ 툴 체인(toolchain) ]
컴파일러, 링커, 어셈블러 등 네이티브 프로그램을 생성하기 위해 필요한 일련의 툴을 총칭.
[ 데이터 세그먼트(data segment) ]
초기화된 데이터가 위치하는 세그먼트. ELF에서의 명칭은 .data 이다.
[ 텍스트 세그먼트(text segment) ]
기계어 코드가 위치하는 세그먼트.
통상, read-only로 설정된다. ELF에서의 명칭은 .text 이다.
[ 디버거(debugger) ]
프로그램 버그의 원인을 찾는 데 유용한 툴.
디버거로 프로그램을 구동시킨 후 백트레이스나 변수 조사 등을 수행한다.
[ 디버그 정보(debug information) ]
디버거가 필요로 하는 정보. 실행 파일이나 공유 라이브러리에 포함되어 있다.
gcc에서는 -g 옵션을 주면 생성.
[ demangle ]
name mangling된 심볼을 원래의 읽기 쉬운 심볼로 복원시키는 것을 말함.
(예: _ZN3Foo3BarE => Foo::Bar)
[ 동적 링크(dynamic link) ]
실행 시에 라이브러리를 링크하는 것.
실행 시에 라이브러리 파일이 필요함. 라이브러리가 존재하지 않으면 실행 시에 에러가 발생한다.
[ 동적 링크 라이브러리(dynamic link library) ]
동적 링크된 라이브러리. 윈도우에서는 DLL이라 불린다.
GNU/리눅스에서는 DSO라고 불리는 경우가 많다.
[ name mangling ]
함수명과 시그니처로부터 유일한 심볼을 생성하는 것을 말함.
C++나 자바(Java)등의 언어에서 사용된다. (예: Foo::Bar => _ZN3Foo3BarE)
[ 바이너리안(binarian) ]
Binary Hack에 정통한 엔지니어.
[ 백트레이스(backtrace) ]
현재 함수에 도달할 때까지 지나온 함수를 추적하는 것. 스택 트레이스라고도 함.
[ 힙(heap) ]
malloc() 등에 의해 동적으로 확보된 메모리 영역.
Binary Hack의 문맥상으로 힙은 「데이터 구조의 힙」이 아니라 「메모리 영역의 힙」을 가리킨다.
자유기억 영역 이라고도 함.
[ 중단점(break point) ]
디버거로 프로그램 실행을 일시 중지시킬 지점. 함수명이나 소스코드의 행 번호로 지정한다.
[ 프로그램 카운터(program counter) ]
CPU내의 레지스터 중 하나로, 현재 실행하고 있는 명령의 주소를 저장하고 있다.
PC로 줄여서 일컫기도 함. 인스트럭션 포인터라고도 함.
[ 프로세스(process) ]
프로그램 실행 단위의 하나. 실행 중인 프로그램의 인스턴스.
통상, 프로세스는 하나의 프로세스 ID를 갖는다.
[ 프로파일러(profiler) ]
프로그램의 성능을 분석하는 툴. (이 책에서는 gprof, sysprof, oprofile을 소개한다.)
[ 호출 규약(calling convention) ]
함수를 호출할 때 데이터를 어떤 식으로 스택에 쌓을지를 정하는 규약.
ABI의 일종. OS나 프로세서에 따라 다르다.
[ 런타임(runtime) ]
실행 시를 뜻함. 실행 시에 발생하는 에러를 런타임 에러라고 한다.
[ 링크(link) ]
오브젝트 파일이나 라이브러리를 연결하는 것. 재배치 등의 처리를 수행한다.
[ 리플렉션(reflection) ]
실행 중인 프로그램 자신의 정보를 조사하거나 수정하는 것을 말함.
C언어 에서는 리플렉션을 위한 기능은 없지만, Binary Hack을 이용하기에 따라 유사한 기능을 구현할 수 있다.
[ 로드(load) ]
실행 파일이나 라이브러리를 메모리상에 배치하는 것.
'컴퓨터 서적 정리 > Binary Hacks' 카테고리의 다른 글
[Hack #6] 정적 라이브러리와 공유 라이브러리 (1) | 2011.07.02 |
---|---|
[Hack #5] Object file - ELF 파일 (0) | 2011.07.01 |
[Hack #4] od - 바이너리 파일 덤프 (0) | 2011.06.29 |
[Hack #3] file – 파일 종류 확인 (1) | 2011.06.29 |
[책소개] Binary Hacks (0) | 2011.06.29 |
|
♧ 이 책에서 주로 GNU Binary Utilities에 대한 간략한 테크닉과
gcc 기반의 Linux(or Unix)에서 각종 버그를 찾는 방법들을 다루고 있다.
저수준에 대한 접근 문제 해결능력을 키울 수 있는 서적인 듯 하다.
목차 : 1장 소개 1 2장 오브젝트 파일 Hack 21 3장 GNU 프로그래밍 Hack 93 4장 보안 프로그래밍 Hack 177 5장 런타임 Hack 245 6장 프로파일러쪾디버거 Hack 379 7장 그 밖의 Hack 399 |
'컴퓨터 서적 정리 > Binary Hacks' 카테고리의 다른 글
[Hack #6] 정적 라이브러리와 공유 라이브러리 (1) | 2011.07.02 |
---|---|
[Hack #5] Object file - ELF 파일 (0) | 2011.07.01 |
[Hack #4] od - 바이너리 파일 덤프 (0) | 2011.06.29 |
[Hack #3] file – 파일 종류 확인 (1) | 2011.06.29 |
[Hack #2] Binary Hack 용어 정리 (1) | 2011.06.29 |