Hãy xem xét một công ty cảnh quan có thiết kế tập trung vào cây bản địa và bảo tồn nước. Công ty tạo ra hai quảng cáo: một tập trung vào tính bền vững (quảng cáo A) và một tập trung vào tính thẩm mỹ (quảng cáo B). Khi các nền tảng cá nhân hóa các quảng cáo mà những người dùng khác nhau nhận được, quảng cáo A và B sẽ được phân phối đến các nhóm có sự kết hợp khác nhau. Người dùng quan tâm đến các hoạt động ngoài trời có thể thấy quảng cáo về tính bền vững, trong khi người dùng quan tâm đến đồ trang trí nhà cửa có thể thấy quảng cáo về tính thẩm mỹ. Nhắm mục tiêu quảng cáo đến những người tiêu dùng cụ thể là một phần chính trong giá trị mà các nền tảng cung cấp cho các nhà quảng cáo vì nó nhằm mục đích đặt các quảng cáo “phù hợp” tới người dùng “phù hợp”.
Trong một nghiên cứu mới của Tạp chí Tiếp thị , chúng tôi thấy rằng thử nghiệm A/B trực tuyến trong quảng cáo kỹ thuật số có thể không mang lại thông tin chi tiết đáng tin cậy mà các nhà Marketing mong đợi. Nghiên cứu của chúng tôi phát hiện ra những hạn chế đáng kể trong các công cụ thử nghiệm do các nền tảng quảng cáo trực tuyến cung cấp, có khả năng tạo ra kết luận sai lệch về hiệu suất quảng cáo.
Vấn đề với việc phân phối khác biệt
Chúng tôi nhấn mạnh một hiện tượng được gọi là “phân phối phân kỳ”, trong đó các thuật toán nhắm mục tiêu được sử dụng bởi các nền tảng quảng cáo trực tuyến như Meta và Google nhắm mục tiêu đến các loại người dùng khác nhau với nội dung quảng cáo khác nhau. Vấn đề phát sinh khi thuật toán gửi các quảng cáo khác nhau đến các nhóm người dùng khác nhau bằng cách sử dụng thử nghiệm A/B: một thử nghiệm được thiết kế để so sánh hiệu quả của hai quảng cáo. Quảng cáo “chiến thắng” có thể hoạt động tốt hơn chỉ vì thuật toán hiển thị nó cho những người dùng có xu hướng phản hồi quảng cáo nhiều hơn so với những người dùng đã xem quảng cáo kia. Cùng một quảng cáo có thể hoạt động tốt hơn hoặc kém hơn tùy thuộc vào nhóm người dùng xem quảng cáo đó thay vì vào nội dung sáng tạo của chính quảng cáo đó.
Đối với một nhà quảng cáo, đặc biệt là với lượng khán giả lớn để lựa chọn và ngân sách hạn chế, việc nhắm mục tiêu mang lại nhiều giá trị. Vì vậy, các công ty lớn như Google và Meta sử dụng các thuật toán phân bổ quảng cáo cho những người dùng cụ thể. Trên các nền tảng này, các nhà quảng cáo đấu giá để có quyền hiển thị quảng cáo cho người dùng trong một đối tượng. Tuy nhiên, người chiến thắng trong cuộc đấu giá để giành quyền đặt quảng cáo trên màn hình của một người dùng cụ thể không chỉ dựa trên giá trị tiền tệ của các giá thầu mà còn dựa trên nội dung quảng cáo và mức độ liên quan của người dùng với quảng cáo. Các đầu vào và phương pháp chính xác xác định mức độ liên quan của quảng cáo với người dùng, mức độ liên quan ảnh hưởng đến kết quả đấu giá như thế nào và do đó, người dùng nào được nhắm mục tiêu bằng từng quảng cáo là độc quyền của các nền tảng cụ thể và các nhà quảng cáo không thể quan sát được. Người ta không biết chính xác các thuật toán xác định mức độ liên quan đối với các loại người dùng như thế nào và thậm chí có thể các nền tảng không thể liệt kê hoặc sao chép được.
Những phát hiện của chúng tôi có ý nghĩa sâu sắc đối với các nhà Marketing đang dựa vào thử nghiệm A/B đối với quảng cáo trực tuyến của họ để làm cơ sở cho các quyết định liên quan đến các chiến lược Marketing của họ. Do chi phí thấp và có vẻ hấp dẫn về mặt khoa học, các nhà Marketing sử dụng các thử nghiệm quảng cáo trực tuyến này để phát triển các chiến lược vượt ngoài mục tiêu ban đầu của thử nghiệm chỉ là quyết định quảng cáo nào sẽ đưa vào chiến dịch tiếp theo. Vì vậy, khi các nền tảng không nêu rõ rằng các thử nghiệm này không thực sự ngẫu nhiên, điều đó khiến các nhà Marketing có cảm giác an toàn sai lầm về các quyết định dựa trên dữ liệu của họ.
Một vấn đề cơ bản với quảng cáo trực tuyến
Chúng tôi cho rằng vấn đề này không chỉ là một lỗi kỹ thuật trong công cụ này mà còn là một đặc điểm cơ bản về cách thức hoạt động của doanh nghiệp quảng cáo trực tuyến. Mục tiêu chính của nền tảng này là tối đa hóa hiệu suất quảng cáo, không phải là cung cấp kết quả thử nghiệm cho các nhà Marketing. Do đó, các nền tảng này có ít động lực để cho phép các nhà quảng cáo gỡ rối tác động của nội dung quảng cáo khỏi tác động của các thuật toán nhắm mục tiêu độc quyền của họ. Các nhà Marketing bị rơi vào tình thế khó khăn khi họ phải chấp nhận kết quả gây nhầm lẫn từ các thử nghiệm này hoặc đầu tư vào các phương pháp phức tạp và tốn kém hơn để thực sự hiểu được tác động của các yếu tố sáng tạo trong quảng cáo của họ.
Nghiên cứu của chúng tôi đưa ra lập luận của mình bằng cách sử dụng mô phỏng, phân tích thống kê và chứng minh sự phân phối khác biệt từ một lần chạy thử nghiệm A/B thực tế trong lĩnh vực này. Chúng tôi thách thức niềm tin phổ biến rằng kết quả từ các thử nghiệm A/B so sánh nhiều quảng cáo cung cấp cùng khả năng đưa ra kết luận nhân quả như các thử nghiệm ngẫu nhiên. Các nhà Marketing nên biết rằng sự khác biệt về hiệu ứng của quảng cáo A và B được các nền tảng này báo cáo có thể không nắm bắt được đầy đủ tác động thực sự của quảng cáo của họ. Bằng cách nhận ra những hạn chế này, các nhà Marketing có thể đưa ra quyết định sáng suốt hơn và tránh được những cạm bẫy của việc hiểu sai dữ liệu từ các thử nghiệm này.
Lời khuyên cho các nhà quảng cáo
Chúng tôi đưa ra những khuyến nghị sau đây cho những người sử dụng công cụ thử nghiệm A/B:

- Nếu mục tiêu của bạn là dự đoán quảng cáo sáng tạo nào sẽ hoạt động tốt nhất trong một môi trường mục tiêu —trong cùng điều kiện trên cùng một nền tảng quảng cáo với cùng một thiết lập chiến dịch—lời khuyên của chúng tôi là hãy tiếp tục sử dụng các công cụ thử nghiệm A/B có sẵn. Những người thử nghiệm với mục tiêu này có thể không bận tâm—và thậm chí có thể thích—rằng các thử nghiệm A/B của họ thiếu sự cân bằng giữa các phương pháp xử lý quảng cáo sáng tạo và thiếu tính đại diện cho các đối tượng.
- Nếu mục tiêu là tìm hiểu cách các quảng cáo sáng tạo khác nhau tạo ra các phản hồi khác nhau nói chung, báo cáo thử nghiệm phải bao gồm tuyên bố từ chối trách nhiệm rằng các so sánh A/B được thực hiện trên một nhóm đối tượng, trên nhiều nhóm người dùng khác nhau được tối ưu hóa cho từng quảng cáo riêng biệt, trong đó các đối tượng được chọn bằng thuật toán độc quyền.
- Nếu mục tiêu Marketing là suy rộng các so sánh giữa nội dung quảng cáo để sử dụng bên ngoài nền tảng hiện tại (ví dụ: phát triển chiến lược Marketing hoặc quảng cáo ngoại tuyến, nơi thử nghiệm ngẫu nhiên và theo dõi người dùng khó khăn hơn), lời khuyên của chúng tôi là không nên dựa vào các thử nghiệm A/B này để tìm bằng chứng nhân quả về tác động của nội dung sáng tạo trên các quảng cáo. Ví dụ, nhóm phân tích nên cảnh báo rằng kết quả bị ảnh hưởng bởi cách thuật toán xác định cách xử lý quảng cáo nào có liên quan nhất đến các đối tượng thử nghiệm khác nhau. Những tiết lộ này cũng nên được thực hiện bởi các nhà nghiên cứu học thuật sử dụng kết quả thử nghiệm A/B để suy luận khoa học.
Tóm lại, thử nghiệm A/B có vẻ là một cách dễ dàng để chạy thử nghiệm thực địa nhằm tìm hiểu về tác động của quảng cáo, hình ảnh và thông điệp. Nhưng những người thử nghiệm chạy thử nghiệm A/B trong môi trường quảng cáo trực tuyến mục tiêu nên biết họ thực sự nhận được gì. Mối quan tâm của chúng tôi không chỉ là việc sử dụng một số loại thử nghiệm A/B nhất định. Thay vào đó, đó là việc trình bày kết quả như thể chúng đến từ các thử nghiệm cân bằng và các kết luận tiếp theo cũng như các quyết định quản lý dựa trên những kết quả đó.
Nguồn: Michael Braun và Eric M. Schwartz, “ Kiểm thử A/B sai ở đâu: Phân phối khác biệt ảnh hưởng như thế nào đến những gì Thử nghiệm trực tuyến không thể (và có thể) cho bạn biết về cách khách hàng phản ứng với quảng cáo ”, Tạp chí Tiếp thị .
Tóm tắt nghiên cứu
Các nhà Marketing sử dụng nền tảng quảng cáo trực tuyến để so sánh phản hồi của người dùng với nội dung quảng cáo khác nhau. Nhưng các công cụ thử nghiệm của nền tảng phân phối các quảng cáo khác nhau cho các hỗn hợp người dùng riêng biệt và được tối ưu hóa không thể phát hiện, thay đổi giữa các quảng cáo, ngay cả trong quá trình thử nghiệm. Vì việc tiếp xúc với quảng cáo trong thử nghiệm không phải là ngẫu nhiên, nên các phép so sánh ước tính làm lẫn lộn hiệu ứng của nội dung quảng cáo với hiệu ứng của nhắm mục tiêu theo thuật toán. Điều này có nghĩa là những người thử nghiệm có thể không học được những gì họ nghĩ rằng họ đang học từ các thử nghiệm A/B quảng cáo. Các tác giả ghi lại các mô hình “phân phối khác biệt” này trong một thử nghiệm trực tuyến lần đầu tiên. Họ giải thích cách nhắm mục tiêu theo thuật toán, tính không đồng nhất của người dùng và tổng hợp dữ liệu hợp lại để làm lẫn lộn quy mô và thậm chí là dấu hiệu của kết quả thử nghiệm A/B quảng cáo. Về mặt phân tích, các tác giả mở rộng mô hình kết quả tiềm năng của suy luận nhân quả để coi việc chỉ định ngẫu nhiên quảng cáo và việc người dùng tiếp xúc với quảng cáo là các yếu tố thiết kế thử nghiệm riêng biệt. Về mặt quản lý, các tác giả giải thích lý do tại sao các nền tảng thiếu động lực để cho phép những người thử nghiệm gỡ rối các hiệu ứng của nội dung quảng cáo khỏi việc lựa chọn người dùng theo thuật toán độc quyền khi chạy thử nghiệm A/B. Do những người thử nghiệm có nhiều lý do khác nhau để so sánh phản ứng của người dùng với quảng cáo nên các tác giả đưa ra hướng dẫn mang tính quy định phù hợp cho những người thử nghiệm dựa trên các mục tiêu cụ thể của họ.


